La startup IA francese Mistral AI ha presentato Small 3, un nuovo LLM che promette di eguagliare le prestazioni di modelli tre volte più grandi, riducendo drasticamente i costi computazionali.

Mistral Small 3 possiede 24 miliardi di parametri e raggiunge un’accuratezza dell’81% nei benchmark standard, elaborando 150 token al secondo. Sarà rilasciato con licenza Apache 2.0, permettendo alle aziende di modificarlo e utilizzarlo liberamente. Secondo Guillaume Lample, Chief Science Officer di Mistral AI, il modello è il migliore tra quelli con meno di 70 miliardi di parametri e si posiziona al livello del Llama 3.3 70B di Meta, pur essendo significativamente più piccolo.

Mistral Small 3 si distingue anche per l’efficienza operativa, riuscendo a elaborare testi con una latenza inferiore del 30% rispetto a GPT-4o Mini e mantenendo un’accuratezza comparabile o superiore. Questo risultato è stato ottenuto grazie a tecniche di ottimizzazione dell’addestramento piuttosto che aumentando la potenza computazionale. Il modello è stato addestrato su 8 trilioni di token, un numero inferiore rispetto ai 15 trilioni tipici di altri modelli di dimensioni simili.

up-and-to-the-left

Un elemento distintivo del modello è l’assenza di reinforcement learning e di dati sintetici nell’addestramento, strategie comunemente adottate dai concorrenti. Lample sottolinea che questo approccio “grezzo” evita di introdurre bias difficili da rilevare successivamente.

L’obiettivo principale di Mistral Small 3 è il settore enterprise, in particolare aziende che necessitano di soluzioni on-premises per motivi di privacy e affidabilità, come servizi finanziari, sanità e industria manifatturiera. Il modello può essere infatti eseguito su una singola GPU e coprendo l’80-90% delle esigenze aziendali più comuni.

Lample prevede che il settore assisterà a un aumento dei modelli open-source con licenze permissive, portando a una crescente commoditizzazione dell’IA. Con l’intensificarsi della competizione e il miglioramento delle tecniche di ottimizzazione, l’approccio di Mistral potrebbe favorire un’adozione più ampia dell’IA avanzata, riducendo i costi infrastrutturali.

L’azienda francese prevede di rilasciare nuovi modelli con capacità di ragionamento avanzate nelle prossime settimane, mettendo alla prova la sua strategia basata sull’efficienza rispetto ai colossi americani (e da poco anche cinesi) dell’IA.