Microsoft ha annunciato la nuova famiglia di modelli linguistici di piccole dimensioni Phi-3 e, in particolare, la versione Phi-3-mini disponibile attraverso Azure, HuggingFace e Ollama, che consente a chiunque di eseguire il modello localmente e di sfruttare i vantaggi dell’IA generativa.

Addestrato su dati sintetici di alta qualità, Phi-3 ha una finestra di contesto di 4096 token e offre prestazioni complessive che rivaleggiano con quelle di modelli come Mixtral 8x7B e GPT-3.5 (l’LLM alla base dell’attuale versione gratuita di ChatGPT).

Inoltre, ha uno dei migliori rapporti costo-prestazioni di qualsiasi altro modello sul mercato ed è in grado di superare modelli di dimensioni fino a 10 volte superiori, dimostrando che un numero maggiore di parametri non è sempre e necessariamente la scelta migliore e offrendo una nuova opzione per i clienti con esigenze diverse in termini di costi, latenza e infrastruttura.

Per realizzare Phi-3, il nuovo team GenAI di Microsoft ha sviluppato tecniche ispirate al modo in cui i bambini imparano utilizzando le storie della buonanotte e ha migliorato il set di dati approcciando la loro selezione come un insegnante che spiega concetti difficili a uno studente.

The-Phi-3-small-language-models

Oltre a tutte le altre fasi legate alla Responsible AI che vengono adottate prima di rilasciare un modello, l’addestramento che sfrutta i dati sintetici ha permesso a Microsoft di aggiungere un ulteriore livello di sicurezza e di ridurre i problemi più comuni legati all’uso di un linguaggio dannoso, come quello che spesso viene mostrato dai modelli addestrati su dati provenienti da Internet.

Phi-3-mini ha 3,8B (miliardi) parametri, ma è stato addestrato su ben 3.300 miliardi di token. Ciò significa che i compiti che normalmente verrebbero affidati a un modello più grande possono essere gestiti da una soluzione che offre un ingombro minore. Le dimensioni ridotte di Phi-3-mini consentiranno di eseguire il modello su un dispositivo in locale senza la necessità di una connessione a Internet o di un accesso al cloud, ampliando l’accesso all’intelligenza artificiale in luoghi privi delle infrastrutture necessarie per sfruttare gli LLM.

A tal proposito, in un recente studio della Cornell University, si legge che “grazie alle sue dimensioni ridotte, Phi-3-mini può essere quantizzato a 4 bit in modo da occupare solo circa 1,8 GB di memoria. Abbiamo testato il modello quantizzato su iPhone 14 con chip A16 Bionic, in esecuzione nativa sul dispositivo e completamente offline, ottenendo più di 12 token al secondo”.

Phi-3-small (7 miliardi di parametri) e Phi-3-medium (14 miliardi di parametri) saranno presto disponibili e offriranno proposte di valore simili con prestazioni scalari.