Meta ha presentato Llama 3, l’ultima versione del suo LLM per l’IA generativa. Disponibile in varianti che vanno da 8 miliardi a oltre 400 miliardi di parametri, Llama 3 mira a competere con i modelli più grandi di Google, OpenAI, Mistral e Anthropic. Per ora, sono state rilasciate solo le varianti di 8 e 70 miliardi di parametri per il testo, ma Meta sta ancora addestrando i modelli più grandi che saranno multilingue e multimodali.

Nonostante le dimensioni relativamente contenute, Meta afferma che Llama 3 può eguagliare o superare modelli molto più grandi, come Gemini Pro e Claude 3 di Anthropic. Questo grazie all’uso di un tokenizer con un vocabolario di 128.000 token che codifica il linguaggio in modo più efficiente, di dataset di addestramento di alta qualità e di passaggi di fine-tuning aggiuntivi dopo l’addestramento.

meta llama 3

Llama 3 è stato pre-addestrato su oltre 15 trilioni di token raccolti da fonti pubbliche, un dataset sette volte più grande di quello di Llama 2 e con quattro volte più codice. Meta ha inoltre sviluppato pipeline di filtraggio dei dati per garantire che Llama 3 fosse addestrato su informazioni di alta qualità, utilizzando filtri euristici, classificatori di qualità del testo e persino il modello Llama 2 precedente.

Il 5% dei dati di addestramento proveniva da oltre 30 lingue diverse e ciò ha gettato le basi per future capacità multilingue, anche se per il momento le prestazioni dovrebbero essere migliori in inglese. Meta ha anche implementato un stack di addestramento che automatizza la gestione degli errori e ha sottoposto i modelli a test e fine-tuning post-addestramento. Sono stati inoltre introdotti nuovi strumenti di sicurezza come Llama Guard 2, Cybersec Eval 2 e Code Shield per prevenire abusi e attacchi.

screenshot-llama.meta.com-2024.04.19-10_02_30

Nei prossimi mesi, Meta rilascerà modelli aggiuntivi, incluso uno con oltre 400 miliardi di parametri, funzionalità aggiuntive, lingue e finestre di contesto più ampie. Llama 3-8B e 70B sono attualmente disponibili per il download dal sito di Meta e per la distribuzione su piattaforme di cloud come AWS, Azure e Google Cloud.