In arrivo nuovi LLM sempre più grandi: ma è davvero questa la strada giusta per l’IA generativa?
Secondo quanto riportato dal Wall Street Journal, Meta sta lavorando a un nuovo sistema di intelligenza artificiale che dovrebbe essere potente quanto il modello più avanzato offerto da OpenAI e che potrebbe essere pronto già l’anno prossimo. Un sistema che, sempre secondo quanto riportato dalla testata americana, sarà diverse volte più potente dell’attuale Llama 2. Llama 2 è il modello di linguaggio IA open source di Meta lanciato a luglio e distribuito dai servizi cloud di Azure per competere con ChatGPT di OpenAI e Bard di Google. Questo nuovo sistema aiuterebbe altre aziende a creare servizi in grado di produrre testi sofisticati, analisi e altri output. Meta, che al momento non ha smentito o confermato l’articolo del Wall Street Journal, prevede di iniziare l’addestramento del nuovo sistema all’inizio del 2024.
Ma, come è logico aspettarsi, non c’è solo Meta impegnata in questa corsa a creare il large language model (LLM) “definitivo”. È sempre notizia di queste ore che il Technology Innovation Institute (TII) negli Emirati Arabi Uniti ha lanciato Falcon 180B, una nuova e avanzata versione del proprio LLM open source per ricercatori e scopi commerciali. Il precedente Falcon 40B, che ha rapidamente scalato la Hugging Face Leaderboard per gli LLM a maggio 2023, ha segnato uno dei primi casi di modelli open source disponibili sia per i ricercatori, sia per gli utenti commerciali, ed è stato considerato un importante passo avanti nel settore.
Con oltre 180 miliardi di parametri e un addestramento svolto su su 3,5 trilioni di token, Falcon 180B si posiziona in cima alla Hugging Face Leaderboard per gli LLM pretrained e ha raggiunto migliori performance rispetto a competitor come LLaMA 2 in vari benchmark, tra cui reasoning, coding, proficiency e knowledge test. Falcon 180B si posiziona subito dietro l’ultima versione di GPT 4 di OpenAI ed è allo stesso livello di performance con PaLM 2 Large di Google, il modello dietro Bard (nonostante sia la metà in dimensione rispetto a tale modello). Con oltre 12 milioni di sviluppatori che hanno adottato e stanno usando la prima versione di Falcon, questo cospicuo aggiornamento potrebbe diventare il modello premium per molti settori diversi, dai chatbot alla generazione del codice e molto altro. Falcon 180B è compatibile con tutte le principali lingue: inglese, tedesco, spagnolo, francese e, con capacità limitate, in italiano, portoghese, polacco, olandese, rumeno, ceco e svedese.
Ma davvero basta che un LLM sia più grande e abbia numeri più elevati per essere anche il migliore? E si possono davvero valutare quantitativamente le prestazioni di un LLM? Domande alle quali hanno cercato di rispondere alcuni ricercatori di Stanford e Berkeley. La loro ricerca alimenta una credenza comune ma non provata secondo cui negli ultimi mesi GPT-4 sia peggiorato nella codifica e nelle attività compositive. Alcuni esperti non sono convinti dai risultati dello studio, ma ritengono che la mancanza di certezza indichi un problema più ampio nel modo in cui OpenAI gestisce le sue versioni dei suoi LLM.
I ricercatori hanno testato le versioni di marzo e giugno 2023 di GPT-3.5 e GPT-4 in compiti come la risoluzione di problemi matematici, la risposta a domande sensibili, la generazione di codice e il ragionamento visivo. In particolare, si è notato che la capacità di GPT-4 di identificare numeri primi è drasticamente diminuita da un’accuratezza del 97,6% a marzo al solo 2,4% a giugno. Stranamente, invece, GPT-3.5 ha mostrato un miglioramento delle prestazioni nello stesso periodo.
Le teorie su questo presunto peggioramento di GPT-4 includono la “distillazione” dei modelli da parte di OpenAI per ridurre il carico computazionale al fine di accelerare l’output e risparmiare risorse GPU, il perfezionamento (addestramento aggiuntivo) per ridurre i risultati dannosi che possono avere effetti non voluti. Dal canto suo, OpenAI ha costantemente smentito qualsiasi affermazione secondo cui GPT-4 abbia perso in capacità nel corso dei mesi, sostenendo anzi il contrario.
Nonostante questo nuovo studio sembri una prova a sostegno dei critici di GPT-4, altri ritengono che la situazione non sia così scontata. Il professore di informatica di Princeton, Arvind Narayanan, pensa ad esempio che i risultati non dimostrino in modo conclusivo un declino nelle prestazioni di GPT-4 e che siano potenzialmente coerenti con gli aggiustamenti di perfezionamento apportati da OpenAI.
Anche il ricercatore di intelligenza artificiale Simon Willison mette in discussione le conclusioni dell’articolo, ma sottolinea al tempo stesso la difficoltà di misurare accuratamente e oggettivamente questi modelli IA estremamente complessi. Questo anche a causa dell’approccio chiuso all’IA di OpenAI, che per GPT-4 non ha rivelato la fonte dei materiali di addestramento, il codice sorgente, i pesi della rete neurale e nemmeno un documento che ne descriva l’architettura.
Con un modello “a scatola chiusa” come GPT-4, i ricercatori si trovano insomma a brancolare nel buio nel tentativo di definire le proprietà di un sistema che potrebbe avere ulteriori componenti sconosciuti. Secondo la ricercatrice di intelligenza artificiale Sasha Luccioni di Hugging Face, l’opacità di OpenAI è problematica. “Qualsiasi risultato ottenuto con modelli closed-source non è riproducibile né verificabile e quindi, da un punto di vista scientifico, stiamo confrontando procioni con scoiattoli”, ha dichiarato Luccioni ad Ars Technica.
“Non è compito degli scienziati monitorare continuamente gli LLM distribuiti. Spetta ai creatori di modelli dare accesso ai modelli sottostanti, almeno a scopo di verifica. Gli sviluppatori di modelli di intelligenza artificiale dovrebbero includere i risultati di benchmark comuni come SuperGLUE e WikiText, ma anche di benchmark parziali come BOLD e HONEST. Dovrebbero inoltre fornire i risultati grezzi, non solo le metriche di alto livello, in modo da poter vedere dove vanno bene e dove falliscono”.