Gli LLM hanno raggiunto un limite alla loro crescita?
Negli ultimi anni, i big dell’IA hanno utilizzato le cosiddette “AI scaling laws” per migliorare le capacità dei loro LLM. Questo approccio, basato sull’aumento di potenza computazionale e dati durante la fase di pre-addestramento, ha portato a progressi significativi come la creazione di ChatGPT. Tuttavia, di recente si è notato un rallentamento nei miglioramenti e ciò suggerisce che questi metodi stanno raggiungendo i loro limiti.
Un tema emerso soprattutto dopo che secondo alcuni recenti report il prossimo LLM di OpenAI, Orion, non sta mostrando miglioramenti significativi rispetto a GPT-4 durante la fase di pre-addestramento. Sebbene Orion abbia raggiunto prestazioni simili a GPT-4 dopo solo il 20% del suo addestramento, l’aumento di qualità risulta inferiore rispetto al salto da GPT-3 a GPT-4. Tuttavia, le difficoltà di OpenAI non sono un caso isolato, visto che anche Google, Anthropic e altri giganti dell’IA stanno incontrando sfide simili nel superare le prestazioni di GPT-4.
Anche secondo esperti del settore, come Ilya Sutskever di OpenAI e Marc Andreessen di a16z, l’approccio tradizionale non garantisce più miglioramenti significativi. Questo cambiamento richiede nuove idee per superare tali limiti e una delle soluzioni emergenti è il test-time compute, una tecnica che consente ai modelli di “pensare” più a lungo durante l’inferenza (ossia dopo aver ricevuto un prompt). A differenza del pre-addestramento, questa metodologia utilizza risorse computazionali al momento della risposta, frammentando i problemi complessi in sotto-problemi più gestibili.
OpenAI ha recentemente presentato il modello o1, che sfrutta proprio il test-time compute. Questa tecnica, ispirata dal pensiero umano e da metodi di risoluzione dei problemi graduali, è stata già sperimentata in passato con successo, ad esempio nel poker. Secondo Satya Nadella di Microsoft, questa rappresenta una “nuova legge di scala” e anche altri esperti, come il guru del deep learning Yoshua Bengio, concordano sul fatto che potrebbe portare a guadagni significativi nelle capacità di ragionamento dei modelli di IA.
Il rallentamento delle leggi di scala tradizionali non significa però la fine dei progressi. Modelli più grandi e cluster di GPU continuano a essere sviluppati, come dimostrato dal supercomputer Colossus di Elon Musk, ma i miglioramenti derivanti da questi approcci sono ormai marginali. La nuova frontiera sembra essere un mix di test-time compute e innovazioni nel design delle applicazioni. Ad esempio, funzionalità come la modalità vocale avanzata di ChatGPT dimostrano che molto può essere migliorato a livello di esperienza utente, senza richiedere modelli significativamente più intelligenti.
Questo cambiamento implica anche nuove opportunità per il mercato dei chip IA. Se il test-time compute diventerà centrale, crescerà la domanda per chip specializzati nell’inferenza ad alta velocità, favorendo aziende come Groq e Cerebras.
Nonostante queste sfide da superare, i progressi continuano. Recentemente, OpenAI, Anthropic e Google hanno rilasciato i loro modelli più avanzati, dimostrando che c’è ancora spazio per miglioramenti. Tuttavia, è chiaro che la “rivoluzione dell’IA” segue un modello a S: una crescita rapida iniziale, seguita da un rallentamento man mano che le sfide diventano più complesse.