Dal lancio di ChatGPT nel 2022, l’era dell’IA generativa ha preso il sopravvento, rendendo i modelli linguistici di grandi dimensioni (LLM) centrali nella nostra quotidianità. Tuttavia, molti esperti del settore hanno recentemente suggerito che la crescita di questi modelli stia rallentando e, in risposta a ciò, Meta propone una soluzione innovativa: i Large Concept Model (LCM).

Gli LCM rappresentano un approccio rivoluzionario alla modellazione del linguaggio, spostandosi dal livello token, tipico degli LLM, a un livello concettuale più astratto. Invece di analizzare testo parola per parola, gli LCM operano con “concetti”, ossia rappresentazioni agnostiche rispetto alla lingua e al formato, che descrivono idee o azioni di livello superiore.

Nel contesto degli LCM, un concetto è definito come un’idea atomica e astratta, spesso corrispondente a una frase o a un’espressione completa. Questo permette al modello di ragionare in modo semantico e indipendente dal formato di input, che può essere testo, audio o immagini.

LLM vs LCM

I tradizionali modelli linguistici, come ChatGPT, prevedono le parole successive in base a quelle precedenti, costruendo il testo passo dopo passo. Gli LCM, invece, prevedono il prossimo concetto, ragionando su intere frasi o idee. Questo approccio consente una visione globale del discorso, migliorando coerenza e pianificazione narrativa.

lcm

Le caratteristiche chiave degli LCM possono essere riassunte in quattro aspetti:

  • Indipendenza linguistica: Gli LCM trattano frasi con significato equivalente in lingue diverse come lo stesso concetto
  • Multimodalità: Il modello comprende testo, audio e immagini, associando ad esempio una frase come “Il gatto ha fame” a una foto di un gatto affamato
  • Efficienza nei contesti estesi: Elaborando sequenze di concetti invece che di parole, gli LCM gestiscono meglio contesti lunghi rispetto agli LLM
  • Generalizzazione zero-shot: Grazie alla rappresentazione concettuale, possono lavorare su lingue o modalità non specificatamente addestrate

Gli LCM utilizzano SONAR, un sistema di embedding multilingue e multimodale, per rappresentare frasi come vettori semantici. SONAR supporta 200 lingue testuali e 76 linguistiche vocali e, durante il training, Meta ha esplorato tecniche come i modelli di diffusione per prevedere i prossimi concetti.

In ottica futura, se gli LLM restano ottimi per compiti come completamento testuale e traduzione, gli LCM sono destinati a brillare in attività più complesse come sintesi, generazione di storie e ragionamento multimodale. Meta punta proprio su questi modelli per offrire interazioni più naturali e intuitive, aprendo nuove possibilità nei settori educativi, creativi e dell’intrattenimento e facendo segnare una svolta significativa, in cui l’intelligenza artificiale si sposterà verso livelli di astrazione sempre più vicini al pensiero umano.

Artificial,Intelligence,Content,Generator.,A,Man,Uses,A,Laptop,To

Nonostante le promesse invitanti, alcune scelte progettuali comportano compromessi significativi, come si può vedere da questi limiti:

  • Il modello privilegia frasi brevi e informali, come quelle dei social media, limitando la sua capacità di gestire testi complessi o strutturati, come articoli accademici o documenti legali
  • Operando solo a livello di frase, l’LCM manca di precisione nei dettagli semantici e sintattici, penalizzando compiti come il riconoscimento di entità o l’analisi di testi tecnici
  • Gli LCM sono stati testati principalmente in attività di riassunto, trascurando applicazioni più complesse come classificazione di documenti, generazione di dialoghi o ragionamento logico
  • Modellando le frasi come concetti isolati, l’LCM fatica a mantenere coerenza nei testi estesi, come racconti o rapporti complessi

Ecco perché diversi esperti vedono all’orizzonte possibili miglioramenti, come integrare interazioni a livello di token per maggiore granularità, ampliare i compiti di valutazione includendo testi lunghi e dialoghi, adottare meccanismi di memoria per gestire contesti più ampi e consentire il fine-tuning degli embedding per domini specifici.