Deep Cogito presenta LMM "pensanti" potenti ma leggeri, che girano anche su GPU consumer con 8GB

La startup IA americana Deep Cogito è ufficialmente uscita dallo “stealth mode” presentando Cogito v1, una gamma di LLM open source derivati da LLaMA 3.2 di Meta e potenziati con capacità di ragionamento ibrido. Questi modelli sono in grado di rispondere rapidamente oppure riflettere sui propri pensieri in modo iterativo, similmente agli LLM della serie o di OpenAI e DeepSeek R1.

L’ambizione dichiarata di Deep Cogito è portare l’intelligenza artificiale oltre i limiti imposti dai supervisori umani, promuovendo una capacità di miglioramento autonomo del ragionamento attraverso tecniche innovative. L’obiettivo ultimo è lo sviluppo della superintelligenza, ovvero un’IA più intelligente degli esseri umani in ogni ambito e, nonostante questa visione ambiziosa, Deep Cogito si impegna a rendere tutti i propri modelli completamente open source.

Modelli che tra l’altro, per essere eseguiti in locale, richiedono un hardware “modesto”. Le specifiche minime riportano infatti un processore Intel Core i7 o AMD Ryzen 7, 16 GB di RAM per i modelli più piccoli e 64 GB per quelli più grandi, mentre la GPU dovrebbe essere una NVIDIA RTX 3060 o superiore con almeno 8 GB di VRAM per i modelli più piccoli e 24 GB per quelli più impegnativi.

Il CEO e cofondatore Drishan Arora, ex Senior Software Engineer di Google e responsabile della modellazione LLM per il prodotto di ricerca generativa dell’azienda, ha affermato che i modelli di Deep Cogito sono i più forti nella loro scala, superando le alternative open source di LLaMA, DeepSeek e Qwen.

Una gamma di LLM scalabili e open source

La prima famiglia di modelli Cogito v1 comprende cinque versioni base con dimensioni crescenti: 3 miliardi, 8 miliardi, 14 miliardi, 32 miliardi e 70 miliardi di parametri. Tutti sono già disponibili sulle principali piattaforme di condivisione e distribuzione IA come Hugging Face, Ollama, Fireworks AI e Together AI, sia come file scaricabili, sia tramite API.

I modelli sono rilasciati secondo le licenze di LLaMA, che permettono anche l’uso commerciale fino a un massimo di 700 milioni di utenti mensili prima che sia necessaria una licenza a pagamento di Meta.

Un approccio innovativo: iterated distillation and amplification (IDA)

L’elemento più distintivo di Deep Cogito è la sua metodologia di addestramento denominata IDA (iterated distillation and amplification), una nuova alternativa al classico reinforcement learning from human feedback (RLHF). L’approccio IDA prevede che il modello utilizzi più potenza computazionale per generare soluzioni migliorate, che vengono poi “distillate” e incorporate nei suoi parametri. Questo crea un ciclo di apprendimento continuo e autonomo, simile alla strategia di auto-gioco usata da AlphaGo ma applicata al linguaggio naturale.

Deep Cogito ha diffuso un ampio set di risultati di benchmark che dimostrano la superiorità dei suoi modelli rispetto agli equivalenti open source in vari ambiti: conoscenza generale, ragionamento matematico e supporto multilingue.

Ecco alcuni esempi:

Cogito 3B (Standard) supera LLaMA 3.2 3B di 6,7 punti su MMLU (65,4% vs. 58,7%) e di quasi 19 punti su HellaSwag. In modalità ragionamento, Cogito 3B arriva al 72,6% su MMLU e all’84,2% su ARC, dimostrando l’efficacia del metodo IDA
Cogito 8B (Standard) ottiene l’80,5% su MMLU, superando LLaMA 3.1 8B di 12,8 punti, e raggiunge l’88,7% su ARC. In modalità ragionamento, Cogito 8B tocca l’83,1% su MMLU e il 92% su ARC, superando DeepSeek R1 Distill 8B in quasi tutte le metriche tranne che nel benchmark matematico MATH
Le versioni Cogito 14B e 32B battono i modelli Qwen2.5 equivalenti, con punteggi aggregati superiori di 2–3 punti percentuali
Cogito 70B (Standard) raggiunge il 91,7% su MMLU, superando sia LLaMA 3.3 70B sia LLaMA 4 Scout 109B

Tool calling integrato: un punto di forza

Un altro aspetto su cui Deep Cogito si distingue è la gestione nativa del tool calling, ovvero la capacità dei modelli di interagire con strumenti esterni, fondamentale per applicazioni agentiche e API avanzate. Cogito 3B supporta nativamente quattro tipi di chiamata a strumenti (semplice, parallela, multipla e combinata), dove LLaMA 3.2 3B è invece privo di tale supporto, raggiungendo il 92,8% di successo nelle chiamate semplici e oltre il 91% in quelle multiple. Cogito 8B supera invece l’89% in tutte le tipologie, contro i 35-54% del LLaMA 3.1 8B.

Questo vantaggio è attribuito non solo all’architettura e ai dati di addestramento, ma anche a una fase di addestramento posteriore mirata a questi compiti specifici. Guardando al futuro, Deep Cogito prevede il rilascio di modelli ancora più sofisticati, tra cui versioni mixture-of-experts da 109, 400 e 671 miliardi di parametri, con aggiornamenti regolari ai checkpoint esistenti.

(Immagine di apertura: Shutterstock)

Deep Cogito presenta LMM “pensanti” potenti ma leggeri, che girano anche su GPU consumer con 8GB

Francesco Destri

Una gamma di LLM scalabili e open source

Un approccio innovativo: iterated distillation and amplification (IDA)

Tool calling integrato: un punto di forza