Nvidia ha annunciato il lancio di NVLM 1.0, una nuova famiglia di LLM open source multimodali che raggiunge risultati all’avanguardia in compiti di visione e linguaggio. Questi modelli si posizionano al livello dei principali modelli proprietari come GPT-4o e dei modelli open-source come Llama 3-V 405B e InternVL 2.

La caratteristica principale di NVLM 1.0 è il miglioramento delle prestazioni su compiti puramente testuali rispetto al modello LLM di base dopo l’addestramento multimodale. Nel confronto con altri modelli multimodali LLM sia proprietari, sia open-source, NVLM 1.0 dimostra prestazioni paragonabili in compiti di visione-linguaggio e in quelli puramente testuali.

Nvidia NVLM 1.0

Mentre le prestazioni testuali di InternVL2-Llama3-76B subiscono un calo significativo dopo l’addestramento multimodale, il modello principale NVLM-1.0-D 72B basato su 72 miliardi di parametri mostra miglioramenti significativi rispetto al suo modello di base testuale. In particolare, si osserva un aumento medio di 4,3 punti percentuali nell’accuratezza su benchmark di matematica e coding dopo l’addestramento multimodale.

Lo studio qualitativo rivela che NVLM-1.0-D 72B dimostra una buona capacità di seguire istruzioni, controllando adeguatamente la lunghezza delle generazioni in base alle richieste e producendo descrizioni dettagliate e di alta qualità delle immagini fornite.

Il modello mostra anche una spiccata versatilità in vari compiti multimodali, combinando capacità di OCR, ragionamento, localizzazione, senso comune, conoscenza del mondo e abilità di coding. Ad esempio, è in grado di comprendere l’umorismo dietro meme complessi ed effettuare localizzazioni accurate per rispondere a domande sensibili alla posizione degli oggetti, oltre a svolgere ragionamenti matematici e coding basati su informazioni visive come tabelle e pseudocodice scritto a mano.

jensen_v3

NVLM-1.0-D 72B dimostra inoltre la capacità di risolvere problemi matematici fornendo ragionamenti passo-passo, con equazioni LaTeX renderizzate per una migliore leggibilità.

Questo lancio rappresenta un significativo passo avanti nel campo dei modelli linguistici multimodali, offrendo prestazioni competitive e versatilità in una vasta gamma di compiti, il tutto in un formato open source che promette di stimolare ulteriori progressi e innovazioni nella comunità dell’intelligenza artificiale.