Meta lancia Movie Gen, generatore AI di video fotorealistici, con audio

Meta lancia Movie Gen, generatore AI di video fotorealistici, con audio
Movie Gen di Meta sfrutta l'IA generativa per la creazione e l'editing di contenuti video e audio di alta qualità.

Meta ha annunciato il lancio di Movie Gen, una suite di modelli di intelligenza artificiale generativa rivolta a filmmaker professionisti e a content creator amatoriali per la creazione e l’editing di contenuti video e audio.

Movie Gen si distingue per quattro capacità principali:

  • Generazione video: Utilizza un modello da 30 miliardi di parametri per creare video di alta qualità basati su prompt testuali fino a 16 secondi e 16 frame al secondo (fps)
  • Video personalizzati: Combina un’immagine di riferimento di una persona con un prompt testuale per generare video che mantengono l’identità e il movimento del soggetto
  • Editing video di precisione: Consente modifiche ai video esistenti come l’aggiunta, la rimozione o la sostituzione di elementi, preservando al tempo stesso il contenuto originale non interessato dalle modifiche
  • Generazione audio: Impiega un modello da 13 miliardi di parametri per creare audio di alta qualità fino a un massimo di 45 secondi sincronizzato con il contenuto video, inclusi effetti sonori e musica di sottofondo

Meta sottolinea che Movie Gen supera le prestazioni di modelli simili presenti sul mercato in tutte queste aree, come dimostrato da valutazioni umane comparative. L’azienda posiziona Movie Gen come parte di una strategia di lungo termine nel campo dell’IA generativa, seguendo i precedenti rilasci delle serie Make-A-Scene e Llama Image.

Pur riconoscendo il potenziale trasformativo di questa tecnologia, Meta chiarisce nell’annuncio di Movie Gen che l’IA generativa non intende sostituire il lavoro di artisti e animatori. Piuttosto, l’obiettivo è democratizzare gli strumenti creativi, permettendo a un pubblico più ampio di esprimere le proprie visioni artistiche attraverso video e audio di alta definizione.

meta movie gen

Meta evidenzia anche alcune limitazioni attuali dei modelli, in particolare riguardo ai tempi di inferenza e alla qualità complessiva, indicando che ci sono margini di miglioramento attraverso ulteriori ottimizzazioni e scaling.

Guardando al futuro, l’azienda prevede di collaborare strettamente con filmmaker e creatori per integrare il loro feedback nello sviluppo di questi strumenti. Meta prospetta scenari d’uso come l’animazione e l’editing di video per i social media o la creazione di auguri personalizzati, sottolineando le infinite possibilità offerte da questa tecnologia.

Aziende:
Meta
Condividi:
 

Nvidia entra nella scena degli LLM con NVLM 1.0, un modello open source multimodale da 70mld di parametri

cpu nvidia
La caratteristica principale di NVLM 1.0 di Nvidia è il miglioramento delle prestazioni su compiti puramente testuali rispetto al modello LLM di base dopo l'addestramento multimodale.

Nvidia ha annunciato il lancio di NVLM 1.0, una nuova famiglia di LLM open source multimodali che raggiunge risultati all’avanguardia in compiti di visione e linguaggio. Questi modelli si posizionano al livello dei principali modelli proprietari come GPT-4o e dei modelli open-source come Llama 3-V 405B e InternVL 2.

La caratteristica principale di NVLM 1.0 è il miglioramento delle prestazioni su compiti puramente testuali rispetto al modello LLM di base dopo l’addestramento multimodale. Nel confronto con altri modelli multimodali LLM sia proprietari, sia open-source, NVLM 1.0 dimostra prestazioni paragonabili in compiti di visione-linguaggio e in quelli puramente testuali.

Nvidia NVLM 1.0

Mentre le prestazioni testuali di InternVL2-Llama3-76B subiscono un calo significativo dopo l’addestramento multimodale, il modello principale NVLM-1.0-D 72B basato su 72 miliardi di parametri mostra miglioramenti significativi rispetto al suo modello di base testuale. In particolare, si osserva un aumento medio di 4,3 punti percentuali nell’accuratezza su benchmark di matematica e coding dopo l’addestramento multimodale.

Lo studio qualitativo rivela che NVLM-1.0-D 72B dimostra una buona capacità di seguire istruzioni, controllando adeguatamente la lunghezza delle generazioni in base alle richieste e producendo descrizioni dettagliate e di alta qualità delle immagini fornite.

Il modello mostra anche una spiccata versatilità in vari compiti multimodali, combinando capacità di OCR, ragionamento, localizzazione, senso comune, conoscenza del mondo e abilità di coding. Ad esempio, è in grado di comprendere l’umorismo dietro meme complessi ed effettuare localizzazioni accurate per rispondere a domande sensibili alla posizione degli oggetti, oltre a svolgere ragionamenti matematici e coding basati su informazioni visive come tabelle e pseudocodice scritto a mano.

jensen_v3

NVLM-1.0-D 72B dimostra inoltre la capacità di risolvere problemi matematici fornendo ragionamenti passo-passo, con equazioni LaTeX renderizzate per una migliore leggibilità.

Questo lancio rappresenta un significativo passo avanti nel campo dei modelli linguistici multimodali, offrendo prestazioni competitive e versatilità in una vasta gamma di compiti, il tutto in un formato open source che promette di stimolare ulteriori progressi e innovazioni nella comunità dell’intelligenza artificiale.

Aziende:
Nvidia
Condividi: