I-JEPA: il modello di Meta per un’IA più “umana”
I ricercatori IA di Meta stanno facendo progressi nella visione del Chief AI Scientist Yann LeCun per sviluppare una nuova architettura che aiuterebbe i modelli di IA ad apprendere più velocemente, a pianificare come svolgere compiti complessi e ad adattarsi prontamente a situazioni sconosciute. Il team IA di Meta ha dichiarato nei giorni scorsi di aver presentato il primo modello IA basato su una componente di questa visione.
Chiamato Image Joint Embedding Predictive Architecture, o I-JEPA, questo modello è in grado di imparare creando un modello interno del mondo esterno che confronta le rappresentazioni astratte delle immagini invece di confrontare i pixel stessi. Ciò significa che apprende in modo molto più simile a come gli esseri umani imparano nuovi concetti. I-JEPA si basa sull’idea che gli esseri umani apprendono una grande quantità di informazioni di base sul mondo mentre lo osservano passivamente. In pratica questo modello cerca di copiare tale modo di apprendere catturando le conoscenze di base del mondo e codificandole in rappresentazioni digitali a cui poter accedere in seguito. La sfida di fondo è che un sistema simile deve apprendere queste rappresentazioni in modo auto-supervisionato, utilizzando dati non etichettati come immagini e suoni, anziché insiemi di dati etichettati.
Ad alto livello, I-JEPA è in grado di prevedere la rappresentazione di una parte di un input, come un’immagine o un testo, utilizzando la rappresentazione di altre parti dello stesso input. Si tratta di una differenza importante rispetto ai più recenti modelli di intelligenza artificiale generativa, che imparano rimuovendo o distorcendo parti dell’input, ad esempio cancellando parte di un’immagine o nascondendo alcune parole in un brano, per poi tentare di prevedere l’input mancante.
Secondo Meta, uno dei difetti del metodo utilizzato dai modelli di intelligenza artificiale generativa è che cercano di riempire ogni informazione mancante, anche se il mondo è intrinsecamente imprevedibile. Di conseguenza, i metodi generativi spesso commettono errori che una persona non farebbe mai, perché si concentrano troppo su dettagli irrilevanti. Ad esempio, i modelli di IA generativa spesso non riescono a generare una mano umana accurata, aggiungendo dita in più o commettendo altri errori piuttosto evidenti.
I-JEPA evita questi errori prevedendo le informazioni mancanti in modo più umano, utilizzando obiettivi di previsione astratti in cui vengono eliminati i dettagli inutili a livello di pixel. In questo modo, il predittore di I-JEPA è in grado di modellare l’incertezza spaziale in un’immagine statica sulla base del contesto parzialmente osservabile, aiutando a prevedere informazioni di livello superiore sulle regioni non viste di un’immagine, rispetto ai dettagli a livello di pixel.
Meta ha dichiarato che I-JEPA ha ottenuto ottime prestazioni in diversi benchmark di computer vision, dimostrando di essere molto più efficiente dal punto di vista computazionale rispetto ad altri tipi di modelli di computer vision. Le rappresentazioni che apprende possono essere utilizzate anche per altre applicazioni senza bisogno di una messa a punto approfondita.
Meta ha anche dichiarato che I-JEPA dimostra come ci sia un grande potenziale per le architetture in grado di apprendere rappresentazioni competitive senza la necessità di conoscenze aggiuntive codificate in trasformazioni artigianali dell’immagine. I ricercatori hanno dichiarato di aver reso open-sourcing il codice di addestramento di I-JEPA e i punti di controllo del modello; i prossimi passi saranno quelli di estendere l’approccio ad altri domini, come i dati accoppiati immagine-testo e i dati video.
“In futuro i modelli JEPA potrebbero avere applicazioni interessanti per compiti come la comprensione dei video”, ha dichiarato Meta. “Crediamo che questo sia un passo importante verso l’applicazione e la scalabilità dei metodi auto-supervisionati per l’apprendimento di un modello generale del mondo”.