Intel Latent Diffusion Model for 3D: l’IA generativa al servizio del 3D

Intel Labs, in collaborazione con Blockade Labs, ha presentato Latent Diffusion Model for 3D (LDM3D), un nuovo modello di diffusione che utilizza l’intelligenza artificiale generativa per creare contenuti visivi 3D realistici. LDM3D è il primo modello del settore a generare una mappa di profondità utilizzando il processo di diffusione per creare immagini 3D con viste a 360 gradi e ha il potenziale per rivoluzionare la creazione di contenuti, le applicazioni del metaverso e le esperienze digitali, trasformando un’ampia gamma di settori, dall’intrattenimento ai giochi, dall’architettura al design.

“La maggior parte degli attuali modelli di IA generativa si limita a generare immagini 2D e solo pochissimi sono in grado di generare immagini 3D a partire da richieste testuali. A differenza dei modelli di diffusione latente stabile esistenti, LDM3D consente agli utenti di generare un’immagine e una mappa di profondità a partire da una richiesta di testo utilizzando quasi lo stesso numero di parametri. Fornisce una profondità relativa più accurata per ogni pixel di un’immagine rispetto ai metodi standard di post-elaborazione per la stima della profondità e consente agli sviluppatori di risparmiare molto tempo nello sviluppo delle scene” ha dichiarato Vasudev Lal, ricercatore AI/ML di Intel Labs.

LDM3D è stato addestrato su un set di dati costruito a partire da un sottoinsieme di 10.000 campioni del database LAION-400M, che contiene oltre 400 milioni di coppie immagine-didascalia. Il team ha utilizzato il modello di stima Dense Prediction Transformer (DPT) a grande profondità (precedentemente sviluppato presso gli Intel Labs) per annotare il corpus di addestramento. Il modello DPT-large fornisce una profondità relativa molto accurata per ogni pixel di un’immagine. Il dataset LAION-400M è stato costruito a scopo di ricerca per consentire l’addestramento del modello di prova su scala più ampia per i ricercatori e altre comunità interessate.

Il modello LDM3D viene addestrato su un supercomputer Intel AI dotato di processori Xeon e acceleratori Intel Habana Gaudi AI. Il modello e la pipeline risultanti combinano l’immagine RGB generata e la mappa di profondità per generare viste a 360 gradi per esperienze immersive.

Per dimostrare il potenziale di LDM3D, i ricercatori di Intel e Blockade hanno sviluppato DepthFusion, un’applicazione che sfrutta foto RGB 2D standard e mappe di profondità per creare esperienze immersive e interattive a 360 gradi. DepthFusion utilizza TouchDesigner, un linguaggio di programmazione visiva basato su nodi per contenuti multimediali interattivi in tempo reale, per trasformare le richieste di testo in esperienze digitali interattive e coinvolgenti. Il modello LDM3D è un unico modello per creare sia un’immagine RGB, sia la relativa mappa di profondità, consentendo di risparmiare sull’ingombro della memoria e di migliorare la latenza.

L’introduzione di LDM3D e DepthFusion apre la strada a ulteriori progressi nell’IA generativa multi-vista e nella computer vision. Proseguendo il forte sostegno di Intel all’ecosistema aperto dell’IA, LDM3D è in fase di open source attraverso HuggingFace. Ciò consentirà a ricercatori e professionisti dell’IA di migliorare ulteriormente questo sistema e di metterlo a punto per applicazioni ancor più personalizzate.

Intel Latent Diffusion Model for 3D: l’IA generativa al servizio del 3D

Francesco Destri