Google e Stable Diffusion trasformano immagini in video con la IA

Si chiama VLOGGER ed è un nuovo strumento di IA generativa di Google per animare una foto utilizzando nient’altro che la registrazione del discorso di una persona. VLOGGER non avrebbe infatti bisogno di alcun addestramento, di rilevamento dei volti o di altre regolazioni; basta fornirgli una foto e una registrazione audio della lunghezza desiderata e lo strumento si mette al lavoro.

“Il nostro obiettivo è colmare il divario tra i recenti sforzi di sintesi video, che possono generare video dinamici senza alcun controllo sull’identità o sulla posa, e i metodi di generazione di immagini controllabili”, affermano i ricercatori di Google. “Settori come la creazione di contenuti, l’intrattenimento o i giochi hanno tutti una forte richiesta di sintesi umana, ma la creazione di video realistici di esseri umani è ancora complessa e piena di artefatti”.

Alcuni video pubblicati sulla pagina GitHub del progetto e su X (qui sotto un esempio), per quanto impressionanti, non sono in grado di ingannare nessuno e c’è ancora qualcosa di incredibilmente irrealistico in essi. Nonostante ciò i ricercatori hanno dichiarato che VLOGGER è a un livello già molto più avanzato rispetto ai precedenti esperimenti di questo genere e potrebbe essere utilizzato “non solo per facilitare i processi creativi, ma anche per abilitare casi d’uso completamente nuovi, come il miglioramento della comunicazione online, l’istruzione o gli assistenti virtuali personalizzati”.

VLOGGER si basa su un processo in due fasi per generare video partendo da immagini. Nella prima fase un modello generativo stocastico predice il movimento del corpo e le espressioni facciali dall’audio in ingresso, che secondo i ricercatori “è necessario per modellare la mappatura sfumata tra il parlato e la posa, lo sguardo e l’espressione”. Nella seconda fase, viene invece utilizzato un modello per fornire un controllo nei domini temporale e spaziale.

Google presents VLOGGER

Multimodal Diffusion for Embodied Avatar Synthesis

We propose VLOGGER, a method for audio-driven human video generation from a single input image of a person, which builds on the success of recent generative diffusion models. Our method consists of pic.twitter.com/kxl83jPcLh
— AK (@_akhaliq) March 14, 2024

Il progetto ha richiesto anche la creazione di un nuovo set di dati curati che il team ha chiamato MENTOR e che comprende circa 800.000 identità. Fatto sta che su X diversi utenti hanno criticato la resa finale di questi video, definiti a più riprese rigidi e palesemente generati dall’intelligenza artificiale.

Viene quindi spontaneo chiedersi come mai Google se ne esca nel 2024 con un tool del genere e con risultati così “modesti” e se è vero che l’assenza di un qualsiasi training del modello non è una cosa da poco, è altrettanto vero che siamo ancora indietro per un utilizzo commerciale di questo tool, tanto che non è chiaro se Google abbia intenzione di rilasciare VLOGGER o se questo sia solo un progetto di ricerca. La cosa certa è che il lavoro da fare sembra essere ancora tanto.

Google non è però l’unica impegnata in questo ambito. Anche Stability AI infatti, con il nuovo Stable Video 3D (SV3D), ha annunciato per gli abbonati al piano a pagamento Professional Membership un modello di intelligenza artificiale generativa di tipo image-to-video, che permette di creare filmati in tre dimensioni partendo da una singola immagine fornita come input.

Al momento SV3D può generare video composti da 21 fotogrammi con una risoluzione pari a 576×576 pixel e, come dimostrato da un test effettuato da VentureBeat, il risultato ottenuto non è affatto male, seppur si tratti di un video di una manciata di secondi con animazioni ridotte al minimo. Secondo Stability AI questo nuovo tool di IA generativa è rivolto soprattutto ai creator in ambito gaming ed e-commerce interessati alla generazione di asset 3D mediante l’intelligenza artificiale.

Google e Stable Diffusion trasformano immagini in video con la IA

Francesco Destri