I modelli multimodali Veo e Imagen 3 di Google arrivano in anteprima su Vertex AI

Indice dell'articolo
Google ha annunciato l’arrivo su Vertex AI dei modelli multimodali Veo e Imagen 3, il primo disponibile per il momento come sola anteprima privata. L’azienda diventa così il primo hyperscaler a offrire funzionalità image-to-video, oltre al text-to-video, e introduce nuove misure di sicurezza come filigrana digitale e salvaguardie contro usi impropri. Tra le novità, anche un’assicurazione contro eventuali controversie legate ai diritti d’autore.
Veo: generazione video a partire da testo o immagini
Sviluppato da Google DeepMind, Veo permette di creare video ad alta qualità basati su prompt di testo o immagini, trasformando asset esistenti in contenuti dinamici. È disponibile in anteprima privata su Vertex AI. La tecnologia supporta diverse modalità, tra cui:
- Text-to-Video: Consente di produrre clip video direttamente da descrizioni testuali.
- Image-to-Video: Veo può generare brevi video utilizzando immagini preesistenti, siano esse reali o create da modelli AI, come Imagen 3.

In questi esempi, oltre al prompt testuale, viene fornita anche un’immagine di partenza (nel riquadro piccolo)
Grazie a una comprensione avanzata del linguaggio naturale e della semantica visiva, Veo genera filmati realistici in cui persone, animali e oggetti si muovono in modo naturale. La tecnologia promette di velocizzare la produzione di video, ridurre i costi e consentire iterazioni rapide.
Imagen 3: immagini di alta qualità per marketing e design
Imagen 3 sarà disponibile per tutti i clienti di Vertex AI dalla prossima settimana. Questo modello genera immagini fotorealistiche a partire da un semplice prompt testuale, riducendo gli artefatti rispetto alle versioni precedenti. Le funzionalità principali includono:
- Editing: Permette di modificare immagini con prompt testuali, ad esempio aggiornando sfondi o aumentando la risoluzione.
- Customization: Consente di personalizzare immagini integrando loghi, stili o altri elementi visivi del brand.

Imagen 3 ha generato l’immagine di una modella che indossa un abito la cui foto è stata fornita insieme al prompt.
Le capacità di Imagen 3 offrono opportunità nel marketing, nella pubblicità e nel design di prodotto, semplificando il processo creativo e accelerando lo sviluppo di asset visivi personalizzati.
Sicurezza e protezione dei contenuti
In linea con i principi di AI responsabile di Google, i modelli Veo e Imagen 3 includono misure di sicurezza avanzate:
- Filigrana digitale: SynthID di Google DeepMind integra filigrane invisibili nei contenuti generati, per garantirne la tracciabilità.
- Filtri di sicurezza: Sistemi integrati impediscono la creazione di contenuti dannosi.
- Governance dei dati: I dati dei clienti non vengono utilizzati per addestrare i modelli e sono gestiti secondo le istruzioni del cliente.
- Indennità sui diritti d’autore: Una novità del settore che offre protezione contro eventuali dispute legate all’uso di contenuti generati.
Con queste innovazioni, Google punta a offrire strumenti di generazione visiva avanzati, combinando creatività e sicurezza per supportare aziende e creatori in un’ampia gamma di applicazioni.