Con Gemini 2.0 Google rilancia su AI multimodale e Agenti

Google ha annunciato Gemini 2.0, una piattaforma di IA generativa che rappresenta un significativo passo avanti rispetto a Gemini 1.5, combinando velocità, potenza e funzionalità inedite che, secondo Google, consentono di creare applicazioni più immersive e interattive.

Fin dal lancio di Gemini 1.0 lo scorso anno, milioni di sviluppatori in tutto il mondo hanno utilizzato Google AI Studio e Vertex AI per sviluppare con Gemini, coprendo oltre 100 lingue. Con Gemini 2.0, Google introduce innanzitutto un motore due volte più veloce rispetto alla versione 1.5 Pro, mantenendo al contempo un livello di efficienza elevato.

Inoltre, le prestazioni sono state ottimizzate per gestire una gamma più ampia di attività come il riconoscimento spaziale e multimodale, che permette una comprensione più accurata di immagini complesse o affollate migliorando la generazione di didascalie e il rilevamento degli oggetti.

Gli sviluppatori possono già esplorare questa tecnologia grazie alla disponibilità in fase sperimentale tramite Google AI Studio e Vertex AI. La versione definitiva è prevista per l’inizio del prossimo anno, ma gli strumenti messi a disposizione consentono di iniziare fin da subito a sperimentare con le potenzialità di Gemini 2.0 Flash.

Un’altra innovazione significativa del nuovo modello è la capacità di generare risposte integrate che combinano testo, audio e immagini. Questa funzione apre la strada a scenari d’uso completamente nuovi, dove un’unica chiamata API può restituire contenuti multimodali.

Ad esempio, il modello è ora in grado di generare audio multilingue con controllo fine del tono e dell’accento, ideale per applicazioni che richiedono output vocali naturali e personalizzati. Inoltre, la generazione nativa di immagini supporta modifiche iterattive e conversazionali, consentendo agli utenti di affinare i risultati in tempo reale. Tutte le immagini e gli audio generati includono watermark invisibili SynthID, progettati per contrastare la disinformazione e garantire la trasparenza.

Gemini 2.0 non si limita a comprendere e rispondere, ma può anche utilizzare strumenti in modo nativo. Grazie all’integrazione con Google Search e con funzioni di esecuzione di codice, il modello è in grado di fornire risposte più complete e accurate, combinando informazioni provenienti da più fonti in modo dinamico. Questa capacità, fondamentale per esperienze basate su agenti, consente agli sviluppatori di creare applicazioni più intelligenti e autonome.

Un’altra innovazione chiave è la nuova API per applicazioni multimodali in tempo reale, che supporta input audio e video direttamente da dispositivi come telecamere o schermi. Questa funzionalità consente di costruire applicazioni in grado di gestire conversazioni naturali, con supporto per interruzioni e rilevamento automatico dell’attività vocale.

A completare questo ecosistema avanzato, Google ha presentato Jules, un agente IA alimentato da Gemini 2.0 e progettato per il lavoro degli sviluppatori. Jules è in grado di occuparsi di attività complesse come la risoluzione di bug, la modifica di più file e la creazione di pull request, il tutto integrandosi con i flussi di lavoro su piattaforme come GitHub.

Grazie alla sua capacità di generare piani dettagliati e di lavorare in modo asincrono, Jules promette di migliorare la produttività degli sviluppatori, permettendo loro di concentrarsi sulle attività più creative. Al momento, è disponibile per un gruppo selezionato di tester, con un rilascio più ampio previsto per il 2025.

Con Gemini 2.0 Google rilancia su AI multimodale e Agenti

Francesco Destri