All’evento Google I/O 2024 dedicato agli sviluppatori sono state annunciate diverse novità anche per Vertex AI, la piattaforma di sviluppo unificata di Google Cloud per lo sfruttamento dei modelli di IA su larga scala.

Ecco le principali:

  • Gemini 1.5 Flash (in anteprima pubblica): Offre la stessa finestra di contesto di 1 milione di token di Gemini 1.5 Pro, ma è più leggero ed è progettato per servire in modo efficiente ed economico per task come applicazioni di chat, analisi di video e immagini dettagliate ed estrazione di contenuti da documenti lunghi
  • PaliGemma (disponibile su Vertex AI Model Garden): È il primo modello vision-language della famiglia di modelli open source Gemma, adatto per compiti come descrizione di immagini e risposte a domande visive
  • Imagen 3 (disponibile prossimamente): Sarà il modello di generazione di immagini da testo di più alta qualità di Google, in grado di generare immagini fotorealistiche e simili alla vita reale
  • Gemma 2 (disponibile prossimamente): Sarà la prossima generazione della famiglia di modelli open source Gemma, costruita con la stessa tecnologia di Gemini per un’ampia gamma di casi d’uso di sviluppo IA
  • Gemini 1.5 Pro con finestra di contesto espansa a 2 milioni di token (in arrivo, registrazione obbligatoria)

google I/O sviluppatori

Vertex AI introdurrà anche nuove funzionalità per ottimizzare le prestazioni dei modelli, come il caching del contesto, la generazione controllata e un’API batch. Inoltre, Firebase Genkit e LlamaIndex saranno disponibili su Vertex AI per agevolare lo sviluppo di agenti IA.

  • Il caching del contesto (in anteprima pubblica dal prossimo mese) consentirà di gestire attivamente e riutilizzare i dati di contesto memorizzati nella cache, riducendo significativamente i costi per le applicazioni con contesti lunghi
  • La generazione controllata (in anteprima pubblica a fine mese) permetterà di definire gli output dei modelli Gemini secondo formati o schemi specifici, scegliendo il formato desiderato tra opzioni predefinite o personalizzate
  • L’API batch (in anteprima pubblica oggi) consentirà di inviare in modo efficiente un grande numero di richieste di prompt di testo non time-sensitive, supportando casi d’uso come classificazione, analisi dei sentimenti, estrazione dati e generazione di descrizioni
  • Firebase Genkit agevola lo sviluppo, il deployment e il monitoraggio di agenti AI con linguaggio naturale, mentre LlamaIndex semplifica il processo di recupero aumentato di generazione

IA al servizio degli sviluppatori

Novità anche per lo sviluppo mobile e web. Questi gli annunci più importanti:

Sviluppo mobile

  • Gemini in Android Studio: Studio Bot, l’assistente IA per la codifica Android, è stato evoluto e ora fa parte dell’ecosistema Gemini. Entro fine anno supporterà input multimodali con Gemini 1.5 Pro
  • Gemini Nano & AICore: Gemini Nano, il modello più efficiente per task on-device, può essere eseguito direttamente sui dispositivi mobili con latenza bassa e maggiore privacy dei dati, grazie ad AICore che gestisce i modelli foundation on-device. Attualmente disponibile su Pixel 8 Pro e Samsung Galaxy S24
  • Kotlin Multiplatform su Android: Migliora la produttività condividendo la logica di business tra piattaforme e sfruttando il nuovo supporto di prima classe per KMP su Android, con integrazione di librerie Jetpack come DataStore e Room
  • Jetpack Compose: Crea esperienze utente adattive e ottimizza le prestazioni con API guidate da Material Design per layout che si adattano ai dispositivi. Gestisce input come il riconoscimento della scrittura a mano IA, crea widget personalizzabili con Jetpack Glance

Sviluppo Web

  • Gemini Nano in Chrome: Sfrutta l’IA on-device con WebGPU, WebAssembly e l’integrazione di Gemini Nano in Chrome desktop per nuove funzionalità IA
  • Speculation Rules API: Abilita esperienze di navigazione fluide con poche righe di codice per precaricare e pre-renderizzare pagine in background, rendendole istantanee. L’IA può inoltre predire pattern di navigazione per massimizzare l’efficienza
  • View Transitions API per siti multi-pagina: Sblocca transizioni di pagina fluide tra diverse architetture di siti web, grazie a un importante aggiornamento per app multi-pagina in Chrome Canary 126. Combinato con Speculation Rules e IA, offre transizioni quasi istantanee
  • Chrome DevTools Console insights: Gemini fornirà spiegazioni e soluzioni per errori e avvisi in DevTools Console semplificando il debug

google-trillium-tpu_720

TPU di nuova generazione

Google ha infine annunciato Trillium, la sua TPU (Tensor Processing Unit) di sesta generazione, nonché la più performante e la più efficiente a livello energetico. Trillium raggiunge un aumento di 4,7 volte delle prestazioni di calcolo di picco per chip rispetto alla TPU v5e ed è dotata di SparseCore di terza generazione, un acceleratore specializzato nell’elaborazione di embedding di grandi dimensioni, comuni nei carichi di lavoro avanzati di classificazione e raccomandazione. Trillium consente di addestrare più rapidamente la prossima ondata di modelli di fondazione e di servirli con una latenza ridotta e a costi inferiori.

La sesta generazione di TPU di Google è anche la più sostenibile, essendo più efficiente dal punto di vista energetico di oltre il 67% rispetto alla TPU v5e. Trillium può scalare fino a 256 TPU in un singolo pod ad alta larghezza di banda e bassa latenza. Oltre a questa scalabilità a livello di pod, con la tecnologia multislice e le unità di elaborazione dell’intelligenza (IPU) Titanium, Trillium può scalare fino a centinaia di pod, collegando decine di migliaia di chip in un supercomputer.