All’evento VMware Explore 2023 in corso a Las Vegas, VMware e Nvidia hanno presentato (nella foto i due CEO al momento dell’annuncio) l’ampliamento della loro partnership strategica, con l’obiettivo di preparare le centinaia di migliaia di aziende che utilizzano l’infrastruttura cloud di VMware all’era dell’IA generativa.

VMware Private AI Foundation with NVIDIA consentirà alle aziende di personalizzare i modelli ed eseguire applicazioni di IA generativa, tra cui chatbot intelligenti, assistenti, ricerca e sintesi. La piattaforma, il cui lancio è atteso per l’inizio del 2024, è una soluzione completamente integrata con software di IA generativa e computing accelerato di Nvidia, costruita su VMware Cloud Foundation e ottimizzata per l’intelligenza artificiale.

Per acquisire vantaggi aziendali in tempi più rapidi, le aziende stanno cercando di semplificare il processo di sviluppo, testing e implementazione delle applicazioni di IA generativa. VMware Private AI Foundation with NVIDIA consentirà alle aziende di sfruttare questa capacità, personalizzando modelli di linguaggio di grandi dimensioni (LLM), generando modelli più sicuri e riservati per uso interno, offrendo l’IA generativa come servizio ai propri utenti ed eseguendo in modo più sicuro i carichi di lavoro di inferenza su scala.

foundations

La piattaforma includerà strumenti di intelligenza artificiale integrati per consentire alle aziende di eseguire in modo efficiente dal punto di vista dei costi modelli addestrati sui propri dati privati. Basata su VMware Cloud Foundation e sul software NVIDIA AI Enterprise, la piattaforma offrirà i seguenti vantaggi in termini di:

  • Privacy: consentirà ai clienti di eseguire facilmente servizi di intelligenza artificiale vicino a qualsiasi luogo in cui dispongano di dati con un’architettura che preserva la data privacy e consente un accesso sicuro.
  • Scelta: le aziende potranno scegliere dove costruire ed eseguire i propri modelli (da NVIDIA NeMo a Llama 2 e oltre), comprese le principali configurazioni hardware OEM e, in futuro, le offerte di cloud pubblico e di service provider.
  • Prestazioni: l’esecuzione su infrastrutture accelerate da NVIDIA offre, in alcuni casi d’uso, prestazioni pari e persino superiori al bare metal, come dimostrato da recenti benchmark di settore.
  • Scala Data-Center: le ottimizzazioni della scalabilità delle GPU negli ambienti virtualizzati consentiranno ai carichi di lavoro IA di scalare fino a 16 vGPU/GPU in una singola macchina virtuale e su più nodi per accelerare la messa a punto e l’implementazione dei modelli AI generativi.
  • Riduzione dei costi: massimizzazione dell’utilizzo delle risorse di calcolo tra GPU, DPU e CPU per ridurre i costi complessivi e creare un ambiente di risorse in pool che può essere condiviso in modo efficiente tra i vari team.
  • Storage accelerato: VMware vSAN Express Storage Architecture offrirà un’archiviazione NVMe ottimizzata per le prestazioni e supporterà l’archiviazione GPUDirect tramite RDMA, consentendo il transfer I/O diretto dallo storage alle GPU senza coinvolgere la CPU.
  • Networking accelerato: la profonda integrazione fra vSphere e la tecnologia NVIDIA NVSwitch consentirà di eseguire modelli multi-GPU senza colli di bottiglia inter-GPU.
  • Rapido deployment e time to value: le immagini VM di vSphere Deep Learning e il relativo repository consentiranno funzionalità di prototipazione rapida, offrendo un’immagine di soluzione completa stabile che include framework e librerie ottimizzate per le prestazioni, già pre-installate.

vmware nvidia

La piattaforma includerà NVIDIA NeMo, un framework cloud-nativo end-to-end incluso in NVIDIA AI Enterprise che consente alle aziende di costruire, personalizzare e distribuire modelli generativi di IA praticamente ovunque. NeMo combina framework di personalizzazione, guardrail toolkit, strumenti per la data curation e modelli preaddestrati per offrire alle aziende una modalità semplice, economica e veloce di adozione dell’AI generativa.

Per l’implementazione dell’IA generativa in produzione, NeMo utilizza TensorRT for Large Language Models (TRT-LLM), che accelera e ottimizza le prestazioni di inferenza sui più recenti LLM su GPU NVIDIA. Grazie a NeMo, VMware Private AI Foundation with NVIDIA consentirà alle aziende di utilizzare i propri dati per costruire ed eseguire modelli generativi di intelligenza artificiale personalizzati sull’infrastruttura cloud ibrida di VMware.

VMware Private AI Foundation with NVIDIA sarà supportata da Dell Technologies, Hewlett Packard Enterprise e Lenovo, che saranno fra i primi a offrire sistemi che potenziano la personalizzazione dell’LLM aziendale e i carichi di lavoro di inferenza con le GPU NVIDIA L40S, le DPU NVIDIA BlueField-3 e le SmartNIC NVIDIA ConnectX-7.

  • La GPU NVIDIA L40S consente prestazioni di inferenza IA generativa fino a 1,2 volte superiori e prestazioni di training fino a 1,7 volte superiori rispetto alla GPU NVIDIA A100 Tensor Core.
  • Le DPU NVIDIA BlueField-3 accelerano, scaricano e isolano dalla GPU o dalla CPU l’enorme carico di calcolo di virtualizzazione, networking, storage, sicurezza e altri servizi di IA cloud-native.
  • Le SmartNIC NVIDIA ConnectX-7 offrono networking intelligente e accelerato per l’infrastruttura del data center per potenziare alcuni dei carichi di lavoro IA più impegnativi al mondo.