Durante l’evento AWS re:Invent, Amazon Web Services ha annunciato la prossima generazione di due famiglie di chip proprietari: AWS Graviton4 e AWS Trainium2. Questi chip offrono avanzamenti nelle prestazioni economiche e nell’efficienza energetica per una vasta gamma di carichi di lavoro dei clienti, compresi l’addestramento del machine learning e le applicazioni di intelligenza artificiale generativa. Graviton4 e Trainium2 rappresentano le ultime innovazioni nella progettazione di chip da parte di AWS, che, con ogni generazione successiva, offre migliori prestazioni economiche ed efficienza energetica, offrendo ai clienti ancora più opzioni su Amazon Elastic Compute Cloud (Amazon EC2).

Graviton 4

Graviton4 offre fino al 30% di migliori prestazioni di calcolo, il 50% in più di core e il 75% in più di larghezza di banda della memoria rispetto ai processori Graviton3 della generazione attuale. Trainium2 è progettato per fornire un addestramento fino a 4 volte più veloce rispetto ai chip Trainium di prima generazione e potrà essere implementato in EC2 UltraClusters di fino a 100.000 chip, consentendo di addestrare modelli di foundation (FM) e modelli linguistici di grandi dimensioni (LLM) in una frazione del tempo, migliorando al tempo stesso l’efficienza energetica fino a 2 volte.

Attualmente, AWS offre oltre 150 tipi di istanze Amazon EC2 con alimentazione Graviton a livello globale su larga scala, ha costruito più di 2 milioni di processori Graviton e ha oltre 50.000 clienti, tra cui i primi 100 clienti EC2, che utilizzano istanze basate su Graviton. Clienti come Datadog, DirecTV, Discovery, Formula 1 (F1), NextRoll, Nielsen, Pinterest, SAP, Snowflake, Sprinklr, Stripe e Zendesk utilizzano istanze basate su Graviton per eseguire una vasta gamma di carichi di lavoro, come database, analisi, server web, elaborazione batch, servizio di annunci, server di applicazioni e microservizi.

Graviton4 sarà disponibile nelle istanze di Amazon EC2 ottimizzate per la memoria R8g, consentendo ai clienti di migliorare l’esecuzione dei loro database ad alte prestazioni, delle cache in memoria e dei carichi di lavoro di analisi dei big data. Le istanze R8g offrono dimensioni di istanza più grandi con fino a 3 volte più vCPUs e 3 volte più memoria rispetto alle istanze della generazione attuale R7g. Ciò consente ai clienti di elaborare quantità maggiori di dati, scalare i loro carichi di lavoro, migliorare il tempo per i risultati e ridurre il costo totale di proprietà. Le istanze R8g alimentate da Graviton4 sono disponibili da oggi in anteprima, con la disponibilità generale prevista nei prossimi mesi.

aws nvidia

Trainium2

Gli UltraClusters EC2 di Trainium2 sono progettati per fornire l’infrastruttura di addestramento dei modelli IA più performante ed efficiente dal punto di vista energetico nel cloud. I FM e LLM dietro alle attuali applicazioni emergenti di IA generativa vengono addestrati su set di dati massicci. Questi modelli rendono possibile per i clienti ridefinire completamente le esperienze utente attraverso la creazione di nuovi contenuti, tra cui testo, audio, immagini, video e persino codice software. I modelli FM e LLM più avanzati oggi vanno da centinaia di miliardi a trilioni di parametri, richiedendo una capacità di calcolo affidabile e ad alte prestazioni in grado di scalare su decine di migliaia di chip ML.

Attualmente, clienti come Databricks, Helixon, Money Forward e il team di ricerca di Amazon Search utilizzano Trainium per addestrare modelli di deep learning su larga scala, sfruttando le alte prestazioni, la scala, la affidabilità e il basso costo di Trainium. Ma anche con le istanze accelerate più veloci disponibili oggi, i clienti desiderano maggiore prestazioni e scala per addestrare questi modelli sempre più sofisticati più rapidamente, a un costo inferiore, riducendo contemporaneamente la quantità di energia utilizzata.

I chip Trainium2 sono progettati appositamente per l’addestramento ad alte prestazioni di FM e LLM con fino a trilioni di parametri. Trainium2 sarà disponibile nelle istanze di Amazon EC2 Trn2, contenenti 16 chip Trainium in un’unica istanza. Le istanze Trn2 sono destinate a consentire ai clienti di scalare fino a 100.000 chip Trainium2 nei prossimi UltraClusters EC2 di prossima generazione, interconnessi con la rete AWS Elastic Fabric Adapter (EFA) a petabit, offrendo fino a 65 exaflops di calcolo e dando ai clienti accesso on-demand a prestazioni di classe supercomputer. Con questo livello di scala, i clienti possono addestrare un modello LLM con 300 miliardi di parametri in settimane invece di mesi. 

Partnership con Nvidia

Rimanendo sempre in ambito chip, AWS e Nvidia hanno annunciato ad AWS re:Invent un’espansione della loro collaborazione strategica. Questa partnership mira a offrire un’infrastruttura avanzata, software e servizi per alimentare le innovazioni nell’intelligenza artificiale generativa dei clienti.

Tra le iniziative chiave di questa collaborazione estesa spiccano:

  • Nvidia GH200 Grace Hopper Superchips su AWS: AWS sarà il primo provider di cloud a portare i chip Nvidia GH200 Grace Hopper con la nuova tecnologia multi-nodo NVLink su cloud. Questa piattaforma multi-nodo NVL32 collega 32 GH200 con tecnologie NVLink e NVSwitch in un’unica istanza su Amazon Elastic Compute Cloud (Amazon EC2). Sarà supportata da avanzata virtualizzazione (AWS Nitro System), connettività potenziata (Elastic Fabric Adapter – EFA) e scalabilità UltraCluster di Amazon EC2.
  • Nvidia DGX Cloud su AWS: Nvidia e AWS collaboreranno per ospitare su AWS DGX Cloud, un servizio di addestramento IA di Nnvidia. Sarà il primo DGX Cloud a presentare GH200 NVL32, offrendo agli sviluppatori la più ampia memoria condivisa in un’unica istanza. Questo consentirà l’accelerazione dell’addestramento di modelli IA generativi avanzati e di modelli linguistici estesi oltre 1 trilione di parametri.
  • Progetto Ceiba: Nvidia e AWS collaborano al progetto Ceiba per progettare il supercomputer IA più veloce del mondo. Sarà un sistema su larga scala con GH200 NVL32 e connettività Amazon EFA, ospitato da AWS per il team di ricerca e sviluppo di Nvidia. Questo supercomputer, unico nel suo genere, sarà utilizzato da Nvidia per spingere avanti la prossima ondata di innovazioni nell’IA generativa.
  • Nuove istanze Amazon EC2 e GPU Nvidia: AWS introdurrà tre nuove istanze Amazon EC2. P5e con GPU Tensor Core NVIDIA H200 (per carichi di lavoro IA generativi e di calcolo ad alte prestazioni) e G6 e G6e, istanze con GPU NVIDIA L4 e L40S per una vasta gamma di applicazioni come IA, grafica e video. Le istanze G6e saranno particolarmente adatte per lo sviluppo di flussi di lavoro 3D, gemelli digitali e altre applicazioni utilizzando NVIDIA Omniverse, una piattaforma per la creazione di applicazioni 3D abilitate per l’IA generativa.
  • Software Nvidia su AWS: Nvidia ha annunciato infine novità a livello software su AWS per potenziare lo sviluppo di IA generativa. Ad esempio, Nvidia NeMo Retriever microservice offre nuovi strumenti per creare chatbot altamente accurati e strumenti di sintesi utilizzando il recupero semantico accelerato, mentre Nvidia BioNeMo, disponibile su Amazon SageMaker e presto offerto su AWS su Nvidia DGX Cloud, semplifica e accelera l’addestramento di modelli per le società farmaceutiche, accelerando la scoperta di farmaci.