Con Blackwell, Nvidia si prepara ai modelli IA con trilioni di parametri
Presentata nel corso del keynote all’evento GTC 2024 dedicato agli sviluppatori, Blackwell B200 è la nuova GPU di Nvidia per l’IA (foto sopra). Offre fino a 20 petaflops di potenza FP4 grazie ai suoi 208 miliardi di transistor, mentre il nuovo superchip GB200, che combina due di queste GPU con una singola CPU Grace, può offrire prestazioni 30 volte superiori per i carichi di lavoro di inferenza LLM, oltre a essere potenzialmente molto più efficiente.
Secondo Nvidia, l’addestramento di un modello da 1,8 trilioni di parametri avrebbe richiesto in precedenza 8.000 GPU Hopper di precedente generazione e 15 megawatt di potenza, mentre oggi 2.000 GPU Blackwell possono fare la stessa cosa consumando però solo 4 megawatt. Su un benchmark GPT-3 con 175 miliardi di parametri, Nvidia afferma che un GB200 ha prestazioni sette volte superiori a quelle di un H100 e offre una velocità di addestramento quattro volte superiore. Uno dei miglioramenti principali è un motore di trasformazione di seconda generazione che raddoppia il calcolo, la larghezza di banda e le dimensioni del modello utilizzando quattro bit per ogni neurone invece di otto.
Una seconda differenza fondamentale si ha quando si collega un numero enorme di queste GPU, con il risultato di uno switch NVLink di nuova generazione che permette a 576 GPU di dialogare tra loro con 1,8 terabyte al secondo di larghezza di banda bidirezionale.
Nvidia conta ovviamente sul fatto che le aziende acquistino grandi quantità di queste GPU e le sta infatti proponendo anche come componenti di nuovi sistemi come il GB200 NVL72, che può includere fino a 36 CPU e 72 GPU in un unico rack raffreddato a liquido per un totale di 720 petaflop di prestazioni di addestramento dell’intelligenza artificiale o 1.440 petaflop (o 1,4 exaflop) di inferenza. Secondo Nvidia uno di questi rack può supportare un modello da 27 trilioni di parametri (giusto per dare un’idea, GPT-4 è un LLM da circa 1,7 trilioni di parametri).
Queste configurazioni sono già state scelte da società come Amazon, Google, Microsoft e Oracle per offrire i propri servizi cloud, ma Nvidia non ha parlato di quantità esatte ordinate. L’altro annuncio ha riguardato il DGX Superpod per DGX GB200, che combina otto sistemi in uno per un totale di 288 CPU, 576 GPU, 240 TB di memoria e 11,5 exaflops di calcolo FP4.
Questi nuovi sistemi possono scalare fino a decine di migliaia di superchip GB200, collegati tra loro con reti da 800 Gbps con il nuovo Quantum-X800 InfiniBand (per un massimo di 144 connessioni) o Spectrum-X800 ethernet (per un massimo di 64 connessioni).