Nella conferenza annuale degli sviluppatori GTC 2025, NVIDIA ha presentato diverse novità significative che delineano il futuro dell’intelligenza artificiale e dell’elaborazione dei dati.

Arriva Blackwell Ultra

Una delle principali novità presentate è stata l’annuncio della disponibilità della GPU Blackwell Ultra, prevista per la seconda metà del 2025. Questo nuovo processore offre un aumento significativo della memoria rispetto al modello precedente, consentendo di gestire framework AI più grandi e complessi. Inoltre, Blackwell Ultra è progettata per offrire il 50% in più di prestazioni FP4 rispetto alla versione Blackwell precedente, passando da 10/20 petaflops (Dense/Sparse) a 15/30 petaflops, mentre la memoria è stata aumentata a 288 GB HBM3E rispetto ai 192 GB di Blackwell, il che significa una maggiore capacità di elaborazione per applicazioni AI intensive.

nvidia-blackwell-ultra

La piattaforma Blackwell Ultra è ideale per applicazioni come:

  • Agentic AI: utilizza un ragionamento sofisticato e una pianificazione iterativa per risolvere autonomamente problemi complessi e a più fasi. I sistemi di intelligenza artificiale ad agenti vanno oltre l’esecuzione di istruzioni, visto che possono ragionare, pianificare e intraprendere azioni per raggiungere obiettivi specifici
  • Physical AI: consente alle aziende di generare video sintetici e fotorealistici in tempo reale per l’addestramento di applicazioni come robot e veicoli autonomi su scala

NVIDIA ha poi confermato che i nuovi chip Rubin e Rubin Ultra saranno lanciati rispettivamente nel 2026 e nel 2027. Questi nuovi processori saranno accompagnati dalla nuova CPU Vera con 88 core Arm custom e 176 thread, offrendo velocità di trasferimento dei dati migliorata grazie alla combinazione con la CPU Vera Rubin. La memoria rimarrà a 288 GB, ma la banda passerà da 8 a 13 TB/s, rendendo questi sistemi ideali per applicazioni che richiedono elevate prestazioni di trasferimento dati.

La roadmap tecnologica di NVIDIA include anche l’introduzione della futura architettura Feynman prevista per il 2028, che rappresenterà un ulteriore passo avanti nella tecnologia AI. Queste innovazioni sono destinate a migliorare le prestazioni dei sistemi AI, ridurre i costi energetici e aumentare l’efficienza complessiva delle infrastrutture di calcolo.

Spazio poi ai nuovi computer DGX AI alimentati dai chip Blackwell Ultra, che saranno prodotti da aziende come Dell, Lenovo e HP. Questi dispositivi sono progettati per supportare l’inferenza di modelli AI di grandi dimensioni direttamente dai desktop, rappresentando una sfida diretta ad alcuni dei Mac di fascia alta di Apple. Secondo NVIDIA, questi computer saranno in grado di eseguire compiti AI avanzati a livello aziendale, con però una flessibilità tale da poter essere utilizzati anche in ambienti di sviluppo più piccoli.

agentic-ai-reasoning-models

Inoltre, sono stati annunciati i nuovi chip di rete fotonici Spectrum-X e Quantum-X (disponibili rispettivamente a fine del 2025 e 2026), che consentono di collegare milioni di GPU in vari siti riducendo drasticamente il consumo energetico. Questi chip potrebbero rivoluzionare il modo in cui le aziende gestiscono i loro data center, riducendo i costi energetici e aumentando la scalabilità.

L’IA che ragiona

Tante anche le novità in ambito software. La nuova famiglia di modelli open Llama Nemotron è progettata per fornire a sviluppatori e aziende una base avanzata per la creazione di agenti AI in grado di operare autonomamente o in team per risolvere compiti complessi. Questi LLM “reasoning” (cioè con capacità di ragionamento) offrono capacità avanzate on-demand e numerose aziende leader, tra cui Accenture, Microsoft, SAP e ServiceNow, stanno collaborando con NVIDIA per integrarli nelle loro soluzioni AI.

La famiglia Llama Nemotron è disponibile come microservizi NVIDIA NIM in tre versioni:

  • Nano: ottimizzato per PC ed edge computing
  • Super: per il massimo throughput su una singola GPU
  • Ultra: pensato per massima accuratezza su server multi-GPU.

I modelli sono stati affinati su NVIDIA DGX Cloud utilizzando dati sintetici curati da NVIDIA Nemotron e dataset aggiuntivi co-creati con NVIDIA. Strumenti, dataset e tecniche di post-training saranno resi disponibili in modo aperto, consentendo alle aziende di sviluppare modelli personalizzati.

Scalare e accelerare con Dynamo

nvidia-dynamo

NVIDIA ha infine annunciato Dynamo, un software open-source per l’inferenza AI progettato per accelerare e scalare i modelli di ragionamento nelle AI factory, riducendo i costi e massimizzando l’efficienza. Successore del NVIDIA Triton Inference Server, Dynamo coordina e accelera le comunicazioni di inferenza tra migliaia di GPU, utilizzando un’architettura disaggregata che separa le fasi di elaborazione e generazione degli LLM su GPU diverse. Questo approccio consente di ottimizzare ogni fase in modo indipendente, garantendo il massimo utilizzo delle risorse GPU.

Sulla piattaforma NVIDIA Hopper, Dynamo raddoppia le prestazioni delle AI factory che servono modelli Llama, mentre su cluster GB200 NVL72 può aumentare la generazione di token di oltre 30 volte per GPU. Inoltre, il software adatta dinamicamente le GPU alle variazioni di carico, ottimizza l’allocazione delle risorse e riduce i costi di inferenza tramite un uso più efficiente della memoria e dell’archiviazione.

Adottato da AWS, Google Cloud, Microsoft Azure e Meta, Dynamo è completamente open-source e supporta PyTorch, SGLang, NVIDIA TensorRT-LLM e vLLM.

(Immagine di apertura: Shutterstock)