Secondo quanto riportato da The Information, i chip IA Nvidia Blackwell di nuova generazione soffrirebbero di significativi problemi di surriscaldamento quando vengono installati in rack di server ad alta capacità con 72 processori all’interno. Problemi che hanno spinto Nvidia a modifiche e ritardi nella progettazione di queste potentissime GPU per l’IA e hanno sollevato preoccupazioni tra i clienti come Google, Meta e Microsoft sulla possibilità di implementare i server Blackwell in tempo.

In risposta ai ritardi e ai problemi di surriscaldamento, un portavoce di Nvidia ha ricordato a Reuters gli sforzi di collaborazione con i fornitori di cloud e ha descritto le modifiche al design come parte del normale processo di sviluppo. Questa partnership con i fornitori e i cloud provider mira a garantire che il prodotto finale soddisfi le aspettative di prestazioni e affidabilità.

nvidia blackwell

Il nuovo superchip Nvidia GB200

Le GPU Nvidia Blackwell B100 e B200 utilizzano la tecnologia di packaging CoWoS-L di TSMC per collegare i due chiplet. Questo design include un interposer RDL con ponti di interconnessione locale (LSI) che supporta velocità di trasferimento dei dati fino a 10 TB/s. Il posizionamento preciso di questi ponti LSI è essenziale affinché la tecnologia funzioni come previsto.

Tuttavia, una mancata corrispondenza delle caratteristiche di espansione termica dei chiplet della GPU, dei ponti LSI, dell’interposer RDL e del substrato della scheda madre ha portato a deformazioni e a guasti del sistema. Per risolvere questo problema, Nvidia avrebbe modificato gli strati metallici superiori della GPU e le strutture bump per migliorare l’affidabilità della produzione.

Di conseguenza, la revisione finale delle GPU Blackwell è entrata in produzione di massa solo alla fine di ottobre, il che significa che Nvidia sarà in grado di spedire questi processori non prima della fine di gennaio.