IBM ha presentato le specifiche dell’architettura dei nuovi processori IBM Telum II e dell’acceleratore IBM Spyre in occasione della conferenza Hot Chips 2024. Queste tecnologie mirano ad aumentare significativamente le capacità di elaborazione dei futuri sistemi mainframe IBM Z, favorendo l’adozione di modelli IA tradizionali e Large Language Models (LLM) in tandem, attraverso una nuova metodologia di AI ensemble.

Con l’aumento dei progetti di IA generativa basati su LLM che passano dalla fase di prova a quella di produzione, cresce la domanda di soluzioni efficienti dal punto di vista energetico, sicure e scalabili. Secondo una ricerca di Morgan Stanley, entro il 2026 il fabbisogno energetico dell’IA generativa crescerà del 75% annuo, arrivando a consumare una quantità di energia pari a quella della Spagna nel 2022.

Le principali innovazioni presentate da IBM includono:

  • Processore IBM Telum II: Sviluppato per i futuri sistemi mainframe IBM Z, offre miglioramenti in termini di frequenza, memoria, cache, acceleratore IA integrato e una nuova unità di elaborazione dati (DPU). Supporterà l’esecuzione di LLM a livello enterprise
  • Unità di accelerazione IO: La nuova DPU integrata nel processore Telum II accelera i protocolli di I/O complessi necessari per il networking e l’interazione con lo storage
  • IBM Spyre Accelerator: Fornisce ulteriori capacità di elaborazione IA a supporto del processore Telum II. La combinazione di Telum II e Spyre crea un’architettura scalabile per i metodi di “Ensemble AI”, unendo modelli di machine learning, deep learning e encoder LLM

ibm mainframe

Queste innovazioni saranno introdotte nella prossima generazione di mainframe IBM Z e LinuxONE nel 2025, consentendo ai clienti di sfruttare LLM e IA generativa su larga scala in modo sicuro ed energeticamente efficiente.

Il processore Telum II e l’acceleratore Spyre saranno realizzati da Samsung Foundry utilizzando il processo a 5 nm ad alte prestazioni ed efficienza energetica. Questa collaborazione supporterà casi d’uso avanzati basati sull’IA, come il rilevamento delle frodi assicurative, l’antiriciclaggio avanzato e gli assistenti IA.

Queste infine le specifiche chiave dei tre nuovi componenti:

  • Processore Telum II: 8 core a 5,5 GHz, 36 MB di cache L2 per core (totale 360 MB), aumento del 40% della cache L4 condivisa (2,88 GB per drawer), acceleratore IA con capacità quadruplicata
  • Unità di accelerazione I/O DPU: aumento del 50% della densità di I/O per migliorare efficienza e scalabilità.
  • Spyre Accelerator: Cluster di 8 schede per drawer, 1 TB di memoria totale, 32 core per chip, supporto per dati int4, int8, fp8 e fp16, bassa latenza e alto throughput, consumo massimo di 75W per scheda