Modelli IA sempre più efficienti: LLMe e generazione video girano su hardware consumer

I ricercatori di Microsoft affermano di aver sviluppato il più grande modello IA 1-bit mai realizzato, noto anche come “bitnet”. Si chiama BitNet b1.58 2B4T, è disponibile liberamente con licenza MIT e può essere eseguito anche su CPU, inclusi i chip Apple M2.
I bitnet sono modelli compressi progettati per funzionare su hardware leggeri. Nei modelli standard, i “pesi” (ovvero i valori che definiscono la struttura interna di un modello) vengono spesso quantizzati, così da garantire buone prestazioni su una vasta gamma di dispositivi. La quantizzazione riduce il numero di bit, le unità minime che un computer può elaborare, necessari per rappresentare quei pesi, permettendo così ai modelli di girare su chip con meno memoria e di farlo più velocemente.
I bitnet spingono questo concetto ancora oltre; quantizzano infatti i pesi in soli tre valori (-1, 0 e 1) e, in teoria, questo li rende molto più efficienti in termini di memoria e potenza di calcolo rispetto alla maggior parte dei modelli attuali. Addestrato su un dataset da 4 trilioni di token, BitNet b1.58 2B4T è il primo bitnet a raggiungere i 2 miliardi di parametri (dove “parametri” è quasi sinonimo di “pesi”) e, a detta di Microsoft, supera i modelli tradizionali di dimensioni simili.
Nei test condotti dal team, il modello ha superato Llama 3.2 1B di Meta, Gemma 3 1B di Google e Qwen 2.5 1.5B di Alibaba su benchmark come GSM8K (una raccolta di problemi di matematica di livello scolastico) e PIQA (che misura le capacità di ragionamento fisico e di buon senso).
Ancora più impressionante è la velocità, visto che BitNet b1.58 2B4T risulta più rapido rispetto ad altri modelli di pari dimensioni (in alcuni casi persino il doppio) e consuma solo una frazione della memoria.
Per ottenere queste prestazioni è necessario utilizzare bitnet.cpp, il framework personalizzato sviluppato da Microsoft, che al momento funziona solo con hardware specifico. Senza contare che dalla lista dei chip compatibili mancano proprio le GPU, che oggi dominano l’infrastruttura IA e, di conseguenza, la compatibilità resta un ostacolo non da poco.
Ad arricchire la lista di modelli IA in grado di girare su hardware consumer c’è anche FramePack, una tecnologia sviluppata da ricercatori della Stanford University che punta a rivoluzionare la generazione di video tramite intelligenza artificiale. Si basa su un approccio di next-frame prediction, ovvero crea i video fotogramma dopo fotogramma in modo progressivo, comprimendo il contesto di input. Questa soluzione consente di mantenere stabile il carico di lavoro computazionale indipendentemente dalla lunghezza del video, rendendo possibile la creazione di contenuti lunghi anche su hardware consumer come un laptop con una GPU da soli 6GB di VRAM.
Tra le caratteristiche principali di FramePack spiccano la capacità di gestire modelli di grandi dimensioni (fino a 13 miliardi di parametri) anche su schede grafiche di fascia media, l’ottimizzazione dei tempi di elaborazione (circa 1,5-2,5 secondi per fotogramma su GPU high-end) e un’interfaccia intuitiva che permette di caricare immagini e scrivere prompt per guidare la generazione video. Inoltre, FramePack supporta batch di addestramento simili a quelli usati nei modelli di diffusione per immagini, migliorando l’efficienza dei processi di training.
Un’altra caratteristica distintiva è la capacità di mitigare il fenomeno del “drifting”, un problema comune nei modelli di diffusione video per cui la qualità tende a degradarsi progressivamente con l’aumentare della lunghezza del filmato. FramePack integra tecniche specifiche per mantenere la coerenza visiva anche in clip più lunghe, preservando la fedeltà dell’output.
Al momento FramePack genera video con un massimo di 30 FPS (che potrebbero essere insufficienti per alcune applicazioni professionali), ma per chi deve creare contenuti casual come GIF, meme o brevi clip creative non si tratta di un limite particolarmente grave, soprattutto nell’ottica generale di poter generare video tramite IA direttamente sul proprio computer senza dipendere da servizi cloud esterni.
(Immagine di apertura: Shutterstock)