Con il software Exo Labs, gli LLM girano in locale su un cluster di 4 Mac mini M4
Una nuova sorpresa di Apple nell’ambito dell’IA generativa è arrivata nei giorni scorsi con il lancio del chip Apple M4 a bordo dei nuovi modelli di Mac Mini e MacBook Pro. Questo chip, disponibile anche nelle più potenti versioni Pro e Max, si è rivelato un hardware eccellente per eseguire alcuni degli LLM open source più potenti in circolazione, tra cui Llama-3.1 405B di Meta, Nemotron 70B di Nvidia e Qwen 2.5 Coder-32B di Alibaba.
Alex Cheema, co-fondatore di Exo Labs, una startup nata a marzo 2024 con l’obiettivo di “democratizzare l’accesso all’IA” attraverso cluster di calcolo multi-dispositivo open source, ha collegato quattro Mac Mini M4 e un MacBook Pro M4 Max, utilizzando il software open source di Exo per eseguire il modello Qwen 2.5 Coder-32B. Il cluster, con un costo totale di circa 5.000 dollari, risulta significativamente più economico rispetto a una singola GPU Nvidia H100, che può costare tra i 25.000 e i 30.000 dollari.
Molti utenti sono abituati a utilizzare servizi online come ChatGPT che richiedono una connessione internet, ma eseguire modelli di IA localmente offre vantaggi significativi in termini di costi, privacy, sicurezza e controllo. Exo Labs sta lavorando allo sviluppo di soluzioni software per aziende, ma ha già reso disponibile su GitHub il proprio software open source, permettendo a chiunque con competenze di coding di creare cluster di calcolo locale per le inferenze di IA.
Con il cluster Mac Mini M4, Exo Labs ha dimostrato di poter eseguire il modello Qwen 2.5 Coder-32B a 18 token al secondo e Nemotron-70B a 8 token al secondo, con significativi miglioramenti rispetto alle generazioni precedenti di hardware. Cheema aveva già avuto successo utilizzando due MacBook Pro M3 per eseguire il modello Llama 3.1-405B a oltre 5 token al secondo e ciò dimostra come i carichi di lavoro per l’addestramento e l’inferenza di modelli IA possano essere gestiti senza dover necessariamente ricorrere all’infrastruttura cloud, rendendo l’IA più accessibile a consumatori e aziende attenti alla privacy e ai costi.
Per favorire ulteriormente l’adozione del proprio software, Exo Labs lancerà un sito di benchmarking gratuito che offrirà comparazioni dettagliate tra diverse configurazioni hardware, aiutando utenti e aziende a identificare le migliori soluzioni per eseguire LLM in base alle proprie esigenze e budget. Cheema sottolinea proprio l’importanza di benchmark reali (che spesso differiscono dalle stime teoriche) per incoraggiare l’innovazione e fornire chiarezza a chi desidera sperimentare con l’IA locale.