Una nuova sorpresa di Apple nell’ambito dell’IA generativa è arrivata nei giorni scorsi con il lancio del chip Apple M4 a bordo dei nuovi modelli di Mac Mini e MacBook Pro. Questo chip, disponibile anche nelle più potenti versioni Pro e Max, si è rivelato un hardware eccellente per eseguire alcuni degli LLM open source più potenti in circolazione, tra cui Llama-3.1 405B di Meta, Nemotron 70B di Nvidia e Qwen 2.5 Coder-32B di Alibaba.

Alex Cheema, co-fondatore di Exo Labs, una startup nata a marzo 2024 con l’obiettivo di “democratizzare l’accesso all’IA” attraverso cluster di calcolo multi-dispositivo open source, ha collegato quattro Mac Mini M4 e un MacBook Pro M4 Max, utilizzando il software open source di Exo per eseguire il modello Qwen 2.5 Coder-32B. Il cluster, con un costo totale di circa 5.000 dollari, risulta significativamente più economico rispetto a una singola GPU Nvidia H100, che può costare tra i 25.000 e i 30.000 dollari.

Molti utenti sono abituati a utilizzare servizi online come ChatGPT che richiedono una connessione internet, ma eseguire modelli di IA localmente offre vantaggi significativi in termini di costi, privacy, sicurezza e controllo. Exo Labs sta lavorando allo sviluppo di soluzioni software per aziende, ma ha già reso disponibile su GitHub il proprio software open source, permettendo a chiunque con competenze di coding di creare cluster di calcolo locale per le inferenze di IA.

screenshot-github.com-2024.11.15-10_50_46

Con il cluster Mac Mini M4, Exo Labs ha dimostrato di poter eseguire il modello Qwen 2.5 Coder-32B a 18 token al secondo e Nemotron-70B a 8 token al secondo, con significativi miglioramenti rispetto alle generazioni precedenti di hardware. Cheema aveva già avuto successo utilizzando due MacBook Pro M3 per eseguire il modello Llama 3.1-405B a oltre 5 token al secondo e ciò dimostra come i carichi di lavoro per l’addestramento e l’inferenza di modelli IA possano essere gestiti senza dover necessariamente ricorrere all’infrastruttura cloud, rendendo l’IA più accessibile a consumatori e aziende attenti alla privacy e ai costi.

Per favorire ulteriormente l’adozione del proprio software, Exo Labs lancerà un sito di benchmarking gratuito che offrirà comparazioni dettagliate tra diverse configurazioni hardware, aiutando utenti e aziende a identificare le migliori soluzioni per eseguire LLM in base alle proprie esigenze e budget. Cheema sottolinea proprio l’importanza di benchmark reali (che spesso differiscono dalle stime teoriche) per incoraggiare l’innovazione e fornire chiarezza a chi desidera sperimentare con l’IA locale.