La tedesca Aleph Alpha, tra le prime startup europee in campo IA, ha annunciato, in partnership con AMD, un’innovazione nell’architettura degli LLM, che spesso, siano essi open-source o proprietari, incontrano difficoltà nell’apprendere nuove lingue o conoscenze specifiche di settore, essenziali per aziende e governi. 

Questo avviene perché tali modelli basano i loro schemi di apprendimento su versioni tokenizzate dei dati di addestramento originali, rendendo inefficace il fine-tuning su testi molto diversi. L’architettura senza tokenizer di Aleph Alpha punta proprio a superare questi limiti, rendendo possibile il training e l’ottimizzazione dei modelli su alfabeti diversi, lingue con risorse limitate e conoscenze di nicchia.

Questa innovazione è destinata a gettare le basi per una nuova generazione di soluzioni di IA sovrane che consentiranno ai governi e alle imprese di costruire le proprie soluzioni di IA sovrane basate sulla propria lingua madre, sulle specifiche culturali e sulle conoscenze e terminologie specializzate. Le conseguenze, secondo Aleph Alpha, saranno la democratizzazione dell’accesso a questa tecnologia e la promozione della pluralità economica e culturale.

Aleph Alpha AMD

“La nostra architettura senza tokenizer risolve una sfida chiave nell’IA: creare modelli sovrani per lingue poco rappresentate e settori specifici. Con la tecnologia IA di AMD, apriamo nuove opportunità strategiche per governi e aziende” ha dichiarato Jonas Andrulis, fondatore e CEO di Aleph Alpha.

La nuova architettura sfrutta le capacità degli acceleratori AMD Instinct MI300 Series e del software open AMD ROCm, riducendo significativamente costi e impatto ambientale. Per esempio, nel caso della lingua finlandese, si è ottenuta una riduzione del 70% dei costi di training e delle emissioni rispetto ai modelli tradizionali.

Aleph Alpha integra inoltre il nuovo modello con il sistema operativo Pharia ottimizzato su piattaforme AMD, in un approccio unisce software e hardware, migliora costi e impronta ecologica e introduce trasparenza ed efficienza senza nell’IA generativa.