OpenGPT-X è l’LLM europeo open source addestrato con tutte le 24 lingue dell’Unione
Il progetto di ricerca OpenGPT-X, iniziato nel 2022 e attivo fino al 2025, ha rilasciato Teuken-7B, un LLM open source disponibile su Hugging Face. Sviluppato dal consorzio guidato dagli istituti Fraunhofer IAIS e IIS, Teuken-7B è stato progettato per essere utilizzato in ambito commerciale e accademico, offrendo una prospettiva distintamente europea. Teuken-7B è stato infatti addestrato in tutte le 24 lingue ufficiali dell’Unione Europea, utilizzando un mix di dati di pre-addestramento per il 50% non in inglese e garantendo prestazioni stabili e affidabili in contesti multilingue.
Questo modello è uno dei pochi addestrati da zero in più lingue, risultando particolarmente utile per aziende e organizzazioni con esigenze di comunicazione multilingue. Grazie alla natura open source, permette la personalizzazione e l’uso in applicazioni reali mantenendo i dati sensibili all’interno delle aziende, un aspetto cruciale per la sicurezza e la conformità alle normative europee sulla protezione dei dati.
Durante lo sviluppo, il team OpenGPT-X ha affrontato sfide di efficienza energetica e costi, introducendo un tokenizer multilingue innovativo che riduce i costi di addestramento rispetto a soluzioni come Llama3 o Mistral. Questo è particolarmente vantaggioso per lingue europee con strutture lessicali complesse, come il tedesco, il finlandese e l’ungherese.
Il modello è accessibile attraverso l’infrastruttura Gaia-X, un ecosistema federato che consente lo sviluppo di applicazioni linguistiche innovative rispettando gli standard europei di sicurezza e protezione dei dati. Inoltre, grazie alla possibilità di personalizzare l’addestramento su dati specifici, Teuken-7B può essere utilizzato in settori sensibili come la robotica, l’automotive, la medicina e la finanza.
Teuken-7B è disponibile gratuitamente in due versioni: una per scopi di ricerca e una versione con licenza Apache 2.0, utilizzabile anche a fini commerciali. Questo rappresenta un importante passo avanti per la creazione di soluzioni di intelligenza artificiale trasparenti, personalizzabili e in linea con le esigenze europee.