La startup francese di intelligenza artificiale Mistral AI ha recentemente presentato Pixtral 12B, il suo primo LLM multimodale capace di elaborare sia immagini che testo. Questo nuovo sistema, che conta 12 miliardi di parametri e occupa circa 24GB, rappresenta un significativo passo avanti nelle capacità di comprensione multimodale dell’azienda.

Pixtral 12B, costruito sulla base del modello testuale Nemo 12B, può analizzare un numero illimitato di immagini di qualsiasi dimensione, sia tramite URL che attraverso codifica base64. Le sue funzionalità includono la descrizione di immagini e il conteggio di oggetti nelle foto, ponendolo in diretta competizione con altri modelli multimodali come quelli della famiglia Claude di Anthropic e GPT-4 di OpenAI.

image

Una caratteristica distintiva di Pixtral 12B è la sua disponibilità open source: il modello può infatti essere scaricato, personalizzato e utilizzato liberamente sotto licenza Apache 2.0.  Nonostante al momento di scrivere non siano disponibili demo web funzionanti, Sophia Yang, responsabile delle relazioni con gli sviluppatori di Mistral, ha annunciato che Pixtral 12B sarà presto accessibile sulle piattaforme Le Chat e Le Plateforme dell’azienda.

Rimane da chiarire quali dataset di immagini siano stati utilizzati per lo sviluppo di Pixtral 12B, una questione rilevante considerando le attuali controversie legali riguardanti l’uso di dati protetti da copyright per l’addestramento di modelli di IA.

Questo lancio segue da vicino un importante round di finanziamento per Mistral AI, che ha raccolto 645 milioni di dollari sotto la guida di General Catalyst, raggiungendo una valutazione di 6 miliardi di dollari. L’azienda, in parte di proprietà di Microsoft e considerata da molti la risposta europea a OpenAI, sta perseguendo una strategia che combina il rilascio di modelli open source gratuiti con servizi di consulenza e versioni gestite a pagamento dei suoi modelli.