A fine 2024 l’azienda IA cinese DeepSeek ha lanciato DeepSeek-V3, un LLM open-source che, benchmark alla mano, supera i vari Claude 3.5 Sonnet, GPT-4o e Qwen 2.5, consolidandosi come il modello open-source più performante mai rilasciato con i suoi 685 miliardi di parametri. Inoltre, grazie all’uso di tecnologie come il Mixture-of-Experts (MoE), il modello ottimizza efficienza e velocità raggiungendo 60 token al secondo, tre volte più veloce del suo predecessore.

DeepSeek-V3 eccelle anche nel rapporto prestazioni/costo e accuratezza, risultando un modello molto economico da addestrare. La stima di DeepSeek è infatti di circa 6 milioni di dollari per il costo totale di training, con l’inferenza che costa solo $0,14/$0,28 per milione di token (costi simili  quelli di Gemini Flash) contro i $3/$15 di Claude Sonnet. Questo è quanto di più economico ci sia al momento tra gli LLM di grandi dimensioni.

Con un punteggio vicino al 90% nei test MMLU Redux ZeroEval, DeepSeek v3 supera inoltre quasi tutti i modelli open-source e si avvicina ai migliori modelli closed-source. Altri benchmark riportano risultati altrettanto positivi:

004soDWEsFKvpFi_P

  • Ragionamento Matematico: Migliori performance con il 90,2% su MATH 500 e il 39,2% su AIME 2024
  • Problemi di Programmazione: Punteggio di 51,6% su Codeforces, superiore a GPT-4
  • QA Complesso: Leader con il 59,1% su GPQA-Diamond.

DeepSeek-V3, che utilizza un approccio senza perdite ausiliarie per migliorare il bilanciamento del carico e la precisione, introduce anche la tecnologia Multi-head Latent Attention (MLA) ed è stato addestrato su 14,8 trilioni di token utilizzando un processo ottimizzato, con costi contenuti grazie all’uso di 2,788 milioni di ore con GPU H800.

07UwH-gLiNTznTN37

Trattandosi di un prodotto IA cinese, sono però sorti diversi dubbi a livello di sicurezza, privacy e censura. Secondo la sezione 4.2 dei termini di DeepSeek, la policy sull’uso dei dati consente a DeepSeek di utilizzare input e output, sotto determinate condizioni, per migliorare i propri servizi. Sebbene siano promesse misure di sicurezza come la crittografia e la de-identificazione, l’assenza di un meccanismo chiaro per escludere i propri dati da queste pratiche solleva preoccupazioni sulla privacy e sul possibile utilizzo improprio delle informazioni.

Infine, la sezione 5.1 sottolinea che DeepSeek mantiene tutti i diritti di proprietà intellettuale sui suoi servizi, limitando drasticamente come gli utenti possono interagire con i contenuti e i software del modello. L’utilizzo, la copia o la visualizzazione non autorizzata possono comportare conseguenze legali, anche in caso di errori accidentali creando un ulteriore strato di complessità per gli utenti, senza contare che il modello è sottoposto alla censura cinese sui contenuti e non risponde su tematiche geopolitiche sensibili.