DeepSeek-v3 è il modello AI cinese open source che sfida Llama, ma anche ChatGPT e Claude
A fine 2024 l’azienda IA cinese DeepSeek ha lanciato DeepSeek-V3, un LLM open-source che, benchmark alla mano, supera i vari Claude 3.5 Sonnet, GPT-4o e Qwen 2.5, consolidandosi come il modello open-source più performante mai rilasciato con i suoi 685 miliardi di parametri. Inoltre, grazie all’uso di tecnologie come il Mixture-of-Experts (MoE), il modello ottimizza efficienza e velocità raggiungendo 60 token al secondo, tre volte più veloce del suo predecessore.
DeepSeek-V3 eccelle anche nel rapporto prestazioni/costo e accuratezza, risultando un modello molto economico da addestrare. La stima di DeepSeek è infatti di circa 6 milioni di dollari per il costo totale di training, con l’inferenza che costa solo $0,14/$0,28 per milione di token (costi simili quelli di Gemini Flash) contro i $3/$15 di Claude Sonnet. Questo è quanto di più economico ci sia al momento tra gli LLM di grandi dimensioni.
Con un punteggio vicino al 90% nei test MMLU Redux ZeroEval, DeepSeek v3 supera inoltre quasi tutti i modelli open-source e si avvicina ai migliori modelli closed-source. Altri benchmark riportano risultati altrettanto positivi:
- Ragionamento Matematico: Migliori performance con il 90,2% su MATH 500 e il 39,2% su AIME 2024
- Problemi di Programmazione: Punteggio di 51,6% su Codeforces, superiore a GPT-4
- QA Complesso: Leader con il 59,1% su GPQA-Diamond.
DeepSeek-V3, che utilizza un approccio senza perdite ausiliarie per migliorare il bilanciamento del carico e la precisione, introduce anche la tecnologia Multi-head Latent Attention (MLA) ed è stato addestrato su 14,8 trilioni di token utilizzando un processo ottimizzato, con costi contenuti grazie all’uso di 2,788 milioni di ore con GPU H800.
Trattandosi di un prodotto IA cinese, sono però sorti diversi dubbi a livello di sicurezza, privacy e censura. Secondo la sezione 4.2 dei termini di DeepSeek, la policy sull’uso dei dati consente a DeepSeek di utilizzare input e output, sotto determinate condizioni, per migliorare i propri servizi. Sebbene siano promesse misure di sicurezza come la crittografia e la de-identificazione, l’assenza di un meccanismo chiaro per escludere i propri dati da queste pratiche solleva preoccupazioni sulla privacy e sul possibile utilizzo improprio delle informazioni.
Infine, la sezione 5.1 sottolinea che DeepSeek mantiene tutti i diritti di proprietà intellettuale sui suoi servizi, limitando drasticamente come gli utenti possono interagire con i contenuti e i software del modello. L’utilizzo, la copia o la visualizzazione non autorizzata possono comportare conseguenze legali, anche in caso di errori accidentali creando un ulteriore strato di complessità per gli utenti, senza contare che il modello è sottoposto alla censura cinese sui contenuti e non risponde su tematiche geopolitiche sensibili.