Nel benchmark per la sicurezza della IA generativa, Anthropic di distingue dagli altri LLM
Come dimostrato da un recente studio condotto da Chatterbox Labs, Anthropic si è posizionata come leader nella sicurezza dell’IA generativa. Nella ricerca sono stati testati otto importanti modelli linguistici di grandi dimensioni (LLM) e Chatterbox Labs ha scoperto che tutti producono contenuti più o meno dannosi, mentre Claude 3.5 Sonnet di Anthropic ha ottenuto risultati migliori rispetto ai concorrenti.
Chatterbox Labs utilizza una suite di test chiamata AIMI che valuta gli LLM sulla base di elementi come equità, tossicità, privacy e sicurezza. In questo contesto, “sicurezza” si riferisce alla resistenza del modello nell’emettere contenuti dannosi. Il CTO di Chatterbox Labs Stuart Battersby, intervistato da The Register, ha spiegato che la sua azienda testa la capacità dei modelli di produrre contenuti illegali o potenzialmente pericolosi, come metodi per realizzare armi biologiche o consigli che potrebbero portare a lesioni o morte. L’azienda simula attacchi agli LLM attraverso il jailbreaking, ovvero la progettazione di prompt in modo “malevolo” per aggirare le misure di sicurezza dei modelli.
I risultati dei test hanno mostrato che tutti i modelli testati possono produrre contenuti dannosi. Tuttavia, Anthropic si è distinta positivamente, con il suo modello Claude 3.5 Sonnet che ha respinto o reindirizzato i tentativi di jailbreaking in alcune categorie. In risposta ai risultati, Stuart Ritchie di Anthropic ha spiegato l’approccio unico dell’azienda allo sviluppo e alla sicurezza dell’IA. Anthropic si impegna nella ricerca empirica sui sistemi di IA avanzati ed è pioniera in aree come la supervisione scalabile e l’apprendimento orientato ai processi, mirando a creare sistemi di IA fondamentalmente più sicuri e allineati con i valori umani.
Anthropic ha sviluppato una Responsible Scaling Policy, impegnandosi a sviluppare modelli più avanzati solo se possono essere soddisfatti rigorosi standard di sicurezza. Inoltre, l’azienda investe pesantemente nell’interpretabilità meccanicistica, cercando di comprendere veramente il funzionamento interno dei suoi modelli.
Per quanto riguarda i “guardrail” dei modelli, Anthropic va oltre le tecniche tradizionali come il RLHF (Reinforcement Learning from Human Feedback). Ha infatti sviluppato la Constitutional AI, un approccio innovativo per addestrare i modelli di IA a seguire principi etici e comportarsi in modo sicuro attraverso l’auto-supervisione e il dibattito. Piuttosto che bloccare semplicemente modelli di testo specifici, Anthropic si concentra sull’addestramento dei suoi modelli a comprendere e seguire processi sicuri.
L’approccio di Anthropic alla sicurezza è multistrato e affronta la questione in ogni fase dello sviluppo e dell’implementazione dell’IA, utilizzando sia lA Constitutional AI per addestrare il carattere di Claude, sia classificatori e filtri per individuare input potenzialmente dannosi o illegali.
Tra le sfide più pressanti su cui Anthropic sta lavorando c’è la supervisione scalabile per sistemi di IA sempre più capaci. L’azienda è particolarmente preoccupata di come mantenere un’efficace supervisione umana quando le capacità dell’IA potenzialmente superano le prestazioni a livello umano in molti domini. Un’altra questione delicata è la cosiddetta “robustezza avversariale”, che coinvolge lo sviluppo di tecniche per rendere gli LLM sostanzialmente meno facili da jailbreakare. Con i futuri sistemi altamente capaci, i rischi del jailbreaking diventano infatti ancora più grandi ed è quindi importante sviluppare tecniche che li rendano robusti a questi tipi di attacchi.
L’obiettivo finale di Anthropic va comunque oltre la creazione di modelli di IA sicuri, spingendosi fino all’obiettivo (a dir poco ambizioso) di stabilire un nuovo standard per lo sviluppo etico dell’IA che dia priorità al benessere umano e al beneficio sociale a lungo termine.