Skeleton Key è un prompt che fa il jailbreak dei principali LLM
Si chiama Skeleton Key ed è una tecnica che permette di aggirare le misure di sicurezza implementate dai creatori di LLM per impedire ai chatbot generativi di produrre contenuti nocivi.
Questa tecnica, i cui dettagli sono stati forniti nei giorni scorsi da Microsoft, può essere utilizzata per indurre LLM come Meta Llama3-70b-instruct, Google Gemini Pro o Anthropic Claude 3 Opus a fornire istruzioni su come creare, ad esempio, una bomba Molotov. Sebbene la composizione di questo dispositivo incendiario non sia chissà quale segreto, le aziende di IA hanno sempre sostenuto di lavorare per sopprimere i contenuti potenzialmente dannosi presenti nei dati di addestramento.
Questo compito si rivela particolarmente complesso, poiché i modelli linguistici di grandi dimensioni vengono addestrati su una vasta gamma di dati, alcuni dei quali possono essere di natura controversa o persino illegale. Tuttavia, tali informazioni sono spesso necessarie per permettere ai chatbot di rispondere in modo appropriato a domande su temi come la sicurezza informatica.
Skeleton Key dimostra che questi rischi non sono ancora stati completamente affrontati. Mark Russinovich, CTO di Microsoft Azure, ha inizialmente discusso di questo attacco di tipo jailbreak durante la conferenza Microsoft Build di maggio.
L’attacco funziona attraverso un semplice prompt testuale che induce il modello a rivedere, anziché abbandonare, le sue istruzioni di sicurezza. Microsoft ha testato questa tecnica su vari LLM di diverse aziende, valutando una serie di compiti in diverse categorie di contenuti a rischio.
È importante notare che questo tipo di attacco richiede che l’utente abbia già accesso legittimo al modello IA. Tuttavia, una volta aggirate le misure di sicurezza, Skeleton Key permette all’utente di far produrre al modello comportamenti normalmente proibiti. Microsoft ha annunciato vari strumenti di sicurezza IA che i clienti Azure possono utilizzare per mitigare il rischio di questo tipo di attacco, incluso un servizio chiamato Prompt Shields.
Vinu Sankar Sadasivan, un dottorando dell’Università del Maryland, ha commentato che l’attacco Skeleton Key sembra essere efficace nel violare vari modelli, ma ha anche sottolineato che esistono attacchi avversari più robusti, come Greedy Coordinate Gradient o BEAST, che potrebbero potenzialmente ingannare gli LLM facendo loro credere che l’input o l’output non sia dannoso.