Cyber attacchi basati sulla IA generativa: quali sono e come difendersi
I criminali informatici possono deliberatamente confondere o addirittura “avvelenare” i sistemi di intelligenza artificiale per renderli malfunzionanti e, al momento, non esiste una difesa infallibile che gli sviluppatori possano impiegare. Il National Institute of Standards and Technology (NIST) ha identificato queste e altre vulnerabilità dell’IA e del machine learning in una nuova ricerca dal titolo Adversarial Machine Learning: A Taxonomy and Terminology of Attacks and Mitigations, che fa parte del più ampio sforzo del NIST per sostenere lo sviluppo di un’IA affidabile e aiutare a mettere in pratica l’AI Risk Management Framework.
La ricerca, frutto della collaborazione tra governo, università e industria, ha lo scopo di aiutare gli sviluppatori e gli utenti dell’IA a conoscere i tipi di attacchi che possono aspettarsi e gli approcci per mitigarli, con la consapevolezza che non esiste un metodo infallibile per ritenersi del tutto sicuri. “Stiamo fornendo una panoramica delle tecniche e delle metodologie di attacco che prendono in considerazione tutti i tipi di sistemi di IA” ha dichiarato Apostol Vassilev, uno degli autori dello studio. “Descriviamo anche le attuali strategie di mitigazione, ma queste difese disponibili attualmente non hanno garanzie solide e per questo incoraggiamo la comunità a proporre difese migliori”.
I sistemi di intelligenza artificiale hanno permeato la società moderna e sono stati integrati in funzioni che vanno dalla guida di veicoli all’aiuto ai medici nella diagnosi di malattie, fino all’interazione con i clienti tramite chatbot online. Per imparare a svolgere questi compiti, tali sistemi vengono addestrati su grandi quantità di dati. A un veicolo autonomo, ad esempio, possono essere mostrate immagini di autostrade e strade con segnali stradali, mentre un chatbot basato su un modello linguistico di grandi dimensioni (LLM) può essere esposto a registrazioni di conversazioni online. Questi dati aiutano l’intelligenza artificiale a prevedere come rispondere in una determinata situazione.
Un problema significativo è che i dati stessi potrebbero non essere affidabili. Le fonti possono essere siti web e interazioni con il pubblico e ci sono molte opportunità per i malintenzionati di corrompere questi dati, sia durante il periodo di addestramento di un sistema di IA, sia in seguito, mentre l’IA continua a perfezionare i suoi comportamenti interagendo con il mondo fisico. Questo può far sì che l’IA si comporti in modo indesiderato. I chatbot, ad esempio, potrebbero imparare a rispondere con un linguaggio offensivo o razzista quando le loro barriere di sicurezza vengono aggirate da messaggi accuratamente realizzati.
“Nella maggior parte dei casi, gli sviluppatori di software hanno bisogno che più persone utilizzino il loro prodotto, in modo che possa migliorare con l’esposizione”, ha detto Vassilev. “Ma non è detto che questa ampia esposizione sia positiva. Un chatbot può infatti fornire informazioni negative o tossiche quando viene sollecitato con un linguaggio attentamente studiato”.
E dal momento che gli insiemi di dati utilizzati per addestrare un’intelligenza artificiale sono troppo grandi per essere monitorati e filtrati con successo, non c’è ancora un modo infallibile per proteggere l’intelligenza artificiale da un’indicazione errata. Per aiutare la comunità degli sviluppatori a proteggersi nel miglior modo possibile, la ricerca del NIST prende in considerazione i quattro principali tipi di attacchi contro i sistemi IA (evasion, poisoning, privacy e abuse), classificandoli in base a diversi criteri come scopi, obiettivi, capacità e conoscenze dell’attaccante.
- Gli attacchi di evasion, che si verificano dopo l’implementazione di un sistema di intelligenza artificiale, tentano di alterare un input per modificare la risposta del sistema. Ad esempio, l’aggiunta di segnaletica ai segnali di stop per far sì che un veicolo autonomo li interpreti erroneamente come segnali di limite di velocità o la creazione di segnaletica di corsia confusa per far deviare il veicolo dalla strada.
- Gli attacchi di poisoning si verificano nella fase di addestramento, introducendo dati corrotti. Un esempio potrebbe essere l’inserimento di numerosi casi di linguaggio inappropriato nelle registrazioni delle conversazioni, in modo che un chatbot interpreti questi casi come un linguaggio abbastanza comune da utilizzare nelle proprie interazioni con i clienti.
- Gli attacchi alla privacy, che si verificano durante l’implementazione, sono tentativi di apprendere informazioni sensibili sull’IA o sui dati su cui è stata addestrata, al fine di farne un uso improprio. Un attaccante può ad esempio porre a un chatbot numerose domande legittime e poi usare le risposte per fare reverse engineering del modello in modo da trovare i suoi punti deboli o scoprire le sue fonti. L’aggiunta di esempi indesiderati a queste fonti online potrebbe indurre l’intelligenza artificiale a comportarsi in modo inappropriato e farle disimparare quegli specifici esempi indesiderati dopo il fatto può essere difficile.
- Gli attacchi di abuse prevedono l’inserimento di informazioni errate in una fonte, come una pagina web o un documento online, che l’IA assorbe. A differenza dei già citati attacchi di poisoning, gli attacchi di abuse tentano di fornire all’IA informazioni errate provenienti da una fonte legittima ma compromessa, al fine di riformulare l’uso previsto dal sistema di IA.
“La maggior parte di questi attacchi è abbastanza facile da realizzare e richiede una conoscenza minima del sistema di IA e capacità di attacco limitate” ha dichiarato la coautrice della ricerca Alina Oprea, docente della Northeastern University. “Gli attacchi di poisoning, ad esempio, possono essere eseguiti controllando poche decine di campioni di addestramento, che rappresentano una percentuale molto piccola dell’intero set di addestramento”.
Gli autori dello studio, che comprendono anche i ricercatori di Robust Intelligence Inc. Alie Fordyce e Hyrum Anderson, suddividono ciascuna di queste classi di attacchi in sottocategorie e propongono approcci per mitigarli, anche se riconoscono che le difese che gli esperti di IA hanno finora ideato per gli attacchi avversari sono a dir poco incomplete. La consapevolezza di queste limitazioni è importante per gli sviluppatori e le organizzazioni che intendono implementare e utilizzare l’IA.
“Nonostante i notevoli progressi compiuti dall’IA e dal machine learning, queste tecnologie sono vulnerabili ad attacchi che, nel peggiore dei casi, possono portare anche a conseguenze disastrose. Ci sono problemi teorici di sicurezza degli algoritmi di IA che semplicemente non sono ancora stati risolti. E se qualcuno dice il contrario, non credetegli”, conclude Vassilev.