A sei giorni da uno degli incidenti informatici più gravi di sempre, l’azienda di cybersecurity CrowdStrike (responsabile dell’incidente) ha pubblicato il documento Preliminary Post Incident Review (PIR), che analizza nel dettaglio ciò che è avvenuto e offre una guida per il ripristino dei sistemi colpiti.

Come ormai sappiamo, l’incidente si è verificato a seguito del rilascio di un aggiornamento di configurazione del contenuto per il sensore Windows, parte integrante della piattaforma di sicurezza Falcon di CrowdStrike. Questo aggiornamento, rilasciato alle ore 04:09 UTC del 19 luglio, era finalizzato a raccogliere dati su potenziali nuove tecniche di minaccia, ma ha involontariamente causato il crash dei sistemi Windows interessati.

L’incidente ha coinvolto i sistemi Windows che eseguivano la versione 7.11 o successive del sensore Falcon e che erano online tra le 04:09 UTC e le 05:27 UTC del 19 luglio 2024; da notare che i sistemi Mac e Linux non sono stati coinvolti. CrowdStrike ha prontamente identificato e corretto il difetto nell’aggiornamento del contenuto, revocandolo alle 05:27 UTC dello stesso giorno. Di conseguenza, i sistemi che si sono connessi dopo questo orario o che non erano attivi durante la finestra temporale critica non hanno subito alcun impatto.

Per comprendere appieno l’incidente, è necessario esaminare la struttura del sistema di aggiornamento di CrowdStrike. L’azienda distribuisce gli aggiornamenti di configurazione della sicurezza ai suoi sensori in due modalità principali:

  • Sensor Content: Questo tipo di contenuto viene fornito direttamente con il sensore e non viene aggiornato dinamicamente dal cloud. Include modelli di intelligenza artificiale e machine learning integrati nel sensore, oltre a codice scritto appositamente per fornire capacità a lungo termine e riutilizzabili per gli ingegneri di rilevamento delle minacce di CrowdStrike
  • Rapid Response Content: Questo contenuto è progettato per rispondere rapidamente al panorama delle minacce in continua evoluzione. Utilizza un motore altamente ottimizzato per eseguire varie operazioni di corrispondenza dei modelli comportamentali sul sensore.

windows

L’incidente del 19 luglio ha coinvolto un aggiornamento del Rapid Response Content che conteneva un errore non rilevato. Il processo di rilascio e test per il Sensor Content è rigoroso e include test automatizzati, test manuali, validazione e fasi di distribuzione graduali. Tuttavia, il Rapid Response Content, pur essendo sottoposto a test, segue un processo diverso data la sua natura più dinamica.

L’incidente ha avuto origine da un bug nel sistema di validazione del contenuto, che ha permesso a un componente problematico di superare la validazione nonostante contenesse dati errati. Quando questa istanza è stata ricevuta dal sensore e caricata nel Content Interpreter (uno dei tre sistemi primari di cui si compone il Rapid Response Content), ha causato una lettura di memoria fuori dai limiti, risultando infine in un crash del sistema operativo Windows (BSOD).

In risposta a questo incidente, CrowdStrike ha delineato diverse misure per prevenire situazioni simili in futuro:

  • Miglioramento dei test del Rapid Response Contest attraverso implementazione di test locali per gli sviluppatori, potenziamento dei test di stabilità e perfezionamento dei test dell’interfaccia del contenuto
  • Miglioramento del sistema di validazione con l’implementazione di nuovi controlli per prevenire la distribuzione di contenuti problematici
  • Potenziamento della gestione degli errori
  • Modifiche alla strategia di distribuzione con l’implementazione di una strategia di distribuzione graduale per il Rapid Response Content e l’introduzione di un sistema di distribuzione “canary” per testare gli aggiornamenti su un gruppo limitato di sistemi prima della distribuzione generale
  • Maggiore controllo per i clienti, a cui viene offerta la possibilità di selezionare in modo granulare quando e dove distribuire questi aggiornamenti
  • Validazione di terze parti tramite la conduzione di molteplici revisioni indipendenti del codice di sicurezza da parte di terzi e l’esecuzione di revisioni indipendenti dei processi di qualità end-to-end, dallo sviluppo alla distribuzione