Disastro CrowdStrike, perché è successo e cosa abbiamo imparato

Oltre 5,4 miliardi di dollari. È questa la perdita finanziaria totale che secondo Parametrix avrebbero subito le aziende statunitensi Fortune 500 (esclusa Microsoft) a seguito dell’interruzione dei servizi causata dal disastro CrowdStrike del 19 luglio scorso.

La perdita media si aggirerebbe sui 44 milioni di dollari per ogni azienda, ma varia da 6 milioni di dollari (settore manifatturiero) a 143 milioni di dollari (compagnie aeree). E i risarcimenti che arriveranno dalle polizze di assicurazione IT probabilmente non supereranno il 10-20%, a causa delle ampie ritenute di rischio di molte aziende e dei bassi massimali rispetto alle perdite potenziali dovute all’interruzione del servizio.

Un’infrastruttura digitale globale troppo vulnerabile

Ricordiamo che diffondendo un aggiornamento ai suoi software per i sistemi Windows, CrowdStrike ha causato l’interruzione di servizi IT a livello globale. Un bug in tale aggiornamento ha infatti provocato la comparsa sugli schermi della tipica blue screen of death.

L’ampia diffusione del guasto e la gravità dell’impatto prodotto hanno evidenziato la vulnerabilità dell’infrastruttura digitale globale. Si sono avuti blocchi delle attività in tutti i settori, dalla sanità alle banche, dalla finanza ai trasporti fino al manifatturiero.

Gli effetti del disastro CrowdStrike vanno però oltre le implicazioni finanziarie immediate. Hanno evidenziato quanto cruciale sia l’interconnessione delle economie digitali globali, ma anche quanto sia critico il ruolo della sicurezza informatica nel garantire il regolare funzionamento dei servizi essenziali. Hanno fatto capire a tutti la necessità di una maggiore resilienza delle strategie di cyber security per proteggersi da future interruzioni e salvaguardare il benessere della società.

Perché per il recovery ci sono voluti parecchi giorni?

Va precisato che CrowdStrike ha reso velocemente disponibile una patch per il bug dell’aggiornamento e ha collaborato attivamente con i clienti di tutto il mondo per ripristinare i sistemi Windows interessati dal problema. Nonostante ciò, la ripresa delle attività non è stata rapida.

Anzitutto, le indicazioni di CrowdStrike per rimediare al bug richiedevano un riavvio dei sistemi Windows, che doveva avvenire in modalità provvisoria o all’interno dell’ambiente di ripristino. Inoltre, bisognava eliminare manualmente il file di aggiornamento difettoso all’interno di una directory CrowdStrike. Questo nei dispositivi Windows non gestiti o remoti ha richiesto l’accesso fisico degli amministratori, con ovvi allungamenti dei tempi di ripristino.

Disastro CrowdStrike, distribuzione troppo rapida dell’aggiornamento

Tuttavia, il danno più significativo del disastro CrowdStrike non è stato causato tanto (o non solo) dall’aggiornamento in sé, quanto dal processo di distribuzione del software. Si è avuta la dimostrazione pratica che, in una rete interconnessa e complessa di software e servizi che fanno capo al cloud, una distribuzione di aggiornamenti troppo rapida e con così tanti destinatari può avere conseguenze catastrofiche.

Futurum Group sottolinea come sia importante poter rilevare rapidamente l’impatto negli ambienti dei clienti di un bug imprevisto. Bisognerebbe, infatti, prevedere il rilascio degli aggiornamenti in più fasi a gruppi di dispositivi o utenti.

Operando in tal modo, prima di procedere a un rollout più ampio o completo, è possibile assicurarsi che non si creino problemi di servizio, compatibilità, sicurezza o di altro tipo. Una distribuzione controllata e gestita in fasi consente di ridurre al minimo il rischio di interruzioni diffuse.

Soluzioni complesse, che mettono a rischio la sicurezza

Come detto, a provocare il blocco di sistemi non è stato un incidente di sicurezza. Tutto è dipeso da un aggiornamento gestito in modo errato.

Tuttavia, il danno risultante ha avuto un’ampia diffusione per la complessità che presenta la soluzione del problema, che richiede un accesso privilegiato al kernel del software. Questo accesso di basso livello estende la superficie di attacco potenziale. E quanto è successo ha dimostrato che anche un bug in un aggiornamento può infliggere gravi danni e che questi possono diffondersi rapidamente e su vasta scala a fronte del crescente uso dell’automazione e delle architetture software-defined.

Il disastro CrowdStrike ha ricordato ancora una volta quanto sia importante una gestione efficace delle patch da parte dei fornitori di software. Ma ha anche evidenziato che, purtroppo, sono ancora gli utenti i responsabili dell’affidabilità della loro supply chain di software.

Non è una cosa di poco conto. Oggi le aziende usano svariati strumenti di sicurezza, e secondo i dati di Futurum Group, in risposta alla rapida evoluzione delle minacce, nel 2024 più della metà delle organizzazioni prevede di aggiungere un nuovo fornitore di sicurezza informatica e il 45% di integrare una nuova categoria di prodotti di sicurezza informatica.

Aumenta quindi la complessità delle attività dei team che si occupano di operation e sicurezza IT, ma è anche sempre più critica la resilienza dei sistemi e delle procedure per limitare i rischi e rimediare agli incidenti, non solo in seguito a un attacco informatico, ma anche in caso di errori umani e altri eventi disastrosi.

Le norme, utili o limitative? Il caso di DORA

Al di là dell’inconveniente tecnico, il disastro CrowdStrike ha messo in luce una questione più profonda: le criticità nelle pratiche di sicurezza che hanno portato alcuni vincoli normativi.

Per esempio, sono in molti a ritenere che un accordo del 2009 tra la Commissione Europea e Microsoft abbia limitato la capacità della stessa Microsoft di implementare più severe misure di sicurezza. Questa situazione dovrebbe offrire preziose indicazioni agli sviluppatori, stimolandoli a dare priorità a pratiche di sviluppo solide e a essere sempre adeguatamente informati riguardo a un panorama normativo in continua evoluzione.

Operativo da gennaio 2024, il Digital Operational Resilience Act (DORA) è un esempio di questa tendenza. DORA mira a stabilire un quadro completo per la resilienza operativa digitale nel mondo finanziario, garantendo che le aziende del settore possano resistere, rispondere e riprendersi da tutti i tipi di interruzioni e minacce legate all’ICT. DORA è una dimostrazione di regolamento che impone requisiti rigorosi ai fornitori di cyber security, come CrowdStrike, in modo da avere sistemi robusti e resilienti.

Indicazioni utili

Il disastro CrowdStrike ha avuto una portata tale che con tutta probabilità accelererà l’applicazione di nuove normative come DORA, soprattutto nell’UE, dove le autorità di regolamentazione pongono particolare attenzione alla sicurezza informatica. Da parte loro, le aziende dovranno dimostrare non solo la conformità a queste normative, ma anche un approccio proattivo all’identificazione e mitigazione delle vulnerabilità. Un esempio arriva dalla NIS2, che sarà attiva da ottobre 2024.

Man mano che la cyber security sarà più regolamentata, per mantenere la loro posizione sul mercato gli operatori del settore cybersecurity dovranno adattarsi ai nuovi questi standard. Per garantire la resilienza a lungo termine e la fiducia nei propri servizi, dovranno assumere un ruolo sempre più strategico, avere una vigilanza continua e adeguarsi prontamente alle nuove normative.

Nell’immagine di apertura: Monitor fuori uso all’Aeroporto di Denver il 19 luglio 2024. Riconoscimento editoriale: CLS Digital Arts / Shutterstock.com