La continuità aziendale (o business continuity) è una parte essenziale del processo di pianificazione per CIO e CTO. Alcuni eventi non possono essere previsti, ma alcuni possono essere pianificati e addirittura previsti in anticipo. La continuità aziendale riguarda la valutazione del panorama delle minacce e l’adozione di piani, aiuta ad affrontare le minacce prevedibili e crea resilienza operativa contro le minacce.

Il panorama delle minacce

Una best practice per i team dirigenziali consiste nel pensare costantemente al panorama delle minacce, identificare potenziali problemi e prepararsi per affrontarli. Non farlo può avere un impatto finanziario significativo sulle aziende.

Un insieme non esaustivo di eventi che potrebbe essere necessario pianificare sono:

  • Minacce geopolitiche (ad esempio, l’invasione russa dell’Ucraina)
  • Catastrofi naturali (es. terremoti)
  • Minacce dirette (ad es. ransomware)
  • Cambiamenti normativi

Alcune di queste minacce richiedono l’implementazione e l’esecuzione anticipate. Altre richiedono un piano in atto per garantire che il team sappia quali sono gli obiettivi chiave e le azioni da intraprendere di fronte a una minaccia. I CIO e i CTO devono monitorare costantemente il panorama delle minacce e aggiornarlo se necessario. Soluzioni come le certificazioni SOC-2 consentono un’ispezione esterna di alcune superfici che potrebbero .

Pianificazione delle minacce geopolitiche

In Inflection, l’azienda in cui lavoro come CTO, la pianificazione di possibili interruzioni dell’attività legate alla guerra in Ucraina è iniziata con un anno e mezzo di anticipo rispetto al conflitto vero e proprio. Abbiamo formulato una serie di principi e costruito un piano basato su tali principi. In questo caso, i principi chiave che abbiamo utilizzato sono stati:

  • Costruire un team geograficamente diversificato. Oltre all’Ucraina, abbiamo costruito una presenza sostanziale negli Stati Uniti e in Brasile.
  • Costruire diversità nel lavoro. Anziché disporre di silos funzionali completi in ciascuna regione, abbiamo chiesto ai team di collaborare tra le regioni. Ci sono aspetti negativi in questo (comunicazione aggiuntiva, ad esempio) ma per noi è stato il giusto compromesso.
  • Dare priorità alla sicurezza dei dipendenti e degli appaltatori. Sappiamo che un evento geopolitico potrebbe avere ulteriori implicazioni finanziarie per garantire la sicurezza e siamo stati d’accordo nello spendere soldi aggiuntivi per garantire la sicurezza. La mia azienda ha offerto tre mesi di spese di soggiorno ai membri del team in Ucraina per trasferirsi in un luogo diverso, oltre a prendersi cura della logistica e delle buste paga.

Questi passaggi proattivi ci hanno permesso di dare la priorità alla sicurezza dei dipendenti garantendo al contempo la continuità aziendale.

Un approfondimento sulla pianificazione della disponibilità del software

Un esempio di pianificazione proattiva è legato ai disastri naturali. Qual è il piano della vostra organizzazione se un disastro come un terremoto dovesse colpire la regione in cui si trova il vostro data center? L’esempio seguente funzionerà supponendo che stiate utilizzando un fornitore di cloud pubblico.

Un punto di partenza per la pianificazione della disponibilità è la promessa che fate ai clienti in merito ai tempi di attività. Il benchmark di uptime SaaS standard è una disponibilità del 99,95%, che corrisponde a 4h 22m 58s di indisponibilità consentita annualmente. Nella pianificazione è necessario pensare a:

  • Qual è il vostro RTO (Recovery Time Objective) e RPO (Recovery Point Objective) quando si verifica un incidente? Per prendere decisioni, è necessario un accordo su queste metriche.
  • Qual è l’assicurazione alla base della piattaforma su cui vi trovate? I fornitori cloud in genere non offrono alcuna garanzia di uptime.
  • Quale dovrebbe essere il vostro piano se un data center perde disponibilità?
  • Quale dovrebbe essere il vostro piano se una regione (più zone di disponibilità) subisce un’interruzione?
  • Qual è il vostro piano se il fornitore (più regioni) non è disponibile?

Close up on a red panic button with the text Distaster Recovery with blur effect. Concept image for illustration of DRP, business continuity and crisis communication.

L’obiettivo della pianificazione è avere una posizione chiara per ciascuna di queste domande. Dovreste puntare a un’elevata disponibilità tramite più zone di disponibilità? Per la maggior parte delle organizzazioni questa è una decisione semplice: il supporto di più zone di disponibilità in AWS non è complesso e può essere fatto con una spesa e una complessità relativamente ridotte.

Cosa dovreste fare se si verifica un’interruzione regionale (una tipica situazione di disaster recovery)? La sincronizzazione interregionale è complessa e costosa e poche organizzazioni scelgono di farla. Invece, potreste scegliere di eseguire il backup dei vostri dati in un’altra regione e fare in modo che il vostro RTO/RPO rifletta il fatto che il vostro compromesso è un ripristino più lungo a favore di un’architettura più semplice.

Cosa succede invece se si verifica un’interruzione completa per un fornitore di servizi cloud? Fare implementazioni tra fornitori è estremamente complesso e costoso. Nella maggior parte dei casi, è sufficiente un backup dei dati su un provider cloud diverso. Ma se gestite una grande azienda, probabilmente vi starete già affidando a più fornitori cloud sia per motivi di costo, sia di scala.

Tenendo conto di tutto ciò, un piano deve essere formulato e concordato dai dirigenti dell’azienda. Quando si verifica un evento, devono essere messi in atto anche piani di comunicazione (ad esempio, come informeremo i clienti?) e, soprattutto, i piani devono essere testati. Questi piani saranno privi di significato a meno che non vengano praticati regolarmente.

Nella mia azienda, ho scelto di prendere le seguenti decisioni:

  • Supportare l’alta disponibilità distribuendo in più zone di disponibilità. La perdita di un singolo data center è impercettibile per i clienti.
  • Sincronizzare i dati tra più regioni per supportare un RPO inferiore a 24 ore e un RTO inferiore a 72 ore per un disastro regionale.
  • Sincronizzare i dati con un fornitore di servizi cloud secondario per garantire che in caso di interruzione completa di un fornitore di servizi cloud, possiamo ancora recuperare.
  • Infine, eseguiamo il ripristino del database ogni anno e testiamo il ripristino di emergenza ogni trimestre.

Pianificazione contro le minacce dirette

Minacce come il ransomware sono aumentate in modo significativo negli ultimi anni. Per affrontarle, consiglio di:

  • Ottenere la certificazione SOC-2 e garantire che i vostri processi siano paragonabili ai migliori del settore
  • Garantire che i dati inattivi e in transito siano sempre crittografati
  • Impegnarsi con i programmi di ricompensa dei bug
  • Avere agenzie esterne che eseguono test di penetrazione
  • Garantire che le macchine dei dipendenti siano crittografate e dispongano di un’adeguata protezione software contro malware, phishing e altri attacchi
  • Assicurarsi

Pre-mortem

Un esercizio utile da considerare per i leader è un “pre-mortem”. Nel pensare alla continuità aziendale, è infatti meglio essere proattivi piuttosto che reattivi. Un pre-mortem è l’opposto di un post-mortem. Mentre quest’ultimo (come un’autopsia) ci permette di analizzare cosa è andato storto (dopo che è già successo), un approccio pre-mortem serve a chiedersi cosa potrebbe andare storto e come potremmo impedire che ciò accada. Un simile approccio consente una pianificazione più approfondita della continuità aziendale.