Secondo il The Open Group Architecture Framework (TOGAF), l’architettura dei dati (data architecture) descrive la struttura delle risorse di dati logiche e fisiche e delle risorse di gestione dei dati di un’organizzazione. È un ramo dell’architettura aziendale che comprende i modelli, le policy, le regole e gli standard che governano la raccolta, l’archiviazione, la disposizione, l’integrazione e l’uso dei dati nelle organizzazioni. L’architettura dei dati di un’organizzazione è di competenza degli architetti dei dati.

Obiettivi dell’architettura dei dati

L’obiettivo dell’architettura dei dati è tradurre le esigenze aziendali in dati e requisiti di sistema e gestire i dati e il relativo flusso all’interno dell’azienda.

Principi dell’architettura dei dati

Secondo Joshua Klahr, vice president product management, core products di Splunk, sono sei i principi che costituiscono la base della moderna architettura dei dati:

  • I dati sono una risorsa condivisa. Una moderna architettura dei dati deve eliminare i silos di dati dei dipartimenti e fornire a tutte le parti interessate una visione completa dell’azienda.
  • Gli utenti richiedono un accesso adeguato ai dati. Oltre ad abbattere i silos, le moderne architetture di dati devono fornire interfacce che rendano facile agli utenti consumare i dati utilizzando strumenti adatti al loro lavoro.
  • La sicurezza è essenziale. Le moderne architetture di dati devono essere progettate per la sicurezza e devono supportare le policy dei dati e i controlli di accesso direttamente sui dati grezzi.
  • I vocabolari comuni garantiscono una comprensione comune. Gli asset di dati condivisi, come i cataloghi dei prodotti, le dimensioni del calendario fiscale e le definizioni degli indicatori KPI, richiedono un vocabolario comune per evitare controversie durante l’analisi.
  • I dati dovrebbero essere curati. Investire in funzioni fondamentali che eseguono la cura dei dati (modellazione di relazioni importanti, pulizia di dati grezzi e cura di dimensioni e misure chiave).
  • I flussi di dati dovrebbero essere ottimizzati per l’agilità. Ridurre il numero di volte in cui i dati devono essere spostati per ridurre i costi, aumentare l’aggiornamento dei dati e ottimizzare l’agilità aziendale.

Componenti dell’architettura dei dati

Dataversity afferma che l’architettura dei dati può essere sintetizzata in tre componenti generali:

  • Risultati dell’architettura dei dati. Questi sono i modelli, le definizioni e i flussi di dati spesso indicati come artefatti dell’architettura dei dati.
  • Attività di architettura dei dati. Queste sono le forme, le distribuzioni e gli adempimenti delle intenzioni dell’architettura dei dati.
  • Comportamenti dell’architettura dei dati. Queste sono le collaborazioni, le mentalità e le competenze dei vari ruoli che influenzano l’architettura dei dati di un’azienda.

geometric_architecture_ceiling_structure_lines_connections_networks_perspective_by_brandon_mowinkel_cc0_via_unsplash_2400x1600-100788530-large

Architettura dei dati e modellazione dei dati

Secondo il Data Management Book of Knowledge (DMBOK 2), l’architettura dei dati definisce il progetto per la gestione delle risorse di dati allineandosi alla strategia organizzativa per stabilire requisiti di dati strategici e progettare per soddisfare tali requisiti. D’altra parte, DMBOK 2 definisce la modellazione dei dati come “il processo di scoperta, analisi, rappresentazione e comunicazione dei requisiti dei dati in una forma precisa chiamata modello dei dati”.

Mentre sia l’architettura dei dati, sia la modellazione dei dati cercano di colmare il divario tra gli obiettivi aziendali e la tecnologia, l’architettura dei dati riguarda la vista macro che cerca di comprendere e supportare le relazioni tra le funzioni, la tecnologia e i tipi di dati di un’organizzazione. La modellazione dei dati offre invece una visione più mirata su sistemi o casi aziendali specifici.

Framework di architettura dei dati

Esistono diversi framework di architettura aziendale.

  • DAMA-DMBOK 2. Il Data Management Body of Knowledge di DAMA International è un framework specifico per la gestione dei dati. Fornisce definizioni standard per funzioni di gestione dei dati, risultati finali, ruoli e altra terminologia e presenta i principi guida per la gestione dei dati.
  • Zachman Framework per Enterprise Architecture. Zachman Framework è un’ontologia aziendale creata da John Zachman in IBM negli anni ’80. La colonna “dati” di Zachman Framework comprende più livelli, inclusi standard architetturali importanti per il business, un modello semantico o un modello di dati concettuale / aziendale, un modello di dati logico / aziendale, un modello di dati fisico e database effettivi.
  • Open Group Architecture Framework (TOGAF). TOGAF è una metodologia dell’architettura aziendale che offre un framework di alto livello per lo sviluppo di software aziendale. La fase C di TOGAF copre lo sviluppo di un’architettura dati e la costruzione di una roadmap dell’architettura dati.

Caratteristiche della moderna architettura dei dati

Le moderne architetture di dati devono essere progettate per sfruttare le tecnologie emergenti come l’intelligenza artificiale (AI), l’automazione, l’internet delle cose (IoT) e la blockchain. Dan Sutherland, CTO di IBM, afferma che le moderne architetture di dati dovrebbero avere le seguenti caratteristiche in comune:

  • Cloud-native. Le moderne architetture di dati sono progettate per supportare scalabilità elastica, alta disponibilità, sicurezza end-to-end per i dati in movimento e dati inattivi e scalabilità di costi e prestazioni.
  • Pipeline di dati scalabili. Per sfruttare le tecnologie emergenti, le architetture di dati supportano lo streaming di dati in tempo reale e le raffiche di dati in micro-batch.
  • Perfetta integrazione dei dati. Le architetture dei dati si integrano con le applicazioni legacy utilizzando interfacce API standard. Sono ottimizzati per la condivisione dei dati tra sistemi, aree geografiche e organizzazioni.
  • Abilitazione dei dati in tempo reale. Le moderne architetture di dati supportano la capacità di implementare convalida, classificazione, gestione e governance automatizzate e attive dei dati.
  • Disaccoppiato ed estensibile. Le moderne architetture di dati sono progettate per essere liberamente accoppiate, consentendo ai servizi di eseguire attività minime indipendentemente da altri servizi.

Ruoli dell’architettura dei dati

Ecco alcune delle figure lavorative più popolari relativi all’architettura dei dati.

  • Data architect
  • Project manager
  • Solutions architect
  • Data engineer
  • Data analyst
  • Data scientist