Data Fabric: uno strumento per mettere ordine nella babele dei dati
Indice dell'articolo
La capacità di analizzare i dati in modo sempre più intensivo per ricavarne valore e informazioni utili al business ha negli ultimi anni fatto crescere l’interesse delle aziende verso il proprio patrimonio informativo, e quindi gli investimenti per cercare di trarne il maggior ricavo possibile.
La situazione di partenza è quanto mai variegata: nelle aziende ci sono silos informativi di diversi sistemi che spesso non comunicano tra di loro, sempre più dati provenienti da sensori e canali digitali, e un’enorme quantità di dati non strutturati presenti nei documenti. Si moltiplicano anche le figure professionali e funzioni interessate ad accedere a quei dati e metterli a frutto: business analyst, data scientist, attività di machine learning…
L’industria IT sta quindi seguendo diversi filoni di pensiero per tentare di soddisfare una richiesta molto difficile: mappare e organizzare una mole di dati eterogenea e in continuo movimento, per rendere disponibili a diverse figure e organizzazioni interne le informazioni per loro rilevanti. Il tutto, ovviamente, prima di subito.
È un tema molto complesso, sul quale abbiamo avuto modo di confrontarci con Riccardo Piva, Senior Manager di Iconsulting, azienda di consulenza bolognese nata 22 anni fa nell’ambiente della ricerca accademica e che lavora sui temi della data analytics e business intelligence con un team che oggi conta quasi 400 persone.
“Le figure che oggi in azienda si occupano di data science e machine learning sono molto diverse dagli analisti di business che vengono dal mondo dei dati strutturati, racconta Piva a DigitalWorld. Sono persone esperte in parte di business e in parte di tecnologia. Non hanno bisogno di far quadrare la virgola in un report, ma di avere velocemente i dati necessari a costruire un modello. Questo ha fatto nascere nuovi approcci alla gestione del dato, in particolare data fabric e data mesh, che permettessero di superare il modello Data warehouse, nel quale nel corso degli anni si sono strutturati processi complessi, insieme a criteri di privacy, creando diverse stratificazioni che richiedono competenze molto specifiche per l’accesso al dato”.
Quali problemi risolve il data fabric
“In questo contesto, è emerso il paradigma data fabric, che vuole fare evolvere il concetto del Logical Data Warehouse, un livello di virtualizzazione posizionato a un livello superiore rispetto ai diversi ambienti di storage. Questo livello virtuale permette di vedere il dato come un unico mondo, non spezzettato, a cui si accede da un unico percorso. Il Data Fabric è una ulteriore evoluzione del Logical Data Warehouse: non un cappello che copre tutto il sistema, ma scende nelle tecnologie svolgendo il ruolo di collante, ragionando in termini di metadato”, spiega Piva.
I metadati non sono certo un concetto nuovo, ma secondo Piva la loro applicazione completa e costantemente aggiornata è rarissima da trovare nelle aziende, per via dell’enorme dispendio di tempo ed energie necessarie alla continua classificazione dei dati.
“Ci sono molte aziende che hanno comunque fatto gran parte di questo lavoro, ma non riescono a sfruttarlo compiutamente – afferma Piva – Il Data Fabric permette di usare il metadato in una modalità diversa. Oltre a raccogliere e collezionare i metadati, permette attraverso diversi strumenti di fare una visualizzazione descrittiva dei dati, stabilire collegamenti e relazioni tra di essi per arrivare a costruire un knowledge graph che consenta di attivare processi automatici per gestire i sistemi”.
Analizzare i processi per ottimizzare le operation
Il data fabric si presta particolarmente ad aziende che abbiano una gestione del dato già matura, con una data platform e che faccia uso del cloud, dove per esempio, potrebbero essere stati attivati numerosi processi di data ingestion e differenti strumenti per trasformare questi dati.
La scelta dei tipo di storage e degli engine da usare per l’analisi è quanto mai ampia: Spark su Object Storage, MPP su AWS, data warehouse, engine relazionali Datalakes. Altrettanto variegate sono le soluzioni per soddisfare le richieste degli utenti relative a quei dati: report, dashboard, visualizzazioni, applicazioni…
“Il Data Fabric permette di vedere in una dashboard il grafo della struttura dati, potendo vedere in concreto qual è il loro effettivo utilizzo. Sapendo quanto occupa una tabella di ordini, quante volte viene caricata, a quanti errori è soggetta e quanto effettivamente viene utilizzata, posso stimarne il costo e fare scelte più oculate (con che frequenza devo aggiornare il dataset? Serve davvero passare allo streaming real-time, o è uno spreco economico?)”, sottolinea Piva, aggiungendo che è possibile automatizzare questo tipo di analisi e orchestrazione di risorse anche con l’intelligenza artificiale.
Organizzazione interna e democratizzazione del dato
Detto ciò, non tutto è automatizzabile, e per poter lavorare in questo modo è necessario fare un grande lavoro di analisi, definendo i domini interni di competenza e mappando i dati su un organigramma aziendale. Potrebbero essere necessari interventi sull’organizzazione interna e i flussi di lavoro, motivo per cui secondo Piva il ricorso a una struttura specializzata sia sotto il profilo tecnico, sia sotto quello della consulenza aziendale.
Questi aspetti sono condivisi anche dall’approccio Data Mesh, che indirizza le stesse problematiche del Data Fabric in modo molto diverso ma non necessariamente incompatibile. “Sono due idee molto simili, spesso viste ingiustamente in contrapposizione. In ogni caso, il Data Mesh può essere un progetto enorme da mettere a terra, in particolare con processi non moderni. Richiede una trasformazione radicale dei propri processi, prevede ruoli che spesso non esistono e tecnologie che vanno ancora perfezionate, nonostante la presenza di una documentazione molto ampia”.
In passato processi di condivisione dei dati in azienda venivano osteggiati da persone nelle business unit un po’ gelose delle proprie informazioni, sulle quali temevano di perdere il controllo. Secondo Piva, abbiamo un po’ superato questi problemi, soprattutto nelle aziende che hanno già centralizzato le data platform con gli enterprise data warehouse, perché hanno anche introdotto un layer semantico centrale e attivato strumenti di data catalog con funzionalità di data marketplace che permettono la democratizzazione del dato, che è diventato bene comune aziendale e del quale tutti comprendono il valore.