I data lakehouse offrono alle aziende un vantaggio nell’analisi dei dati
Per le aziende che cercano di ottenere il massimo valore dai propri dati, soprattutto in tempo reale, il concetto di data lakehouse sta iniziando a prendere sempre più piede. L’idea alla base del data lakehouse è di fondere insieme il meglio di ciò che i data lake e i data warehouse hanno da offrire, afferma l’analista di Gartner Adam Ronthal. I data warehouse consentono alle aziende di archiviare grandi quantità di dati strutturati con schemi ben definiti. Sono progettati per supportare un gran numero di query simultanee e per fornire rapidamente i risultati a molti utenti simultanei.
I data lake consentono invece alle aziende di raccogliere dati grezzi e non strutturati in molti formati che gli analisti di dati possono cercare. Questi vasti pool di dati sono diventati importanti negli ultimi tempi grazie alla flessibilità che offrono alle aziende per archiviare vasti flussi di dati senza dover prima definire lo scopo di farlo.
Il mercato per questi due tipi di repository di big data sta “convergendo nel mezzo arrivando al concetto di lakehouse”, afferma Ronthal, con fornitori di data warehouse affermati che aggiungono la capacità di gestire dati non strutturati e fornitori di data lake che aggiungono struttura alle loro offerte. Ad esempio, su AWS, le aziende possono ora accoppiare Amazon Redshift (un data warehouse) con Amazon Redshift Spectrum, che consente a Redshift di raggiungere i data lake S3 non strutturati di Amazon. Nel frattempo, il data lake Snowflake può supportare dati non strutturati con tabelle esterne, afferma Ronthal.
Quando le aziende hanno lake e warehouse separati e i dati devono spostarsi dall’uno all’altro, viene introdotta latenza e il tutto costa tempo e denaro. La combinazione delle due piattaforme in un’unica riduce lo sforzo e lo spostamento dei dati, accelerando così il ritmo di scoperta delle informazioni dettagliate sui dati. E, a seconda della piattaforma, un data lakehouse può anche offrire altre funzionalità, come il supporto per lo streaming di dati, il machine learning e la collaborazione, offrendo alle aziende strumenti aggiuntivi per ottenere il massimo dai propri dati.
Ecco uno sguardo ai vantaggi dei data lakehouse e al modo in cui diverse organizzazioni leader stanno mantenendo le promesse nell’ambito delle loro strategie di analisi dati.
Migliorare l’esperienza gaming
L’uso da parte di Sega Europe dei repository di dati a supporto dei suoi videogiochi si è evoluto notevolmente negli ultimi anni. Nel 2016, l’azienda ha iniziato a utilizzare il data warehouse di Amazon Redshift per raccogliere dati sugli eventi dal suo videogioco Football Manager. All’inizio la società aveva due membri del personale che esaminavano questi dati, che venivano trasmessi in streaming a Redshift a una velocità di dieci eventi al secondo.
“Ma c’erano molti più dati che potevamo raccogliere” afferma Felix Baker, responsabile dei servizi dati dell’azienda. “Come ad esempio i team che le persone stavano gestendo o quanti soldi stavano spendendo”. Nel 2017, Sega Europe raccoglieva 800 eventi al secondo, con cinque dipendenti che lavoravano sulla piattaforma. Nel 2020, il sistema dell’azienda catturava 7.000 eventi al secondo da un portafoglio di 30 giochi Sega, con 25 dipendenti coinvolti.
A quel punto, il sistema stava iniziando a raggiungere i suoi limiti, dice Baker. A causa delle strutture di dati necessarie per l’inclusione nel data warehouse, i dati arrivavano in batch e ci voleva da mezz’ora a un’ora per analizzarli. “Volevamo analizzare i dati in tempo reale, ma questa funzionalità non era disponibile in Redshift in quel momento”. Dopo aver eseguito prove concettuali con tre piattaforme (Redshift, Snowflake e Databricks), Sega Europe ha deciso di utilizzare Databricks, uno dei pionieri del settore dei data lakehouse.
“Databricks offriva una soluzione di servizi gestiti pronta all’uso che faceva ciò di cui avevamo bisogno senza che dovessimo sviluppare nulla”, afferma Baker. Ciò includeva non solo lo streaming in tempo reale, ma anche il machine learning e gli spazi di lavoro collaborativi. Inoltre, l’architettura di data lakehouse ha consentito a Sega Europe di raccogliere e gestire anche dati non strutturati, come i feed dei social media. “Con Redshift, dovevamo concentrarci sulla progettazione degli schemi”, afferma Baker. “Ogni tabella doveva avere una struttura prestabilita prima di poter iniziare a importare i dati e ciò rendeva tutto molto macchinoso e poco agile. Con il data lakehouse di Databricks, è stato tutto più facile”.
La piattaforma Databricks di Sega Europe è entrata in produzione nell’estate del 2020. Tre consulenti di Databricks hanno lavorato insieme a sette dipendenti di Sega Europe per mettere in funzione la soluzione di streaming, in linea con quella che l’azienda aveva in precedenza con Redshift. La nuova lakehouse è costruita su un modello a tre strati, dei quali quello base è una grande tabella in cui tutto viene “scaricato”. “Se gli sviluppatori creano nuovi eventi, non devono dirci di aspettarci nuovi campi: possono letteralmente inviarci qualsiasi cosa”, afferma Baker. “E possiamo quindi creare lavori su quel livello e trasmettere in streaming i dati che abbiamo acquisito”. Il passaggio a Databricks, che si basa su Apache Spark, è stato agevole per Sega Europe, grazie alla precedente esperienza con il motore open source per l’elaborazione dei dati su larga scala.
“All’interno del nostro team, avevamo già un po’ di esperienza con Apache Spark”, continua Baker. “Ciò significava che avremmo potuto impostare flussi molto rapidamente in base alle competenze che già possedevamo”. Oggi, l’azienda elabora 25.000 eventi al secondo, con più di 30 addetti ai dati e 100 titoli di giochi nel sistema. Invece di impiegare da 30 minuti a un’ora per l’elaborazione, i dati sono pronti entro un minuto. Sega Europe ha anche iniziato a sfruttare le capacità di machine learning della struttura lakeouse. Ad esempio, i data scientist dell’azienda hanno progettato modelli per capire perché i giocatori smettono di giocare e per dare suggerimenti su come aumentarne la fidelizzazione. “La velocità con cui questi modelli possono essere costruiti è stata davvero sorprendente”, conclude Baker.
I vantaggi aziendali dei data lakehouse
La flessibilità e la natura onnicomprensiva dei data lakehouse si stanno rapidamente rivelando attraenti per le organizzazioni che cercano di capitalizzare le proprie risorse di dati, soprattutto nell’ambito di iniziative digitali che dipendono dall’accesso rapido a un’ampia gamma di dati. “Il principale fattore trainante del valore è l’efficienza in termini di costi resa possibile dalla fornitura di una fonte per tutti i dati strutturati e non strutturati di un’organizzazione” afferma Steven Karan, vicepresidente e responsabile degli insight e dei dati presso la società di consulenza Capgemini Canada, che ha contribuito a implementare data lakehouse presso organizzazioni leader nei servizi finanziari, telecomunicazioni e retail.
Inoltre, i data lakehouse archiviano i dati in modo tale che siano prontamente disponibili per l’uso da un’ampia gamma di tecnologie, dai tradizionali sistemi di business intelligence e reporting fino al machine learning e all’intelligenza artificiale. “Altri vantaggi includono una ridotta ridondanza dei dati, operazioni IT semplificate, uno schema di dati semplificato da gestire e una governance dei dati più facile da abilitare”. Un caso d’uso particolarmente prezioso per i data lakehouse è aiutare le aziende a ottenere valore dai dati precedentemente intrappolati in sistemi legacy o in silos.
Mettere i dati in un unico data lakehouse semplifica inoltre la gestione, afferma Meera Viswanathan, senior product manager di Fivetran, una società di pipeline di dati. Le aziende che tradizionalmente hanno utilizzato sia data lake, sia data warehouse hanno spesso team separati per gestirli e ciò crea confusione per le business unit che dovevano consumare i dati. Oltre a Databricks, Amazon Redshift Spectrum e Snowflake, altri fornitori nello spazio Data Lakehouse includono Microsoft, con la sua piattaforma Lakehouse Azure Synapse, e Google, con la sua BigLake su Google Cloud Platform, nonché la piattaforma Data Lakehouse Starburst.
Accelerare l’elaborazione dei dati per migliori risultati sulla salute
Un’altra grande realtà che sfrutta questi e altri vantaggi dei data lakehouse è la società di analisi e servizi di scienze biologiche IQVIA. Prima della pandemia, le aziende farmaceutiche che conducevano sperimentazioni sui farmaci mandavano i loro dipendenti negli ospedali e in altri siti per raccogliere dati su aspetti fondamentali come gli effetti avversi, afferma Wendy Morahan, direttore senior dell’analisi dei dati clinici presso IQVIA. “È così che si assicuravano che il paziente fosse al sicuro”. Una volta però che la pandemia ha colpito e sono iniziati i lockdown, le aziende farmaceutiche hanno dovuto affrettarsi per capire come ottenere i dati di cui avevano bisogno e per ottenerli in modo conforme alle normative e sufficientemente veloce da consentire loro di individuare potenziali problemi quanto prima.
Circa quattro anni fa, l’azienda ha iniziato a utilizzare i data lakehouse, inclusi Databricks e la funzionalità data lakehouse ora disponibile con Snowflake, afferma Suhas Joshi, direttore senior dell’analisi dei dati clinici presso l’azienda. “Con Snowflake e Databricks abbiamo la possibilità di archiviare i dati grezzi in qualsiasi formato che poi usiamo per il monitoraggio. In passato, ciò avrebbe comportato passaggi manuali a sistemi diversi e avrebbe richiesto tempo e fatica. Oggi siamo in grado di fare tutto in un’unica piattaforma”.
Anche il processo di raccolta dei dati è più veloce. In passato, l’azienda doveva scrivere codice per acquisire dati, mentre ora i dati possono anche essere analizzati senza doverli prima elaborare per adattarli a un formato di database. “Prendiamo l’esempio di una paziente alle prese con una sperimentazione farmacologica che scopre di essere incinta, ma il modulo di gravidanza non è stato compilato correttamente e il farmaco che sta assumendo per la sperimentazione può essere dannoso per la gestazione. O pensiamo a un paziente che ha un evento avverso e ha bisogno di farmaci per la pressione sanguigna che però non sono stati prescritti. Non rilevare rapidamente questi problemi può avere conseguenze critiche e mettere a rischio la sicurezza di un paziente“, conclude Joshi.