Cloudera: il data lake portabile nell’era del multi-cloud (e del PNRR)

Cloudera: il data lake portabile nell’era del multi-cloud (e del PNRR)
Come si inserisce la nuova soluzione di Data Lake as a Service CDP One nella strategia Cloudera, tra portabilità dei dati (e delle funzioni di analytics) tra on-prem e multi cloud. Intervista a Fabio Pascale, Regional Vice President per l'Italia di Cloudera.

Nei corsi di management, formatori e motivatori amano dire che dovremmo tutti sostituire nel nostro vocabolario la parola “problema” con “opportunità”.

Visto che le uguaglianze valgono in entrambe le direzioni, i più sgamati sanno benissimo cosa aspettarsi quando i grandi capi dicono “Abbiamo una grande opportunità”, e questo vale anche e soprattutto quando parliamo di dati aziendali.

La possibilità di sfruttare le più moderne tecnologie per analizzare enormi quantità di dati, anche da fonti eterogenee strutturate e non e con velocità che arrivano al real time, è per le aziende un’opportunità che non si può perdere.

Per chi quei dati deve gestirli, garantendone disponibilità, governance e prestazioni con costi sostenibili, come dire, il compito assegnato somiglia sempre più a un problema.

In un periodo in cui le valutazioni su flessibilità, rapidità di adozione e scalabilità del cloud vengono sempre più integrate da quelle sui suoi costi sempre più toccati dall’aumento di quelli dell’energia, tanto da far parlare di “clouflation”, e in cui sempre più spesso si pone il tema della sovranità dei dati e della governance, c’è quindi molto interesse verso le piattaforme dati che abilitano architetture ibride, in cui i dati possono essere spostati dal data center al cloud e viceversa, a seconda delle necessità, dei requisiti normativi e della convenienza economica.

Di questi e altri temi abbiamo parlato con Fabio Pascali, Regional Vice President per l’Italia di Cloudera, azienda che ha di recente ampliato il proprio portfolio di soluzioni per includere anche una piattaforma di data lakehouse offerta completamente in modalità Software as-a-Service Cloudera Data Platform One (CDP One), in aggiunta alla modalità tradizionali.

Fabio Pascali, Regional Vice President di Cloudera per l’Italia

Fabio Pascali, Regional Vice President di Cloudera per l’Italia

“Cloudera nasce nel mondo datalake con l’obiettivo di creare un’architettura dati open source, scalabile, aperta e innovativa e che sia economicamente conveniente. Gestire enormi quantità di dati, se questi non vengono utilizzati per estrarre valore, non è mai sostenibile – dice Pascali –. Cloudera ha sviluppato queste soluzioni ante-litteram e fatte confluire in un’unica soluzione dove i team di BI e data engineering lavorano sulla stessa infrastruttura, ciascuno con i propri strumenti, in qualunque form factor (on-premises, nel private cloud e nel public cloud in modalità Platform-as-a-Service), potendo spostare il data lake da un’architettura all’altra. Con CDP One abbiamo introdotto un altro form factor, che è quello Software-as-a-Service, che ha embedded anche la parte di cloud in modo completamente per il cliente, per quanto riguarda la gestione operativa e la fatturazione”.

L’obiettivo è quello di arrivare più rapidamente al “time to value”, senza preoccuparsi delle competenze necessarie alla gestione operativa della piattaforma dati.

Le politiche aziendali sui dati e gli “orticelli” dei reparti

Liberi dalle incombenze di gestione dei dati, i CIO possono dedicarsi a come rendere fruibili agli analisti i dati di cui necessitano, compito che potrebbe non essere così semplice e lineare quando diventa necessario far circolare i dati scavalcando i confini dei singoli dipartimenti. “Le aziende hanno realizzato che l’approccio a silos puro non va bene, perché il dato che non va valore per un dipartimento potrebbe averlo per un altro, giustificando i costi di gestione del dato. Vediamo però una certa gelosia verso i propri dati da parte dei dipartimenti. L’approccio vincente in questi casi è quello di utilizzare il data mesh, che cloudera fornisce, e che permette di creare diversi domini dei dati, mantenendo una gestione centrale per quanto riguarda governance, sicurezza e ownership del dato nei dipartimenti”, spiega Pascale aggiungendo la possibilità per l’IT centrale di adottare un approccio Data-as-a-product, creando dei “mattoncini di prodotti-dato che i dipartimenti possono ricombinare per ottenere risultati desiderati”.

Con i dati che si spostano tra reparti, o lungo la filiera, diventa anche importante poter fare analisi lungo il tragitto tra sorgenti e destinazioni diverse. È un passo in più rispetto al real time analytics, chiamato Data in motion, e abilita nuovi scenari in ambiti che richiedono risposte rapide ma con verifiche approfondite, come i sistemi autonomi, la prevenzione delle frodi e applicazioni avanzate di IoT, garantendo al contempo visibilità ma anche delivery del dato in condizioni di esercizio stringenti.

Il multi cloud e la portabilità della funzioni as-a-service

Cloudera data platformL’approccio multi cloud promette di lasciare al cliente la possibilità di migrare i suoi dati e i carichi di lavoro da un fornitore all’altro in base a esigenze e convenienza, ma questa promessa è ostacolata dalla tendenza a utilizzare funzioni specifiche del cloud provider, per esempio per analytics e intelligenza artificiale, fruite anch’esse in modalità as-a-service. “Con Cloudera è possibile avere Functions-as-a-Service che sono indipendenti dal cloud provider che ospita i dati, permettendo una vera portabilità”, dice Pascali.

Ma non è anche questa una forma di lock-in, a un livello superiore? “Forse, ma essendo la soluzione Cloudera al 100 percento open source, il cliente può continuare a gestire la sua piattaforma anche se sceglie di interrompere con noi il contratto di supporto. Una cosa che non è possibile fare con alcun cloud provider”.

La portabilità e la pubblica amministrazione

Ai tre principali settori in cui era già radicata (Finance, Energy e Utility e Telco, con presenza più limitata in manifattura, moda e healthcare), Cloudera ha aggiunto una presenza crescente nella Pubblica Amministrazione, coinvolta in uno storico processo di trasformazione digitale ma con vincoli e incertezze superiori a quelle – già notevoli – che si trovano a fronteggiare le aziende private.

“Innanzi tutto, la pubblica amministrazione è tenuta a fare periodicamente bandi di gara per le infrastrutture IT e cloud, e all’orizzonte si profila la creazione del Polo Strategico Nazionale, con caratteristiche ancora non ben definite”, ricorda Pascale. “Anche in questo caso, una hybrid data platform che fornisca un livello di astrazione agnostico rispetto all’infrastruttura aiuta l’amministrazione ad avviare progetti oggi, magari perché hanno scadenze vincolate dal PNRR, senza doversi preoccupare di quale sarà il cloud provider tra qualche anno, perché non sarà necessario apportare cambiamenti dopo una migrazione”.

Aziende:
Cloudera
Condividi:
 

Illimity Bank: democratizzazione dei dati aziendali con il Data Lakehouse di Databricks

Illimity Bank: democratizzazione dei dati aziendali con il Data Lakehouse di Databricks
L'architettura Data Lakehouse di Databricks ha permesso a Illimity Bank di creare valore dai dati permettendo l'accesso in modalità self-service direttamente alle linee di business o a team multi funzionali, con criteri di responsabilità e governance ma senza alcuna funzione di controllo a priori

Fondata nel 2013 da ricercatori dell’Università di Berkeley e presenta in Europa da diversi anni, con diversi clienti anche in Italia, Databricks ha di recente annunciato la creazione di un’unità dedicata al nostro paese e che sta reclutando personale per seguire da vicino il nostro paese, dove attualmente sviluppa circa il 30 percento del business del Sud Europa e in cui percepisce una accelerazione nel move to cloud e una maggiore maturità e interesse delle aziende verso l’intelligenza artificiale e l’uso dei dati.

Arduino Cascella, Manager, Solutions Architect di Databricks

Arduino Cascella, Manager, Solutions Architect di Databricks

La missione dell’azienda consiste nel democratizzare l’accesso all’analisi dei dati, sia permettendo l’adozione di tecnologie avanzate anche da aziende di dimensioni più piccole e non dotate di infrastrutture adeguate o competenze interne per la loro gestione, sia all’interno delle aziende stesse, attraverso il concetto di Data Lakehouse.

“Questo modello combina elementi dei Data Lake e Data Warehouse per semplificare lo stack di gestione di dati strutturati e non, generando dinamicamente le risorse infrastrutturali necessarie attraverso l’automazione basata sull’Infrastructure as Code e replicate geograficamente per ogni area di data product”, spiega a Computerworld Arduino Cascella, Manager Solutions Architect di Databricks.

Il Data Lakehouse permette di eliminare la compartimentazione dei dati in silos interoperanti e permette l’accesso ai dati da parte di tutti i dipendenti coinvolti, indipendentemente dalla funzione organizzativa, garantendo al contempo sicurezza e governance del dato. Il Data Lakehouse non deve essere visto come un open bar dei dati. Al contrario, centralizzare i permessi in un unico punto di controllo invece di n sistemi con credenziali e livelli di accesso diversi rende la governance molto più semplice”, afferma Cascella.

L’esperienza di Illimity Bank con Databricks

Renzo Rognoni, Head of Central Functions, Illimity Bank

Renzo Rognoni, Head of Central Functions, Illimity Bank

I concetti di democratizzazione del dato e piattaforma come servizio si sono sposati molto bene con i principi tecnologici e le caratteristiche organizzative di Illimity Bank, riflesse anche nella carriera di Renzo Rognoni, Head of Central Functions di illimity. “Ho cominciato a lavorare in Illimity quando ancora non c’era una sede e fino allo scorso anno ero Responsabile per la Data Analytics, ma abbiamo deciso di fare un ulteriore passo verso la democratizzazione interna dei dati, rinunciando a una figura di responsabile organizzativo dei dati, un’unica figura che ne sia in controllo. Il mio nuovo ruolo quindi è quello di dare supporto alle aree di business e alle funzioni Risk Management, Finance e Compliance, mantenendo un occhio e un controllo sulla parte architetturale”, racconta a Computerworld.

Attualmente più della metà dei 750 dipendenti del gruppo accedono ai dati in modalità self service, con una trentina di aree che gestiscono o governano specifici segmenti di dati. Questo fattore permette di realizzare la visione di Corrado Passera, che ha voluto creare una banca che sapesse muoversi in zone e mercati in cui le banche tradizionali non riuscivano a destreggiarsi, proprio grazie a un approccio analitico, data driven e libero da ogni tecnologia legacy e i corrispondenti silos di dati.

“Il limite al superamento dei silos non è quasi mai tecnologico, ma organizzativo. L’approccio democratico – non basato sulla matrice RACI vecchio stile (Responsible, Accountable, Consulted, Informed) sposta le responsabilità e cambia i rapporti di potere in azienda. La responsabilità distribuita nasce da un commitment estremamente forte e dal fatto che abbiamo sposato la cultura dell’errore, disinnescando le classiche leve di colpevolezza per i piccoli errori commessi”, commenta Rognoni.

Organizzativamente, l’approccio data driven democratico si traduce in flussi di lavoro che coinvolgono team misti, non corrispondenti a un singolo ufficio o area organizzativa, in cui gli utenti sono liberi di sperimentare con i dati da diverse fonti, creando prototipi in ambienti controllati, che vengono successivamente validati e valutati in base a limiti e benefici.

Infrastruttura Data Lakehouse come servizio

Se il significato e l’espressività del dato sono di competenza del business di riferimento, esiste comunque una fase di execution la cui responsabilità ricade sull’IT. La scelta della soluzione Databricks è stata fatta in base a due criteri: il Data Lakehouse come architettura del dato e la modalità di erogazione come servizio gestito.

“Abbiamo cominciato a muoverci in questa direzione prima ancora che fosse disponibile la soluzione tecnologica, ideando un Data Lakehouse ante litteram usando standard open e data lake. Quando Databricks ha rilasciato il suo paper, abbiamo constatato che coincideva con il nostro approccio e ne abbiamo abbracciato il modello”, dice Rognoni sottolineando anche che avere una soluzione al cento percento in cloud e totalmente gestita ha permesso all’IT di concentrarsi sugli obiettivi di business invece che sulla creazione e manutenzione di un’infrastruttura.

“Un tempo si pensava che realizzare internamente le fondamenta tecniche di un progetto IT fosse più sicuro e più aderente alle esigenze dell’azienda, ma con la possibilità data dai servizi cloud PaaS e SaaS di avere sempre gli ultimi aggiornamenti e un livello di servizio garantito, sempre meno persone ritengono che fare tutto in casa sia la scelta migliore”, commenta Cascella.

Aziende:
Databricks
Condividi: