Cloudera: il data lake portabile nell’era del multi-cloud (e del PNRR)
Indice dell'articolo
Nei corsi di management, formatori e motivatori amano dire che dovremmo tutti sostituire nel nostro vocabolario la parola “problema” con “opportunità”.
Visto che le uguaglianze valgono in entrambe le direzioni, i più sgamati sanno benissimo cosa aspettarsi quando i grandi capi dicono “Abbiamo una grande opportunità”, e questo vale anche e soprattutto quando parliamo di dati aziendali.
La possibilità di sfruttare le più moderne tecnologie per analizzare enormi quantità di dati, anche da fonti eterogenee strutturate e non e con velocità che arrivano al real time, è per le aziende un’opportunità che non si può perdere.
Per chi quei dati deve gestirli, garantendone disponibilità, governance e prestazioni con costi sostenibili, come dire, il compito assegnato somiglia sempre più a un problema.
In un periodo in cui le valutazioni su flessibilità, rapidità di adozione e scalabilità del cloud vengono sempre più integrate da quelle sui suoi costi sempre più toccati dall’aumento di quelli dell’energia, tanto da far parlare di “clouflation”, e in cui sempre più spesso si pone il tema della sovranità dei dati e della governance, c’è quindi molto interesse verso le piattaforme dati che abilitano architetture ibride, in cui i dati possono essere spostati dal data center al cloud e viceversa, a seconda delle necessità, dei requisiti normativi e della convenienza economica.
Di questi e altri temi abbiamo parlato con Fabio Pascali, Regional Vice President per l’Italia di Cloudera, azienda che ha di recente ampliato il proprio portfolio di soluzioni per includere anche una piattaforma di data lakehouse offerta completamente in modalità Software as-a-Service Cloudera Data Platform One (CDP One), in aggiunta alla modalità tradizionali.
“Cloudera nasce nel mondo datalake con l’obiettivo di creare un’architettura dati open source, scalabile, aperta e innovativa e che sia economicamente conveniente. Gestire enormi quantità di dati, se questi non vengono utilizzati per estrarre valore, non è mai sostenibile – dice Pascali –. Cloudera ha sviluppato queste soluzioni ante-litteram e fatte confluire in un’unica soluzione dove i team di BI e data engineering lavorano sulla stessa infrastruttura, ciascuno con i propri strumenti, in qualunque form factor (on-premises, nel private cloud e nel public cloud in modalità Platform-as-a-Service), potendo spostare il data lake da un’architettura all’altra. Con CDP One abbiamo introdotto un altro form factor, che è quello Software-as-a-Service, che ha embedded anche la parte di cloud in modo completamente per il cliente, per quanto riguarda la gestione operativa e la fatturazione”.
L’obiettivo è quello di arrivare più rapidamente al “time to value”, senza preoccuparsi delle competenze necessarie alla gestione operativa della piattaforma dati.
Le politiche aziendali sui dati e gli “orticelli” dei reparti
Liberi dalle incombenze di gestione dei dati, i CIO possono dedicarsi a come rendere fruibili agli analisti i dati di cui necessitano, compito che potrebbe non essere così semplice e lineare quando diventa necessario far circolare i dati scavalcando i confini dei singoli dipartimenti. “Le aziende hanno realizzato che l’approccio a silos puro non va bene, perché il dato che non va valore per un dipartimento potrebbe averlo per un altro, giustificando i costi di gestione del dato. Vediamo però una certa gelosia verso i propri dati da parte dei dipartimenti. L’approccio vincente in questi casi è quello di utilizzare il data mesh, che cloudera fornisce, e che permette di creare diversi domini dei dati, mantenendo una gestione centrale per quanto riguarda governance, sicurezza e ownership del dato nei dipartimenti”, spiega Pascale aggiungendo la possibilità per l’IT centrale di adottare un approccio Data-as-a-product, creando dei “mattoncini di prodotti-dato che i dipartimenti possono ricombinare per ottenere risultati desiderati”.
Con i dati che si spostano tra reparti, o lungo la filiera, diventa anche importante poter fare analisi lungo il tragitto tra sorgenti e destinazioni diverse. È un passo in più rispetto al real time analytics, chiamato Data in motion, e abilita nuovi scenari in ambiti che richiedono risposte rapide ma con verifiche approfondite, come i sistemi autonomi, la prevenzione delle frodi e applicazioni avanzate di IoT, garantendo al contempo visibilità ma anche delivery del dato in condizioni di esercizio stringenti.
Il multi cloud e la portabilità della funzioni as-a-service
L’approccio multi cloud promette di lasciare al cliente la possibilità di migrare i suoi dati e i carichi di lavoro da un fornitore all’altro in base a esigenze e convenienza, ma questa promessa è ostacolata dalla tendenza a utilizzare funzioni specifiche del cloud provider, per esempio per analytics e intelligenza artificiale, fruite anch’esse in modalità as-a-service. “Con Cloudera è possibile avere Functions-as-a-Service che sono indipendenti dal cloud provider che ospita i dati, permettendo una vera portabilità”, dice Pascali.
Ma non è anche questa una forma di lock-in, a un livello superiore? “Forse, ma essendo la soluzione Cloudera al 100 percento open source, il cliente può continuare a gestire la sua piattaforma anche se sceglie di interrompere con noi il contratto di supporto. Una cosa che non è possibile fare con alcun cloud provider”.
La portabilità e la pubblica amministrazione
Ai tre principali settori in cui era già radicata (Finance, Energy e Utility e Telco, con presenza più limitata in manifattura, moda e healthcare), Cloudera ha aggiunto una presenza crescente nella Pubblica Amministrazione, coinvolta in uno storico processo di trasformazione digitale ma con vincoli e incertezze superiori a quelle – già notevoli – che si trovano a fronteggiare le aziende private.
“Innanzi tutto, la pubblica amministrazione è tenuta a fare periodicamente bandi di gara per le infrastrutture IT e cloud, e all’orizzonte si profila la creazione del Polo Strategico Nazionale, con caratteristiche ancora non ben definite”, ricorda Pascale. “Anche in questo caso, una hybrid data platform che fornisca un livello di astrazione agnostico rispetto all’infrastruttura aiuta l’amministrazione ad avviare progetti oggi, magari perché hanno scadenze vincolate dal PNRR, senza doversi preoccupare di quale sarà il cloud provider tra qualche anno, perché non sarà necessario apportare cambiamenti dopo una migrazione”.