La data platform Cloudera tra cloud repatriation e Trusted AI
Indice dell'articolo
Un nuovo studio di Cloudera rivela le principali preoccupazioni che stanno portando tre aziende europee su quattro a “riportare in casa” dal cloud alcuni dati e carichi di lavoro, anche per poter erogare soluzioni basate su IA generativa in modo sicuro e rispettoso della governance.
In Europa si pensa a togliere i dati dal cloud
Lo studio, condotto su 850 responsabili ITDM in tutta l’area EMEA, ha rivelato che la conformità è la principale preoccupazione del 79% dei responsabili delle decisioni IT (ITDM) quando si tratta di gestire i dati; ciò avviene in un momento in cui due terzi (66%) di essi temono che i dati siano fuori controllo nella propria organizzazione. L’indagine rivela inoltre che quasi due terzi (63%) delle aziende ritiene che i dati frammentati rendano più difficile il rispetto delle normative di conformità.
Per quanto riguarda le aziende italiane, si sta assistendo a una fase di maturità avanzata per quanto riguarda la gestione dei dati, superiore rispetto alla media EMEA. Solo le fasi di analisi e pubblicazione presentano ancora margini di miglioramento rispetto agli altri Paesi. Tuttavia, le sfide emerse in EMEA sono molto sentite anche in Italia, con oltre un’azienda su tre che spende tra il 20% e il 30% del proprio budget annuale per la gestione dei dati, e addirittura 1 su 5 che spende tra il 30% e il 40%, e 1 azienda su 6 che ne spende fino al 50%.
Inoltre, entro il 2025 il volume globale dei dati supererà i 180 zettabyte, con una crescita annuale del 61%. Di fronte a questa previsione le organizzazioni devono affrontare la non facile sfida di gestire e ottimizzare i dati tra on-premise, cloud pubblico ed edge. Lo fanno archiviando i dati sia in ambienti cloud privati che pubblici (68%), ma il 76% prevede di ripatriare i dati nei prossimi tre anni, con una scelta motivata da compliance, cybersecurity e altre preoccupazioni.
Le organizzazioni pubbliche e del settore bancario e sanitario temono di più la non conformità e il lock-in del cloud, ma c’è preoccupazione anche per la dispersione degli strumenti di analytics, mentre la difficoltà nell’estrazione di valore dai dati in silos cloud/on-premise è evidenziata dal 72% degli intervistati, raggiungendo l’82% nel settore pubblico.
Di fronte a queste sfide risulta cruciale la creazione di una moderna architettura dati basata su quattro componenti chiave:
- Capacità di operare on-premise, su cloud pubblici e all’edge, in modo che i carichi di lavoro e i dati possano fluire senza attriti senza bisogno di riscritture o refactoring
- Portabilità dei servizi su diverse infrastrutture, senza necessità di rielaborazione
- Capacità di gestire tutti i tipi di dati, strutturati, semi-strutturati e non strutturati, in tempo reale, in streaming e in formato batch
- Sicurezza e governance integrate, con funzionalità quali crittografia dei dati, in movimento e a riposo, e autenticazione forte.
La trusted AI ha bisogno di una piattaforma dati sicura
In un’altra indagine, Cloudera ha inoltre rivelato che più della metà delle organizzazioni statunitensi (53%) attualmente si avvale di tecnologie di IA generativa e un ulteriore 36% si trova nelle prime fasi di esplorazione per una potenziale implementazione nel prossimo anno. Tuttavia, oltre otto su dieci decision maker IT e responsabili della gestione dei dati (84%) sono preoccupati di fronte alla prospettiva di condividerli con terze parti per l’addestramento o la messa a punto dei modelli di IA generativa, alludendo alla percezione di un ambiente ancora poco controllato quando si tratta di privacy, sicurezza e conformità. Non è un caso che secondo quasi tutti gli intervistati (95%) il pieno controllo dei dati durante l’addestramento dei modelli di IA sia fondamentale per potersi fidare dei risultati.
Sempre in ambito IA, e nell’ottica di trasformare il modo in cui le aziende sfruttano la potenza dell’IA per semplificare le attività e migliorare l’esperienza dei clienti, Cloudera ha annunciato una partnership con Pinecone, azienda americana il cui database vettoriale è un’infrastruttura fondamentale per l’IA generativa.
Questo database è ottimizzato per memorizzare le rappresentazioni IA dei dati (embedding vettoriali) e ricercarle in base alla somiglianza semantica (cosa che i database tradizionali non sono in grado di fare), con lo scopo di aggiungere un contesto alle interrogazioni effettuate all’interno di applicazioni che utilizzano LLM. La partnership prevede l’integrazione del database vettoriale di Pinecone all’interno della Cloudera Data Platform (CDP), per consentire alle aziende che si affidano a Cloudera di creare e distribuire più facilmente e in tempo reale applicazioni altamente scalabili e basate sull’IA.
Cloudera sta inoltre lavorando con HuggingFace per la qualificazione di modelli LLM preaddestrati per poter sfruttare la generative AI per eseguire compiti di data analytics sui dati aziendali presenti sulla piattaforma, mantenendo su di essi una stretta governance.
La data platform “open” di Cloudera
“Senza un ambiente dati unificato non è possibile estrarre valore dai dati chiusi in silos, database, archivi e cloud distinti in tempo reale, ma solo con estrazioni e trasformazioni che impiegano tempo e aggiungono complessità. Con la nostra piattaforma, è invece possibile aggregare tutti i dati, strutturati e non, e analizzarli in tempo reale con strumenti di analytics tradizionali o facendo uso di machine learning” ha dichiarato Fabio Pascali, Regional Vice President Italy di Cloudera in un incontro con la stampa a fine anno.
“Cloudera è una soluzione end-to-end, che parte dall’acquisizione dei dati in tempo reale, li trasforma, li archivia in un data lake ed effettua l’analisi. Siamo open source, nel senso che ogni tassello della nostra soluzione è costituito da software open, che noi validiamo, integriamo e supportiamo. Inoltre, Cloudera funziona su qualsiasi infrastruttura: on prem, cloud privato e qualsiasi cloud pubblico, rappresentando una soluzione al customer lock-in. Se poi a un cliente servono solo alcuni elementi della nostra piattaforma, possiamo integrarli con le soluzioni di altri fornitori e, in tal senso, siamo open anche dal punto di vista dell’integrazione”.
Cloudera propone quindi la sua piattaforma come sistema in grado di abilitare lo spostamento di dati da e verso il cloud, e in questo senso annovera anche una nuova partnership strategica con AWS che comprende ingresso nel Workload Migration Program di AWS.