Come valutare la qualità di un database e il rischio dei dati inaffidabili
Prima le grandi, ora anche le piccole e medie aziende, intuiscono il valore dei dati che posseggono, o che potrebbero raccogliere dai loro clienti e partner. Si tratta di un valore che tutti riconoscono come crescente, fondamentale e strategico, ma che ancora nel 2015 resta difficile quantificare.
Soprattutto, prima di prendere in considerazione l’idea di mettere su ogni informazione un cartellino con il suo valore, bisogna capire quanto il database sia affidabile, aggiornato e privo di duplicati inutili e dannosi per la correttezza delle analisi.
I moderni strumenti consentirebbero non solo di ottenere previsioni e stime utili per ogni business, ma anche di ricavare nuovi dati incrociando e derivando quelli esistenti, arricchendo così il prezioso bagaglio di informazioni già raccolte.
Tutto questo risulta in molti casi impossibile, o addirittura pericoloso, in presenza di gravi lacune nell’archivio, poiché può potenzialmente portare a valutazioni errate date in pasto al management o a un aumento degli errori nel database in caso di integrazione con dati derivati da originali fallaci.
600 miliardi di dollari: le perdite dovute a imprecisioni nei database nei soli Stati Uniti
Solo negli Stati Uniti, notoriamente più abituati di noi al rigore nella raccolta delle informazioni, si stima in più di seicento miliardi di dollari la perdita annuale dovuta a imprecisioni nelle banche dati.
La stessa lentezza della pubblica amministrazione italiana nel recepire i cambiamenti, e migliorare di conseguenza i servizi, è in buona parte legata all’impossibilità di garantire la correttezza delle grandi quantità di dati di cui dispone, che peraltro la logica open data vorrebbe trasparenti e a disposizione di tutti.
Il problema è che il controllo della qualità delle informazioni è un processo complesso, che coinvolge gran parte delle attività di un’azienda, imponendo la definizione di precise responsabilità, dalla raccolta alla manutenzione e alla diffusione dei dati, che riguardano sia il personale IT, sia figure direttamente legate al business.
Un buon accordo e un progetto coerente tra tutti i soggetti coinvolti nella manipolazione delle informazioni è necessario quanto raro. Anche perché il management è generalmente restio ad ammettere e quantificare i propri errori, e tende a considerare comunque validi i propri database, magari ottenuti con dispendio di tempo e fatica.
La conseguenza di questo atteggiamento, oltre all’evidente complessità del compito, rende l’operazione di pulizia e del database e di controllo sulla raccolta indigesta a molte aziende. Eppure i vantaggi in qualche caso possono essere enormi e pressoché immediati.
Qualità di un database: come si misura
Il primo passo per migliorare è comprendere la definizione di qualità per un database, che non significa totale assenza di errori. Piuttosto, ogni banca dati dovrebbe conformarsi a un livello desiderato di ‘pulizia’, un obiettivo ragionevole a cui tendere e tramite il quale valutare i progressi fatti.
Ne risulta quindi la ricerca di un punto di bilanciamento tra i costi e gli sforzi necessari a rendere più accurata la raccolta e la manutenzione dei dati e il livello di precisione medio desiderato. Se ottenere la perfezione può risultare proibitivo, un’asticella posta appena più in basso è spesso raggiungibile.
I parametri con cui misurare la pulizia ottenuta sono completezza, correttezza e unicità dei dati.
- Completezza significa che per ogni record dovrebbero essere compilati tutti i campi, senza che manchi alcun elemento. Il caso tipico è quello dell’anagrafica clienti, in cui a un nome non corrisponda, ad esempio, un indirizzo completo o un numero di telefono.
- La correttezza si raggiunge limitando il più possibile gli errori di inserimento o di aggiornamento dei dati stessi. Il campo CAP, ad esempio, deve essere adeguato ai più recenti cambiamenti nella normativa, aggiornando i valori più vecchi di tre anni che hanno subito modifiche.
- L’unicità implica che a ogni cliente registrato in anagrafica corrisponda un solo record. Quando i dati sono raccolti male, senza le necessarie verifiche, spesso accade il contrario. Un caso tipico in questo senso è quello delle carte fedeltà, che i clienti nel tempo perdono e richiedono, causando nuove registrazioni e corrispondentemente nuove voci di database non consolidate con le precedenti. Questo fenomeno comporta che lo stesso cliente sia registrato più volte falsando le statistiche, come la media di acquisto per cliente.
A seconda delle caratteristiche del database e delle peculiarità del business, si può scegliere di dare più valore a un parametro rispetto a un altro nel determinare il livello desiderato di qualità da raggiungere.
Si può, per esempio, decidere di sacrificare in parte la completezza in favore della correttezza, per ottenere statistiche il più possibile accurate.
Questo si ottiene anche definendo quale strategia adottare incontrando un errore, che non può essere facilmente corretto, durante l’importazione dei data nel data warehouse.
Rifiutando l’errore si dà più importanza alla correttezza, mentre sostituendolo con valori standard, non verificati, si spinge sulla completezza. L’importante è che l’errore si mantenga nei parametri di tolleranza scelti.
Arricchire il database: i dati geografici
Occuparsi della pulizia del database significa individuare e correggere gli errori, ma anche integrare i dati attraverso metodi di arricchimento. In particolare le procedure di geolocalizzazione e l’incrocio con database territoriali possono far scoprire molto di più dei propri clienti, magari assegnandoli a una filiale o un punto vendita e ricavandone nuove informazioni utili alla profilazione.
I dati di geolocalizzazione possono arricchire i database con informazioni preziose per la logistica o il marketing
Per un’attività impegnativa come il miglioramento della qualità dei dati, la buona volontà dei soggetti interessati può essere meglio incentivata da un supporto esterno specializzato.In Italia ci sono ditte, come la veronese Geolab, completamente dedicate a questa attività e specializzata proprio nei dati geografici.
Per esempio, Geolab annovera tra i suoi clienti un importante spedizioniere, che si avvale dei suoi servizi per arricchire il suo database con informazioni dettagliate sulle Ztl e le limitazioni d’accesso ai centri storici, organizzando meglio le rotte dei singoli corrieri, e una catena retail con 8 milioni di clienti, che sfrutta per le proprie iniziative di marketing i dati socio-demografici delle microzone Istat e dell’Osservatorio Mobiliare dell’Agenzia delle Entrate.
Queste operazioni di pulizia e arricchimento sono spesso procedure poco costose, ma in grado di produrre un’influenza talvolta sorprendente sullo sviluppo del business.
Per ulteriori informazioni: Geolab Srl