Data science: quando i dati si trasformano in valore

La data science (scienza dei dati) è un metodo per raccogliere informazioni dettagliate da dati strutturati e non strutturati utilizzando approcci che vanno dall’analisi statistica al machine learning. Per la maggior parte delle organizzazioni, questo metodo viene utilizzato per trasformare i dati in valore sotto forma di aumento delle entrate, riduzione dei costi, agilità aziendale, migliore esperienza del cliente, sviluppo di nuovi prodotti e simili. La data science, in pratica, fornisce uno scopo ai dati raccolti da un’organizzazione.

Data science vs. data analytics

Sebbene strettamente correlata, la data analytics è una componente della data science utilizzata per comprendere l'”aspetto” dei dati di un’organizzazione. La data science prende l’output dell’analisi per risolvere i problemi. I data scientist affermano che indagare su qualcosa con i dati è semplicemente analisi. La data science fa un passo ulteriore per spiegare e risolvere i problemi. La differenza tra data analytics e data science è anche quella della scala temporale. La prima descrive lo stato attuale della realtà, mentre la scienza dei dati utilizza tali dati per prevedere e/o comprendere il futuro.

I vantaggi della data science

Il valore aziendale della scienza dei dati dipende dalle esigenze organizzative. Potrebbe aiutare un’organizzazione a creare strumenti per prevedere i guasti hardware, consentendo così all’organizzazione di eseguire la manutenzione e prevenire tempi di inattività non pianificati. Ma potrebbe anche aiutare a prevedere cosa mettere sugli scaffali dei supermercati o quanto sarà popolare un prodotto in base alle sue caratteristiche.

I lavori di data science

Sebbene il numero di corsi di laurea in scienze dei dati stia aumentando rapidamente, non sono necessariamente ciò che le organizzazioni cercano quando devono assumere dei data scientist. Su questo versante i candidati con un background statistico sono particolarmente popolari, soprattutto se hanno conoscenze di dominio per contestualizzare i risultati e capacità di comunicazione che consentono loro di trasmettere risultati agli utenti aziendali.

Molte organizzazioni cercano candidati con dottorato di ricerca, in particolare in fisica, matematica, informatica, economia o persino in scienze sociali. Un dottorato di ricerca dimostra che un candidato è in grado di fare ricerche approfondite su un argomento e di divulgare informazioni ad altri.

Alcuni dei migliori data scientist o leader nei gruppi di data science hanno un background non tradizionale, compresi quelli con una formazione informatica molto limitata. In molti casi, l’abilità chiave è essere in grado di guardare qualcosa da una prospettiva non tradizionale e comprenderla.

Certificazioni di data science

Le organizzazioni hanno bisogno di data scientist e analisti con esperienza nelle tecniche di analisi dei dati. Hanno anche bisogno di architetti di big data per tradurre i requisiti in sistemi, ingegneri di dati per creare e mantenere pipeline di dati, sviluppatori che sappiano come aggirare i cluster Hadoop e altre tecnologie e amministratori di sistema e manager per collegare tutto insieme. Le certificazioni sono un modo per i candidati di dimostrare di avere le competenze giuste.

Alcune delle migliori certificazioni per big data e analisi dei dati includono:

Certified Analytics Professional (CAP)
Cloudera Data Platform Generalist Certification
Data Science Council of America (DASCA) Senior Data Scientist (SDS)
Data Science Council of America (DASCA) Principal Data Scientist (PDS)
IBM Data Science Professional Certificate
Microsoft Certified: Azure Data Scientist Associate
Open Certified Data Scientist (Open CDS)
SAS Certified Data Scientist

Team di data science

La scienza dei dati è generalmente una disciplina di squadra. I data scientist sono il fulcro della maggior parte dei team di data science, ma il passaggio dai dati all’analisi al valore della produzione richiede una serie di competenze e ruoli ben determinati. Ad esempio, gli analisti di dati dovrebbero analizzare i dati prima di presentarli al team e mantenere i modelli di dati. Gli ingegneri dei dati sono necessari per creare pipeline di dati per arricchire i set di dati e renderli disponibili al resto dell’azienda.

Obiettivi e risultati della data science

L’obiettivo della scienza dei dati è costruire i mezzi per estrarre dai dati informazioni che abbiano un valore per l’azienda. Ciò richiede la comprensione di come il valore e le informazioni fluiscono in un’azienda e la capacità di utilizzare tale comprensione per identificare le opportunità di business.

Sebbene ciò possa comportare progetti una tantum, più in genere i team di data science cercano di identificare le risorse di dati chiave che possono essere trasformate in pipeline di dati che alimentano strumenti e soluzioni gestibili. Gli esempi includono le soluzioni di monitoraggio delle frodi con carte di credito utilizzate dalle banche o gli strumenti utilizzati per ottimizzare il posizionamento delle turbine eoliche nei parchi eolici. In modo incrementale, anche le presentazioni che comunicano ciò che il team sta facendo rappresentano risultati importanti.

Processi e metodologie della scienza dei dati

I team di ingegneria di produzione lavorano su cicli di lavoro con scadenze previste. Questo è spesso difficile da fare per i team di data science perché molto tempo può essere speso solo per determinare se un progetto è fattibile o meno. I dati devono essere raccolti e puliti. Quindi il team deve determinare se questi dati non più grezzi possono rispondere alla domanda in modo efficiente.

La scienza dei dati idealmente dovrebbe seguire il metodo scientifico, anche se non è sempre così visto che la vera scienza richiede tempo. Si dedica un po’ di tempo a confermare un’ipotesi e molto tempo a provare a smentirla. Negli affari, il tempo per rispondere è importante. Di conseguenza, la scienza dei dati può spesso significare cercare un esito “abbastanza buono” piuttosto che l’esito migliore. Il pericolo in ciò, tuttavia, è che i risultati possono essere vittime di bias di conferma o overfitting.

Strumenti di data science

I team di data science utilizzano un’ampia gamma di strumenti, tra cui SQL, Python, R, Java e altrettanti progetti open source come Hive, oozie e TensorFlow. Questi strumenti vengono utilizzati per una varietà di attività relative ai dati, che vanno dalla loro estrazione e pulizia all’analisi algoritmica tramite metodi statistici o machine learning. Alcuni degli strumenti più comuni includono:

SAS: Questo strumento statistico proprietario viene utilizzato per il data mining, l’analisi statistica, la business intelligence, l’analisi di studi clinici e l’analisi di serie temporali
Tableau: ora di proprietà di Salesforce, Tableau è uno strumento di visualizzazione dei dati
TensorFlow: sviluppato da Google e concesso in licenza con licenza Apache 2.0, TensorFlow è una libreria software per il machine learning utilizzata per l’addestramento e l’inferenza di reti neurali profonde
DataRobot: questa piattaforma di machine learning automatizzata viene utilizzata per creare, distribuire e mantenere l’IA
BigML: una piattaforma di machine learning focalizzata sulla semplificazione della creazione e condivisione di set di dati e modelli
Knime: una piattaforma di analisi, reporting e integrazione dei dati open source
Apache Spark: questo motore di analisi unificato è progettato per l’elaborazione di dati su larga scala, con supporto per la pulizia, la trasformazione, la creazione di modelli e la valutazione dei dati
RapidMiner: questa piattaforma di data science è progettata per aiutare i team, con supporto per la preparazione dei dati, il machine learning e l’implementazione di modelli predittivi
Matplotlib: questa libreria open source per Python offre strumenti per la creazione di visualizzazioni statiche, animate e interattive
Excel: il software per fogli di calcolo di Microsoft è forse lo strumento di BI più utilizzato in circolazione. È anche utile per i data scientist che lavorano con set di dati più piccoli
js: questa libreria JavaScript viene utilizzata per creare visualizzazioni interattive nei browser Web
ggplot2: questo pacchetto avanzato di visualizzazione dei dati per R permette ai data scientist di creare visualizzazioni dai dati analizzati
Jupyter: questo strumento open source basato su Python viene utilizzato per scrivere codice, visualizzazioni e presentazioni