I migliori strumenti di data science per ottimizzare le operazioni di analisi
Il boom della data science continua senza sosta. Il lavoro di raccolta e analisi dei dati un tempo era riservato a pochi scienziati, ma oggi ogni azienda vuole utilizzare la potenza della scienza dei dati per semplificare le proprie operazioni e soddisfare le richieste dei clienti.
L’offerta di strumenti di data science sta crescendo per supportare questa domanda. Solo pochi anni fa, i data scientist hanno lavorato con la riga di comando e alcuni buoni pacchetti open source. Ora sono disponibili strumenti solidi e professionali che gestiscono molte operazioni comuni di data science, come la pulizia dei dati.
La scala sta cambiando. La scienza dei dati è diventata una parte permanente del flusso di lavoro. Le aziende integrano l’analisi matematica nella reportistica aziendale e creano dashboard per generare visualizzazioni intelligenti e comprendere rapidamente cosa sta succedendo.
Anche il ritmo sta accelerando. Analisi che un tempo erano un lavoro annuale o trimestrale vengono ora eseguite in tempo reale. Le aziende vogliono sapere cosa sta succedendo adesso, in modo che manager e operatori di linea possano prendere decisioni più intelligenti.
Ecco alcuni dei migliori strumenti per aggiungere precisione alle analisi dei dati a livello aziendale.
Jupyter Notebook
Questi pacchetti di parole, codice e dati sono diventati la lingua franca del mondo della scienza dei dati. I PDF statici pieni di analisi e contenuti immutabili sono ancora utili perché creano un record permanente, ma i data scientist amano aprire il cofano e giocherellare con il meccanismo sottostante. Jupyter Notebook consente ai lettori di fare di più che assorbire.
Le versioni originali sono state create da utenti Python che volevano prendere in prestito parte della flessibilità di Mathematica. Oggi, lo standard Jupyter Notebook supporta più di 40 linguaggi di programmazione ed è comune trovare al loro interno R, Julia, Java o C.
Il codice di un notebook Jupyter è open source, il che lo rende semplicemente l’inizio di una serie di progetti più grandi ed entusiasmanti per la gestione dei dati, il supporto di corsi o semplicemente la condivisione di idee. Le università li usano per gestire alcune classi. I data scientist li usano per scambiare e suggerire idee. JupyterHub offre un server centrale containerizzato con autenticazione per gestire la distribuzione a un pubblico di utenti, in modo che non debbano installare o mantenere software sul proprio desktop o preoccuparsi di scalare i server di elaborazione.
Laboratori per Jupyter Notebook
I Jupyter Notebook non funzionano da soli. Hanno bisogno di una base in cui sono archiviati i dati e vengono eseguite le analisi. Diverse aziende offrono questo supporto, a volte come strumento promozionale e talvolta a pagamento. Alcuni dei più importanti includono Colab di Google, Codespaces di Github, Azure Machine Learning lab, JupyterLabs, Binder, CoCalc e Datalore.
Sebbene il nucleo di ciascuno di questi servizi sia simile, esistono differenze che potrebbero essere importanti. La maggior parte supporta Python, ma in seguito le preferenze locali contano. Azure Notebook di Microsoft, per esempio, supporta anche F#, un linguaggio sviluppato da Microsoft. Colab di Google supporta Swift, che è supportato anche per i progetti di machine learning con TensorFlow.
RStudio
Il linguaggio R è stato sviluppato e ottimizzato da statistici e data scientist per caricare set di dati di lavoro e quindi applicare tutti i migliori algoritmi di analisi dei dati. Ad alcuni piace eseguire R direttamente dalla riga di comando, ma a molti piace lasciare che RStudio gestisca la maggior parte del lavoro. È un ambiente di sviluppo integrato (IDE) per il calcolo matematico.
Il core è un ambiente di lavoro open source che permette di esplorare i dati, sperimentare con il codice e quindi generare la grafica più elaborata che R può raccogliere. Tiene traccia della cronologia delle attività, consentendo di indietro o ripetere gli stessi comandi, e offre supporto per il debug quando il codice non funziona. All’interno di RStudio è possibile eseguire anche Python.
La società RStudio sta inoltre aggiungendo funzionalità per supportare la collaborazione di team su un insieme condiviso di dati, quali controllo delle versioni, ruoli, sicurezza e sincronizzazione.
Sweave e Knitr
I data scientist che scrivono i loro articoli in LaTeX apprezzeranno la complessità di Sweave e Knitr, due pacchetti progettati per integrare la potenza di elaborazione dei dati di R o Python con l’eleganza di formattazione di TeX. L’obiettivo è creare una pipeline che trasformi i dati in un report scritto completo di grafici e tabelle.
La pipeline è pensata per essere dinamica e fluida, ma alla fine creare un record permanente. Man mano che i dati vengono puliti, organizzati e analizzati, i grafici e le tabelle si adeguano. Al termine del risultato, i dati e il testo si trovano insieme in un unico pacchetto che raggruppa l’input grezzo e il testo finale.
Ambienti di sviluppo integrati (IDE)
Thomas Edison disse che il genio è per l’1% ispirazione e per il 99% traspirazione. Spesso sembra che il 99% della scienza dei dati stia solo ripulendo i dati e preparandoli per l’analisi. Gli ambienti di sviluppo integrati (IDE, Integrated Development Environment) sono un buon punto di partenza perché supportano i linguaggi di programmazione tradizionali come C# e linguaggi più incentrati sulla scienza dei dati come R. Gli utenti di Eclipse, per esempio, possono ripulire il proprio codice in Java e quindi passare a R per l’analisi con rJava.
Gli sviluppatori Python si affidano a Pycharm per integrare i loro strumenti Python e orchestrare l’analisi dei dati basata su Python. Visual Studio si destreggia tra codice tradizionale con Jupyter Notebook e opzioni specializzate per l’analisi dei dati.
Con l’aumento dei carichi di lavoro di data science, alcune aziende stanno creando IDE low-code e no-code ottimizzati per il lavoro sui dati. Strumenti come RapidMiner, Orange e JASP sono esempi di ottimi strumenti. Si basano su editor visuali e in molti casi è possibile fare tutto semplicemente trascinando le icone.
Strumenti specifici di dominio
Molti data scientist oggi sono specializzati in aree come il marketing o l’ottimizzazione della supply chain. Di conseguenza sono stati sviluppati e ottimizzati strumenti strettamente focalizzati su domini particolari e problemi specifici.
Per esempio, gli esperti di marketing hanno a disposizione diverse scelte di strumenti definiti Customer Data Platform. Si integrano con vetrine, portali pubblicitari e applicazioni di messaggistica per creare un flusso di informazioni coerente (e spesso incessante) per i clienti. L’analisi back-end integrata fornisce le statistiche chiave che i marketer si aspettano per giudicare l’efficacia delle loro campagne.
Sono disponibili centinaia di buone opzioni specifiche di dominio che funzionano a tutti i livelli. Voyant, per esempio, analizza il testo per misurare la leggibilità e trovare correlazioni tra i passaggi. AWS Forecast è ottimizzato per prevedere il futuro delle aziende utilizzando i dati delle serie temporali. Video Analyzer di Azure applica tecniche di intelligenza artificiale per trovare risposte nei flussi video.
Hardware
L’ascesa delle opzioni di cloud computing è stata una manna dal cielo per i data scientist. Non è necessario mantenere il proprio hardware per eseguire analisi occasionalmente, quando i fornitori di servizi cloud affittano macchine al minuto al momento in cui servono. E’ un’ottima soluzione per chi bisogno di un’enorme quantità di RAM solo per un giorno. Tuttavia, per i progetti con una necessità costante di analisi a lungo termine può essere vantaggioso acquistare il proprio hardware.
Di recente sono state rese disponibili opzioni più specializzate per lavori di calcolo parallelo. I data scientist a volte utilizzano unità di elaborazione grafica (GPU) che un tempo erano progettate per i videogiochi. Google realizza Tensor Processing Unit (TPU) specializzate per velocizzare l’apprendimento automatico. Nvidia ha reso disponibili le “Data Processing Unit” (DPU). Alcune startup, come d-Matrix, stanno progettando hardware specializzato per l’intelligenza artificiale. Per alcuni lavori laptop può essere sufficiente un computer portatile, ma per i progetti di grandi dimensioni con calcoli complessi ora sono disponibili molte opzioni più veloci.
Dati
Per qualsiasi strumento di data science, il punto di partenza sono i dati. Anche in questo caso, sono disponibili sul mercato accurate raccolte di dati. E’ possibile scegliere tra servizi cloud quali quelli offerti da AWS, GCP, Azure o IBM, raccolte open source quali OpenStreetMap, o l’acquisto di dati sintetici.