I migliori strumenti per l’analisi predittiva

A un certo punto della loro storia, i computer si sono trasformati da elaboratori di dati a sfere di cristallo che esaminano quei dati per predire il futuro. E sfornano scenari che descrivono cosa potrebbe accadere nei prossimi secondi, prossimi giorni e forse nei prossimi anni.
Gli strumenti che consentono di realizzare questa impresa vanno sotto il nome di “analisi predittiva”. Il termine comprende algoritmi sviluppati nel corso degli anni, che abbinano statistica, intelligenza artificiale, apprendimento automatico e matematica multidimensionale. Questi strumenti sono usciti dai laboratori accademici per entrare nelle aziende e ora sono pronti a guidare i team aziendali a prendere le giuste decisioni sull’allocazione delle risorse e sull’aumento dei profitti.
Gli strumenti hanno due ruoli principali. Il primo, e più ovvio, è scrutare nel mare di bit raccolti nel database e trovare una visione per il futuro, attraverso algoritmi che usano diversi approcci strategici.
Il secondo ruolo è meno evidente e spesso richiede più tempo. La preparazione dei dati può essere esasperante perché raramente i dati sono coerenti o puliti. Per esempio, se ci sono due file che devono essere integrati, le date sono spesso in formato diverso perché utilizzano fusi orari diversi. Le sfide come queste sono facili. Le più difficili riguardano campi mancanti o valori anomali che potrebbero essere sia il risultato di un errore sia un segnale preciso che deve essere incluso nel set di dati. Rimuovere gli errori preservando l’integrità dei dati è una vera sfida. Tutti i migliori strumenti offrono un buon supporto per la preparazione dei dati e la presentazione dei risultati.
Molti strumenti di analisi predittiva sono estensioni create da sviluppatori di database e fornitori di analisi e reportistica aziendale, che hanno lentamente unito la tradizionale generazione di report con algoritmi AI per produrre strumenti che sintetizzano i dati e offrono previsioni.
Molti strumenti sono strettamente allineati con uno specifico prodotto di archiviazione dei dati. Anche se funzionano tutti con formati generici come CSV, tendono a funzionare un po’ meglio con alcuni database, perché questi database sono di proprietà dell’azienda che ha sviluppato le capacità predittive. Spesso è più semplice utilizzare lo strumento creato dalla stessa azienda che archivia i dati. Ovviamente, è sempre possibile migrare i dati o esportarli in un formato standard per sfruttare uno strumento diverso.
Di seguito segnaliamo 15 strumenti di analisi predittiva che stanno rivoluzionando il modo in cui le aziende sfruttano i propri dati per prendere decisioni lungimiranti. Gli strumenti sono presentati in ordine alfabetico.
1. Alteryx
Alteryx si è concentrata sull’automazione del mondo dell’analisi predittiva integrando algoritmi predittivi nella sua piattaforma per generare report e gestire il flusso di lavoro. Lo strumento ha un’ampia libreria di routine di raccolta dati che possono importare dati da una vasta gamma di fonti, che possono essere recentissime o addirittura vecchie di decenni. Lo strumento è altamente personalizzabile e rivolto a manager esperti di dati, anziché agli sviluppatori, per incoraggiare il diffuso miglioramento della tecnologia predittiva per i report e la business intelligence.
La società si è inoltre concentrata sulla fornitura di soluzioni personalizzate e preconfigurate per vari dipartimenti aziendali, dal marketing alla ricerca, per incoraggiare l’adozione più rapida.
2. Amazon
AWS offre un’ampia gamma di strumenti orientati alla ricerca di segnali nei flussi di dati. Gli strumenti si suddividono in diverse linee di prodotti e possono essere riuniti dalle opzioni di archiviazione dei dati di AWS.
Amazon Forecast, per esempio, si concentra sull’estensione dei dati delle serie temporali per prevedere quante vendite attendere nel prossimo trimestre e quante risorse è necessario allocare in anticipo per soddisfare tale domanda. Amazon Code Guru cerca modelli di codici errati per migliorare il codice. Alcuni degli strumenti sono stati creati da Amazon per supportare la propria attività (come Fraud Detector e Amazon Personalize), e la società li vende ad altri che potrebbero costruire il proprio impero e-commerce.
3. Board
Le aziende che vogliono dashboard che sintetizzano i trend dei dati possono utilizzare Board per raccogliere dati da una vasta gamma di silos di dati (ERP, SQL e così via) e trasformarli in report che riepilogano il passato e fanno previsioni sul futuro.
L’enfasi è sulla raccolta di dati da quante più fonti possibili e la trasformazione di ciascuno in una “vista” standardizzata che può quindi essere integrata direttamente nella visualizzazione o nell’analisi predittiva (apprendimento automatico, algoritmi di clustering o algoritmi statistici puri).
4. Dash
Il set di strumenti Dash è suddiviso in due livelli: la versione open source gratuita e il sistema enterprise, che gestisce un cloud di modelli in sviluppo o in uso attivo. La versione open source raggruppa molte delle migliori librerie Python per l’analisi e la visualizzazione dei dati.
La versione enterprise aggiunge Kubernetes, l’autenticazione e molti altri strumenti importanti come l’integrazione della GPU per le distribuzioni che servono grandi gruppi di utenti. La versione enterprise include ulteriori miglioramenti per produrre dashboard e altre interfacce popolari.
5. Databricks
Le aziende con grandi raccolte di dati possono utilizzare il set di strumenti Databricks, basato su Apache Spark, Delta Lake, TensorFlow e ML Flow, quattro popolari progetti open source lanciati da persone che lavorano in Databricks. La società aggiunge una raccolta di strumenti, quali ambienti collaborativi e pipeline di elaborazione dati, per semplificare l’integrazione nel flusso di lavoro.
Databricks ha già sviluppato versioni integrate con AWS e Azure per semplificare il lavoro con i dati in cloud. Un recente case study mostra come Databricks abbia aiutato a prevedere i problemi di manutenzione nella trivellazione petrolifera prima dei guasti.
6. DataRobot
Le aziende alla ricerca di diverse opzioni per distribuire i propri modelli su hardware locale, cloud o qualcosa di più ibrido possono utilizzare DataRobot per gestire i propri dati e modelli. Gli strumenti offrono l’apprendimento automatico automatizzato con una raccolta di routine personalizzate per settori verticali, per esempio quello assicurativo.
7. IBM
Gli strumenti di IBM provengono da due tradizioni di sviluppo separate. Il software SPSS Modeler fu lanciato negli anni ’60 e divenne una base per molte aziende che volevano ottimizzare le loro linee di produzione usando le statistiche. Il codice dell’era della scheda perforata è sparito da tempo e lo strumento ora consente ai non programmatori di trascinare e rilasciare i dati in un’interfaccia utente grafica per produrre report.
L’altra grande offerta di IBM è raggruppata nella linea Watson. Questi strumenti si basano in gran parte su algoritmi iterativi di machine learning in grado di acquisire dati di training e trasformarli in modelli. Il codice può funzionare con numeri non elaborati, immagini o testo non strutturato.
8. Information Builders
La piattaforma dati di Information Builders consente ai data architect di creare una pipeline visiva che raccoglie i dati dalle fonti, li pulisce e quindi avvia i motori analitici. Una serie importante di opzioni consente modelli di governance dei dati completi per proteggere le informazioni che non possono essere ampiamente condivise con tutti gli utenti. Esistono modelli personalizzati per settori importanti, come la manifattura e le utility, che consentono agli utenti di sviluppare rapidamente insight operativi per i loro obiettivi aziendali.
9. MathWorks
Il primo prodotto lanciato MathWorks è MATLAB, che supportava gli scienziati nell’elaborazione di matrici di grandi dimensioni. L’azienda è cresciuta lentamente e oggi offre diversi strumenti di analisi numerica dei dati. I prodotti della linea MATLAB si concentrano sull’ottimizzazione e l’analisi statistica, mentre gli strumenti della linea SIMULINK offrono simulazione e modellazione.
L’azienda offre soluzioni specializzate che personalizzano gli strumenti per mercati particolari come auto autonome, progettazione di antenne o elaborazione di immagini..
10. Python
Python è nato come un linguaggio di scripting simile al Perl, ed è diventato uno dei linguaggi più popolari per l’analisi dei dati nelle scienze. Molti laboratori di ricerca usano il codice Python per analizzare i loro risultati. Ultimamente i data scientist hanno iniziato a raggruppare i dati, il codice analitico e la descrizione scritta nei Notebook Jupyter, un formato che produce report che possono essere letti e modificati.
Negli strumenti Python come Notebook Jupyter, PyCharm, Spyder e IDLE è possibile trovare alcune delle idee più recenti, ma sono spesso approssimative e meglio affrontate dagli sviluppatori di software e dai data scientist. Molti cloud offrono ora ambienti specializzati per la condivisione di Notebook Jupyter come testo o fogli di calcolo e rappresentano un buon modo per supportare l’analisi predittiva.
11. R
Tecnicamente R è solo un linguaggio open source per l’analisi dei dati, che è ampiamente sviluppato e supportato dalla comunità accademica. Ci sono alcuni buoni strumenti integrati per l’uso di R come R Studio, Radiant o Visual Studio, ma sono pensati per programmatori e data scientist.
Molte soluzioni presenti in questo elenco consentono di integrare il codice R come modulo.
12. Rapid Miner
Gli strumenti di modellazione RapidMiner sono progettati per essere il più automatizzati possibile, in modo che i team possano creare modelli predittivi con poca assistenza. Lo studio di sviluppo produce Notebook operativi Jupyter con “selezione automatica dei modelli” e “preparazione guidata dei dati”. I modelli sono scelti tra molte opzioni standard basate su principi come l’apprendimento automatico classico, la logica bayesiana, la regressione statistica o varie forme di raggruppamento.
Gli sviluppatori hanno lavorato per evitare “scatole nere” aggiungendo spiegazioni in modo che gli utenti possano avere più fiducia nel modo in cui i modelli ottengono i loro risultati.
13. SAP
Molte aziende si affidano a SAP per gestire le proprie supply chain. Gli strumenti di reporting di SAP sono stati migliorati per offrire analisi predittive che consentono ai team di creare previsioni da modelli di machine learning basati su dati passati. Gli algoritmi includono sia l’intelligenza artificiale tradizionale che le simulazioni. Il software può essere eseguito localmente o nel cloud SAP. Gli sviluppatori mirano inoltre a supportare l’intera azienda con interfacce utente personalizzate che possono rimanere coerenti tra i reparti. Per incoraggiare l’adozione, gli utenti che eseguono ambienti basati su Web o dispositivi mobili ricevono rapporti ottimizzati.
14. SAS Advanced Analytics
La raccolta di strumenti di SAS integra circa una decina di pacchetti diversi in una piattaforma che trasforma i dati SAS in insight e previsioni. I pacchetti statistici e il data mining si concentrano sulle correlazioni tra gli elementi di dati, mentre gli strumenti di ottimizzazione e previsione trovano soluzioni e direzioni future. C’è una forte enfasi sull’analisi del testo per l’elaborazione di testo non strutturato. Di recente la società ha illustrato le capacità del software mostrando come può supportare il tracciamento dei contatti nella gestione delle pandemie.
15. Tableau
Tableau, acquisita da Salesforce.com lo scorso anno, ha attirato l’attenzione per i suoi sofisticati rendering grafici delle informazioni di reporting. Le dashboard possono essere estese utilizzando il modello di analisi incorporato per offrire opzioni interattive. Lo strumento dipende da una ricca collezione di moduli per la raccolta e la preparazione dei dati per l’analisi.