Il data mining, a volte utilizzato come sinonimo di “scoperta della conoscenza”, è il processo di vagliatura di grandi volumi di dati per ricavare correlazioni, modelli e tendenze. È un sottoinsieme della scienza dei dati che utilizza tecniche statistiche e matematiche insieme a sistemi di machine learning e database. Lo Special Interest Group on Knowledge Discovery and Data Mining (SigKDD) dell’Association for Computing Machinery lo definisce come la scienza dell’estrazione di conoscenze utili dagli enormi repository di dati digitali creati dalle tecnologie informatiche.

L’idea di estrarre modelli dai dati non è nuova, ma il concetto moderno di data mining ha iniziato a prendere forma negli anni ’80 e ’90 con l’uso della gestione del database e delle tecniche di machine learning per aumentare i processi manuali.

Data mining e analisi dei dati

I termini analisi dei dati e data mining sono spesso confusi, ma l’analisi dei dati può essere intesa come un sottoinsieme del data mining.

Il data mining si concentra sulla pulizia dei dati grezzi, sulla ricerca di modelli, sulla creazione di modelli e quindi sul test di tali modelli, secondo il fornitore di analytics Tableau. L’analisi dei dati, d’altra parte, è la parte del data mining focalizzata sull’estrazione di informazioni dai dati. Il suo scopo è applicare analisi statistiche e tecnologie sui dati per trovare tendenze e risolvere problemi.

Il valore aziendale del data mining

Il data mining viene utilizzato dalle aziende di un’ampia gamma di settori per vagliare i propri dati per comprendere le tendenze e prendere decisioni aziendali migliori. Le società di media e telecomunicazioni utilizzano i miei dati dei clienti per comprendere meglio il comportamento dei clienti.

Le compagnie assicurative utilizzano il data mining per valutare i loro prodotti in modo più efficace e per creare nuovi prodotti. Gli educatori ora utilizzano il data mining per scoprire i modelli nelle prestazioni degli studenti e identificare le aree problematiche in cui potrebbero richiedere un’attenzione speciale. I rivenditori utilizzano invece il data mining per comprendere meglio i propri clienti e creare campagne altamente mirate.

Gli esempi di casi d’uso del data mining includono:

  • Catholic Relief Services (CRS) sta utilizzando la raccolta di dati e il machine learning per aiutare a fornire aiuti umanitari in tutto il mondo. Ha sviluppato Indicatori di misurazione per l’analisi della resilienza (MIRA), un protocollo di raccolta dati ad alta frequenza che raccoglie informazioni sugli “shock” legati alle condizioni meteorologiche per le comunità dell’Africa sudorientale. Inserisce i dati in algoritmi di machine learning per determinare quali famiglie saranno a rischio di carenza di cibo a causa di tali shock.
  • Bank of America utilizza il data mining, il machine learning e l’intelligenza artificiale per identificare in modo più accurato gli investitori per le offerte pubbliche iniziali (IPO). Ha creato Predictive Intelligence Analytics Machine (PRIAM), un sistema di previsione degli accordi con intelligenza artificiale che utilizza una rete di algoritmi di machine learning supervisionati per comprendere le tendenze delle relazioni tra banchieri e investitori del mercato dei capitali azionari (ECM).
  • Il gestore di mutui Ellie Mae utilizza il data mining sugli attacchi ransomware per identificare gli indicatori di compromissione (IOC). Questi IOC sono combinati con l’intelligence sulle minacce, l’analisi predittiva e l’intelligenza artificiale per alimentare il progetto Autonomous Threat Hunting for Advanced Persistent Threats dell’azienda.

Tecniche di data mining

Il data mining utilizza una serie di strumenti e tecniche. Secondo Talend, specialista in integrazione e integrità dei dati, le funzioni più comunemente utilizzate includono:

  • Pulizia e preparazione dei dati. Prima che i dati possano essere analizzati ed elaborati, è necessario identificare e rimuovere gli errori e identificare anche i dati mancanti.
  • Il data mining sfrutta spesso l’intelligenza artificiale per le attività associate alla pianificazione, all’apprendimento, al ragionamento e alla risoluzione dei problemi.
  • Apprendimento delle regole di associazione. Conosciuti anche come analisi del paniere di mercato, questi strumenti vengono utilizzati per cercare le relazioni tra le variabili in un set di dati. Un rivenditore potrebbe utilizzarli per determinare quali prodotti vengono generalmente acquistati insieme.
  • Il clustering viene utilizzato per partizionare un set di dati in sottoclassi significative per comprendere la struttura dei dati.
  • Analisi dei dati. L’analisi dei dati è il processo di estrazione di informazioni dai dati.
  • Data Warehousing. Un data warehouse è una raccolta di dati aziendali. È il fondamento della maggior parte del data mining.
  • Machine Learning. Il machine learning aiuta ad automatizzare il processo di ricerca di modelli nei dati. Questa tecnica viene utilizzata con un particolare set di dati per prevedere valori come vendite, temperature o prezzi delle azioni.

dmaas

Processo di data mining

Il Cross Industry Standard Process for Data Mining (CRISP-DM) è un modello di processo in sei fasi che è stato pubblicato nel 1999 per standardizzare i processi di data mining in tutti i settori. Le sei fasi di CRISP-DM sono: comprensione del business, comprensione dei dati, preparazione dei dati, modellazione, valutazione e distribuzione.

Comprensione degli affari

Questa fase riguarda la comprensione degli obiettivi, dei requisiti e della portata del progetto. Consiste in quattro compiti:

  • Determinare gli obiettivi aziendali comprendendo ciò che gli stakeholder aziendali vogliono realizzare
  • Valutare la situazione per determinare la disponibilità delle risorse, i requisiti del progetto, i rischi e gli imprevisti
  • Determinare l’aspetto del successo da un punto di vista tecnico
  • Definire piani dettagliati per ogni strumento di progetto e selezionare tecnologie e strumenti.

Comprensione dei dati

La fase successiva prevede l’identificazione, la raccolta e l’analisi dei set di dati necessari per raggiungere gli obiettivi del progetto. Comprende quattro attività: raccolta dei dati iniziali, descrizione dei dati, esplorazione dei dati e verifica della qualità dei dati.

Preparazione dei dati

Questa è spesso la parte più importante di qualsiasi progetto e consiste in cinque attività:

  • Selezionare i set di dati e documentare il motivo dell’inclusione/esclusione
  • Pulire i dati
  • Costruire dati derivando nuovi attributi dai dati esistenti
  • Integrare i dati da più fonti
  • Formattare i dati.

Modellazione

La creazione di modelli dai dati ha quattro attività: selezione delle tecniche di modellazione, generazione di progetti di test, creazione di modelli e valutazione dei modelli.

Valutazione

Sebbene la fase di modellazione includa la valutazione del modello tecnico, questa fase riguarda la determinazione del modello che meglio soddisfa le esigenze aziendali. Comprende tre attività: valutazione dei risultati, revisione del processo e determinazione dei passaggi successivi.

Distribuzione

La fase finale riguarda la messa in opera del modello. Comprende quattro attività: sviluppo e documentazione di un piano per l’implementazione del modello, sviluppo di un piano di monitoraggio e manutenzione, produzione di un rapporto finale e revisione del progetto.

 

Software e strumenti di data mining

Le aziende utilizzano una varietà di software e strumenti di data mining. Alcuni dei software e degli strumenti più popolari includono:

  • IBM SPSS Modeler. La soluzione di Visual Data Science e Machine Learning di IBM può essere utilizzata per la preparazione dei dati, la scoperta, l’analisi predittiva, la gestione dei modelli e l’implementazione.
  • La piattaforma open source Knime è finalizzata all’analisi dei dati, alla creazione di report e all’integrazione.
  • Data mining Oracle (ODM). ODM fa parte di Oracle Database Enterprise Edition e offre algoritmi di data mining e analisi dei dati per la classificazione, la previsione, la regressione, le associazioni, la selezione delle funzionalità, il rilevamento delle anomalie, l’estrazione delle funzionalità e l’analisi specializzata.
  • Orange Data Mining. Orange è un toolkit open source per la visualizzazione dei dati, il machine learning e il data mining.
  • R. Questo linguaggio di programmazione open source e ambiente software gratuito è ampiamente utilizzato dai data miner. Fondata da Revolution Analytics, R ha anche supporto commerciale ed estensioni. Microsoft ha acquisito Revolution Analytics nel 2015 e ha integrato R con le sue offerte SQL Server, Power BI, Azure SQL Managed Instance, Azure Cortana Intelligence, Microsoft ML Server e Visual Studio 2017. Anche Oracle, IBM e Tibco supportano R nelle loro offerte .
  • Pensata per i team, la piattaforma di data science RapidMiner supporta la preparazione dei dati, il machine learning e la distribuzione di modelli predittivi.
  • SAS Enterprise Miner. SAS Enterprise Miner ha lo scopo di creare modelli predittivi e descrittivi su grandi volumi di dati da fonti all’interno dell’organizzazione.
  • Lo stack BI di Sisense copre tutto, dal database all’ETL e all’analisi fino alla visualizzazione.

Lavori di data mining

Il data mining è più spesso condotto da data scientist o analisti di dati. Ecco alcuni dei titoli di lavoro più popolari relativi al data mining e lo stipendio medio in dollari per ciascuna posizione secondo i dati più recenti di PayScale:

Analista di business intelligence: 52K-90K
Architetto di business intelligence: 72K-140K
Sviluppatore di business intelligence: 62K-109K
Analista di dati: 43K-90K
Ingegnere dei dati: 44K-141K
Scienziato dei dati: 66K-130K
Analista di dati senior: 63K-108K
Statistico: 44K-159K