I dati sono utili solo se le persone che li interpretano sono intelligenti
Il problema e la promessa dell’intelligenza artificiale sono le persone. Questo è sempre stato vero, qualunque siano le nostre speranze (e paure) per un’invasione di robot pronti a dominarci. Nell’intelligenza artificiale e nella scienza dei dati più in generale, il trucco è fondere il meglio degli esseri umani e delle macchine. Per qualche tempo, molti nell’industria dell’IA hanno sottolineato la priorità delle macchine in questa equazione, ma come suggerisce Elena Dyachkova, data scientist di Spring Health, i dati (e le macchine dietro di essi) sono utili solo quanto le persone che li interpretano sono intelligenti.
Dyachkova stava rispondendo a un commento fatto da Sarah Catanzaro, partner di Amplify Partners ed ex responsabile dei dati di Mattermark. Discutendo dell’utilità di dati/analisi imperfetti nel processo decisionale, Catanzaro ha affermato: “Penso che si perda di vista il valore dei report e delle analisi che sono imperfetti ma intrinsecamente corretti. Molte decisioni non richiedono approfondimenti di alta precisione”.
Secondo Catanzaro, insomma, non abbiamo bisogno di dati perfetti per avviare un processo decisionale. Anche Gary Marcus, scienziato e fondatore di Geometric Intelligence, una società di machine learning acquisita da Uber nel 2016, insiste sul fatto che la chiave per apprezzare l’intelligenza artificiale e i suoi sottoinsiemi di machine e deep learning è riconoscere che tali strumenti di riconoscimento dei modelli danno il loro meglio quando tutto ciò di cui abbiamo bisogno sono risultati veloci e non precisi al 100%, almeno là dove la posta in gioco è bassa e risultati perfetti opzionali. Nonostante questa verità, nella nostra ricerca di applicazioni più potenti alimentate dall’intelligenza artificiale, continuiamo a cercare sempre più dati e, grazie a essi, ci aspettiamo che i modelli ML ci daranno in qualche modo risultati sempre migliori.
Purtroppo non funziona così nel mondo reale. Sebbene più dati possano rappresentare un vantaggio, per molte applicazioni non abbiamo bisogno di più dati. Abbiamo bisogno di persone meglio preparate a comprendere i dati che già abbiamo. Come osserva anche Vincent Dowling, data scientist di Indeed.com, “gran parte del valore nell’essere un analista/scienziato esperto è determinare la quantità di rigore necessaria per prendere una decisione”.
Dyachkova e Dowling parlano di come prendere decisioni e, in entrambi i casi, il risultato delle loro osservazioni è che l’esperienza delle persone che analizzano dati conta più dei dati stessi. Come si legge in un editoriale del The Guardian, “la promessa dell’IA è che infonderà nelle macchine la capacità di individuare i modelli e prendere decisioni più velocemente e meglio degli umani. Cosa succede però se prendono decisioni peggiori più velocemente?” Questa è una possibilità tutt’altro che remota se le persone pensano che i dati e le macchine potranno fare tutto da soli.
Meno dati, più conoscenza
Mettere le persone al comando non è però così facile da realizzare nella pratica. Come suggerisce Manjunath Bhat, vicepresidente di Gartner Research, l’intelligenza artificiale è influenzata dagli input umani, inclusi i dati che scegliamo di immettere nelle macchine. I risultati dei nostri algoritmi, a loro volta, influenzano i dati con cui prendiamo decisioni. “I dati possono essere mutati, trasformati e alterati, il tutto in nome della facilità di utilizzo. Non abbiamo altra scelta che vivere entro i confini di una visione altamente contestualizzata del mondo”.
Per un progetto ML di successo, come sostiene il data scientist di Amazon Eugene Yan, “abbiamo bisogno di dati, di una pipeline robusta per supportarne i flussi e soprattutto di etichette di alta qualità”. Ma non c’è modo di etichettare correttamente quei dati senza persone esperte. Per farlo bene, è necessario comprendere i dati. Questo riporta a un punto sollevato dall’analista di Gartner Svetlana Sicular un decennio fa: le aziende sono piene di persone che capiscono le sfumature della loro attività. Sono insomma nella posizione migliore per capire il giusto tipo di domande da porre ai dati dell’azienda. Ciò che potrebbe mancare loro è quella comprensione aggiuntiva delle statistiche che Dyachkova sottolinea, ovvero la capacità di sapere quando i risultati “abbastanza buoni” sono davvero abbastanza buoni.
Questo è il motivo per cui la data science è una materia così difficile. In ogni sondaggio sui principali ostacoli all’adozione di AI/ML, la scarsità di talenti è sempre in cima alla lista. A volte pensiamo che ciò sia dovuto a una carenza di talenti nella data science, ma forse dovremmo essere preoccupati anche per la carenza di conoscenze di base di statistica e matematica.