Ottenere e mantenere sicuri i modelli NLP in produzione
Mettere in produzione i modelli di elaborazione del linguaggio naturale (NLP) è molto simile all’acquisto di un’auto. In entrambi i casi, si impostano i parametri per il risultato desiderato, si testano diversi approcci, probabilmente li si riprova e, nel momento in cui si esce dal concessionario, il valore inizia a precipitare. Come avere un’auto, avere prodotti abilitati per la NLP o per l’intelligenza artificiale ha molti vantaggi, ma la manutenzione non si ferma mai e, per far funzionare il tutto correttamente nel tempo, non dovrebbe fermarsi mai.
Sebbene la produzione dell’IA sia già abbastanza difficile, garantire l’accuratezza dei modelli su tutta la linea in un ambiente reale può presentare sfide di governance ancora più grandi. L’accuratezza del modello peggiora nel momento in cui arriva sul mercato, poiché l’ambiente di ricerca prevedibile su cui è stato addestrato si comporta in modo diverso nella vita reale. Proprio come l’autostrada è uno scenario diverso rispetto al cortile della concessionaria.
Tutto questo si chiama concept drift (quando le variabili cambiano, il concetto appreso potrebbe non essere più preciso) e, sebbene non sia una novità nel campo dell’intelligenza artificiale e del machine learning, è qualcosa che continua a rappresentare una sfida per gli utenti. È anche un fattore che contribuisce al motivo per cui, nonostante gli enormi investimenti in AI e NLP negli ultimi anni, solo il 13% circa dei progetti di data science arriva effettivamente in produzione (VentureBeat).
Quindi cosa serve per spostare in sicurezza i prodotti dalla ricerca alla produzione? E, cosa probabilmente altrettanto importante, cosa ci vuole per mantenerli in produzione con precisione e sicurezza? Ci sono alcune considerazioni che le aziende dovrebbero tenere a mente per assicurarsi che i loro investimenti nell’IA vedano effettivamente la luce del giorno.
Mettere in produzione i modelli di intelligenza artificiale
La governance del modello è una componente chiave nella produzione di iniziative di NLP e una ragione comune per cui molti prodotti rimangono solo dei progetti. La governance del modello copre il modo in cui un’azienda tiene traccia dell’attività, dell’accesso e del comportamento dei modelli in un determinato ambiente di produzione. È importante monitorarla per mitigare i rischi, risolvere i problemi e mantenere la conformità. Questo concetto è ben compreso dalla comunità globale dell’IA, ma è anche una spina nel fianco.
I dati del sondaggio sull’industria della NLP 2021 hanno mostrato che gli strumenti di alta precisione facili da mettere a punto e personalizzare erano una priorità assoluta tra gli intervistati. I leader tecnologici hanno inoltre che l’accuratezza, seguita dalla prontezza di produzione e dalla scalabilità, era vitale quando si valutavano le soluzioni NLP. La messa a punto costante è la chiave affinché i modelli funzionino in modo accurato nel tempo, ma è anche la sfida più grande che i professionisti devono affrontare.
I progetti di NLP coinvolgono pipeline, in cui i risultati di un’attività precedente e di un modello pre-addestrato vengono utilizzati a valle. Spesso i modelli devono essere ottimizzati e personalizzati per i loro domini e applicazioni specifici. Ad esempio, un modello sanitario formato su documenti accademici o riviste mediche non funzionerà allo stesso modo se utilizzato da una società di media per identificare notizie false.
Una migliore ricercabilità e collaborazione più efficace tra la comunità dell’IA svolgono un ruolo chiave nella standardizzazione delle pratiche di governance del modello. Ciò include l’archiviazione delle risorse di modellazione in un catalogo ricercabile, inclusi notebook, set di dati, misurazioni risultanti, iper-parametri e altri metadati. Consentire la riproducibilità e la condivisione degli esperimenti tra i membri del team di data science è un’altra area vantaggiosa per coloro che cercano di portare i propri progetti a livello di produzione.
I test rigorosi sono comunque il modo migliore per garantire che i modelli si comportino nella produzione come nella ricerca: due ambienti molto diversi. Il controllo delle versioni dei modelli che sono avanzati oltre un esperimento fino a una versione “release candidate”, il test di tali candidati per accuratezza e stabilità e la convalida dei modelli prima del lancio in nuove aree geografiche sono fattori che tutti i professionisti dovrebbero mettere in pratica.
Con qualsiasi lancio di software, sicurezza e conformità dovrebbero essere integrate nella strategia fin dall’inizio e i progetti di intelligenza artificiale non sono diversi. Il controllo degli accessi basato sui ruoli e un flusso di lavoro di approvazione per il rilascio del modello, l’archiviazione e la fornitura di tutti i metadati necessari per un audit trail completo sono alcune delle misure di sicurezza necessarie affinché un modello possa essere considerato pronto per la produzione.
Queste pratiche possono migliorare significativamente le possibilità che i progetti di intelligenza artificiale passino dall’ideazione alla produzione. Ancora più importante, aiutano a gettare le basi per le pratiche che dovrebbero essere applicate una volta che un prodotto è pronto per il cliente.
Mantenere i modelli di intelligenza artificiale in produzione
Tornando all’analogia con l’automobile, non esiste una spia di “controllo del motore” per l’IA in produzione; per questo motivo i data team devono monitorare costantemente i loro modelli. A differenza dei progetti software tradizionali, è importante mantenere i data scientist e gli ingegneri al lavoro sul progetto anche dopo l’implementazione del modello.
Da un punto di vista operativo, ciò richiede più risorse, sia in termini di capitale umano che di costi, motivo per cui così tante organizzazioni non riescono a farlo. Anche la pressione per stare al passo con il ritmo del business e passare alla “next big thing” è un fattore importante, ma forse la più grande svista è che nemmeno i leader IT si aspettano che il degrado del modello sia un problema.
Nel settore sanitario, ad esempio, un modello può analizzare le cartelle cliniche elettroniche (EMR) per prevedere la probabilità di una paziente di avere un cesareo di emergenza in base a fattori di rischio come obesità, fumo o uso di droghe e altri determinanti della salute. Se la paziente viene definita ad alto rischio, il medico può chiederle di venire prima o più frequentemente per ridurre le complicazioni della gravidanza.
L’aspettativa è che questi fattori di rischio rimangano costanti nel tempo e, mentre molti di essi lo fanno, la paziente è meno prevedibile. Ha smesso di fumare? Le è stato diagnosticato il diabete gestazionale? Ci sono inoltre sfumature diverse nel modo in cui il medico pone una domanda e registra la risposta nella cartella clinica che potrebbero comportare esiti diversi.
Questo può diventare ancora più complicato se si considerano gli strumenti di NLP utilizzati dalla maggior parte dei professionisti. Tornando al sondaggio a cui abbiamo accennato prima, la maggioranza (83%) degli intervistati ha dichiarato di aver utilizzato almeno uno dei seguenti servizi cloud NLP: AWS Comprehend, Azure Text Analytics, Google Cloud Natural Language AI o IBM Watson NLU. Sebbene la popolarità e l’accessibilità dei servizi cloud siano ovvie, i leader tecnologici hanno citato la difficoltà nell’ottimizzazione dei modelli e dei costi come sfide principali. In sostanza, anche gli esperti sono alle prese con il mantenimento dell’accuratezza dei modelli in produzione.
Un altro problema è che ci vuole tempo per capire se e quando qualcosa non va. Amazon potrebbe aggiornare un algoritmo per il rilevamento delle frodi e bloccare erroneamente i clienti nel processo. Entro poche ore, forse anche minuti, le e-mail del servizio clienti indicheranno un problema. Nel settore sanitario, possono essere invece necessari mesi per ottenere dati sufficienti su una determinata condizione per accorgersi se un modello è degradato.
In sostanza, per mantenere i modelli accurati è necessario applicare lo stesso rigore di test, automazione delle pipeline di riaddestramento e misurazione che è stato condotto prima della distribuzione del modello. Quando si ha a che fare con modelli AI e ML in produzione, è più logico aspettarsi problemi piuttosto che prestazioni ottimali dopo diversi mesi.
Se si considera tutto il lavoro necessario per mettere in produzione i modelli e mantenerli al sicuro, è comprensibile il motivo per cui l’87% dei progetti che riguardano i dati non arriva mai sul mercato. Nonostante ciò, il 93% dei leader tecnologici ha indicato che i propri budget per la NLP sono cresciuti del 10-30% rispetto allo scorso anno (Gradient Flow). È incoraggiante vedere investimenti crescenti in questa tecnologia, ma è del tutto inutile se le aziende non fanno il punto sulle competenze, il tempo e l’aggiornamento continuo necessari per implementare progetti NLP di successo.