L’IA generativa è un termine che racchiude qualsiasi tipo di processo automatizzato che utilizza algoritmi per produrre, manipolare o sintetizzare dati, spesso sotto forma di immagini o testo leggibile dall’uomo. Si chiama generativa perché l’IA crea qualcosa che non esisteva in precedenza. Questo è ciò che la differenzia dall’IA discriminativa, che fa distinzioni tra diversi tipi di input. Per dirla in modo diverso, l’IA discriminativa cerca di rispondere a una domanda come Questa immagine è il disegno di un coniglio o di un leone?, mentre l’IA generativa risponde a richieste come Disegnami un’immagine di un leone e di un coniglio seduti uno accanto all’altro.

Con questo articolo vogliamo approfondire l’IA generativa e il suo utilizzo con modelli popolari come ChatGPT e DALL-E affrontando anche i limiti di questa tecnologia, compreso il motivo per cui il termine “troppe dita” ha assunto un’accezione negativa per l’arte generata artificialmente.

La nascita dell’IA generativa

L’IA generativa esiste da anni, probabilmente da quando ELIZA, un chatbot che simula la conversazione con un terapeuta, è stato sviluppato al MIT nel 1966. Ma anni di lavoro sull’IA e sul machine learning si sono recentemente concretizzati con il rilascio di nuovi sistemi di IA generativa. Avrete sicuramente sentito parlare di ChatGPT, un chatbot IA basato sul testo che produce una prosa straordinariamente simile a quella umana. Anche DALL-E e Stable Diffusion hanno attirato l’attenzione per la loro capacità di creare immagini vivaci e realistiche sulla base di suggerimenti testuali. Spesso ci riferiamo a questi sistemi e ad altri simili come a dei modelli, perché rappresentano un tentativo di simulare o modellare alcuni aspetti del mondo reale sulla base di un sottoinsieme (a volte molto ampio) di informazioni su di esso.

L’output di questi sistemi è così “inquietante” che molte persone si pongono domande filosofiche sulla natura della coscienza e si preoccupano dell’impatto economico dell’IA generativa sui posti di lavoro umani. Ma mentre tutte queste creazioni di intelligenza artificiale sono innegabilmente qualcosa di affascinante, sotto la superficie sta accadendo molto meno di quanto si possa pensare. Tra poco ci occuperemo di alcune di queste domande di ampio respiro, ma per prima cosa vediamo cosa succede sotto il cofano di modelli come ChatGPT e DALL-E.

Come funziona l’IA generativa?

L’IA generativa utilizza il machine learning per elaborare un’enorme quantità di dati visivi o testuali, in gran parte raccolti da internet, e determinare quali sono le cose che hanno più probabilità di apparire vicino ad altre. Gran parte del lavoro di programmazione dell’IA generativa consiste nel creare algoritmi in grado di distinguere le “cose” di interesse per i creatori dell’IA: parole e frasi nel caso di chatbot come ChatGPT, o elementi visivi per DALL-E. Ma fondamentalmente, l’IA generativa crea i suoi risultati valutando un enorme corpus di dati su cui è stata addestrata, per poi rispondere alle richieste con qualcosa che rientra nell’ambito della probabilità determinata da quel corpus.

Il completamento automatico, che avviene quando il vostro smartphone o Gmail vi suggerisce quale potrebbe essere il resto della parola o della frase che state digitando, è una forma di AI generativa di basso livello, mentre modelli come ChatGPT e DALL-E portano l’idea a livelli molto più avanzati.

Addestramento dei modelli di IA generativa

Il processo con cui vengono sviluppati i modelli per adattarli a tutti questi dati si chiama addestramento. Ci sono un paio di tecniche di base per i diversi tipi di modelli. ChatGPT utilizza il cosiddetto transformer (la T sta proprio per questo). Un transformer ricava il significato da lunghe sequenze di testo per capire come diverse parole o componenti semantiche possano essere correlate tra loro e determinare la probabilità che si verifichino in prossimità l’una dell’altra. Questi “trasformatori” vengono eseguiti senza supervisione su un vasto corpus di testi in linguaggio naturale in un processo chiamato pretraining (è il P in ChatGPT), prima di essere messi a punto da esseri umani che interagiscono con il modello.

Un’altra tecnica utilizzata per addestrare i modelli è la cosiddetta rete generativa avversaria (GAN). In questa tecnica, ci sono due algoritmi in competizione tra loro. Uno genera testo o immagini sulla base di probabilità derivate da un grande insieme di dati; l’altro è un’IA discriminativa, che è stata addestrata dagli esseri umani per valutare se l’output è reale o generato dall’IA. L’IA generativa cerca ripetutamente di “ingannare” l’IA discriminativa, adattandosi automaticamente per favorire i risultati che hanno successo. Una volta che l’IA generativa “vince” costantemente questa competizione, l’IA discriminativa viene messa a punto dall’uomo e il processo ricomincia.

Uno degli aspetti più importanti da tenere a mente è che, nonostante l’intervento umano nel processo di addestramento, la maggior parte dell’apprendimento e dell’adattamento avviene automaticamente. Sono necessarie così tante iterazioni per portare i modelli al punto in cui producono risultati interessanti che l’automazione diventa essenziale. Il processo è piuttosto intensivo dal punto di vista computazionale.

L’intelligenza artificiale generativa è senziente?

La matematica e la codifica per la creazione e l’addestramento dei modelli di IA generativa sono piuttosto complesse e vanno ben oltre lo scopo di questo articolo. Ma se interagite con i modelli che sono il risultato finale di questo processo, l’esperienza può essere decisamente sorprendente e, come detto prima, anche un po’ inquietante. Potete far sì che DALL-E produca oggetti che sembrano vere e proprie opere d’arte, oppure avere avere conversazioni con ChatGPT che sembrano conversazioni con un altro essere umano. I ricercatori hanno davvero creato una macchina pensante?

Chris Phipps, ex responsabile dell’elaborazione del linguaggio naturale di IBM che ha lavorato ai prodotti Watson AI, dice di no. Descrive ChatGPT come una “macchina di previsione molto valida”. “È molto brava a prevedere ciò che gli esseri umani troveranno coerente. Non è sempre coerente (nella maggior parte dei casi lo è) ma non perché ChatGPT capisca. È il contrario: gli esseri umani che consumano l’output sono davvero bravi a fare tutte le ipotesi implicite di cui abbiamo bisogno per rendere l’output sensato”.
Phipps, che è anche un attore comico, fa un paragone con un noto gioco di improvvisazione chiamato Mind Meld.

“Due persone pensano a una parola e la pronunciano ad alta voce contemporaneamente: tu dici “stivale” e io “albero”. Abbiamo inventato queste parole in modo del tutto indipendente e all’inizio non avevano nulla a che fare l’una con l’altra. I due partecipanti successivi prendono queste due parole e cercano di trovare qualcosa che abbiano in comune e lo dicono ad alta voce contemporaneamente. Il gioco continua finché due partecipanti non dicono la stessa parola. Magari, a un certo punto, le due persone dicono entrambe “boscaiolo”. Sembra una magia, ma la realtà è che usiamo il nostro cervello umano per ragionare sugli input (“stivale” e “albero”) e trovare un collegamento. Siamo noi a fare il lavoro di comprensione, non la macchina. In ChatGPT e DALL-E c’è molto più di quanto si ammetta. ChatGPT può scrivere una storia, ma noi umani facciamo molto lavoro per darle un senso”.

Ai,Tech,,Businessman,Show,Virtual,Graphic,Global,Internet,Connect,Chatgpt

Testare i limiti dell’intelligenza del computer

Alcuni suggerimenti che possiamo dare a questi modelli di intelligenza artificiale rendono abbastanza evidente il punto di Phipps. Ad esempio, consideriamo l’indovinello “Cosa pesa di più, un chilo di piombo o un chilo di piume?”. La risposta, ovviamente, è che pesano lo stesso (un chilo), anche se il nostro istinto o il nostro buon senso potrebbero dirci che le piume sono più leggere.

ChatGPT risponderà correttamente a questo indovinello e si potrebbe pensare che lo faccia perché è un computer freddamente logico che non ha alcun “senso comune” che lo faccia inciampare. Ma non è questo che succede. ChatGPT non sta ragionando logicamente sulla risposta, ma sta solo generando un output basato sulle sue previsioni di ciò che dovrebbe seguire una domanda su una libbra di piume e una libbra di piombo. Dato che il suo set di addestramento include un mucchio di testo che spiega l’indovinello, assembla una versione della risposta corretta. Ma se chiedete a ChatGPT se due chili di piume sono più pesanti di un chilo di piombo, vi risponderà con sicurezza che pesano la stessa quantità, perché questa è ancora la risposta più probabile a una domanda su piume e piombo basata sul suo set di addestramento.

Perché l’IA art ha troppe dita?

Una stranezza notevole dell’IA generativa applicata all’arte è che spesso rappresenta persone con mani decisamente strane. La “stranezza delle mani” sta diventando un indicatore comune del fatto che l’arte è stata generata artificialmente. Questa stranezza offre ulteriori spunti per capire come funziona (e non funziona) l’IA generativa. Partiamo dal corpus da cui DALL-E e altri strumenti simili di IA generativa visiva attingono. Le immagini delle persone di solito permettono di vedere bene il loro volto, ma le loro mani sono spesso parzialmente oscurate o mostrate con angolazioni strane, per cui non è possibile vedere tutte le dita contemporaneamente.

A ciò si aggiunge il fatto che le mani sono strutturalmente complesse: sono notoriamente difficili da disegnare anche per gli artisti più esperti. E una cosa che DALL-E non sta facendo è assemblare un elaborato modello 3D di mani basato sulle varie rappresentazioni 2D presenti nel suo set di addestramento. Non è così che funziona. DALL-E non sa nemmeno che le “mani” sono una categoria coerente di cose su cui ragionare. Tutto ciò che può fare è cercare di prevedere, sulla base delle immagini in suo possesso, come potrebbe apparire un’immagine simile. Nonostante l’enorme quantità di dati di addestramento, queste previsioni spesso non vanno a buon fine.

Phipps ipotizza che uno dei fattori sia la mancanza di input negativi.Per quanto ne so, si addestra principalmente su esempi positivi. Non gli hanno dato la foto di una mano con sette dita e gli hanno detto “NO! Pessimo esempio di mano. Non farlo”. Quindi l’IA predice lo spazio del possibile, non quello dell’impossibile. In pratica, non gli è mai stato detto di non creare una mano a sette dita”.

C’è anche il fatto che questi modelli non pensano ai disegni che stanno realizzando come un insieme coerente; piuttosto, assemblano una serie di componenti che probabilmente si trovano in prossimità l’uno dell’altro, come dimostrano i dati di addestramento. DALL-E potrebbe non sapere che una mano deve avere cinque dita, ma sa che un dito è probabilmente immediatamente adiacente a un altro dito. Quindi, a volte, continua ad aggiungere dita.

Potenziali impatti negativi dell’IA generativa

Questi esempi mostrano una delle principali limitazioni dell’IA generativa; gli addetti ai lavori le chiamano “allucinazioni”, un termine forse fuorviante per indicare un risultato che, secondo gli standard degli esseri umani che lo utilizzano, è falso o errato. Tutti i sistemi informatici producono occasionalmente degli errori, naturalmente, ma questi errori sono particolarmente problematici perché è improbabile che gli utenti finali li individuino facilmente. Se state facendo una domanda a un chatbot IA come ChatGPT, è perché generalmente non conoscete la risposta. È anche molto probabile che accettiate come vera una risposta fornita nella prosa sicura e completamente idiomatica che ChatGPT e altri modelli simili producono, anche se la loro risposta non è corretta.

Anche se un’IA generativa fosse in grado di produrre risultati privi di allucinazioni, ci sono diversi potenziali impatti negativi:

  • Creazione di contenuti facile ed economica: Si spera che sia ormai chiaro che ChatGPT e altre IA generative non sono vere e proprie menti in grado di produrre creatività o intuizioni. Ma la verità è che non tutto ciò che viene scritto o disegnato deve essere particolarmente creativo. Molti lavori di ricerca a livello liceale o universitario mirano solo a sintetizzare dati disponibili pubblicamente, il che li rende un bersaglio perfetto per le IA generative. Inoltre, il fatto che la prosa o l’arte sintetica possano essere prodotte automaticamente, su scala sovrumana, potrebbe avere risultati strani o imprevisti. Gli artisti dello spam stanno già utilizzando ChatGPT per scrivere email di phishing, ad esempio.
  • Proprietà intellettuale: Chi è il proprietario di un’immagine o di un testo generato dall’intelligenza artificiale? Se un’opera protetta da copyright fa parte del set di addestramento di un’IA, quest’ultima la “plagia” quando genera dati sintetici, anche se non la copia parola per parola? Si tratta di questioni legali spinose e non ancora chiarite.
  • Pregiudizi: il contenuto prodotto dall’IA generativa è interamente determinato dai dati sottostanti su cui è stata addestrata. Poiché tali dati sono prodotti da esseri umani con tutti i loro difetti e pregiudizi, anche i risultati generati possono essere errati e parziali, soprattutto se operano senza un controllo umano. OpenAI, l’azienda che ha creato ChatGPT, ha inserito delle misure di sicurezza nel modello prima di aprirlo all’uso pubblico che gli impediscono di fare cose come l’uso di insulti razziali; tuttavia, altri hanno affermato che proprio queste misure di sicurezza rappresentano loro stesse un tipo di pregiudizio.
  • Consumo di energia: Oltre alle questioni filosofiche, l’IA generativa solleva alcuni problemi pratici. Ad esempio, l’addestramento di un modello di IA generativa richiede un’enorme quantità di calcoli. Questo può comportare costi elevati di cloud computing per le aziende che cercano di entrare in questo settore e, in ultima analisi, ci si chiede se l’aumento del consumo di energia (e, in ultima analisi, delle emissioni di gas serra) valga il risultato finale (questa domanda si pone tra l’altro anche per le criptovalute e la tecnologia blockchain).

Casi d’uso dell’IA generativa

Nonostante questi potenziali problemi, la promessa dell’IA generativa è difficile da ignorare. La capacità di ChatGPT di estrarre informazioni utili da enormi insiemi di dati in risposta a query in linguaggio naturale fa gola ai giganti della ricerca. Microsoft sta testando il proprio chatbot AI, chiamato Sydney, anche se è ancora in fase beta e i risultati sono stati decisamente contrastanti.

Ma Phipps ritiene che i tipi di ricerca più specializzati si adattino perfettamente a questa tecnologia. “Uno dei miei ultimi clienti in IBM era una grande azienda di spedizioni internazionali che aveva anche un’attività di consulenza sulla supply chain da un miliardo di dollari. Il loro problema era che non riuscivano ad assumere e formare abbastanza velocemente i consulenti di supply chain entry level: stavano perdendo affari perché non riuscivano a rispondere rapidamente a semplici domande dei clienti. Abbiamo così creato un chatbot per aiutare i consulenti entry level a cercare nell’ampia libreria dell’azienda manuali e presentazioni sulla supply chain da consegnare ai clienti. Se oggi dovessi costruire una soluzione per quello stesso cliente, solo un anno dopo aver costruito la prima, utilizzerei al 100% ChatGPT e probabilmente sarebbe di gran lunga superiore a quella che ho creato. L’aspetto positivo di questo caso d’uso è che c’è ancora un esperto umano nel loop che ricontrolla la risposta. Questo attenua molti dei problemi etici. Esiste un mercato enorme per questo tipo di strumenti di ricerca intelligenti destinati agli esperti”.

Altri potenziali casi d’uso sono:

  • Generazione di codice: L’idea che l’intelligenza artificiale generativa possa scrivere il codice del computer al posto nostro circola ormai da anni. È emerso che modelli linguistici di grandi dimensioni come ChatGPT sono in grado di comprendere i linguaggi di programmazione così come le lingue naturali parlate e, sebbene l’IA generativa probabilmente non sostituirà i programmatori nell’immediato futuro, può contribuire ad aumentare la loro produttività.
  • Creazione di contenuti semplice ed economica: Per quanto questa sia anche una delle preoccupazioni appena elencate, è anche un’opportunità. La stessa IA che scrive email di spam può scrivere email di marketing legittime e c’è stata un’esplosione di startup di copywriting IA. L’IA generativa prospera quando si tratta di forme di prosa altamente strutturate che non richiedono molta creatività, come i curriculum e le lettere di presentazione.
  • Design ingegneristico: L’arte visiva e il linguaggio naturale hanno ricevuto molta attenzione nell’ambito dell’intelligenza artificiale generativa perché sono facili da comprendere per la gente comune. Ma tecniche simili vengono utilizzate per progettare qualsiasi cosa, dai microchip ai nuovi farmaci, e quasi certamente entreranno presto anche nel settore della progettazione dell’architettura IT.

Conclusione

L’IA generativa sconvolgerà sicuramente alcuni settori e modificherà, o eliminerà, molti lavori. Tuttavia, articoli come questo continueranno a essere scritti da esseri umani, almeno per ora. CNET ha recentemente provato a mettere l’IA generativa al lavoro per scrivere articoli, ma lo sforzo è naufragato contro uno scoglio di allucinazioni. Se siete preoccupati, potreste sempre indirizzarvi verso lavoro di domani: l’ingegnere dell’intelligenza artificiale.