ChatGPT, il Garante, tecno anarchici e neo luddisti

ia generativa privacy
Il provvedimento del Garante Italiano su ChatGPT ha diviso la comunità tech in fazioni che si accusano a vicenda, ma i rilievi sollevati evidenziano problematiche concrete che vanno oltre ai tecnicismi sulla privacy, e qualche equivoco di fondo alimentato dalle aziende AI.

Di fronte ai tanti dubbi che le IA generative sollevano, ma soprattutto a seguito dell’intervento del Garante della Privacy italiano (guardato con attenzione però anche dagli organi analoghi di Germania, Irlanda e altri paesi europei), le opinioni si stanno dividendo in fazioni radicali, alimentate dagli algoritmi social che – si sa – favoriscono la polemica.

Da un lato i tecno anarchici che sostengono che la tecnologia non possa e non debba essere limitata, e che ogni tentativo di farlo sia frutto di incompetenza tecnologica, arretratezza culturale o attaccamento a posizioni di potere; dall’altro, neo luddisti che accusano i primi di voler svendere i propri diritti alle multinazionali tech e paventano un futuro distopico in cui queste schiacceranno l’uomo sotto il proprio tallone. In mezzo, la lettera con richiesta di moratoria di sei mesi sul rilascio di nuovi modelli IA più potenti firmata da scienziati, personalità e imprenditori (spesso concorrenti di OpenAI. La volpe, l’uva…).

Col rischio di essere arruolato d’ufficio in uno dei tre schieramenti, vorrei mettere in fila un po’ di pensieri sugli ultimi avvenimenti che hanno comportato il blocco di ChatGPT per gli utenti italiani e su avvenimenti meno recenti ma che comunque costituiscono un problema per come questo e altri servizi sono stati costruiti e vengono erogati.

Due dei principali motivi che hanno dato origine al provvedimento del Garante della Privacy sono abbastanza tecnici e facilmente risolvibili da OpenAI: dovrebbe bastare aggiungere un meccanismo di filtro per età (banalmente: chiedere all’utente “quanti anni hai?”) e formulare diversamente l’informativa privacy, esplicitando il possibile utilizzo dei dati delle conversazioni per analisi da parte di operatori o nell’addestramento di nuove versioni del modello. Quest’ultimo punto è presente nelle FAQ di ChatGPT, ma non nell’informativa privacy di OpenAI, e probabilmente meriterebbe la raccolta di un consenso separato, esplicito e libero.

Il problema non riguarda solo i dati personali protetti da GDPR: Amazon, per esempio, ha vietato in via cautelativa ai propri dipendenti di inserire dati aziendali nelle chat con le IA, proprio perché non si può escludere che vengano rivelati a dipendenti di OpenAI o finiscano in qualche modo per farsi strada nel modello.

La troppa fretta degli sviluppatori IA

Ora, il fatto un’azienda attualmente valutata 29 miliardi di dollari attivi globalmente un servizio che presenta simili problemi, facilmente risolvibili con un form e una valutazione di impatto sulla privacy, è una cosa francamente inconcepibile, e che si spiega solo in un modo: OpenAI e tutti i suoi concorrenti stanno correndo come dei pazzi per rilasciare i loro prodotti AI, saltando a piè pari i controlli più basilari.

Un comportamento affrettato di questo tipo lo abbiamo potuto constatare anche al lancio di Google Bard, quando un errore contenuto in una slide della presentazione ufficiale del prodotto è costato in un solo giorno 100 miliardi nella valutazione delle azioni di Alphabet, capogruppo di Google. Con molte meno conseguenze finanziarie, anche il lancio di Bing Chat è stato accompagnato da errori e risposte poco consone a un prodotto rilasciato al pubblico da una multinazionale di quel calibro.

Se le aziende di IA fanno errori così grossolani, su quali altri controlli stanno sorvolando?

Si fa strada nella mente un dubbio: se multinazionali di quel calibro hanno tralasciato di compiere verifiche tutto sommato di routine, come la valutazione di compliance dell’informativa privacy o la correzione del contenuto delle slide per una presentazione destinata a milioni di occhi in tutto il mondo, quali altri controlli stanno omettendo?

Le informazioni personali inattendibili

L’aspetto della inattendibilità delle risposte dei Large Language Model (LLM) quando riguardano dati, fatti e informazioni personali non è invece risolvibile con le attuali tecnologie. Un LLM compone dei testi calcolando la parola che ha più probabilità di comparire dopo quella precedente, nel contesto impostato dalla richiesta dell’utente (il prompt) e usando come informazione le relazioni tra le parole contenute nella quantità sterminata di dati con cui è stato addestrato.

Nel caso di personaggi molto famosi, o fatti su cui esiste moltissima documentazione, un’affermazione risultante dalla concatenazione probabilistica di parole risulterà “probabilmente vera”. Quando però si mettono in fila più affermazioni in uno stesso output, oppure si chiede un’informazione su una persona o fatto poco documentati in rete, la probabilità che almeno una di esse sia sbagliata aumenta. E ciascun errore può provocare nuovi e più grandi errori nel determinare le parole successive più probabili.

Come un bambino che voglia compiacere un adulto quando parla di un argomento che non padroneggia, finiti gli argomenti noti comincia a inventare, e ogni frase successiva punta a giustificare l’affermazione fatta.

Al momento, questo problema è risolvibile solo in un modo: avvisando gli utenti, come si fa nelle opere di fantasia, che “ogni riferimento a fatti realmente accaduti o persone esistenti è (probabilmente) casuale”. Questo andrebbe fatto in ogni sessione, assieme alla precisazione che l’utente si assume ogni responsabilità di una mancata verifica delle informazioni prima della eventuale pubblicazione del contenuto.

Questo però non piacerà alle aziende di AI e ai loro investitori, che hanno tutto l’interesse nel mantenere l’equivoco e far credere che già oggi i LLM rappresentino in embrione quell’intelligenza artificiale generale, entità onnisciente e saggia, che risolverà tutti i problemi dell’umanità (qui sotto per esempio Sam Altman, CEO di OpenAI, nella lunga intervista di Lex Friedman).

La smisurata potenza dell’AI Generale, che ancora non esiste, viene anche usata da OpenAI per giustificare la progressiva opacità nel rilasciare pubblicamente informazioni su modello, parametri e dati di addestramento.

Cercano di vendere i LLM come consulenti esperti, mentre invece sono degli stagisti, efficientissimi e volenterosi ma molto pasticcioni, il cui lavoro deve essere supervisionato costantemente.

 

Le aziende di IA cercano di vendere i large language model come consulenti esperti, ma sono solo degli stagisti molto efficienti

Ammettere che le informazioni fattuali non sono attendibili potrebbe mettere le aziende AI ai riparo da contestazioni, ma saranno disposte a compiere questo passo indietro?

L’opacità sui dati di training setacciati dal web

Un altro punto sollevato dal Garante, la presenza nei dati di training di informazioni personali setacciate dal web senza che gli interessati abbiano potuto esprimere o negare un consenso è invece un po’ più complesso da risolvere a posteriori, ma forse si può ancora qualcosa per il futuro.

È vero che quei dati erano pubblicamente accessibili, ma è anche vero che chi li ha pubblicati lo ha fatto quando non era prevedibile che sarebbero stati usati in quel modo. Un problema molto simile lo hanno gli autori dei contenuti con cui sono stati creati i dataset di training: nel rastrellare articoli di giornale, paper di ricerca o tabelle di dati, OpenAI avrà tenuto conto dei termini e condizioni d’uso presenti sui siti web di moltissimi editori, che vietano l’utilizzo di strumenti automatizzati per navigare sul sito e scaricarne i contenuti?

Di più: cosa contiene davvero il dataset Books2 utilizzato nel training di GPT? Le dimensioni indicate da OpenAI, non combaciano con i dataset dei soli libri di pubblico dominio, e l’azienda non ha mai precisato origine e composizione di quei dataset. Alcuni osservatori sospettano che almeno in parte provengano da Bibliotik o Library Genesys, siti che distribuiscono ebook pirata di ogni tipo.

Se questo fosse vero, l’affermazione che “ognuno è libero di imparare”, usata da molte aziende di IA per giustificare l’uso di informazioni protette da copyright nei modelli linguistici verrebbe un po’ a cadere, se per la lettura di quell’opera non si è pagato nemmeno il prezzo di copertina (figuriamoci i diritti per sfruttamento ulteriore dell’opera).

La scorsa settimana, dopo il rilascio del plugin che permette a ChatGPT di collegarsi al web, OpenAI ha annunciato che nel farlo onorerà un eventuale divieto di accesso inserito nel file robots.txt che i siti web usano per disciplinare l’accesso ai motori di ricerca. Questo però riguarda solo i dati “live”, e non i dati che negli scorsi mesi e anni hanno alimentato i dataset di training.

Regolare, non fermare

Ora, se vogliamo appoggiare un attimo le bandiere da ultras delle fazioni rivali e ragionare come le persone grandi, ci sono dei nodi che è necessario chiarire non per frenare o limitare lo sviluppo delle IA generative, ma per permetterne uno sviluppo consapevole e benefico per tutta la società.

  • Se è vero, come ritengo, che le IA generative siano in grado nel prossimo futuro di aumentare drasticamente la produttività arrivando a spostare punti percentuali di PIL, con impatti rilevanti sull’occupazione (in entrambi i versi), non è il caso che ci assicuriamo prima che questa tecnologia poggi su basi giuridiche solide?
  • Cosa accadrà altrimenti alle imprese che nei prossimi mesi si affideranno ai servizi delle IA generative se in futuro dovessero essere esposte alle conseguenze di nuove leggi, cause o class action che ne limitano o impediscono l’operatività?
  • I dati sono il nuovo petrolio, diceva quello. Ma i dati sono i nostri: dei cittadini, delle imprese, degli autori ed editori di contenuti di tutto il mondo. È un’eresia chiedere, se non il pagamento di una concessione per lo sfruttamento di questi giacimenti come si fa con il petrolio, almeno la possibilità di dire la propria su come i contenuti possono essere sfruttati, o di opporsi al trattamento?

Mettiamo a posto queste questioni fondamentali, e poi avanziamo tutti insieme verso le meravigliose e progressive sorti dell’intelligenza artificiale generativa, senza lasciare che ad avvantaggiarsene siano solo i pionieri più spregiudicati.

(Immagine di apertura da Dall-E 2, prompt: A symbolic representation of ethical and legal issues in the use of generative artificial intelligence and large language models)

Aziende:
OpenAI
Condividi:
 

Commissione europea: 1,3 miliardi di euro per la transizione digitale e la cybersecurity

commissione europea
La Commissione Europea ha adottato il programma di lavoro del Digital Europe Programme per il periodo 2023-2024 stanziando quasi 1,3 miliardi di euro in due tranche.

La Commissione Europea ha adottato due programmi di lavoro pluriennali per il Digital Europe Programme (DEP), delineando gli obiettivi e le aree tematiche specifiche che riceveranno un finanziamento totale di 1,284 miliardi di euro, di cui 553 milioni di euro disponibili nel 2023. Questi programmi di lavoro comprendono investimenti strategici che saranno determinanti per rendere questo il Decennio Digitale europeo. Il Digital Europe Programme mira a rafforzare la sovranità tecnologica dell’Europa e a portare sul mercato soluzioni digitali a beneficio dei cittadini, delle amministrazioni pubbliche e delle imprese, contribuendo al contempo agli obiettivi del Green Deal europeo.

Programma di lavoro principale del DEP

Il programma di lavoro principale ha un valore di 909,5 milioni di euro per il periodo 2023 e 2024 e mira a garantire la continuazione e l’evoluzione delle attività avviate nell’ambito del bilancio 2021-2022. In quanto tale, rafforza le capacità digitali critiche dell’UE concentrandosi sui settori chiave della tecnologia per la protezione del clima e dell’ambiente, dei dati, dell’IA, del cloud, della sicurezza informatica, delle competenze digitali avanzate e dell’impiego ottimale di queste tecnologie (blockchain, soluzioni interoperabili per i servizi pubblici digitali e il quadro di riferimento per affrontare le esigenze urgenti nel consumo energetico).

Un esempio di progetti da sostenere è la creazione di spazi dati comuni in aree strategiche come il patrimonio culturale, il turismo, le lingue, l’energia, l’industria manifatturiera, l’agricoltura, le forze dell’ordine e la salute, che favoriranno la condivisione transfrontaliera dei dati per le imprese, comprese le PMI, le start-up e il settore pubblico. Questo viene fatto nell’ambito della strategia europea per i dati, che mira a creare un mercato unico dei dati che garantisca la competitività globale dell’Europa e la sovranità dei dati.

Un altro esempio sarà l’agevolazione di una più rapida adozione delle tecnologie IA in Europa, in particolare il loro utilizzo da parte di aziende e PMI, lo sviluppo di tecnologie di realtà virtuale per città e comunità e una piattaforma per modelli avanzati di gemelli umani virtuali per l’assistenza sanitaria.

NIS2 cybersicurezza

Il programma di lavoro principale investirà anche nelle sfide della protezione del clima e dell’ambiente sostenendo la prossima fase dell’evoluzione del gemello digitale della Terra (Destination Earth), istituendo uno spazio dati per il green deal e preparando un Passaporto Digitale dei Prodotti per consentire l’economia circolare. Altri progetti finanziati vedranno la creazione e l’erogazione di corsi di istruzione superiore in tecnologie digitali avanzate e il rafforzamento delle competenze, in particolare nei settori dei semiconduttori e della sicurezza informatica.

Il programma di lavoro principale finanzierà anche progetti nelle aree della digitalizzazione della giustizia e della protezione dei consumatori, rendendo internet un ambiente più sicuro per i bambini e i giovani e combattendo la disinformazione attraverso l’Osservatorio europeo dei media digitali (EDMO). Inoltre, fornirà supporto alle start-up e alle PMI digitali attraverso la Piattaforma di investimento per le tecnologie digitali strategiche nell’ambito del programma InvestEU, con particolare attenzione alla sicurezza informatica.

Programma di lavoro sulla sicurezza informatica

La Commissione Europea ha pubblicato un altro programma di lavoro specifico incentrato sulla sicurezza informatica, con un budget di 375 milioni di euro per il periodo 2023-2024 per migliorare la resilienza collettiva dell’UE contro le minacce informatiche.

Questo programma sosterrà, ad esempio, lo sviluppo delle capacità dei Centri operativi di sicurezza nazionali e transfrontalieri al fine di creare un ecosistema all’avanguardia per il rilevamento delle minacce e l’analisi degli incidenti informatici. Inoltre, consentirà lo sviluppo di capacità di cybersecurity attraverso i Centri di coordinamento nazionali, che mireranno a promuovere la cooperazione transfrontaliera e la preparazione di azioni congiunte come definito nel regolamento del Centro di competenza industriale, tecnologico e di ricerca e della rete europea sulla cybersecurity.

Saranno inoltre finanziati progetti che supportano l’industria, in particolare le PMI e le start-up, nel conformarsi ai requisiti normativi in materia di sicurezza informatica, in particolare l’attuazione della NIS2 o i requisiti relativi alla proposta di legge sulla resilienza informatica.

I primi bandi per questo programma di lavoro sulla cybersecurity saranno pubblicati dalla Commissione Europea in primavera, mentre altri saranno pubblicati dopo l’estate. I bandi sono aperti alle imprese, alle amministrazioni pubbliche e ad altri enti degli Stati membri dell’UE, dei paesi EFTA/SEE e dei paesi associati al Digital Europe Programme.

Condividi: