Se l’obiettivo dei modelli di intelligenza artificiale generativa è quello della previsione accurata di contenuti, qualsiasi sia la loro natura, essi resteranno inevitabilmente lesivi della nostra privacy e problematici per i contenuti che creano.
E, alla luce dell’incredibile semplicità di utilizzo e della rapida diffusione che stiamo osservando, non ha senso pensare di limitare i danni creando sistemi di identificazione di contenuti generati artificialmente: anzitutto essi hanno elevate percentuali di errore e sono quindi del tutto inaffidabili, ed in secondo luogo non sono scalabili tanto quanto quelli che cercano di combattere.
IA generativa, una tecnologia cresciuta troppo in fretta
L’intelligenza artificiale (IA) generativa è una potente innovazione che può essere applicata negli ambiti più disparati: dalla moderazione di contenuti alla raccomandazione di prodotti, dai motori di ricerca alla personalizzazione delle pubblicità.
È anche la tecnologia che ha avuto in assoluto la diffusione più veloce nella storia: ChatGPT, l’IA che genera testo creata da OpenAI, ha raggiunto i 100 milioni di utenti appena due mesi dopo essere stata introdotta al pubblico gratuitamente nella versione base.
Forse è cresciuta troppo rapidamente. Non appena è risultato chiaro che un modello tanto potente potesse essere facilmente e gratuitamente utilizzato da chiunque senza alcuna necessità di preparazione tecnica, gli esperti di etica della tecnologia hanno iniziato a suonare l’allarme.
IA generativa, l’allarme degli esperti di etica della tecnologia
In realtà alcuni hanno cominciato a parlare del problema molto prima: Timnit Gebru, allora leader del gruppo di etica dell’IA a Google, ha tentato di avvertire gli esperti del settore già nel “lontano” 2020, quando, insieme alle sue coautrici, ha scritto un articolo scientifico che sollevava dubbi sulle conseguenze di utilizzare modelli di linguaggio con milioni di miliardi di parametri per generare testo che ha la parvenza di qualcosa di scritto da una persona, modelli su cui Google stava già investendo molte risorse da diverso tempo. Purtroppo, la conseguenza per Timnit è stata il licenziamento immediato, seguito dall’abbandono di altri membri del suo gruppo, mentre la corsa di Google, così come di molte altre grandi aziende, verso lo sviluppo di modelli di IA sempre più grandi è proseguita con poche e superficiali riflessioni sulle sue implicazioni.
I rischi evidenziati nell’articolo che ha allontanato Timnit dal colosso californiano sono di varia natura: vanno dalla discriminazione delle minoranze che risulterebbe dall’applicazione di questi modelli per decisioni rilevanti a livello sociale, come consentire l’apertura di linee di credito o stabilire la priorità nelle liste per operazioni chirurgiche, alla proprietà intellettuale dei contenuti utilizzati per costruire gli algoritmi ed alla loro sostenibilità in termini di impatto economico-ambientale. Recentemente è poi stato pubblicato un articolo accademico che si sofferma nello specifico sui problemi di sicurezza associati a questi modelli in cui si dimostra formalmente che la natura stessa dei grandi modelli di IA con miliardi di parametri li rende necessariamente pieni di vulnerabilità. L’articolo è impenetrabile, molto tecnico e decisamente complesso anche per gli esperti, ma cercheremo qui di spiegare il senso di un risultato tanto preoccupante.
Anzitutto occorre partire da un concetto di base riguardante i grandi modelli di IA, e cioè il fatto che essi siano degli strumenti costruiti unicamente per fare previsioni. Come abbiamo spiegato inizialmente, possono essere previsioni di qualsiasi natura: della prossima serie televisiva che guarderemo, della pubblicità alla quale daremo più attenzione, dell’accelerazione del veicolo che precede la nostra automobile autonoma, della prossima parola da utilizzare in un testo scritto, e via dicendo. Il punto cruciale è che tutti i grandi modelli di IA sono “semplicemente” dei complessi calcolatori di probabilità che danno come output il risultato più probabile. Non hanno alcuna comprensione del risultato che generano o delle conseguenze del suo utilizzo e non hanno nulla a che vedere con il collegamento tra causa ed effetto: non offrono alcuna intuizione sul perché, data una serie numerosissima di input, l’output sia di un certo tipo. Per fare un esempio pratico, sarebbe come dire che dato che Alberto è uscito di casa stamattina alle 8.13, ha incontrato Barbara, ha preso un caffè al bar all’angolo, è poi salito sull’autobus alle 8.27 entrando dalle porte posteriori, ha utilizzato quella maniglia per tenersi in equilibrio durante il tragitto, è sceso una fermata prima del solito e proseguito per l’ultimo tratto a piedi battendo il traffico, ha raggiunto il posto di lavoro alle 8.56, ha salutato il portiere, preso le scale invece dell’ascensore, acceso il computer alle 9 in punto, e così via dicendo con mille dettagli sulla sua giornata, allora la cosa più probabile che accada durante la sua cena è che gli si rompa un bicchiere. Un algoritmo di IA non usa alcun nesso di causa-effetto, “considera” tutte le variabili che ha a disposizione per estrapolare degli schemi del tutto impenetrabili per la mente umana, che invece ragiona in termini di causa-effetto, e quindi genera delle previsioni spesso imperscrutabili, che per noi potrebbero non avere senso alcuno ma, in qualche modo, sono accurate.
La riproduzione dello status quo con tutti i suoi pregiudizi
Questo è un altro aspetto fondamentale: i grandi modelli di IA sono stati costruiti con il solo obiettivo di massimizzare l’accuratezza delle previsioni che generano. Non importa come e perché sia previsto un determinato risultato, l’importante è che sia corretto nella maggior parte dei casi. Da qui il primo problema cruciale di questi modelli: quello della riproduzione dello status quo, con tutti i suoi pregiudizi e caratteri discriminatori. Se un algoritmo è stato costruito per riconoscere oggetti in mano a persone a partire da immagini, e se nella maggior parte delle fotografie (utilizzate per “istruire” l’algoritmo) in cui appaiono armi esse appaiono in mano ad una persona di colore mentre nelle fotografie in cui compare un dispositivo tecnologico esso sia in mano ad una persona asiatica, quando all’algoritmo verrà chiesto di fare una previsione su cosa stia tenendo in mano una persona di colore potrà succedere che l’algoritmo dia come risultato un’arma, mentre quando gli verrà chiesto di fare una previsione su cosa stia tenendo in mano una persona dai tratti somatici orientali risponderà probabilmente con un dispositivo tecnologico. La perpetuazione dei pregiudizi della società è un problema difficilissimo da risolvere nell’IA per la natura stessa degli algoritmi utilizzati che hanno come obiettivo solo l’accuratezza di una previsione basandosi su dati passati.
L’accesso ad immense quantità di dati
Formalmente, questa accuratezza può essere raggiunta grazie alla memorizzazione di una quantità esorbitante di dati. Per ricollegarci all’esempio utilizzato in precedenza, un algoritmo è in grado di “ricordare” quante altre volte una persona con le caratteristiche di Alberto è uscita di casa esattamente alle 8.13, ha incontrato una conoscente con caratteristiche simili a quelle di Barbara prima di prendere un caffè all’angolo, è poi salito su un autobus dalle porte posteriori, eccetera eccetera, ed ha quindi osservato uno schema che è probabile si ripeta di nuovo uguale a se stesso. Dati degli input A, il modello prevede B perché “ricorda” che dato A è probabile si verifichi anche B. Avere accesso ad una memoria pressoché infinita di dati e ad una quantità pressoché infinita di dati è condizione necessaria affinché i grandi modelli di IA siano in generale accurati. E poiché l’accuratezza è proprio l’unico obiettivo con il quale sono stati costruiti, l’accesso a questi immensi database è imprescindibile: le aziende non avrebbero modo né interesse a costruire modelli di IA se non avessero accesso ad immense quantità di dati. Da dove vengono questi dati? In gran parte da Internet. Ad esempio, GPT-3, il modello di IA generativa che produce testo utilizzato dalla versione di ChatGPT resa pubblica nell’autunno del 2022, è stato “istruito” con tutti i testi trovati su Internet fino al 2021 – testi di qualsiasi natura: blog, articoli di giornale, libri, post pubblici sui social media… Tutti contenuti originariamente generati da persone e quindi perfetti per costruire accurati modelli di previsione di parole.
I nodi privacy
Da qui il secondo problema fondamentale ed intrinseco dei grandi modelli di IA: la privacy. Da un lato, i contenuti pubblicati su Internet non sono necessariamente privi di diritti d’autore, eppure nessuno di noi è stato mai interpellato sul loro utilizzo da parte di aziende private motivate, come tutte del resto, dalla generazione di profitto. Dall’altro lato, alcuni di questi contenuti potrebbero essere considerati sensibili e, anche se pubblicati in maniera anonima o sotto pseudonimo, una volta raccolti ed analizzati potrebbero consentire la re-identificazione dell’autore, volente o nolente che sia. Proprio perché i grandi modelli di IA utilizzano contenuti generati dagli utenti per fare le loro previsioni e gli utenti sono molto eterogenei, questi rischi di privacy sono considerevoli. Cosa ha a che fare l’eterogeneità, termine che in effetti si potrebbe sostituire con vera e propria unicità, dei contenuti creati dall’intelligenza umana con i rischi di privacy associati all’IA generativa? Cerchiamo di capirlo ragionando per assurdo.
Se tutti scrivessimo in modo simile, un articolo scritto da una persona non rivelerebbe nulla di specifico rispetto alla persona stessa perché, per definizione di “scrittura simile”, quell’articolo non sarebbe statisticamente distinguibile da quello scritto da un’altra persona, o, per dirlo in parole più semplici, non sarebbe, appunto, diverso. Ma ognuno di noi scrive in maniera (forse) sorprendentemente unica, sia per i contenuti che trattiamo, sia per lo stile che usiamo. C’è persino una branca dell’analisi legale e forense dei testi che si occupa proprio di ricostruire l’identità dell’autore di un testo scritto a partire dallo stile di scrittura: appunto, la stilometria. Ne deriva che un algoritmo che utilizza contenuti scritti da noi e che ha l’incredibile capacità di ricordarli tutti alla perfezione, e che risponde alle nostre domande o richieste in modo personalizzato è intrinsecamente lesivo della privacy: è incapace, o per usare forse un termine più appropriato, è impossibilitato a preservare la nostra privacy, proprio perché è stato costruito per dare delle risposte accurate personalizzate, specifiche per qualcuno con la nostra identità, caratteristiche, preferenze. Per rendere un algoritmo più sicuro dovremmo necessariamente imporre dei limiti alla quantità di dati che può utilizzare per generare le sue stime, riducendo quindi la sua accuratezza o il suo livello di personalizzazione. Finché accuratezza vorrà dire personalizzazione non potranno matematicamente esistere algoritmi di intelligenza artificiale rispettosi della nostra privacy.
La generazione di contenuti problematici
Un terzo problema inevitabile se si utilizzano contenuti generati dagli individui è quello della generazione di contenuti problematici da parti dei modelli di IA. La realtà dei fatti è che purtroppo alcuni utenti creano contenuti dannosi, violenti, discriminatori e in generale non desiderabili, e lo fanno per le più svariate ragioni: perché quei contenuti rispecchiano la loro vera natura, perché sono generati con l’intento malevolo di infettare il sistema o creare caos e sfiducia in esso… Ora, inserire tali contenuti tra quelli utilizzati per costruire algoritmi di apprendimento ed IA generativa equivale a rendere possibile la creazione artificiale di quegli stessi contenuti. La costruzione di un modello davvero etico e sicuro richiederebbe necessariamente un grandissimo lavoro di selezione per stabilire quali contenuti siano genuinamente desiderabili – lavoro che nessuna singola azienda si prenderebbe mai la responsabilità di fare, sia perché richiederebbe troppe risorse sia perché aprirebbe la porta ad innumerevoli critiche riguardanti la selezione (che in troppi chiamerebbero censura). Semplicemente non è fattibile. Di conseguenza, i grandi modelli di intelligenza artificiale creati da una grande azienda (sia essa Microsoft, Google o Meta), di nuovo, non possono essere sicuri. Secondo alcuni l’unica speranza di avere un modello etico e sicuro è che esso sia decentralizzato, ovvero non creato da una singola azienda.