L’attività che i cosiddetti Large Language Model (LLM) come ChatGPT vanno facendo viene quotidianamente antropomorfizzata e trasformata in attività senziente, e gli strafalcioni in cui sistematicamente incorre vengono chiamati allucinazioni, come se quanto ci viene proposto da un LLM avesse una qualche relazione, sia pur negativa, con la verità.
E gli esempi vengono facilmente, basta addomesticare un po’ il prompt, la frase iniziale, e giù vengono discorsi formalmente corretti ma palesemente privi di qualsiasi relazione con la realtà. Per comprendere meglio il mio ragionamento, serve un paradosso.
Il paradosso del professor Bender
Lo dobbiamo ad Emily M. Bender, Professore di Linguistica presso l’Università di Washington ed ivi direttore del Laboratorio di Linguistica Computazionale e del relativo programma di Master, ma più che un paradosso, potremmo chiamarlo “esperimento mentale”.
Immaginiamo di stare in una grandissima biblioteca in un paese di cui ignoriamo completamente la lingua e financo il sistema di scrittura (nel suo post, Bender fa riferimento alla Biblioteca Nazionale Thailandese). Abbiamo infinito tempo a disposizione senza doverci preoccupare delle nostre necessità fisiche, in qualche modo gestite. Non abbiamo modo di interagire con nessuno, e dalla biblioteca sono stati sottratti tutti i libri che contengono figure o parole in lingua straniera. Siamo, in altri termini, a contatto con un grandissimo corpus di forma linguistica in una lingua a noi sconosciuta, senza alcuna relazione con un significato, né in forma diretta (figure, illustrazioni in un libro) né in forma indiretta (testo in una lingua straniera che conosciamo che ci permette di fare da tramite con un significato, un po’ come la Stele di Rosetta). Possiamo riuscire ad apprendere la lingua in cui quei libri sono scritti solo basandoci sulla forma senza alcun riferimento al contenuto, al significato (riferimento che ha bisogno (1) di qualcuno che mi spieghi le parole oppure (2) delle figure oppure (3) di testo corrispondente in una lingua che conosco)?
Qui bisogna capirci su cosa vuol dire “apprendere la lingua Thai”. Se vuol dire “produrre frasi di senso compiuto”, la risposta è sì: abbiamo un corpus estremamente esteso del linguaggio ed analizzandolo in modo puramente formale possiamo riprodurre sequenze di simboli che hanno un’elevatissima probabilità di essere espressioni formalmente corrette nella lingua presa in considerazione. Certo c’è molto lavoro da fare: occorre costruire un modello del linguaggio che vada oltre la semplice analisi statistica delle frequenza dei singoli simboli e che lavori in modo un po’ più approfondito. Probabilmente sarà necessaria una grande potenza di calcolo, dopo la quale sarò addirittura in grado di completare un frase, e cioè di far corrispondere, ad una frase iniziale, ad un prompt, altre frasi che la completano e che sembrano, eventualmente, rispondere ad una domanda, perché quella sequenza di simboli appare essere collegata con quella che ha espresso la domanda. Oppure sarà possibile trasformare del testo sia pur sensato (ma il sistema che abbiamo costruito, addestrato sulla forma, non ha modo di gestire il senso del testo) ma scritto in modo statisticamente meno probabile, ad esempio perché scritto con uno stile molto personale, in qualcosa scritto in un uno stile piatto e banale, una specie di “tuta disindividuante” (rif. al romanzo di P. Dick A Scanner Darkly) del linguaggio, qualcosa che qualcuno potrà anche trovare utile («Guarda! Mi sa scrivere le lettere d’affari!»).
Ma possiamo dire che abbiamo imparato a comprendere la lingua Thai? credo che ogni persona di buon senso debba rispondere di no. Senza alcun riferimento esterno, ad un contenuto, possiamo solo ricostruire la forma del linguaggio senza in alcun modo comprendere quello che esprime.
La differenza fra il topos di Grothendiek ed il topos di Stockhausen secondo ChatGPT
E ora veniamo a ChatGPT, per illustrarvi qualche esempio esilarante dalla mia esperienza ed area di competenza. Chiedo a ChatGPT di spiegarmi la differenza fra il topos di Grothendiek ed il topos di Stockhausen: se il primo è un concetto profondo e difficile di Geometria Algebrica, il secondo… non esiste, e che io sappia l’unico personaggio degno di nota di nome Stockhausen è il noto musicista d’avanguardia e compositore. Bene, dopo una breve digressione sul primo, molto meno dettagliata di quanto avrei potuto trovare su Wikipedia, arriviamo al momento clou:
«Il topos di Stockhausen, d’altra parte, è stato introdotto dal matematico tedesco Moritz Grothendieck (figlio di Alexandre) negli anni ’80 come strumento per studiare la geometria algebrica delle varietà algebriche complesse. Questo topos è stato sviluppato come una generalizzazione dei concetti di spazio topologico e di varietà algebrica, consentendo di trattare una vasta gamma di oggetti geometrici complessi in modo unificato.»
Ora, non esiste tale oggetto, che io sappia nessuno dei cinque figli di Grothendiek si chiama Moritz o fa il matematico – ma c’è un matematico di nome Moritz Groth che ha lavorato nel campo – e non parliamo poi del contenuto (che come spiegato sopra non può starci).
ChatGPT come gli studenti che vanno all’esame senza aver aperto libro
La sensazione è quella di star ascoltando uno studente che si è presentato all’esame senza aver aperto libro, e che spera di cogliere in un momento di stanchezza e distrazione il professore ripetendo frasi che sembrano matematica ma che non vogliono dire nulla. Bene, questa sensazione è esattamente quella corretta.
Non parliamo poi di quando ha spacciato il mio amico Vittorio Zambardino, ex giornalista sportivo e molto altro, napoletano e tifoso della squadra della sua città, per l’allenatore dell’Avellino e tifoso della Juventus, celebre per una storica lite con Diego Armando Maradona.
Molti possono dire «Ma no, non è vero, guarda quante cose corrette questa applicazione è stata in grado di dirmi! Non ci credo, questo è solo qualche errore!».
Ma qui sta il fraintendimento. Se ho a disposizione un corpus testuale estremamente grande (e questo la rete Internet lo rende possibile molto facilmente) ed un modello linguistico sufficientemente accurato, posso scrivere frasi che non solo siano grammaticalmente corrette ma insensate come un sonetto di Domenico di Giovanni detto il Burchiello, cioè tali che la loro correttezza formale sia tale solo a livello locale, di formazione della frase. Ma posso scrivere anche discorsi formati da più frasi che siano corrette sempre formalmente ma a livello più alto, non solo come formazione della frase ma come giustapposizione di simboli che con ragionevole frequenza appaiono in contesti vicini nel corpus considerato (così probabilmente Moritz Groth, autore di diversi articoli sulla teoria dell’omotopia, è diventato il figlio di Grothendieck). Non per questo il nostro LLM “sa” qualcosa.
Certo, questo ha un costo computazionale enorme, e quindi un carbon footprint significativo, che va sempre valutato rispetto ai risultati prodotti. Quanta CO2 è stata prodotta per dire che Vittorio Zambardino è tifoso della Juventus?
Conclusioni
Non solo, ma a questo punto dovrebbero essere anche chiari due altri rischi, uno significativo ma l’altro gravissimo.
Se utilizziamo nel nostro corpus dei testi protetti da diritti d’autore, stiamo ottenendo risultati sfruttando senza alcuna remunerazione la proprietà intellettuale altrui, il che sta tra il poco etico e l’illegale. E no, non è vero che solo perché qualcosa è leggibile in rete quel testo può essere utilizzato per farci qualsiasi cosa. Questo è un problema legale colossale e ricco di implicazioni che comincia solo ora ad essere posto.
Ma il rischio gravissimo è un altro. Se il meccanismo di generazione del testo più probabile è basato su materiale proveniente dalla rete, di questa riproduce bias, pregiudizi, falsità. Anni fa Google Photos, che utilizza l'”intelligenza artificiale” per classificare le foto, confuse un selfie di due giovani di colore per “gorilla”, causando una più che giustificata reazione di oltraggio e portando Google a scusarsi con la coppia in questione. Immaginate questa situazione moltiplicata per qualche miliardo, ed immaginatela sfruttata da agenti malevoli.