“I limiti del mio linguaggio significano i limiti del mio mondo” è uno dei più celebri aforismi del filosofo austriaco Ludwig Wittgenstein, che cattura in modo mirabile la poderosa portata del linguaggio umano. Le sue intricate e per molti versi enigmatiche interrelazioni con il mondo e con la nostra mente, ne hanno fatto l’oggetto di una specifica branca della filosofia, la filosofia del linguaggio, di cui Wittgenstein è stato un protagonista. Pur continuando ad essere un terreno di dibattito aperto e vivace anche oggi, vi sono alcune riflessioni a cui la filosofia del linguaggio è pervenuta nel suo periodo più produttivo, intorno alla metà del secolo scorso, considerate dei riferimenti piuttosto consolidati.
GPT-3: i rischi del deep learning applicato al linguaggio naturale
In questi ultimi anni il deep learning (DL), motore della nuova intelligenza artificiale, ha prodotto risultati eccezionali e inattesi nel campo dell’elaborazione del linguaggio naturale. Mostriamo allora come alcune direzioni di ricerca avanzate in questo ambito, vadano ad incrinare alcuni di quei capisaldi della filosofia del linguaggio. Questo non solo non intimorisce i ricercatori impegnati in questi progetti, si direbbe che, con la tipica ingenuità teorica spesso associata al pragmatismo della comunità DL, non si stiano nemmeno rendendo conto della portata filosofica di quel che stanno maneggiando.
Le difficoltà di linguaggio che affliggono il Deep Learning
Prima di entrare nel merito, è opportuno fare un passo indietro per chiarire di cosa si stia parlando, quali siano i modelli artificiali del linguaggio coinvolti in queste sfide. Quando dieci anni fa il DL ha improvvisamente riportato alla ribalta l’intelligenza artificiale, il linguaggio non rientrava affatto tra gli ambiti in cui i progressi avevano fatto scalpore.
Il DL doveva fare ancora i conti con un paio di problemi che hanno sempre afflitto le reti neurali artificiali, di cui il DL è una diretta discendenza. Uno riguardava la natura simbolica delle parole, che mal si adatta ai neuroni artificiali, in grado di digerire solamente numeri. Una brillante soluzione venne trovata nel 2014, il cosiddetto word embedding, in cui le parole vengono trasformate in vettori di numeri reali, appresi da corpora di esempi di una lingua. I vettori, inizialmente casuali, vengono progressivamente modificati in modo da essere similari quando circondati da parole simili, anch’esse sottoforma di vettori.
Lo stratagemma della ricorsione
L’altra difficoltà che il linguaggio pone alle reti neurali riguarda il suo svilupparsi nel tempo. Ogni parola, sia essa letta in un testo o ascoltata da chi parla, assume un significato che è funzione delle parole precedenti. Ma le reti neurali artificiali sono statiche. Uno stratagemma per dotare le reti di una memoria delle parole precedenti era stato introdotto negli anni ’90 da Jeffrey Elman, la ricorsione. In pratica il valore di attivazione di alcuni neuroni viene mediato tra la risposta alla parola corrente, e la sua attivazione precedente. La ricorsione riesce a cavarsela decentemente con le relazioni tra parole in frasi semplici e brevi, ma il linguaggio umano è davvero complicato. Nel corso di una conversazione i riferimenti a parole molto lontane sono all’ordine del giorno, resi ancor più oscuri dall’uso dei pronomi. Peggio che mai in un articolo, o in un libro. Sono state proposte diverse sofisticazioni della memoria neurale tramite ricorsione, una delle più gettonate è quella denominata LSTM (Long Short Term Memory). Rimane tuttavia problematico per le reti neurali ricorsive tenere il filo del linguaggio, quando si articola come succede nel suo uso abituale.
La svolta con Trasformer
La svolta decisiva è venuta nel 2017 con l’architettura denominata Transformer, sviluppata da Google. La ricorsione viene abbandonata, tutte le parole, di una parte anche consistente di testo, vengono presentate in parallelo al modello, naturalmente codificate in vettori tramite il word embedding. La frase (o anche più frasi) attraversa diversi strati neurali che ne realizzano una rappresentazione interna, la quale viene poi progressivamente decodificata, in modo da riprodurre in uscita le stesse parole, con lo stesso ordine, di quelle presentate in ingresso. La rappresentazione interna è coadiuvata da vettori e matrici che catturano la relazione che intercorre tra ogni singola parola, e tutte le altre nella frase. Si tratta di una sorta di processo attentivo, che da ogni parola mette a fuoco le altre con cui è legata. Tutti gli elementi matriciali e vettoriali che modulano questa specie di attenzione sono semplicemente appresi, tramite l’esposizione a milioni e milioni di esempi di testo. Il successo del Transformer è stato enorme, lanciando il deep learning con prepotenza nel mondo del linguaggio naturale, in cui il suo primo ingresso era stato piuttosto timido. Ora invece vi sono modelli su grande scala, ultimamente denominati foundation models, quali BERT (Bidirectional Encoder Representations from Transformers) e GPT Generative Pre-trained Transformer. Questi modelli sono dei potenti sistemi rappresentazionali di una lingua, della miriade di relazioni che intercorrono tra le parole, e si sono rivelati efficaci per una varietà di compiti pratici, come produrre sommari di libri, generare prosa in un certo stile, scrivere software, musica, poesia. Si è parlato precedentemente del loro uso come agenti conversazionali
Conversare con un computer: i progressi che farebbero felice Alan Turing
Il deep learning e la traduzione
Il caso che scuote la filosofia del linguaggio riguarda invece la traduzione. Si tratta del compito che storicamente ha inaugurato l’avventurarsi del computer verso il linguaggio naturale. Era un obiettivo perseguito da diversi centri di ricerca già dalla seconda metà degli anni 50 del secolo scorso, obiettivo che presto si rivelò una chimera, e rappresenta uno dei più importanti fallimenti del trattamento computazionale classico del linguaggio. Il deep learning ha avvicinato anche l’arduo compito della traduzione da una lingua all’altra alle prestazioni degli umani. In effetti era proprio questa l’applicazione che avevano in mente i ricercatori che hanno inventato il Transformer, oramai quasi dimenticata, vista la miriade di impieghi di questi modelli. Aderendo perfettamente alla filosofia radicalmente empirista del deep learning, a questi modelli non viene imposta nessuna regola, nessuna grammatica, semplicemente imparano dall’esperienza, costituita da milioni di frasi di una lingua, corredate dalla sua traduzione nella seconda lingua, realizzata da esperti umani.
Già l’idea di tradurre, senza implementare nemmeno una parvenza del poderoso apparato di regole delle grammatiche delle lingue, stride non poco con gli assunti teorici della linguistica tradizionale, ispirata alla storica scuola di Noam Chomsky. Ma la contrapposizione tra sistemi di regole e sistemi neurali nel campo del linguaggio è di vecchia data, e come tale oramai abbastanza recepita, c’è ben altro.
La traduzione e l’esperimento gavagai
Vi sono alcuni tentativi di far apprendere a modelli Transformer a tradurre, senza disporre di nemmeno un singolo esempio di quale sia in una delle due lingue la frase che corrisponde all’altra, nemmeno di un banale vocabolario lessicale. Il modello può solamente disporre, in abbondanza, di corpora della prima lingua, e di altri corpora della seconda, ma senza nessuna relazione nota fra di loro. Siamo in una condizione che ricorda molto quella ipotizzata dal filosofo americano Willard Quine in un esperimento mentale, celebre con il nome di gavagai.
La situazione in cui fa immedesimare Quine è di un linguista impegnato a studiare una fantomatica lingua, Arunta, di cui non esiste nessun vocabolario, nessuno studio, e il popolo che la parla ha una cultura distante e priva di interazioni con quella occidentale. Però il nostro linguista ha tutta la libertà di osservare questo popolo e di sentirlo parlare. Ad un certo punto uno di questo parlanti dice “gavagai” nel momento in cui sta passando un coniglio. Bene, allora il linguista potrebbe mettere a segno un primo risultato: “gavagai” nella lingua Arunta vuol dire “coniglio”. Troppo facile, dice Quine, che elenca un’arguta serie di traduzioni alternative. Per esempio questo popolo potrebbe aver notato che i conigli passano facilmente vicino alle abitazioni quando sta per arrivare un temporale, e “gavagai” vuol dire proprio “temporale”. Oppure il parlante aveva un certo appetito ed ha inquadrato il povero coniglio come sua possibile cena, che in Arunta si dice, appunto, “gavagai”. Magari quel coniglio aveva delle orecchie particolarmente pronunciate, e il parlante lo ha voluto sottolineare dicendo “gavagai”, che in Arunta significa “orecchio”. Insomma le possibilità sono davvero tante, e non c’è modo di appurarle, se non chiedendo al parlante stesso, impossibile visto che non si conosce nemmeno una parola della sua lingua. Questo esperimento mentale di Quine è celebre in filosofia del linguaggio come supporto alla sua tesi dell’indeterminatezza della traduzione radicale, ovvero della impossibilità di una traduzione certa, in mancanza di elementi a priori che colleghino le due lingue.
L’addestramento di Transformer su due lingue in contemporanea
La situazione in cui si sono voluti andare a cacciare dei ricercatori di Facebook è ancor più critica rispetto all’immaginario linguista di Quine. Hanno tentato di addestrare un modello Transformer contemporaneamente su due lingue diverse, basandosi solo sui reciproci corpora, quindi non solo in assenza di ogni esempio di traduzione, ma anche di qualunque osservazione che legasse parole e situazioni del mondo. Eppure, il modello apprende una stupefacente capacità di traduzione, non lontana dai modelli addestrati su corpora paralleli delle due lingue. Con buona pace di Quine. Il metodo usato è relativamente semplice: la parte di codifica delle rappresentazioni interne è unica, comune alle due lingue. Vi sono poi due separati processi di decodifica partendo dalle rappresentazioni interne, che ricostruiscono il testo nelle due diverse lingue, chiamiamole lingua A e lingua B. Durante l’addestramento viene pescata una frase casualmente da un corpus, supponiamo della lingua A. Il modello ne ricava la sua rappresentazione, e con la decodifica A deve cercare di ricostruire la stessa identica frase. Con la decodifica B azzarda invece la traduzione nella lingua B. A questo punto la frase generata viene usata come nuovo input del modello, e deve riprodurre sé stessa con la decodifica B, ma con la decodifica A dovrebbe dare la frase originale da cui si è partiti.
Un seguace di Quine potrebbe facilmente notare che si potrebbero avere due traduzioni reciprocamente perfette, ma con significati completamente stravolti. Per esempio, una frase in lingua Arunta che vorrebbe dire “sta arrivando un temporale” sarebbe regolarmente tradotta in italiano come “sta passando un coniglio”. Se persino un turista italiano, forte del traduttore di Facebook, si lanciasse a pronunciarla in mezzo agli Arunta mentre passa un coniglio, i nativi penserebbero che il turista conosce proprio bene la loro lingua. Ma immaginando che si stia preoccupando per l’imminente temporale. Invece, per quanto sia sorprendente, equivoci del genere non succedono, il modello funziona bene, e non è il solo, anche un altro gruppo di ricerca, presso l’università dei Paesi Baschi, ha sviluppato indipendentemente lo stesso tentativo, con un principio del tutto simile, e buoni risultati. Non è facile spiegare come mai questa traduzione, diciamo così, iper-radicale, abbia successo, la tesi di Quine sembrerebbe un argomento molto forte per decretarne a priori il fallimento. La magia non può che annidarsi nelle rappresentazioni interne, che a quanto pare catturano la condivisione concettuale tra le due lingue. Le traduzioni sperimentate finora riguardano lingue con radici comuni: inglese, francese e tedesco, quindi viene a cadere la condizione di distanza culturale ipotizzata da Quine, ma la sfida della traduzione in assenza di esempi appare come un compito davvero insormontabile.
Il progetto ESP
Esserci riusciti ha acceso altri ardori scientifici, ancor più avventurosi, che vanno ben oltre la condizione di incommensurabilità culturale su cui Quine basava l’indeterminatezza della traduzione radicale. Il progetto ESP (Earth Species Project) mira ad una “traduzione” dei linguaggi di specie animali diverse dall’uomo. Evidentemente corre l’obbligo di mettere tra virgolette la parola traduzione, ma i promotori dell’iniziativa nutrono fiducia sui modelli del genere Transformer, e della loro possibilità di ricostruire rappresentazioni semantiche sulla base della produzione linguistica, meglio in questo caso chiamarla più asetticamente produzione comunicativa.
Oltre che sfidare il senso comune, questo progetto si scontra frontalmente con la filosofia del linguaggio, e in particolare con il suo insigne rappresentante con cui si è aperto questo articolo, Wittgenstein. Un altro suo celebre aforisma dice che “se un leone potesse parlare, noi non sapremo comprenderlo”. Cosı̀ come il progetto ESP può essere considerato l’esasperazione estrema del tradurre tra due diverse lingue, anche l’affermazione di Wittgenstein è in continuità con la tesi di Quine, condotta all’estremo: non più due culture umane segregate, ma due specie animali diverse. Ritorna inoltre l’aforisma con cui si è aperto l’articolo, se il linguaggio è il limite del mondo di un essere umano, necessariamente specie animali diverse si portano appresso la loro visione del mondo, e del proprio agire in esso, con conseguenti incompatibili “linguaggi”. Le premesse filosofiche decisamente non depongono a favore di questo progetto, e una volta tanto filosofia e buon senso vanno a braccetto nel non scommettere un centesimo su un suo successo.
Tuttavia, l’esperienza della traduzione tramite corpora monolingue insegna che è meglio aspettare e concedere briciole di fiducia anche al progetto ESP, che sta appena muovendo i suoi primi passi. In fin dei conti la recente cognizione animale e le neuroscienze rivelano profonde similarità nei meccanismi mentali di specie diverse, soprattutto all’interno dei mammiferi: i sistemi percettivi emozionali, e quelli adibiti alla pianificazione delle azioni. Se c’è qualche sistema in grado di catturare quel che possono avere in comune le concettualizzazioni di aspetti condivisi tra due specie animali, esternate nella comunicazione, indubbiamente non si vede candidato migliore, al momento, delle reti neurali ad organizzazione Transformer. Rimane sorprendente come nessuno dei ricercatori impegnati in questi arditi progetti sembri consapevole delle sfrontate sfide lanciate ai pilastri della filosofia del linguaggio. Come pare non esserne accorto, finora, nessun filosofo del linguaggio.