Beyond the Imitation Game è un lavoro di ricerca pubblicato nel luglio dello scorso anno incentrato sulla quantificazione delle capacità dei modelli linguistici con il benchmark, appunto, denominato “Beyond the Imitation Game” (BIG-bench): 204 compiti, forniti da 442 autori di 132 istituzioni. Gli argomenti delle attività sono diversi e spaziano dalla linguistica, allo sviluppo dell’infanzia, dalla matematica al ragionamento basato sul buon senso, dalla biologia, alla fisica, dai pregiudizi sociali, allo sviluppo del software e oltre.
Ebbene, a quanto pare siamo già entrati nell’era post Turing, ma a differenza del passato, come vedremo, non c’è stato troppo clamore o scandalo: non sembra che troppa parte dell’umanità sia preoccupata all’idea che a possedere il linguaggio, oltre a noi umani, oggi ci siano anche alcuni software.
The Imitation Game di Alan Turing
Ben noto grazie al film di Morten Tyldum del 2014, The Imitation Game è il gioco inventato da Alan Turing per verificare se un computer sia dotato di intelligenza come un essere umano. Un test geniale e spiazzante nella sua semplicità: il computer viene promosso se un interlocutore umano conversandoci in modo remoto riguardo qualunque argomento, non sa dire se si tratta di una macchina o di un conversante in carne ed ossa. Questo gioco apparentemente innocuo è proposto nel 1950 in un articolo, Computing Machinery and Intelligence, dove non si fa mistero di una scandalosa provocazione. Turing ci crede davvero che verrà un futuro in cui i computer diventeranno intelligenti e lo dimostreranno sapendo conversare come noi, e lo sostiene con una serie di argomenti teorici di notevole spessore. È l’idea rivoluzionaria che verrà accolta qualche anno dopo dalla neonata Intelligenza Artificiale, assumendo come propria chimera di un lontano futuro il superamento del Imitation Game. Come sanciva il titolo dell’articolo citato all’inizio, e come si vuol raccontare qui, quel futuro non è più futuro, è arrivato.
Il tratto che si ritiene sia singolare di questo momento, è che il traguardo del Imitation Game pare sia stato tagliato quasi in punta di piedi, senza troppe celebrazioni e nemmeno strenue resistenze.
Anche l’articolo Beyond the Imitation Game non è affatto celebrativo, si preoccupa subito del “dopo”, ovvero di come riuscire a testare sistematicamente le capacità dei recenti modelli neurali generativi del linguaggio, una volta assodata la loro piena abilità a sostenere conversazioni. È davvero insolito il numero degli autori di questo articolo, ben 442 studiosi provenienti da 132 diverse istituzioni di ricerca, così tante menti hanno cooperato, su iniziativa di Google, per cercare di approntare uno standard valutativo, denominato proprio BIG-bench composto da qualcosa come 204 diversi compiti che spaziano l’intero scibile umano. Il ricorso a un cosı̀ imponente sapere umano per riuscire a valutare le capacità degli attuali modelli linguistici artificiali, da una buona idea di quanto siano competenti e sofisticati.
Per meglio comprendere la sorpresa per una transizione tutto sommato indolore all’era post-Turing Test, è opportuno esaminare la portata della sua provocazione. Nel prendere la capacità di conversare come marchio dell’eventuale intelligenza di una macchina, Turing aveva mirato dritto alla facoltà che per molti è la più sublime e unica della specie umana: il linguaggio. Ne sono convinti, tanto per fare un paio di celebri esempi, Cartesio e Noam Chomsky. Non pochi filosofi hanno sottolineato come il linguaggio non sia solamente un modo di comunicare, ma l’impianto con cui è costruita la nostra visione del mondo. Ludwig Wittgenstein affermava, in un suo celebre aforisma, che “i limiti del mio linguaggio significano i limiti del mio mondo”. Immaginare che un computer possegga la facoltà del linguaggio, come aveva spudoratamente fatto Turing, voleva quindi dire profanare il santuario della mente umana.
Dialogare con un’intelligenza artificiale è sempre più facile: ecco perché inizia una nuova era
Le reazioni alla “provocazione” di Turing
È comprensibile che quindi, non appena l’IA aveva preso in mano il testimone lasciato prematuramente da Turing, si levassero alte voci di reazione.
Per esempio, il filosofo americano Hubert Dreyfus ha speso l’intera sua vita intellettuale a negare per l’IA ogni possibilità di accedere a quelle nobili capacità umane come il linguaggio. Il suo famoso libro What Computers Can’t Do: A Critique of Artificial Reason del 1972, dedica una parte consistente a ridicolizzare i tentativi pionieristici dell’IA di traduzione – a quell’epoca davvero fallimentari – concludendo che mai il linguaggio umano sarà alla portata di un computer. Ma nella seconda metà del secolo scorso si forma un nuovo ambito di studi che indirettamente da una mano all’impresa dell’IA, si tratta della scienza cognitiva. La sua prospettiva inquadra tutti i fenomeni mentali – dalla percezione visiva al linguaggio e la pianificazione delle azioni – come computazioni, e quindi riconducibili ad algoritmi. Se le cose stanno davvero così la possibilità che anche un computer possa eseguire lo stesso genere di algoritmi è aperta, includendo quindi la sua possibilità di acquisire completamente il linguaggio naturale.
Per un certo periodo l’intreccio tra scienze cognitive e IA fu davvero stretto, tanto che il filosofo Hilary Putnam nel 1960 era arrivato a sostenere che la mente umana funzionasse – letteralmente – come una macchina di Turing. Tuttavia, ben presto diversi scienziati cognitivi misero le mani avanti, precisando che la natura computazionale dei processi cognitivi umani non garantisce affatto che un computer possa acquisirli. Chomsky è stato esemplare, così come ha avuto gran simpatia per le spiegazioni computazionali della facoltà linguistica umana, perseguendole in prima persona, altrettanto lo irritavano le velleità dell’IA, da cui si è tenuto sempre a distanza.
Eliza e la “stanza cinese”
Le critiche più meditate furono stimolate dal primo tentativo di dare corpo allo scandalo lanciato da Turing, Eliza, lo psicoterapeuta computerizzato che rese famoso Joseph Weizenbaum nel 1966. Un software geniale, che abbozzava risposte credibili, nascondendosi dietro la tipica laconocità e genericità degli psicoterapeuti di scuola rogeriana.
Era solamente un gioco, ma divenne presto uno dei software più suggestivi della storia dell’informatica. Molti trovarono eticamente inappropriato indurre le persone comuni a riporre un minimo di fiducia in Eliza come psicoterapeuta, considerando il software come una sorta di impostura.
Il filosofo americano John Searle reagì diversamente, con il suo consueto modo di fare sornione non si scandalizzò, accettò persino l’idea che un software ben più avanzato di Eliza fosse in grado di conversare correttamente su qualsiasi argomento, ma congegnò un esperimento mentale in grado, secondo lui, di mostrare come anche questo ipotetico potente software, in realtà non capisse nulla del linguaggio.
Divenuta celebre sotto il nome di “stanza cinese”, la situazione immaginaria vede Searle stesso chiuso in una stanzetta, a cui vengono passati fogli con scritte in cinese. Vi è a disposizione un meraviglioso manuale, da usare cercando nella pagina a sinistra un testo identico a quello appena ricevuto, basta poi ricopiare quel che si legge nella pagina a destra, e consegnarlo a chi sta fuori dalla stanza. Bene, i fogli in entrata sono frasi di un interlocutore, e quelle in uscita le risposte, la stanza chiusa funziona quindi come una macchina in grado di conversare perfettamente, idonea quindi a superare il test di Turing, con il piccolo particolare, osserva Searle, che lui non sa nemmeno una parola di cinese. Ovvero un software potrebbe rispondere meccanicamente senza aver capito nulla.
Diversi trovarono l’espediente di Searle tanto convincente da considerare la possibilità per un computer di comprendere il linguaggio un traguardo irraggiungibile. Non tutti, e se Eliza avesse potuta essere tacciata di impostura, lo sarebbe stato in modo ben più subdolo la “stanza cinese”, per esempio secondo il filosofo Daniel Dennett.
The intuition pump e la comprensione del linguaggio
L’impostura è di condurre il lettore in una immaginazione, falsa, costellata di passaggi impossibili, per poi convincerlo della tesi che vuol sostenere, e Dennett coniò un nome specifico per queste raffinate imposture: intuition pump. Il passaggio platealmente impossibile è il manuale, che in teoria, per qualunque contenuto di una conversazione, dovrebbe avere la risposta pronta e appropriata da fornire. Ovviamente non è realisticamente realizzabile un tale manuale, data l’infinita possibilità di costrutti linguistici in una conversazione. Un altro passaggio dubbio riguarda cosa significhi “comprendere”, per una buona porzione di filosofi del linguaggio, a partire da Wittgenstein, comprendere il linguaggio è fondamentalmente saperlo usare. Criterio a cui sia il test di Turing che la “stanza cinese” sono adeguati. Searle richiede qualcosa in più, una consapevolezza della conversazione in corso, che come si cerca di meglio precisare precipita in uno dei temi filosoficamente più spinosi: cosa sia la coscienza.
Sicuramente la “stanza cinese” esercita una formidabile forza di convinzione, ed ha avuto un notevole successo, tenendo banco per un ventennio, con interi libri dedicati al suo dibattito. Il tema perse di mordente sul passare del millennio, sia per un naturale esaurirsi degli argomenti, ma soprattutto perché non si intravedeva nulla di concreto nell’IA in grado di alimentare la discussione. Dall’epoca eroica di Eliza, la ricerca sulla comprensione artificiale del linguaggio aveva intrapreso una strada molto diversa, che non voleva più lasciarsi tentare da trucchi e stratagemmi. Si è tentato di riversare nei computer le teorie linguistiche del funzionamento del linguaggio umano, soprattutto quelle di ispirazione chomskiana che nascono già parzialmente formalizzate. Pur essendo teorie di grande portata nel descrivere la miriade di intricati fenomeni delle lingue umane, si rivelarono sostanzialmente fallimentari nel dotare i computer di capacità linguistiche nemmeno lontanamente paragonabili a quelle umane.
La svolta dell’IA con Transformer
Anche il ritorno in auge dell’IA grazie al deep learning, una decina di anni fa, non riaccese la questione, in quando gli spettacolari successi dell’IA riguardavano soprattutto l’elaborazione delle immagini, il linguaggio rimaneva in sordina. La svolta epocale avviene nel 2017, con l’invenzione da parte del team di Google Brain dell’architettura denominata Transformer. Coerente con il principio rigorosamente empirista del deep learning, il Transformer non tenta di implementare direttamente nessuna regola linguistica, è dotato invece di un meccanismo per apprendere quando e in che misura mantenere relazioni tra le varie parole che compaiono in una frase, e anche in frasi adiacenti. Questa architettura si è subito dimostrata vincente, ed è diventata la base per quelli che oggi vengono chiamati language model o anche foundation model, modelli neurali profondi dotati di meccanismo Transformer, addestrati su grandi corpora linguistici.
I detrattori di un’IA in grado di parlare rialzano la voce
Improvvisamente e inaspettatamente la prospettiva del computer in grado di carpire la facoltà umana da molti ritenuta più preziosa, il linguaggio, stava diventando reale. Per alcuni una prospettiva affascinante, ma per altri, comprensibilmente, spiazzante se non addirittura terrificante. Non sorprende pertanto che tra il 2018 e il 2021 si sia levato un vasto coro di critiche in vario modo convergenti nel voler negare, ancora una volta, la possibilità per un computer di comprendere realmente il linguaggio umano.
Oltre a detrattori dell’IA in generale, hanno fatto parte di questo coro anche studiosi di grande fama e vicini all’IA come Judea Pearl, Barry Smith, Gary Marcus. Questa ondata di critiche ha avuto risonanza e accoglienza. Per esempio uno dei lavori di maggior successo, della linguista americana Emily Bender, del 2021, estremamente drastico nell’affermare che i modelli del genere Transformer non possono in linea di principio imparare nessun significato linguistico, ha ottenuto il premio come miglior lavoro al convegno annuale della Association for Computational Linguistics e ad oggi vanta quasi 500 citazioni. È interessante come Bender, nel ritornare a negare in linea di principio la possibilità per un computer di acquisire un linguaggio umana, come fece più di 40 anni fa Searle, inventi un suo esperimento mentale sulla falsariga della “stanza cinese”. Stavolta protagonista non è lei in persona, ma un polipo. L’animale se ne sta in fondo al mare, vicino ad un cavo di comunicazione attraverso cui conversano due parlanti inglesi, sfortunatamente naufragati su due lontane isole, per fortuna ben dotate di interconnessione. Il polipo ha curiosità per le telecomunicazioni, e quindi impara in fretta come gli impulsi elettrici che transitano nel cavo in una direzione siano seguiti da altri treni di impulsi nell’altra direzione. Ad un certo punto ha acquisito una tale confidenza con le sequenze di impulsi da decidere di tagliare il cavo, e provare lui stesso a mandare segnali in risposta ad uno dei due naufraghi. Il quale, dice Bender, potrebbe anche continuare a credere che dall’altra parte del cavo ci sia il suo sventurato amico, per quanto se la cava bene il polipo, che però non capisce nulla della conversazione in corso. È evidente quanto il polipo della storia sia ancor più improbabile del manuale nella “stanza cinese”, ed è ben difficile sia destinato ad altrettanta fortuna.
Il tentativo di emulazione di Searle da parte di Bender è unico, la strategia più diffusa, e ben presente anche nei lavori di Bender, è invece la ricerca minuziosa di casi di conversazioni in cui il computer fornisce risposte sbagliate, soprattutto quando si tratta di errori che difficilmente farebbe un parlante umano. Di per se si tratta dell’ordinaria e fondamentale attività di esplorazione e verifica delle capacità dei vari modelli del linguaggio, in cui è importante individuare, più delle risposte corrette, quelle sbagliate. Si trasforma invece in retorica ideologica quando i casi di errore vengono cristallizzati come testimonianze inoppugnabili del fallimento complessivo nel dotare un computer del linguaggio umano. È la pratica che il linguista computazionale Samuel Bowman in un lavoro del 2022 ha chiamato the dangers of underclaiming, l’esibizione poco scientifica di casi di errore allo scopo di denigrare i modelli del linguaggio. Il fenomeno peggiore è che molte di queste critiche usano come supporto critiche precedenti, citate sempre come fatti empirici consolidati. In questo modo continuano ad essere presentati come errori casi ampiamente superati dal continuo e rapido progresso di questi modelli.
Nell’era post-Turing test
Chi scrive si era già trovato a trattare l’argomento dei sistemi di conversazione artificiali nel marzo 2021:
Era il periodo in cui la prospettiva di computer con competenza linguistica aveva scatenato resistenze e reazioni, ma l’articolo si chiudeva in modo positivo, con parole divertenti da riportare oggi: “Beninteso, al momento nessun agente conversazionale avvicina nemmeno lontanamente la competenza di un parlante comune, ma il sorprendente balzo in avanti degli ultimi anni porta a ritenere che il progresso continui”.
Conversare con un computer: i progressi che farebbero felice Alan Turing
Evidentemente era un ottimismo ben posto. Oggi la competenza di un parlante comune è quotidianamente replicata da agenti conversazionali, in poco più di un anno si è entrati in pieno nell’era post-Turing test. Una inusuale avvisaglia si era avuta a giugno 2022, in un articolo del Washington Post.
LaMDA di Google
Un ingegnere di Google, Blake Lemoine, esternava la sua convinzione che un nuovo programma chiamato LaMDA (Language Model for Dialogue Applications), di cui lui era incaricato di eseguire verifiche, era senziente e dotato di una propria personalità. Nel 2021 LaMDA era in fase avanzata di verifica interna, e Lemoine nel continuare a conversarci era talmente colpito dalla qualità e spontaneità del dialogo da convincersi di avere a che fare con un’entità cosciente. Ma la quasi totalità dei commenti provocati dalla sua intervista, indipendentemente dal livello scientifico del commentatore, furono negativi, rifiutando la sua ipotesi come falsa ed ingenua. Lemoine fu persino licenziato da Google.
L’irruzione di ChatGPT
Mentre LaMDA e altri sistemi di dialogo basati sui modelli del linguaggio sono rimasti noti solo al mondo della ricerca, chatGPT ha esposto al mondo intero come oggi il computer sappia conversare. Si è trattato di una sorta di implicito Turing test corale. Beninteso, non si tratta più di doversi fingere o meno umani, anzi, per mettersi al riparo da situazioni imbarazzanti come per LaMDA, chatGPT è sempre pronto a mettere le mani avanti dichiarandosi un agente IA, pertanto privo di materialità e incapace di interazioni fisiche con il mondo. Si è oramai andati oltre, chatGPT deve il suo apprezzamento al saper conversare esattamente come un umano, anzi, come un umano dalla cultura prodigiosa. Ha stabilito il record assoluto di prodotto digitale con la più rapida crescita di adesioni, avendo raggiunto un milione di utenti dopo solo una settimana di attività dal sul lancio a fine novembre 2022, e attualmente riceve 300 milioni di visite al mese.
Sembrerebbe proprio che l’umanità, o quantomeno una fetta di umanità che presta attenzione ed è incuriosita dall’artificiale, non percepisca un conflitto culturale all’idea che a possedere il linguaggio, oltre a noi umani, oggi ci siano anche alcuni software. Occorrerà tempo per poter comprendere meglio in che misura si sia disposti ad accettare una prospettiva così distante dal senso comune dominante. I primissimi dati empirici finora raccolti sembrano mostrare un atteggiamento di accettazione del nuovo interlocutore non più in carne ed ossa. Secondo un primo studio australiano sulle sensazioni degli utenti chatGPT, basato su interazioni Twitter, un 80% degli utenti attribuiscono una genuina intelligenza al sistema, e oltre il 90% trova il conversarci un ottimo intrattenimento e uno stimolo per la creatività personale.
Conclusioni
Per chi è legato alla storia dell’IA risulta bizzarro che il celebre test di Turing venga superato senza le dovute celebrazioni. Non molti anni fa, nel 2014, un software denominato Eugene Goostman venne accreditato di aver superato il test di Turing in una sessione organizzata alla Royal Society di Londra, con molto scalpore e qualcuno poco convinto. Il “trucco” era che Eugene Goostman voleva essere il nome di un ragazzo ucraino di 13 anni, e pertanto chi colloquiava era più magnanimo nell’accettare risposte poco convincenti, considerandole di un ragazzo.
Forse proprio perché oggi non può esservi controversia, viene a cadere l’utilità di decretare pomposamente il superamento del test di Turing. Analogamente, risalta in questo nuovo panorama il declino dell’ondata di critiche montata non più di tre-quattro anni fa, pur essendo ora il momento della difesa più strenua dell’unicità umana del linguaggio. Probabilmente è diventata una difesa più disperata che strenua. La strategia degli errori eclatanti da esibire si è oramai esaurita. Per andare a indagare la padronanza del linguaggio di chatGPT e simili, occorrono ora poderosi benchmark del genere di BIG-bench, con cui si è iniziato questo articolo.