“Deep learning is going to be able to do everything”, il deep learning può arrivare a fare qualunque cosa: così ha affermato Geoffrey Hilton, uno dei padri dell’IA – Intelligenza Artificiale, in un’intervista rilasciata nel novembre scorso su MIT Review. Un’affermazione ardita, che ricorda la tendenza degli esponenti dell’IA, fin dagli albori, a sbilanciarsi in esternazioni traboccanti ottimismo, presto smentite in modo crudele da risultati deludenti.
In questo caso però, chi parla è stato protagonista della nascita della prima generazione di reti neurali negli anni ’80, ne ha attraversato i periodi difficili ad inizio secolo, ha traghettato le reti neurali artificiali dalla forma “shallow”, con non più di tre strati di neuroni, alla forma deep, con molti più strati. Ha fatto risorgere l’IA dal profondo letargo in cui si trovava: anche quando la strada dell’imitare i neuroni aveva toccato il suo fondo di credibilità, Hinton ha perseverato a ritenerla la più proficua, e senza dubbio il tempo gli ha dato ragione. Davvero il deep learning diventerà onnipotente?
Reti neurali cerebrali e artificiali: quali sono le analogie e quali le differenze
La ragione di fondo che spinge Hinton a declamare l’onnipotenza del deep learning è la stessa che per 40 anni lo ha indotto a credere in questa direzione: l’esistenza del nostro cervello, un’ottima testimonianza empirica della bontà dell’architettura neurale. Nelle sue parole, “What’s inside the brain is these big vectors of neural activity”, quel che abbiamo dentro la testa sono questi enormi vettori di attività neurale. Beninteso, non basta denominare come “neuroni” certe variabili nel programma di un computer per trasformarlo in una sorta di cervello: entrare nel merito di cosa veramente le reti neurali condividano con le loro cugine biologiche, e in coda ne differiscano, richiederebbe una lunga parentesi. C’è un problema ancor più a monte: un confronto preciso risulta impossibile. Infatti, a differenza delle reti artificiali, di cui si può sapere tutto in dettaglio, le reti cerebrali, nonostante i passi da gigante della neuroscienza, sono ancor in gran parte un fitto mistero.
Tuttavia, non c’è dubbio che, all’interno dell’IA, le reti neurali artificiali siano la metodologia che colga, più di ogni altra, alcuni aspetti generali del funzionamento del cervello secondo le attuali neuroscienze.
Un aspetto chiave riguarda la plasticità dei circuiti neurali, cioè la loro disposizione ad apprendere, in base all’esperienza, un’ampia varietà di funzioni diverse. Un’altra caratteristica comune tra le reti cerebrali e artificiali è che ogni funzione cognitiva viene espletata da un numero molto elevato di unità molto simili fra di loro. Inoltre, l’attivarsi di un singolo neurone dipende in modo sostanziale dall’accumulo delle attività di altri neuroni ad esso collegati. Ma è doveroso menzionare almeno una evidente differenza: mentre il singolo “neurone” artificiale è estremamente semplice, un neurone biologico è già da solo un sistema computazionalmente molto complesso. Difficile pronunciarsi su quanto il bilancio tra somiglianze e discrepanze tra i neuroni del deep learning e quelli del cervello giustifichi l’onnipotenza del primo. Certamente però permette di dissipare certe petizioni di principio sui limiti delle reti neurali, come la loro incapacità di esprimere ragionamenti razionali: anche se le attuali neuroscienze sono estremamente lacunose nello spiegare come il cervello esplichi ragionamenti razionali, questo processo non può che transitare per quei “big vectors of neural activity” di cui dice Hinton, la cui controparte più vicina in IA sono proprio le reti neurali artificiali.
Reti neurali artificiali: come e quando sono nate, con quali critiche, come si è arrivati al deep learning
Fin qui la teoria. Trattare di quanto il deep learning possa estendersi in concreto, e in tempi brevi, è ben diverso: Hinton puntualizza che l’onnipotenza del deep learning non è un dono della natura da attendere in poltrona, ma che siano necessari “quite a few conceptual breakthroughs”. Ovvero, che occorra inventarsi qualche nuovo stratagemma all’interno del quadro generale delle reti neurali artificiali.
In questo modo, la dichiarata onnipotenza del deep learning pare quantomeno potersi avvalere di certo supporto storico. Ancor prima dell’onnipotenza, le vicissitudini delle reti neurali artificiali sono segnate da momenti di severe critiche contro la loro effettiva potenza, poi superati grazie all’invenzione di nuove strategie.
Il primo esempio risale alla metà del secolo scorso, quando Frank Rosenblatt progettò il primo tipo di rete neurale artificiale al Cornell Aeronautical Laboratory di Buffalo, a partire da un dispositivo elettronico chiamato perceptron. L’oggetto “che imitava il cervello” suscitò grandi aspettative: il Naval Research Office americano, sponsor del progetto, declamò sulle testate di quotidiani come il New York Times una futura onnipotenza del dispositivo. Il successo mediatico del progetto e ancor più il timore di un drastico spostamento dei fondi di ricerca irritarono non poco l’ortodossia allora dominante nel campo dell’Intelligenza Artificiale.
Una comunità caratterizzata dalla presenza di due polarità rivali: una di ispirazione filosofica razionalista, che prediligeva sistemi logici, l’altra di ispirazione empiricista, che mirava a sistemi basati sull’apprendimento come le reti neurali. Due dei campioni del tempo della sponda razionalista, Marvin Minsky e Seymour Papert, si presero carico di difendere l’ortodossia dall’incombente pericolo della ricerca neurale: ci riuscirono egregiamente ed evidenziarono quanto il perceptron fosse tutt’altro che onnipotente, dimostrando in maniera matematicamente inoppugnabile come alcuni problemi, nemmeno troppo complessi, fossero fuori dalla sua portata. Minsky e Papert portarono il loro attacco a fonde: sostennero che quelle pesanti limitazioni non erano da attribuire al dispositivo appena costruito, ma intrinseche dell’approccio neuronale. E ottennero lo scopo desiderato: nei venti anni successivi tutti i fondi di ricerca si spostarono verso l’IA razionalista e le reti neurali diventarono una ricerca marginale. Ci furono voci secondo cui Rosenblatt, morto negli anni immediatamente successivi in uno strano incidente in barca, in realtà si fosse tolto la vita.
Le limitazioni sottolineate da Minsky e Papert derivavano da una particolarità della regola di apprendimento del perceptron: la modifica del collegamento tra neuroni unicamente per uno strato. Era una limitazione ben nota a Rosenblatt, che l’aveva esposta, ma non era riuscito ad andare oltre il singolo strato. Il primo “conceptual breakthrough”arrivò nel 1986: Hilton insieme a David Rumelhart e Ronald Williams inventarono un nuovo modello matematico di apprendimento, perfettamente funzionante su più strati e basato sull’algoritmo di backpropagation, retropropagazione dell’errore. Sconfessati Minsky e Papert, le reti neurali artificiali presero il volo, e negli anni ’90 diventarono uno dei metodi di maggior successo in IA.
Nei primi anni Duemila, la portata innovativa ed applicativa delle reti neurali artificiali stava per esaurirsi. Non per alternative significative, ma per la “presa di distanza” di diversi ambiti disciplinari precedentemente legati all’IA, come l’analisi d’immagine, l’elaborazione del linguaggio naturale, il data mining: ambiti che cominciavano a preferire sviluppi ingegneristici specifici, rispetto a metodi che inseguissero genericamente l’intelligenza umana. Addirittura l’adesione all’IA, reti neurali incluse, aveva assunto un marchio di discredito, come voler millantare l’imitazione di mente e cervello con metodologie tecnicamente deboli. Il deep learning è stato il secondo “conceptual breakthrough”, sulla scia del primo. Come l’algoritmo di backpropagation ha consentito l’apprendimento a più di uno strato, la strategia di apprendimento in due tempi proposta da Hilton nel 2006 ha risolto il problema dell’apprendimento a tre strati e oltre: in una prima fase, la rete multistrato viene ripartita in una serie di reti indipendenti, ciascuna a due strati, e addestrata parzialmente; nella seconda fare, la rete viene ricomposta e addestrata per intero con la backpropagation. Un metodo che ha aperto la strada alle reti neurali “deep”.
Da allora, una volta riaccesi i riflettori sulle reti neurali artificiali, si sono succeduti non pochi altri “conceptual breakthroughts”, tra cui l’architettura Transformer, introdotta dal gruppo di ricerca Google nel 2017. Si tratta di un tipo di rete neurale artificiale particolarmente efficiente nel trattare dati ad andamento sequenziali, come il linguaggio: rispetto alle reti neurali “ricorsive”, le reti transformer adottano un meccanismo che, in qualche modo, corrisponde alla nozione cognitiva di “attenzione”, ovvero la capacità di focalizzare alcuni elementi come rilevanti rispetto ad altri, per esempio alcune parole rispetto ad altre in una frase. Questo “conceptual breakthrough” ha in buona parte colmato il divario tra il successo del deep learning nel campo della visione, e quello del linguaggio.
Reti neurali artificiali: i successi del deep learning nell’elaborazione di immagini e linguaggio
Il deep learning si è distinto subito nell’elaborazione delle immagini,e in pochi anni ha portato le prestazioni della visione computerizzata vicina a quella umana. Nel linguaggio invece si è fatto strada più lentamente e fino a qualche anno fa, in settori come la traduzione o la capacità di rispondere a domande, non vi erano differenze vistose rispetto ai metodi di elaborazione tradizionali. Dal 2018 il progresso è diventato vertiginoso: il gruppo di ricerca di Google ha incorporato il transformer in uno schema chiamato BERT- Bidirectional Encoder Representations from Transformers, che può apprendere un “modello” di come funzionano le parole semplicemente dall’esposizione a testi. Il concetto di encoder è di mantenere una rappresentazione interna continua della sequenza di parole nelle frasi: l’errore, in BERT, riguarda la predizione del genere di parola che di volta in volta viene omessa nella sequenza, sia leggendo normalmente da sinistra a destra, sia da destra a sinistra. Un “modello” di linguaggio è una rete neurale che, nei propri collegamenti, ha incorporato la complessità di relazioni tra le parole nei testi usati durante l’apprendimento. Modelli del genere vengono poi addestrati in modo supervisionato per gli specifici compiti di interesse: dalla risposta automatica a domande ai sommari automatici, fino alla generazione automatica di testi. Immediatamente dopo i progressi di BERT, sono stati inclusi nei modelli GPT- Generative Pre-trained Transformer della concorrente OpenAI, di cui Microsoft è il principale azionista. Attualmente, GPT-3 è il modello di punta. In meno di cinque anni anche nel campo dell’elaborazione del linguaggio non esiste alternativa al deep learning: i benchmark, i test standardizzati pubblici impiegati per confrontare oggettivamente metodi diversi, fanno fatica a tenere il passo. Nell’epoca pre-Deep Learning lo standard era il MCTest – Machine Comprehension of Text, oramai preistoria; nel 2018 era stato introdotto il GLUE- General Language Understanding Evaluation, subito inutile perché troppo facile per modelli impieganti Trasformer e sostituito nel 2019 dal SuperGLUE, oramai anch’esso insufficiente.
Un’impressionante dimostrazione delle capacità di GPT-3 è stata pubblicata a settembre 2020 da The Guardian, nell’articolo “A robot wrote this entire article. Are you scared yet, human?“: l’articolo era veramente scritto da GPT-3, in risposta alla richiesta si realizzare un pezzo di circa 500 parole. Il tema? Convincere gli umani che non sia da aver paura dell’IA.
“Non capisce”: le critiche al deep learning e come uscirne
Ben presto in risposta ai successi dei modelli neurali del linguaggio basati sul Transformer si è levato un coro di critiche in cui si possono rintracciare sia antipatie per l’IA nel suo complesso, che antipatie mirate contro l’approccio neurale.
Le prime, pur con diverse sfumature, hanno tutte uno stesso tenore comune, che si può esemplificare in un’avvertenza del tipo:
“Non lasciatevi ingannare! Apparentemente GPT-3 mette in fila parole che vi sembrano sensate, ma in realtà non conosce il significato di quelle parole!”
Spesso, gli autori di questo tipo di critiche si pongono come i primi scaltri scopritori di un inganno da esporre a tutti. A ben vedere, si tratta invece, di un argomento piuttosto datato, la cui prima e di gran lunga più brillante enunciazione si deve al filosofo John Searle, che nel 1980 trattò de “la stanza cinese”. Searle, dallo stile tipicamente ironico, scrisse una parodia del test di Turing: il test avviene con una conversazione in cinese e la macchina da testare è in realtà una stanza, dentro cui si nasconde un essere umano che non conosce una sola parola di cinese. Il malcapitato prenderà da una finestrella la domanda scritta su un foglio e rivolta alla macchina, poi consulterà un manuale a due colonne: una con caratteri corrispondenti ad ogni possibile domanda, una con tutte le risposte. Il sistema “stanza” supererà quindi il test di Turing perché produrrà risposte sensate, ma il suo “addetto” continuerà a non capire nulla né delle domande né delle risposte.
Questo esperimento mentale di Searle, un capolavoro, spinge a sostenere che le macchine, qualunque abilità linguistica dimostrino, siano prive di intelligenza. Ma è un esperimento vulnerabile se posto ad una valutazione attenta.
Tra i diversi aspetti non convincenti, riportiamo quello enunciato dal filosofo del linguaggio Pietro Perconti nel suo recente volume “Coscienza”. L’argomento di Searle fa leva appunto sulla coscienza: si richiede che un sistema in grado di dare risposte sensate a qualunque domanda, non solo sia in grado di farlo, ma che sia anche cosciente. Una pretesa filosoficamente complicata, ma soprattutto ingenerosa, se applicata solamente alle macchine.
Noi veramente quando conversiamo ci poniamo il problema se l’interlocutore, oltre a risponderci a tono, abbia piena consapevolezza di tutto quel che proferisce, a partire dalle regole per mettere le parole una dietro all’altra, per finire alla loro sfera semantica? Di fatto, anche persone che si esprimono in modo grammaticalmente corretto non hanno nessuna consapevolezza delle regole grammaticali. Anche per il significato delle parole, la piena consapevolezza del loro significato è una rarità, spesso si comunica impiegando soprattutto le stesse parole che si sono sentite dire in un contesto analogo, e capita piuttosto spesso di usarle in modo inappropriato. I fraintendimenti sono all’ordine del giorno nel nostro comunicare. Risulta comodo impiegare espressioni e modi di dire comuni, le cosiddette “frasi fatte”. C’è di più, se si vuol inseguire la genuina consapevolezza del significato delle parole, ci si scontra con problemi annosi: definire in modo filosoficamente accettabile cosa sia il significato è un tema arduo e controverso.
Immaginare che il significato si celi in una sorta di cassaforte cognitiva personale, a cui accedono le persone per prenderne coscienza, e poi convertirlo in parole da pronunciare, è una tesi senza speranze. Ben più realistico seguire la strada indicata tempo addietro dal filosofo austriaco Ludwig Wittgenstein, secondo cui il significato del linguaggio va semplicemente rintracciato nell’uso che ne fanno i parlanti, nell’intreccio di conversazioni che lui denominava “giochi linguistici”. In giochi linguistici GPT-3 se ne è immerso fino alla noia: il contenuto di libri, articoli di giornale, pagine Wikipedia a cui è stato sottoposto equivalgono ad una persona che abbia parlato ininterrottamente per 6-7000 anni. I critici che riciclano una versione dell’argomento “stanza cinese” per denigrare GPT-3, immaginano di poterlo fare in linea di principio, prescindendo da quale sia il suo effettivo livello di competenza linguistica. Anche se il livello di competenza fosse migliore di quella di un vincitore di premio Strega, sarebbe sempre un’impostura, dietro cui non c’è genuina intelligenza.
Critici più accorti e sofisticati entrano invece nel merito della competenza linguistica di GPT-3 cercando di mostrare quanto sia scarsa. Tra i principali troviamo Gary Marcus, brillante allievo dello scienziato cognitivo Steven Pinker, uno dei più accaniti critici delle reti neurali artificiali degli anni ’80, soprattutto nell’ambito del linguaggio, a cui ha contrapposto la visione razionalista e l’impianto linguistico di Noam Chomsky. Marcus ha preso il testimone di Pinker nei confronti dell’attuale generazione di reti neurali, ed è considerato il “professionista” degli attacchi al deep learning: la sua strategia per mostrare come il GPT-3 manchi di competenza linguistica è stata l’attenta ricerca di esempi d’uso che denotassero suoi fallimenti, collezionandone i più plateali.
Un esempio. Al GPT-3 viene sottoposto questo racconto: “Tu stai riempiendoti un bicchiere di succo di mirtillo, ma inavvertitamente ci finisce dentro pure un cucchiaino di succo d’uva. Lo annusi, ma purtroppo sei raffreddato e non senti odori. Sei assetato, e quindi bevi tutto il bicchiere.” Quando a GPT-3 viene chiesto di continuare la storia, conclude con “e allora tu muori”. Per qualche strampalata associazione, il succo d’uva, che era semplicemente non desiderato, è stato preso da GPT-3 addirittura come velenoso.
Ha buone ragioni Marcus per sostenere che la competenza linguistica di GPT-3 sia traballante: i problemi però sorgono quando propone, come ricetta alternativa, la tradizione razionalista. Addirittura, come esempio di modello del linguaggio su basi solide, aderenti alle teorie di Chomsky, Marcus porta il celebre programma di Terry Winograd, SHRDLU, il cui nome è composto dai caratteri che comparivano in una riga delle tastiere dell’epoca. Indubbiamente, il programma è stato un mirabile tentativo di traduzione di alcuni elementi essenziali dell’impianto di Chomsky, con lo scopo di comunicare semplici comandi ad un robot. Ma SHRDLU risale al 1972: nel mezzo secolo intercorso da allora, i progressi lungo quel versante sono stati piuttosto stentati, e soprattutto incommensurabili rispetto al vertiginoso progresso delle prestazioni dei modelli Transformer in soli cinque anni. A titolo di curiosità storica, lo stesso Winograd, in un suo libro del 1987, professava profondi dubbi riguardo l’approccio razionalista da lui intrapreso quindici anni prima, e su cui non è mai più tornato.
Marcus ha ben presente i successi del deep learning, dalla cui evidenza non si può prescindere, e recentemente quel che propone è una sorta di alleanza, di “ibridizzazione”, tra i metodi razionali, basati su logica, regole e simboli di tipo linguistico, e il deep learning che si occupa dei processi più a basso livello, dove è importante avvicinarsi al comportamento dei neuroni biologici. La proposta è stata prontamente bocciata da Hinton, che l’ha paragonata al voler spingere sulla ricerca di motori diesel nell’era delle macchine elettriche. Come dargli torto: Hinton ha vissuto in prima fila decenni di tentativi di questo genere, di cui uno dei principali fautori è stato Paul Smolensky già negli anni ’80, e non hanno mai dato i risultati attesi. La proposta sembrerebbe ben fondata: la cognizione umana appare davvero potersi scomporre in due livelli, uno superiore, del ragionamento cosciente, fatto di simboli linguistici e regole logiche; e uno inferiore, che viaggia sui giganteschi vettori di attivazioni neurali ricordati da Hinton. Tuttavia, gli innumerevoli tentativi di mettere assieme reti neurali artificiali e sistemi logico-simbolici non hanno mai funzionato bene. Difficile dire per quali motivi. Si potrebbe ritenere che sia proprio sbagliato quel modo di concepire la cognizione su due livelli. O, al contrario, che quell’interpretazione della cognizione sia corretta, ma non sia proficuo imitarla nei computer.
Come suggerisce il filosofo dell’informazione Luciano Floridi, di fronte al dilagare di applicazioni derivanti dal successo del deep learning, occorrerebbe iniziare ad avere un atteggiamento più laico, dissociando l’apprezzamento dei risultati concreti del deep learning dall’ossessiva domanda se dietro ci sia qualcosa di simile all’intelligenza umana. Probabilmente, una chiave del successo del deep learning sta proprio nel suo opportunismo, nell’imitare mente e cervello umani per quanto serve, senza troppo imbarazzo nel mettere in campo anche stratagemmi computazionali di dubbia o nulla plausibilità biologica. L’importante è che funzionino. E pare funzionino talmente bene che, osserva sempre Floridi, le preoccupazioni principali dovrebbero essere rivolte agli usi eticamente impropri di modelli come GTP-3.
In conclusione, il deep learning è davvero onnipotente? Forse si può rispondere che sia “potenzialmente onnipotente”. Per esprimere questa potenzialità, puntualizza Hinton, sono necessarie innovazioni concettuali, che sono il risultato di inventiva umana. Pertanto, non c’è nessuna garanzia sul se, e quando, ricercatori geniali quanto Hinton, sappiano inventare concetti innovativi tali da alimentare l’onnipotenza del deep learning.