L'ANALISI

Deep learning, il mistero su cui scommettono le big tech: che c’è dietro

Poche “invenzioni” come l’apprendimento profondo stanno rivoluzionando il mondo digitale. Dall’automotive agli assistenti virtuali, i settori in cui è sbarcato subiscono un’accelerazione radicale. Eppure né scienza né filosofia sanno ancora spiegarsi il perché. Vediamo i passaggi storici e le teorie in campo

Pubblicato il 26 Apr 2019

Alessio Plebe

Università degli Studi di Messina

La sfida del machine learning contro il Covid-19

Deep learning, questo sconosciuto. L’invenzione, o per meglio dire il “fenomeno” che sta accelerando in modo radicale una vastità di campi applicativi – dall’automotive agli assistenti virtuali – nasconde tutt’ora i motivi alla base della sua efficacia. Un “mistero” su cui si confrontano le teorie di matematici e filosofi che tentano di carpirne l’essenza. Dalle teorie di Hans Reichenbach a quelle di Thomas Nickles, ecco un excursus delle tesi in campo.

E’ difficile trovare nell’intera storia dell’informatica un’invenzione dall’impatto talmente rapido e ampio come quello che va sotto il nome di deep learning. La resurrezione dell’Intelligenza Artificiale (IA), dopo decenni di letargo, è pressoché interamente merito del deep learning, che attualmente detiene il 40% dell’intero mercato dell’analisi dati, con un potenziale economico stimato tra i 3,5 e i 5,8 miliardi di dollari (dati del McKinsey Global Institute ad aprile 2018).

Un aspetto sorprendente del deep learning riguarda non solo il modo talmente rapido e inaspettato con cui si è affermato, ma ancor di più la mancanza di una spiegazione su perché funzioni, e funzioni così bene.

Questa mancanza certamente frustra la naturale curiosità di dare un senso compiuto ad una svolta in atto talmente importante nelle tecnologie informatiche, ma ancor di più rende difficile fare ipotesi sul futuro del deep learning, prevedere quanto margine di progresso possa offrire, e in definitiva se sia giudizioso scommettere tutto o quasi sul suo sviluppo, come attualmente fanno tante aziende, dai colossi come Google e Amazon fino alle piccole startup.

Compito della scienza è tentare spiegazioni dei fenomeni naturali, e la filosofia della scienza cerca criteri che permettano di verificare quando le spiegazioni dei fenomeni siano scientifiche e giustificate. In questi casi la parola “fenomeno” non va intesa nel senso comune di qualcosa di eccezionale, ma asetticamente come una manifestazione osservabile della natura.

Di solito quello che è realizzato dall’uomo non deve scomodare nessuna scienza, e tantomeno nessuna filosofia della scienza, per capire come funzioni. La sua spiegazione è insita nei procedimenti messi in atto per progettarlo e realizzarlo. Dato che il deep learning sfugge a questa proprietà, è allora legittimo equivocare sul suo carattere di “fenomeno”, che vale senz’altro per l’accezione comune di “straordinario”, “eclatante”, ma gli si può attribuire l’accezione tecnica di fenomeno osservabile piuttosto indecifrabile, in attesa di spiegazioni.

Indice degli argomenti

Empiristi contro razionalisti nelle reti neurali

Di fatto sta succedendo questo: da alcuni anni si stanno moltiplicando i tentativi di spiegare scientificamente perché il deep learning funziona, e allora val la pena esercitare qualche strumento di filosofia della scienza per verificare a che punto sono le spiegazioni.

Una buona pratica quando si indaga scientificamente un fenomeno è anzitutto circoscriverlo, delineare nel modo più definito possibile di cosa si tratti. Possiamo partire dalle due parole che lo denominano. Il termine learning è fondamentale, e colloca quel che stiamo esaminando entro una corrente ben precisa dell’IA, quella empirista. In linea con una tradizione filosofica che annovera pensatori come John Locke e David Hume, per i fautori dell’empiricismo in IA l’intelligenza deriva dalla sofisticata capacità di apprendere dall’esperienza, e quindi per dotare macchine di intelligenza del genere dell’uomo occorre escogitare algoritmi che simulino l’apprendimento.

Così come nella storia della filosofia una delle dispute più accese è stata tra empirismo e razionalismo, secondo cui a renderci intelligenti è una dotazione naturale di strumenti di ragionamento, ben più della capacità di apprendere, anche in IA contrapposta alla corrente empirista è sempre esistita quella razionalista.

Si è assistito ad un’alternanza tra le due, con la compagine razionalista dominante nel ventennio tra 1960 e 1980. Verso la fine degli anni ’80 la situazione si ribalta grazie all’invenzione delle reti neurali artificiali, basate su semplici unità di calcolo disposte su più livelli, interconnessi tra di loro.

La loro strategia era l’apprendimento, di qualunque genere di funzione di cui fossero disponibili esempi da imparare, ed ebbero un notevole successo applicativo, anche se non paragonabile a quello attuale. Non solo le reti neurali artificiali degli anni ’80 sono immediati precursori del deep learning, ma diversi dei personaggi che le avevano concepite sono tra gli attuali principali sviluppatori del deep learning, a partire dal suo inventore, Geoffrey Hinton.

Deep learning, gli “strati” delle reti neurali

Passando al termine deep, non dispiace certamente agli esponenti di questa tecnica che “profondo” possa essere interpretato come “perspicace”, capace di andare a fondo delle questioni, ma il suo uso deriva da faccende prettamente tecniche. Le reti neurali artificiali degli anni ’80 erano come detto costituite da strati di neuroni, ed era in uso catalogarle come shallow se il numero complessivo di strati era tre, o deep se vi erano quattro o più strati.

Una rete neurale artificiale può svolgere compiti via via più sofisticati aumentando il numero complessivo delle sue unità, ma facendo i conti con le maggiori richieste di potenza di calcolo.

A parità del numero complessivo il progettista può scegliere se avere solo tre strati ciascuno con molte unità, oppure ripartire le unità di cui può disporre su molti strati. Fino a pochi anni fa la seconda opzione era poco praticabile, perché il metodo matematico inventato per simulare l’apprendimento, noto come backpropagation, funzionava bene per tre strati, e sempre meno bene passando ad un numero di strati maggiori.

Nel 2006 avviene la svolta: Geoffrey Hinton, già tra gli inventori della backpropagation, escogita una serie di artifizi matematici che consentono di addestrare senza problemi reti neurali artificiali con un numero anche elevato di strati. Si scopre così che le reti versione deep funzionano meravigliosamente, decisamente meglio delle vecchie shallow, che vengono abbandonate.

Dal 2006 in poi il progresso del deep learning è stato fertilizzato dall’interesse da parte di aziende del calibro di Google, Facebook, Amazon, che ne hanno finanziato la ricerca, e di fatto oggi è possibile addestrare reti con centinaia di strati interni usando sostanzialmente la vecchia semplice backpropagation arricchita di un numero di piccole sofisticazioni matematiche, senza dover ricorrere al metodo di Hinton, più complesso.

I risultati sono ben noti e veramente “fenomenali”, spaziando tra riconoscimento di immagini, del linguaggio parlato, risponditori automatici e traduttori, diagnostica medica, formulazione di farmaci.

Chi fa il “miracolo” nel deep learning: la potenza di calcolo o la neuroscienza?

Tornando al “fenomeno” in senso tecnico, prima ancora delle indagini seriamente scientifiche, sono circolate alcune assunzioni sul perché il deep learning funzioni così bene, e in particolare perché meglio delle reti shallow. Ne prendo in considerazione le due più popolari.

Secondo una, il deep learning è esploso oggi perché i computer sono diventati sufficientemente potenti, permettendo di addestrare reti neurali artificiali su milioni e milioni di esempi, esponendole quindi ad un’esperienza ricca e sfaccettata, come non era possibile in passato. Naturalmente il progresso della potenza di calcolo non guasta, purtuttavia non può essere una spiegazione valida.

L’aumento di prestazioni dei computer ha avuto, dagli anni 60 in poi, una progressione estremamente regolare, nota come “legge di Moore”, dopo che Gordon Moore aveva pronosticato un raddoppio della complessità delle CPU ogni due anni: se fosse questa la giustificazione avremo dovuto assistere ad un continuo progresso delle reti neurali artificiali dagli anni ’80 ad oggi, e non il salto discontinuo avvenuto in meno di un decennio.

Effettivamente si potrebbe individuare una discontinuità nei mezzi di calcolo verso il 2010, quando ci si è resi conto che i processori grafici, ideati per giocare con il computer, potevano essere sfruttati per scopi meno ludici, visto che le tipiche loro operazioni coincidevano con alcune di quelle chiave delle reti neurali artificiali.

Ma questa svolta non ha riguardato solamente le reti neurali, bensì il calcolo scientifico in generale, infatti quando nel 2008 NVIDIA, il principale produttore di questi processori, ha introdotto CUDA, un’interfaccia di programmazione per poter usare i processori grafici in compiti diversi dal gioco, nelle potenziali applicazioni non si parlava nemmeno di reti neurali. Quindi anche la sola disponibilità dei processori grafici versione CUDA non è una spiegazione valida, altrimenti avrebbero dovuto progredire allo stesso modo delle reti neurali tutti gli altri ambiti di calcolo scientifico.

L’altra spiegazione comune, forse ancor più popolare, è che il deep learning funziona così bene perché è riuscito ad incorporare alcune strategie del cervello, che notoriamente se la cava niente male. Dopo tutto stiamo parlando di reti “neurali”, e i neuroni sono proprio quelle cellule meravigliose che popolano il cervello. Si tratta inoltre di una spiegazione che trova credito nell’essere addotta anche da alcuni esponenti di spicco della ricerca in deep learning, come Yoshua Bengio e Demis Hassabis.

Torna qui utile una classica distinzione operata in filosofia della scienza, articolata per la prima volta da Hans Reichenbach nel 1938, tra il contesto della scoperta e il contesto della giustificazione. Il primo riguarda l’assieme delle motivazioni che hanno condotto degli scienziati a formulare una certa teoria, il secondo riguarda invece l’oggettiva motivazione per cui la teoria risulta valida.

In un contesto della scoperta è indubbio che l’imitazione della mente fosse una forte motivazione per i personaggi che hanno concepito le reti neurali artificiali, dagli anni ’80 fino ad oggi. Di fatto molti degli attori principali, Hinton incluso, sono di formazione psicologi, pur avendo poi dimostrato una genialità matematica invidiabile per qualunque informatico. E certamente vi sono alcuni concetti di base nel deep learning che hanno avuto ispirazione dalla mente umana, primo di tutti il principio di apprendere, nell’interpretazione empirista di intelligenza detta prima; in secondo luogo la concezione di processi computazionali basati su tante unità identiche connesse tra loro, vagamente ispirato alla neurofisiologia.

Si tratta di analogie troppo vaghe per rientrare in un contesto della giustificazione, soprattutto occorre considerare che esiste un filone di ricerca che va sotto il nome di “neuroscienza computazionale”, mirante allo sviluppo di modelli computazionali che davvero ricalchino il modo di funzionare dei neuroni biologici e delle loro reti.

Anche questo dominio di ricerca ha fatto progressi enormi dai sui albori, sempre negli anni ’80, fino ad oggi, in cui si riescono a simulare in modo sorprendentemente fedele piccole porzioni di corteccia cerebrale. Sono progressi noti agli addetti ai lavori e, a differenza del deep learning, non fanno cronaca, perché nessuno dei loro complicati sistemi matematici ha mai avuto alcuna ricaduta applicativa.

Pare quindi che imitare sul serio il cervello renda i modelli inefficienti dal punto di vista applicativo, ed è pertanto ben poco plausibile come spiegazione del successo del deep learning.

Il “conteggio dei buchi” e la “distanza dello spalatore”

Andando oltre queste due spiegazioni popolari ma poco pertinenti, da pochi anni sono comparsi diversi studi che si può dire rientrino nel contesto della giustificazione di Reichenbach: sono tentativi di scovare ragioni oggettive che mostrino perché reti deep learning funzionino così bene.

L’aspetto forse più sconcertante di questo giovane ambito di ricerche è la pluralità di strumenti e idee messe in campo per tentare di spiegare il deep learning, che continua a rimanere sostanzialmente un mistero.

Si possono distinguere due strade diverse. Una che cerca di caratterizzare matematicamente i tipi di funzioni che possono essere prodotte da una rete deep learning, misurandone in qualche modo la complessità. Un’altra che mira invece ad individuare cosa renda talmente efficaci i metodi matematici impiegati per simulare l’addestramento tramite esempi.

Uno dei primi esempi in questa direzione è stato lo studio di Bianchini e Scarselli del 2014, impiegando la topologia, quella branca della matematica che studia le forme in spazi con dimensioni ben oltre le solite tre, dove una possibile misura di quanto sia complessa una forma fa uso dei numeri di Betti, chiamati così perché inventati, nel 1872, dal matematico toscano Enrico Betti.

In modo intuitivo si può dire che questo numero è il conteggio di quanti diversi “buchi” si possano rintracciare in una forma topologica. Ebbene, Bianchini e Scarselli hanno dimostrato che, a parità di numero di unità in una rete neurale, una loro disposizione deep produce forme con numero di Betti più elevato rispetto ad una disposizione shallow, ovvero su tre soli strati.

Nell’altra direzione, sui metodi di addestramento, il gruppo diretto da Andrea Montanari all’Università di Stanford ha messo in campo altro genere di densa matematica, mostrando l’equivalenza tra l’evolversi di una rete neurale durante l’apprendimento e la dinamica di certe equazioni differenziali, che per quanto ostiche ai non addetti ai lavori, rivelano ad un matematico molto più delle misteriose reti neurali.

Così come i numeri di Betti misuravano i buchi nelle forme topologiche, queste equazioni differenziali si prestano ad un’altra misura, nota come “distanza dello spalatore”, perché si può interpretare come il lavoro necessario per spostare un mucchio di terra in modo che sia uguale ad una altro. Tramite questa misura Montanari e collaboratori hanno mostrato come quelle equazioni, che hanno preso il posto della rete durante l’addestramento, possano convergere verso la soluzione ottimale.

Entra in scena la “rinormalizzazione”

Una categoria di studi ancor più sorprendente è sorta sulla somiglianza che alcuni studiosi hanno notato tra reti deep learning e una perla della fisica teorica contemporanea, nota come gruppo di rinormalizzazione. Si tratta di una strategia matematica per tenere insieme componenti a scale diverse nelle equazioni fondamentali della fisica quantistica, come quelle di Dirac, introdotta nel 1953 da Stueckelberg e Petermann, ed estesa ad altre equazioni, come l’elettrodinamica quantistica, dal premio Nobel Murray Gell-Mann.

Senza questa strategia le stesse equazioni sarebbero state irrisolvibili. Due fisici con interesse in biologia, Mehta e Schwab, sono stati i primi nel 2014 a mostrare l’equivalenza di un certo tipo di deep learning, con uno degli schemi del gruppo di rinormalizzazione, aprendo la strada ad un filone di indagine sempre più frequentato.

Che bilancio si può trarre dalle spiegazioni del deep learning secondo il contesto definito, in filosofia della scienza, della giustificazione? Sicuramente è apprezzabile il fiorire di studi miranti a questo scopo, e il loro spaziare così ad ampio raggio, dai buchi nelle forme topologiche alle equazioni differenziali descriventi l’apprendimento, fino ai metodi della fisica quantistica.

D’altra parte è anche questo quadro variegato, che non si ferma certo ai pochi esempi qui raccontati, a mostrare come si sia ancora lontani da una spiegazione consolidata. Inoltre, tutti i lavori che hanno prodotto spiegazioni giustificate in senso stretto, ovvero dimostrazioni matematiche, sono riusciti nell’intento prendendo in esame classi di reti neurali artificiali limitate, non certo l’intera variopinta galassia del deep learning.

La distinzione classica tra contesto della scoperta e della giustificazione non è l’unico criterio per indagare a che punto siamo nello spiegare il deep learning: la filosofia della scienza offre diversi altri strumenti teorici.

Il ventaglio di fattori sostenuto da Nickles

Per esempio risulta piuttosto pertinente il contesto che Thomas Nickles definisce della valutazione euristica, possiamo dire a metà strada tra il contesto della scoperta, che pertiene a motivazioni, anche di ordine psicologico, dello scopritore, e quello strettamente logico-matematico della giustificazione. Spiegazioni nel contesto della valutazione euristica pur essendo oggettive non devono impegnarsi in dimostrazioni rigorose: una spiegazione è accettabile in quanto produce ampie evidenze di funzionare. Inoltre, Nickles comprende nella sua categoria ogni fattore pragmatico influenzante una linea di ricerca scientifica.

Non c’è dubbio che il deep learning si presti molto a valutazioni euristiche, grazie anche al numero notevole di ricercatori impegnati nel mondo: diversi dei suoi progressi derivano non tanto da ipotesi teoriche, ma semplicemente dalla sperimentazione a tappeto di un gran numero di espedienti matematici, anche minuti, semplici, ma ogni tanto in grado di portare vantaggi sostanziali.

In alcuni casi la natura euristica di questi accorgimenti è esplicitata dai loro inventori, in quanto il loro successo è addirittura in contrasto con quanto in linea teorica ci si sarebbe aspettati. Ma qualunque cosa dia risultati empirici migliori, la si adotta.

Inoltre, risulta pertinente per il “fenomeno” deep learning il ventaglio di fattori che Nickles accoglie nel concetto di valutazione euristica, ed è probabilmente anche quello maggiormente tenuto d’occhio da chi ha investito o intende investire su questa tecnologia.

Come vengono riconosciute le immagini

In un ottica di valutazione euristica del deep learning si può certamente affermare che l’ambito in cui gode di miglior salute sia il riconoscimento di immagini. E’ quello dove il “fenomeno” è iniziato, nel 2006 ancora in sordina, per poi diventare esplosivo nel 2012, quando il modello di Hinton e del suo studente Krizhevsky domina la competizione più famosa nel campo del riconoscimento di immagini, facendo crollare l’errore dal 26.0% del precedente vincitore a ben 16.4%.

Da allora ogni anno modelli via via più perfezionati hanno continuato ad abbassare l’errore. Esiste un motivo preciso che gioca a favore del deep learning nell’elaborazione delle immagini: i modelli, oltre ad impiegare il consueto impianto delle reti neurali profonde, abbinano convoluzioni, operazioni classiche nel campo della visione artificiale, già implementate negli anni ’80, ma senza i vantaggi della “profondità”, che le ha rese vincenti.

Per distinguersi, questi modelli vengono chiamati deep convolutional neural networks, e sono gli unici modelli che possono vantarsi di superare le prestazioni umane. Nella competizione prima citata gli umani compiono errori intorno al 4%, superato dalle convoluzioni profonde nel 2015, oggi i migliori modelli raggiungono errori di poco inferiori al 3%.

Si tratta di un risultato eclatante, a detta degli stessi studiosi di visione umana, purtuttavia occorre prendere con cautela l’affermazione che mediante il deep learning la visione artificiale abbia sorpassato quella naturale.

Questo è avvenuto unicamente nell’ambito di quella competizione, che consiste nell’assegnare ad una tra mille categorie di oggetti un’immagine, e la competizione ne dispone di decine di milioni, ma tutte con un solo oggetto principale.

Ecco perché niente batte (per ora) l’occhio umano

Noi, davanti ai nostri occhi, non ci troviamo mai immagini con un unico oggetto da classificare, se non proprio in una competizione di quel genere. Non solo attribuiamo categorie ad una miriade di oggetti diversi, e loro parti che vediamo davanti a noi, ma interpretiamo anche le varie relazioni che sussistono tra essi, diamo un senso alla loro dinamica, e immaginiamo come si evolverà la scena nel futuro.

Ognuna delle capacità umane che ho appena elencato corrisponde a campi aperti di indagine per le reti neurali artificiali, in cui si moltiplicano altri generi di competizioni, basati su specifici insiemi di immagini o filmati, con importanti applicazioni, che spaziano dalla generazione automatica di didascalie per immagini e filmati, alla sfida dei veicoli a guida autonoma.

Per quest’ultimo, per esempio, si sono costituite diverse collezioni di immagini e filmati esclusivamente riguardanti scene catturate durante la guida, ed etichettati per la presenza di altri automezzi, pedoni, segnaletica stradale, insomma tutto e solo ciò che serve per guidare. Qui, come in tutte le altre estensioni complesse del riconoscimento visivo, le prestazioni umane continuano ad essere riferimento insuperato, purtuttavia il deep learning sta continuando a progredire, e ha oramai preso il posto di ogni altra tecnica precedente.

Un fatto davvero sorprendente è che, in ognuno di questi campi applicativi, i risultati migliori si ottengano riciclando i modelli messi a punto per le immagini statiche con un solo oggetto, mantenendo tal quali quasi tutti gli strati, riaddestrando solamente gli ultimi.

La portata teorica di questo risultato è eclatante, e pare contraddire decenni di scienza cognitiva nota come embodied, che insegnava quanto la visione naturale non fosse affatto un processo a se stante, ma costituisse un tutt’uno con le esigenze primarie dei vedenti di agire e interagire con l’ambiente, e con gli oggetti visibili in esso.

La valutazione euristica del deep learning suggerisce invece che la visione è essenzialmente il processo statico ed autonomo di riconoscimento di singoli oggetti: avendo in mano quello, aggiungere il resto risulta relativamente agevole. Oltre a questa inaspettata ricaduta teorica, si tratta di un notevole punto a favore del deep learning in termini applicativi, permettendo di far tesoro dei successi ottenuti con il riconoscimento di singoli oggetti nelle immagini statiche.

La grande sfida del linguaggio umano

Al secondo posto tra gli ambiti di eccellenza per una valutazione euristica del deep learning si trova la comprensione del linguaggio umano, ambito dove le reti neurali profonde hanno fatto un ingresso più discreto e a piccoli passi, rispetto alla visione.

Anche qui vi è un ingrediente aggiuntivo, rispetto alle reti profonde: si tratta di unità denominate LSTM (Long Short Term Memory), in grado di tener memoria di stimoli precedenti. E’ una capacità basilare per comprendere il linguaggio anche nell’uomo: dal ricordare i suoni appena uditi nel comporre le singole parole, tenerne memoria per comporre il senso di una frase, oppure tenere traccia di riferimenti pregressi nel seguire il filo di un discorso.

Anche le LSTM non sono invenzione recente, erano state introdotte negli anni ’90, ma iniziano a funzionare a dovere quando potenziate in architetture “profonde”. Per il linguaggio non vi è stata la rivoluzione con cui il deep learning ha spazzato via ogni alternativa nell’ambito visione, ma un progressivo avvicinare le prestazioni dei vari metodi tradizionali, con una tendenza pare inesorabile al sorpasso.

Anche qui i risultati che emergono scuotono non poco alcune certezze teoriche. Da più di mezzo secolo la scuola iniziata da Noam Chomsky ha reso il linguaggio umano oggetto di analisi matematica, da cui sono scaturite formalizzazioni raffinate e dettagliate di ogni forma di fenomeno linguistico, dalla fonologia alla sintassi e, con qualche maggior difficoltà, semantica e pragmatica.

E’ su questo poderoso insieme di regole, ben formalizzate matematicamente, che sono stati costruiti finora gli algoritmi per la comprensione e il processo del linguaggio naturale. Il deep learning ignora candidamente questo sfondo teorico nella sua interezza. Essendo, come detto prima, il campione dell’empirismo, fa tranquillamente a meno di qualunque regola del linguaggio, e semplicemente impara dall’esperienza, in questo caso dai corpora linguistici: si tratta della strategia chiamata end-to-end. La valutazione euristica, anche in questo caso, è positiva: funziona. Funziona in innumerevoli campi:ne menzioniamo i più significativi.

Deep learning e contenuti editoriali

Uno decisamente impegnativo riguarda la generazione di brevi sommari di documenti, per lungo tempo risolto approssimativamente da algoritmi che componevano brevi frasi sensate pescando i termini salienti del documento. La forma più evoluta prevede invece un sommario vero e proprio, che possa fare uso di parole anche non presenti nel documento, ma ne catturi il contenuto.

Gli algoritmi che si cimentano in questo arduo compito mettono in campo gli strumenti più sofisticati sulla comprensione dei testi, e sulla produzione di frasi grammaticalmente corrette e con la desiderata semantica.

Dal 2014 fa il suo ingresso il deep learning, con il modello realizzato dal team di ricerca di Facebook, in puro stile end-to-end, trascurando qualunque assunzione teorica su come funzioni il linguaggio, imparando da zero con esempi tratti di corpora di articoli di giornale corredati di sommari compilati da umani. Sufficienti a battere i record degli altri più sofisticati algoritmi.

Da allora il predominio del deep learning si è sempre più consolidato, anche se i sommari prodotti sono ancora di scarsa qualità. Fino al 2017 era praticamente impossibile produrre sommari decenti composti da più di una frase, altrimenti il rischio frequente era che il sistema ripetesse più volte le stesse frasi, ma il progresso è continuo e i modelli più recenti riescono a produrre sommari di tre o quattro frasi di qualità accettabile.

La lunga strada degli assistenti virtuali

I risponditori automatici racchiudono in una sola applicazione domini diversi della comprensione del linguaggio, dal riconoscimento del parlato all’analisi semantica, la generazione di frasi, e infine la sintesi vocale: difficile dire quale sia più complicato dell’altro. Anche qui il deep learning sta progressivamente facendo piazza pulita dei metodi tradizionali.

Lo dimostra il caso di uno dei sistemi più popolari, SIRI. La prima versione, introdotta dalla Apple nel 2011, non aveva ancora nulla di neurale, che compare per la prima volta nel 2014, abbattendo la percentuale di errori della metà. Grazie al deep learning nel 2018 SIRI è diventato affidabile anche nei sistemi come HomePod, dove gli utenti possono porre domande da posizioni distanti rispetto ai dispositivi.

Ma la sfida da sempre considerata più impegnativa nell’ambito del linguaggio riguarda la traduzione automatica. Per buone ragioni, diversi filosofi, fra cui Orman Quine e Hilary Putnam, hanno sostenuto l’impossibilità in linea di principio di una traduzione fedele, e riferendosi a traduttori umani, non certo algoritmi.

Ebbene, anche nella traduzione automatica il deep learning, non tradisce la sua natura empirista, non occorre implementare nulla che riguardi la struttura delle due lingue su cui operare la traduzione, nessuna regola, solamente una adeguata dose di esempi. Google, che impiega estensivamente la traduzione automatica, dal 2017 ha adottato la traduzione realizzata da modelli deep learning, seguito subito dopo da Microsoft.

Dal gioco alla strategia: un salto azzardato

Dopo questi due ambiti in cui la valutazione euristica è estremamente positiva, accenniamo ad un’area dove il deep learning da anni sembra promettente, ma con un reale impatto ancora piuttosto limitato: l’ambito in generale delle decisioni e della pianificazione di azioni.

La grande promessa viene da successi che hanno reso il deep learning addirittura più famoso e popolare che nella visione: la vincita in giochi difficili. Quando nel 2016 la ditta DeepMind, fondata da Demis Hassabis, mette a punto un modello che sconfigge i campioni mondiali di Go, una specie di scacchi cinesi ben più complicato di quello occidentale, sembra aprirsi una nuova era.

Così, come per visione e linguaggio, i modelli neurali per strategie e decisioni combinano l’idea base deep learning con uno specifico ingrediente, in questo caso si chiama reinforcement learning.

La storia si ripete: anche quest’idea risale agli anni ’80, e consiste nell’apprendere scelte tra insiemi di possibili azioni, sulla base di esperienze del livello di gratificazione (o penalizzazione) a cui conducono le varie azioni, nelle possibili circostanze. E’ solamente nel suo passaggio a “deep” che questa idea diventa vincente, persino con i campioni cinesi.

Da allora il deep learning si è cimentato in una gran varietà di giochi, soprattutto digitali, dal rubabandiera virtuale (Capture the Flag), al Dota 2 (Valve Corporation), non disdegnando nemmeno il tradizionale poker, con il modello campione DeepStack.

Per il momento la transizione da questi impressionanti successi in campo ludico, a qualcosa di più austero e serioso, rimane piuttosto timida. Vi sono elementi oggettivi da tener conto, per esempio alcuni settori interessati a decisioni strategiche automatiche sono riluttanti ad adottare modelli di cui non si possa tracciarne una logica interna: è il caso di applicazioni finanziarie e assicurative.

Tuttavia, anche in questo ambito il panorama complessivo mostra una tendenza sia ad un affinamento del deep learning formato reinforcement learning, sia ad una progressiva maggior accettazione da parte degli ambiti di applicazione.

L’adozione della valutazione euristica, nella sua accezione presa a prestito dalla filosofia della scienza, per come la si è appena esercitata su alcuni degli ambiti salienti del deep learning, conduce quindi a confermare che esso rimane un “fenomeno”, in ogni senso.