Rinascita e diffusione capillare dell’intelligenza artificiale (IA) nell’ultimo decennio sono frutto del grande successo delle reti neurali “profonde” o deep learning.
Ma come impara il deep learning? Quel che è sicuro è che il modo con cui impara ha ben poco a che fare con i meccanismi di apprendimento del cervello.
Il deep learning diventerà onnipotente? Limiti e prospettive delle reti neurali artificiali
Il loro principio generale è di costruire modelli in grado di svolgere compiti intelligenti imparando, con un lento e meticoloso addestramento basato su esempi.
Forse, il successo oltre ogni aspettativa del deep learning depone a favore dell’idea filosofica che anche l’intelligenza degli animali – uomo compreso – derivi dall’esperienza, come sostenuto nella linea di pensiero empirista da Aristotele a John Locke e David Hume. Ne erano convinti i proponenti delle prime reti neurali artificiali negli anni ’80 del secolo scorso.
Deep learning e apprendimento biologico: analogie e differenze
Vi sono ovviamente tante differenze tra gli algoritmi delle reti neurali artificiali e le computazioni che avvengono nei neuroni biologici, derivanti inevitabilmente dalla loro natura profondamente diversa, di semiconduttori e relativi circuiti da un lato, di cellule viventi con il loro ambiente fisiologico dall’altro.
Sorvolando sui dettagli di tali differenze, si può concedere che il deep learning catturi qualche aspetto concettuale dell’apprendimento biologico: primo fra tutti, l’idea che apprendere si rifletta anzitutto nella plasticità sinaptica. Infatti, anche per le reti artificiali, imparare si traduce nel modificare opportunamente le connessioni tra i diversi neuroni.
Ma la differenza concettuale eclatante è condensata nel termine “supervisione”, che appropriatamente connota il metodo di apprendimento dominante nelle reti neurali artificiali.
Una specifica rete viene progettata per produrre delle uscite utili, desiderate, in risposta a certi input. Nell’addestramento supervisionato occorre avere un insieme, più ampio possibile, di diversi casi di input, con abbinate le uscite esatte che si desiderano in corrispondenza di ciascuno. Un metodo matematico sofisticato, noto come backpropagation, consente di modificare tutti i collegamenti sinaptici del modello neurale, in modo che la sua uscita assomigli di più a quella esatta.
Supervisione algoritmica e apprendimento umano: un esempio
Per sottolineare quanto la supervisione sia aliena dall’apprendere nel cervello, si può prendere il caso della visione. Esiste una celebre raccolta di immagini denominata ImageNet, su cui si cimentano da decenni i software di riconoscimento: contiene svariati milioni di immagini, a ciascuna è associato il nome dell’oggetto raffigurato.
Un modello deep learning che intenda riconoscere queste immagini avrà come input l’immagine stessa, e l’uscita un vettore di 1000 elementi, corrispondenti a 1000 categorie di oggetti, di cui viene preso per buono quello che ha il valore maggiore.
Se durante l’addestramento viene presentata l’immagine di un’anatra, dovrebbe attivarsi il neurone in uscita numero 98, corrispondente appunto a duck. Se invece si attiva maggiormente il neurone 100, che corrisponde a goose, allora le connessioni del modello verranno modificate per indurre a diminuire l’attivazione del neurone di uscita 100, ed aumentare quella del neurone 98, per questa immagine.
Sarebbe come se il cervello fosse popolato da una miriade di solerti maestri. Se un bambino nell’osservare un lago pensasse di attribuire la categoria oche a delle anatre, immediatamente un maestro residente nel cervello si accorgerebbe dell’errore, e agirebbe sulla plasticità sinaptica per indurre a vedere quegli uccelli come anatre.
Intendiamoci, per la maturazione cognitiva di ciascuna persona sono stati preziosi molti maestri, eccome. Ma nel senso letterale della parola, altre persone, che sia per qualifica professionale in istituzioni educative, che ad ogni altro titolo hanno svolto ruolo di maestro nella vita di ogni persona. Tornando ad anatre ed oche, non ci sono dubbi che il bambino di cui sopra avrebbe continuato a nominare l’intera avifauna lacustre con il termine “oche”, se non vi fosse stata qualche saggia persona a correggerlo, insegnandogli che esistono anche le anatre.
Ma la complessa mediazione cognitiva che entra in gioco quando è un maestro in carne ed ossa a correggerci, non ha nulla a che vedere con l’esistenza di una miriade di ipotetiche entità cerebrali costantemente adibite a correggere errori direttamente a livello di uscite neurali, come succede nella supervisione delle reti neurali artificiali.
DTP e SDTP: come funzionano le alternative alla backpropagation
I teorici delle reti neurali artificiali erano ben consapevoli della stridente divergenza tra l’apprendimento supervisionato e i modi possibili di imparare di un cervello, ma la svolta in efficienza procurata dall’invenzione dalla backpropagation era troppo allettante per rinunziarvi.
Era un cruccio che ha attraversato l’intera carriera scientifica di Geoffrey Hinton, da quando negli anni ’80 aveva contribuito alla creazione delle reti neurali artificiali, fino alla recente ideazione del deep learning.
Pur avendo sviluppato in prima persona la matematica della backpropagation nella sua forma iniziale, ed averla estesa oggi per l’impiego nelle reti profonde, ha continuato in parallelo a sperimentare alternative concilianti con l’apprendimento naturale.
Successivamente agli spettacolari risultati delle reti neurali convolutive nel riconoscimento di immagini, in un lavoro pubblicato nel 2018 ha tentato di addestrare modelli analoghi usando, al posto della backpropagation, due metodi che non facessero a pugni con la plasticità del cervello, denominati DTP (difference target propagation) e SDTP (Simplified difference target propagation).
Fino a collezioni di immagini di dimensioni ragionevoli, come CIFAR-10 (che ha solamente 10 classi di oggetti diversi) i modelli imparavano qualcosa, pur se rimanendo molto distanti dai loro cugini addestrati a backpropagation, mentre passando a ImageNet non imparavano assolutamente nulla. Insomma, senza maestri, vita dura per il deep learning.
Questi risultati potrebbero essere interpretati come punti deboli dell’empirismo. Senza ricorrere a implausibili onnipotenti maestri artificiali, imparare qualcosa dai soli dati dell’esperienza è arduo, se non impossibile.
Il ritorno dell’innatismo e i suoi punti deboli
Pertanto l’apparato concettuale che abbiamo in testa deve avere un fondamento innato indipendente – almeno in parte – dall’esperienza.
È quanto sostenuto dal filone filosofico razionalista, forte di un’importante tradizione che spazia da Platone a Gottfried Leibniz e Immanuel Kant. Infatti un influente razionalista contemporaneo, Noam Chomsky, ha poggiato la sua ipotesi di un sistema cerebrale innato che consente all’uomo la facoltà del linguaggio, proprio sull’impossibilità di apprenderlo dall’esperienza, con il suo argomento divenuto celebre come poverty of the stimulus.
Le frasi colte da un bambino che ancora non sappia parlare sarebbero del tutto insufficienti per derivarne la ricchezza e sofisticazione delle regole di una grammatica: occorre quindi che essa sia già incorporata nel cervello, e l’ascolto del parlato serve giusto ad attivare questa grammatica incorporata, e sintonizzarla alla propria lingua madre.
Con il progredire degli studi di neurolinguistica, l’originale ipotesi di un dispositivo cerebrale che doni all’uomo la facoltà del linguaggio è diventata sempre più vacillante e improbabile, ma l’argomento della povertà dello stimolo continua ad avere una certa presa.
Anche se diversi studi empirici hanno mostrato come lo stimolo linguistico a cui è esposto un bambino nei suoi primi due anni di vita sia tutt’altro che povero, appare davvero arduo ricavare l’imponente apparato sintattico di una lingua ascoltando suoni, inizialmente incomprensibili.
Occorre però evitare la fallacia di assumere come inesistente un meccanismo, solamente perché non lo si è ancora scoperto. Oltre al linguaggio vi è una innumerevole quantità di conoscenze che acquisiamo dall’esperienza, senza nessun maestro, soprattutto nei primi anni di vita. Quel poco che conosciamo sui meccanismi neurofisiologici alla base dell’apprendimento, come il cosiddetto Spike-timing-dependent plasticity – rafforzamento o indebolimento di una connessione sinaptica in base all’ordine temporale di attivazione di due neuroni – non si è potuto finora tradurre in algoritmi funzionanti nel regno dei neuroni artificiali.
La comunità di sviluppo del deep learning non se ne fa preoccupazione. Mentre per la prima generazione di ricercatori di reti neurali una motivazione primaria era l’esplorazione di come vanno le cose tra i neuroni biologici, ora è diventata del tutto marginale, quel che conta è avere algoritmi sempre più performanti e con maggior copertura possibile di applicazioni. Poco importa se innaturali, come i maestri impegnati nella backpropagation.
L’etichettatura manuale e l’apprendimento semisupervisionato
L’apprendimento supervisionato avrebbe avuto quindi lunga vita, se non fosse subentrato un altro inconveniente, che sta assumendo dimensioni sempre più serie. Il dilagare del deep learning con tanto di addestramento supervisionato a corredo, ha innescato una nuova richiesta, di lavoro manuale per etichettare i campioni con cui addestrare, con la loro categoria corretta. Ogni azienda che intende dotarsi di IA per qualche suo scopo interno, e per applicazioni verso i clienti, deve costruirsi un insieme di campioni, il più vasto possibile. Di solito non è difficile accumulare i dati di input, mentre frequentemente l’uscita corretta non è disponibile, occorre verificarla e annotarla manualmente.
Se, per esempio, si vuol riconoscere in telecamere di sorveglianza se transita un individuo armato, occorre etichettare come negative milioni di immagini con persone che hanno tra le mani di tutto eccetto armi, e altre milioni come positive, in cui i soggetti imbracciano oggetti che spaziano dalle pistole ai bazooka.
L’inquietante risvolto sociale dell’addestramento supervisionato è il fomentare un genere di lavoro ripetitivo, noioso, e malpagato, fenomeno oramai denominato “cyber-proletariato”. È stata questa pressante esigenza pragmatica a motivare l’esplorazione di metodi non supervisionati, che mentre fino a non più di tre-quattro anni fa era considerata una strada senza speranze, oggi inizia a produrre qualche primo risultato.
Vista l’affidabilità della supervisione, i primi tentativi non l’hanno abbandonata realmente, ma camuffata in modo da evitare l’etichettamento manuale.
Nei sistemi che vanno sotto il nome di semi-supervisionati, si ha a disposizione solamente un insieme di campioni privi di etichetta, e da quelli si ricavano dei compiti pretestuosi, in cui sia facile produrre in modo automatico la risposta corretta. Per esempio, avendo a che fare con immagini, da ogni immagine originale se ne producono tante in cui si sono ritagliate porzioni ricomposte in modo sbagliato, e il compito è risolvere il puzzle riproducendo l’immagine originale.
Oppure nel caso di video, da un filmato originale se ne generano tanti in cui alcuni fotogrammi sono invertiti di ordine, e il compito per la rete neurale è riprodurre il filmato con l’ordine di fotogrammi corretto.
Chiaramente il compito pretestuoso va risolto con la supervisione, e nell’apprenderlo la rete forma delle rappresentazioni interne ricche e pertinenti riguardo ai dati di ingresso, e diventa quindi poi applicabile al compito reale per cui viene progettata.
Supervisione senza etichettatura: l’autoencoder
Inutile dire che se i maestri ordinari della supervisione nel cervello non esistono, tantomeno questi maestri furbetti che sottopongono i neuroni a vari compiti da enigmistica. Esiste tuttavia un compito che consente di salvare la supervisione evitando l’etichettatura, e trova una certa cittadinanza nel cervello.
Si tratta dell’idea di autoencoder, dovuta sempre a Goffrey Hinton nel 1994, in cui il compito affidato alla rete neurale è il più semplice possibile: dato un input ottenere in uscita lo stesso input. Oltre che semplice potrebbe apparire inutile, ma il prezioso risultato che si può guadagnare è una rappresentazione interna dei dati, che si colloca in uscita di una parte della rete detta encoder, e in ingresso di un’altra parte, detta decoder, che produce come uscita il dato originale.
Vi sono diverse indizi che puntano a qualcosa di molto simile nel cervello, in cui aree deputate a elaborare gerarchicamente segnali sensoriali, svolgono anche la funzione inversa, per esempio di ricreare una scena visiva, sulla base di segnali ad alto livello: anche il celebre neuroscienziato Antonio Damasio ne ha suggerite evidenze.
Nel funzionamento dalla percezione alla rappresentazione, il funzionamento corrisponde alla parte encoder dell’autoencoder, nel suo funzionamento inverso al decoder. Anche a livello di teorie psicologiche è accreditata l’idea della cognizione come simulazione, ovvero molti nostri concetti includono nel loro ambito rappresentazionale, la capacità di simulare frammenti di realtà percettiva in cui sia coinvolto il concetto stesso. Se per esempio si pensa ad un martello, è pressoché inevitabile l’accendersi nell’immaginazione visiva di sagome di martelli reali, e anche azioni tipiche, come martellare un chiodo.
L’autoencoder è quindi il circuito chiave per l’apprendimento non supervisionato, il modo in cui viene inserito in un modello complessivo è ampiamente diversificato nelle varie linee di ricerca che si sono rapidamente sviluppate in questi ultimi due-tre anni.
AIR: come funziona la ricostruzione immagini per scomposizione
Nell’ambito del riconoscimento visivo una delle strategia più seguite va sotto l’acronimo AIR (Attend, Infer, Repeat), che si basa sul principio di decomporre la scena visiva negli oggetti che la costituiscono, cosı̀ come implicitamente avviene per l’uomo.
Il metodo fa uso pertanto di molte rappresentazioni interne di autoencoder, una per un singolo oggetto, e la ricostruzione dell’immagine complessiva viene effettuata ricomponendo le singole rappresentazioni degli oggetti individuali.
L’idea non è nuovissima, venne lanciata nel 2016 da un gruppo di ricerca diretto da Geoffrey Hinton interno a DeepMind, allora appena acquisita da Google. Quel primo modello era una dimostrazione di principio, ma non poteva pretendere di cimentarsi su immagini reali, mancando l’ingrediente principale che ha reso il deep learning efficace: la convoluzione. Negli ultimi anni l’idea di AIR è stata ripresa e combinata con le architetture neurali dotate di convoluzioni, consentendo di elaborare, se non immagini reali, video sintetici abbastanza complessi, come i videogame Atari.
Anche se noi umani, come ogni altro animale, impariamo a interpretare i segnali percepiti dal mondo esterno senza maestri, esiste certamente un insieme di guide che provengono dall’esterno, e contribuiscono a correggere e migliorare la nostra costruzione interna del mondo.
Reinforcement learning o il feedback simulato dell’ambiente
Certe volte è direttamente l’ambiente in cui agiamo a offrirci indizi correttivi, come nei primi tentativi di un bambino di afferrare il suo bicchiere. Se lo schema motorio messo in atto è imprecise, l’errore sarà evidenziato dalla caduta del bicchiere, se è corretto verrà gratificato dal dissestarsi. Altre volte sono davvero i maestri ad intervenire, come quando chi accudisce un bambino gli insegna a usare le posate. Fin dal 1982 è in circolazione una controparte artificiale di questo genere di maestri, introdotta da Andrew Barto e Richard Sutton, denominata reinforcement learning.
Contrariamente alla supervisione che forza il contrasto tra uscita di un modello e risposta corretta, direttamente a livello dei neuroni di uscita, il reinforcement learning simula il riscontro indiretto dell’ambiente, in un modo ispirato alle teorie psicologiche dell’apprendimento per rinforzo. La coniugazione tra deep learning e reinforcement learning è stata perseguita con successo da DeepMind, a cui ha collaborato lo stesso Sutton, un successo coronato dalla celebre vittoria nel 2016 del modello AlphaGo contro il campione mondiale di Go, il più difficile gioco su scacchiera.
Finora questi tentativi di rinunciare alla supervisione rimangono decisamente più limitati come campo di applicazione rispetto al deep learning convenzionale in cui i maestri sono all’opera, ma per alcuni compiti circoscritti il divario si sta assottigliando. Inoltre, a essere aggirata è la supervisione, l’onnipotenza dei maestri, ma non la backpropagation, la cui rinuncia al momento pare davvero pesante.
Conclusioni
L’impulso a esplorare strade alternative proviene essenzialmente dalla preoccupazione pragmatica di evitare il gravoso etichettamento manuale, manca quindi un incentivo ad andare incontro a drastiche perdite di prestazioni, per inseguire forme di apprendimento più vicine a quelle naturali.
Comunque, la necessità pratica di svicolarsi dalla supervisione sta già producendo qualche interessante e inattesa conseguenza teorica. In uno studio del 2021 il gruppo di ricerca a Stanford guidato da James DiCarlo ha esaminato la somiglianza tra le attivazioni nei vari strati di modelli di visione deep learning, e attivazioni della corteccia visiva, quando soggetti vedevano le stesse immagini dei modelli. Venivano comparati modelli classici supervisionati, e alcuni nuovi modelli non supervisionati.
Come c’era da aspettarsi, la precisione nella classificazione degli oggetti contenuti nelle immagini era decisamente superiore nei modelli supervisionati, ma per quanto riguarda la somiglianza tra attivazioni nei modelli, e attivazioni nel cervello umano, erano i modelli non supervisionati ad assomigliare maggiormente.
Gli effettivi meccanismi con cui si modificano i parametri nei nostri circuiti neurali quando impariamo sono ancora tutti da svelare. Se l’IA si trova obbligata, per motivi pratici, a rinunciare alle comodità di metodi di addestramento alieni da quelli naturali, è interessante vedere se le nuove ricerche – anche se come puro effetto collaterale – vadano a far luce su come noi impariamo costantemente anche senza maestri.