l’approfondimento

Apprendimento neurale: il contributo dei premi Nobel Hinton e Hopfield all’IA moderna



Indirizzo copiato

L’evoluzione dell’apprendimento neurale si è sviluppata tra due approcci: supervisione cognitiva e autoorganizzazione neuroscientifica. I premi Nobel Hinton e Hopfield hanno segnato due strade complementari nell’intelligenza artificiale

Pubblicato il 15 apr 2025

Alessio Plebe

Università degli Studi di Messina



Hinton e Hopfield (1)

L’apprendimento neurale rappresenta la pietra angolare dell’intelligenza artificiale moderna, capace di simulare i processi cognitivi umani attraverso reti di neuroni artificiali. Questo campo deve molto ai contributi pionieristici di Geoffrey Hinton e John Hopfield, due scienziati che, seppur con approcci differenti, hanno rivoluzionato la nostra comprensione di come le macchine possano imparare dai dati.

Ma partiamo dall’inizio.

La west coast americana e la nascita dell’IA moderna

Esattamente 483 miglia. Questa è la distanza che, seguendo il percorso più breve, unisce Berkley e San Diego. La strada che attraversa la California e che collega queste due città della west coast americana è la I-5N, sicuramente non è uno dei percorsi più famosi degli Stati Uniti, ma per certi aspetti potrebbe essere considerato uno dei più importanti.

WHITEPAPER

Potenzia il tuo business con Big Data e AI: Insight 2025 dall'Osservatorio del Politecnico di Milano

Business Analytics
Business Intelligence

Idealmente, per chi ha ancora una visione romantica della scienza, questa strada potrebbe essere stata percorsa innumerevoli volte da due dei protagonisti (da poco) indiscussi dell’Intelligenza Artificiale (IA). È proprio così̀ che vogliamo immaginare il collegamento tra Geoffry Hinton che nel 1980 era Visiting Scholar California University di San Diego e John Hopfield che nello stesso anno era Professor of Chemistry and Biology alla Calltech di Berkley.

In una versione un po’ romanzata, a bordo di una vecchia auto, con la temperatura da tenere sotto stretto controllo, prestata da un amico di Hinton, tale Boltzmann, ai due scienziati vengono in mente un paio di idee che rivoluzioneranno l’IA. Così̀ immaginiamo i nostri due protagonisti che, sfrecciando nella calda California a bordo della macchina di Bolztmann lungo le highways americane, discutono sull’uso eccessivo e poco gratificante della retromarcia in fase di elaborazione di manovra e sul possibile impiego di reti a strascico per pescare nella baia di San Francisco. È in quel viaggio immaginario nella California degli anni ’80 che sono germogliate le idee su sui si è sviluppata l’IA di oggi, che ha portato i due personaggi a conseguire il Nobel per la fisica nel 2024.

Gli anni ’80 sono stati testimoni di un clima scientifico caratterizzato da menti geniali, tra cui proprio Hinton e Hopfield, coloro che avrebbero posto le basi dell’IA. Facendo un quadro generale della situazione si può dire che le ricerche procedevano essenzialmente lungo due strade: una derivante dalla simbiosi con la scienza cognitiva, aderente alla teoria computazionale della mente, e un’altra ispirata invece dalle scoperte neuroscientifiche, che ambiva a riprodurre nel computer meccanismi derivati dalla neurobiologia.

La via della cognizione e l’apprendimento sotto supervisione

Hinton è uno dei principali protagonisti dei primi grandi successi di queste ricerche, lungo la prima delle due vie ppena radccontate, quella cognitivista. La chiave del successo è il primo algoritmo che dona ai neuroni artificiali la straordinaria prerogativa dei loro cugini biologici: apprendere dall’esperienzza. Noto come backpropagation (Rumelhart, Hinton, and Williams 1986), si tratta di un elegante e straordinariamente efficace stratagemma matematico, che non ha nulla a che vedere con i processi neurobiologici dell’apprendimento, ed ha permesso a programmi di ricerca, come il Parallel Distribuited Processing di (Rumelhart and McClelland 1986), lo sviluppo delle celebri reti neurali artificiali, concepite soprattutto come strumento di indagine della cognizione umana.

Auspicata quasi profeticamente come soluzione per superare i limiti di apprendimento in pionieristiche reti neurali, come il Perceptron di (Rosenblatt 1962), la backpropagation ha introdotto un metodo efficace per consentire l’utilizzo e l’addestramento delle reti neurali multistrato, risolvendo il problema del credit assignment, ovvero la difficoltà riscontrata nel capire quale peso modificare e di quanto per ridurre l’errore complessivo di un modello neurale.

La soluzione consiste nell’addestrare una rete neurale multistrato correggendo i suoi pesi in modo da ridurre l’errore tra l’output prodotto e quello desiderato.

Fornendo un input alla rete, i dati attraversano i vari strati dei neuroni artificiali subendo trasformazioni tramite pesi e funzioni di attivazione fino a generare un output. Questo output viene poi confrontato con il valore atteso calcolando un errore. Sta qui la rigida disciplina del metodo, per ogni input viene decretato quale deve essere il suo perfetto output, e ci si adopera matematicamente a costringere l rete a produrre un output che vi assomigli il più possibile, è la caratteristica denominata supervisione.

Naturalmente una rete non produrrà mai un output coincidente con quello imposto, e il modo con cui la backpropagation bacchetta (matematicamente) la rete per i suoi errori va sotto il nome di discesa del gradiente. Il gradiente altro non è che la variazione che si produce nell’errore, perturbando leggermente, in positivo o in negativo, uno dei tanti pesi sinaptici della rete.

Si percorre la sua discesa, ovvero si applica la perturbazione con il segno che provoca una diminuzione dell’errore. Il gradiente dell’errore viene quindi calcolato e propagato all’indietro, partendo dallo strato di output fino agli strati più interni. Durante questa fase, i pesi vengono modificati proporzionalmente al contributo che hanno avuto nell’errore, permettendo alla rete di apprendere dai propri sbagli e di migliorare progressivamente le sue previsioni.

L’idea alla base della backpropagation non è del tutto nuova, i suoi principi matematici infatti possono essere trovati in alcuni lavori di scienze sociali degli anni ’70 (Werbos 1974) e lo stesso Rosenblatt negli anni ’60 aveva auspicato questa soluzione per superare i limiti del suo Perceptron attraverso una “procedura di correzione dell’errore a retropropagazione”. Tuttavia, è con Rumelhart, Hinton e Williams con la pubblicazione di Learning representations by back-propagating errors (Rumelhart, Hinton, and Williams 1986) che l’algoritmo viene formalizzato e applicato alle reti feedforward, consentendo cosı̀ l’utilizzo di più strati all’interno della rete e permettendo il riconoscimento di pattern e l’utilizzo di funzioni non lineari.

La formazione accademica di Hinton, come quella di altri suoi illustri colleghi dell’epoca, non è puramente matematica o fisica. Lo scienziato inglese infatti, prima di prendere un dottorato in IA nel 1978 aveva concluso la sua carriera da studente nel 1970 con una laurea in psicologia.

E’ stato probabilmente questo duplice background uno dei motivi che l’ha spinto a cercare una strada diversa da quella che lui stesso aveva contribuito a creare. Il fatto curioso è che, pur essendo uno dei primi fautori materiali della backpropagation, sentiva che c’era qualcosa che ancora non tornava, provava un certo senso di insoddisfazione rispetto a una soluzione che non avesse alcuna similitudine con il funzionamento del cervello umano. Quello che Hinton cercava, era un’alternativa all’aspetto supervisionato dell’apprendimento, qualcosa che non fosse cosı̀ lontano dalla realtà cerebrale, nel cervello infatti non abbiamo un’insegnante che ci dice cosa è giusto e cosa è sbagliato durante i processi di elaborazione della conoscenza. Per questo motivo i suoi sforzi si vollero concentrare sulla ricerca e lo sviluppo di un modello di apprendimento non supervisionato.

La via della neuroscienza e l’apprendimento spontaneo

Abbandonando per un attimo la nostra highway californiana, nel corso della seconda metà del ’900 altre strade, tortuose e meno battute, hanno lasciato intravedere un orizzonte possibile per istanze anarchiche nelle reti neurali, in grado di liberarle dalla dittatura della supervisione. Ispiratrici sono stati il concetto vagamente esoterico di autopoiesi in biologia proposto da (Maturana and Varela 1980), e quello più concreto di auto-organizzazione nella fisica dei sistemi dinamici, individuato per primo da (Bénard 1900).

L’idea generale è di sistemi che riescono a strutturarsi autonomamente in risposta agli stimoli dell’ambiente, senza bisogno di un controllo centrale esplicito. In IA questa via non ebbe un grande seguito rispetto alle alternative dell’epoca, probabilmente anche per la scarsa connessione tra il mondo dell’IA e la neuroscienza, al contrario dello stretto rapporto con la scienza cognitiva. Ad ogni modo, gli anni ’70 e ’80 sono stati testimoni di alcuni tentativi anche su questo fronte, tentativi che hanno ottenuto un discreto successo in termini di risultati, senza dover ricorrere a tecniche di supervisione diretta, ispirandosi al concetto di auto-organizzazione.

Un primo esempio è l’algoritmo SOM (Self-Organizing features Map), nato anche esso da una passione verso la psicologia dell’ingegnere finlandese Teuvo Kohonen (1977), il quale cercava di sviluppare un metodo per mappare dati complessi in modo non supervisionato, ispirandosi ai processi di auto-organizzazione mnemonica presenti nel cervello umano. Il SOM proponeva la creazione di una mappa bidimensionale in cui dati con caratteristiche simili venivano raggruppati spontaneamente in zone vicine. Questo processo di auto-organizzazione permetteva di ridurre la dimensionalità dei dati e di scoprire strutture nascoste senza bisogno di etichette esterne. Va detto che la popolarità della SOM deriva dalla sua semplicità, ottenuta idealizzando con molta libertà i meccanismi cerebrali, di fatto l’unica reale traccia di plausibilità biologica rimane proprio l’aver evitato l’apprendimento supervisionato.

Una certa maggior vicinianza al cervello si riscontra nel Neocognition, proposto da Kunihiko (Fukushima 1980), in questo caso vi è una più diretta ispirazione dai lavori di (Hubel and Wiesel 1968) sui livelli gerarchici di astrazione nell’organizzazione delle informazioni della corteccia visiva. L’architettura di questo modello si basa sulla costruzione di una rete neurale con strati gerarchici attraverso due tipi di neuroni: (simple) e (complex). Gli strati elaborano le caratteristiche delle immagini, gli strati combinano queste caratteristiche per effettuarne il riconoscimento.

E’ una strada che ha trovato un certo seguito, per esempio la rete LISSOM (Laterally Interconnected Synergetically Self-Organizing Map) (Sirosh and Miikkulainen 1997) e la successiva Topographica (Bednar et al. 2004), aderiscono in pieno all’intento di simulare l’emergere delle capcità percettive in mappe corticali, a seguito delle esperienze visive, senza bisogni di supervisione. Le reti neurali sviluppate perseguendo questa direzione hanno il pregio di replicare in modo abbastanza fedele quel che succede nel cervello, ma ne pagano il prezzo con una incolmabile differenza di efficienza rispetto alle semplici reti neurali addestrate con supervisione, e non hanno mai avuto ricadute applicative.

Tra neuroscienza e fisica teorica

Torniamo ora di nuovo a bordo della nostra ipotetica macchina di Boltzmann, lato passeggero troviamo John Hopfield, un fisico teorico con una spiccata passione per la modellizzazione matematica. Siamo sempre negli anni ’80, ed era ormai chiaro come i modelli neurali esistenti, come il Perceptron, fossero troppo lontani dai meccanismi che fanno funzionare i neuroni biologici. Hopfield raccolse questa sfida, mirando nello specifico alla capacità del cervello di memorizzare informazioni, e la affrontò mettendo in campo il suo bagaglio di fisica teorica.

Più precisamente la sua ispirazione fisica era il modello spin glass dove particelle elementari che interagiscono possono avere solo due possibili stati, e infatti nel suo modello adottò neuroni binari, con possibili stati solo 0 e 1. La rete di (Hopfield 1982) mira ad imitare il modo in cui il cervello umano memorizza e richiama le informazioni. Hopfield era interessato al meccanismo di ricostruzione che consente alla memoria di recuperare un’informazione (ad esempio un volto o un numero di telefono) anche se ne abbiamo a disposizione solo alcuni frammenti o se la ricordiamo parzialmente. Dal punto di vista topologico la sua rete differisce dalle altre dell’epoca, essendo costituita da connessioni simmetriche in cui tutti i neuroni sono collegati e si influenzano tra loro. Questo aspetto è molto importante perché permette alla rete di evolversi dinamicamente partendo da uno stato iniziale, possibilmente raggiungendo infine uno stato stabile.

Il risultato notevole è che questa rete funziona effettivamente da memoria associativa, ovvero quando le si dà un’informazione incompleta, o un po’ distorta, è in grado di ricostruire l’originale, proprio come noi completiamo una parola quando vediamo solo alcune lettere. Per farlo la rete innanzitutto impara i pattern che deve memorizzare, per esempio delle immagini o delle sequenze di numeri attraverso il rafforzamento delle connessioni tra i neuroni che si attivano insieme, un po’ come succede nel nostro cervello quando associamo due idee. In seguito, fornendo un input parziale, la rete comincia ad aggiornare lo stato di ciascun neurone in base a quello che fanno tutti gli altri neuroni collegati. Questo processo continua finché la rete non riesce a trovare un equilibrio, stabilizzandosi su uno stato che corrisponde al pattern completo che aveva imparato. Hopfield usando un concetto preso dalla direttamente dalla fisica statistica descrive questo comportamento definendo una sorta di “energia” della rete che diminuisce a ogni aggiornamento, garantendo quindi che la rete si fermi su uno stato stabile.

Negli anni ’80 questa idea fu davvero rivoluzionaria dimostrando che, parlando di neuroni, l’anarchia funzione, non occorre ricorrere all’autoritarismo della supervisione. Beninteso, si trattava essenzialmente di una dimostrazione matematica, le reti di Hopfield erano tutt’altro che oggetti pratici da maneggiare, ottenere una convergenza era difficile, e la precisione nel recupero di memoria non particolarmente entusiasmante. Ma era proprio la dimostrazione di principio ciò a cui puntava Hopfield.

Le macchine di Boltzmann

Ritornando all’immaginario percorso in macchina, raccontando le sue idee Hopfield avrebbe riempito di entusiasmo l’altro passeggero, visto che Hinton non cercava altro che un diversivo alla backpropagation che pur essendo li’ li’ per inventare, gradiva davvero poco. Se qualcuno ci tiene ad una ricostruzione meno fantasiosa, effettivamente Hinton ascoltò una presentazione di Hopfield ad un piccolo workshop a Rochester nel 1982, ma non risulta che i due ne abbiano parlato. Insieme al suo amico Terry Sejnowski, che aveva conseguito il dottorato proprio con Hopfield, presero quindi la ricetta della rete di Hopfield aggiungendo un nuovo ingrediente per risolvere il problema dei minimi locali, introdussero un po’ di casualità sviluppando la Boltzmann Machine (G. E. Hinton and Sejnowski 1983).

L’idea alla base del loro progetto era quella di permettere ai neuroni di attivarsi in modo probabilistico invece che deterministico, e anche loro lo realizzarono prendendo prestiti dalla fisica. Si, il Boltzmann che finora abbiamo spacciato per l’amico di Hinton che gli ha prestato la macchina, è in realtà l’insigne fisico teorico austriaco, che nel 1868 aveva descritto la probabilità di un sistema composto da particelle di trovarsi in un certo stato, in dipendenza dalla sua temperatura. Boltzmann aveva in mente le molecole di un gas, Hinton e Sejnowski applicarono la stessa formula ai loro neuroni artificiali.

Adesso, a differenza di una rete di Hopfield classica, ogni neurone non si accende solo quando riceve abbastanza segnali dagli altri, ma ha una certa probabilità di attivarsi in base al totale dei segnali in ingresso e questa probabilità è descritta dalla stessa distribuzione di Boltzmann, usando ora una certa fantasia per dare un significato alla “temperatura” del sistema.

Inizialmente la rete usa una temperatura alta, pertanto i neuroni si attivano più casualmente che in dipendenza dei loro collegamenti, poi man mano la temperatura viene ridotta, e i neuroni diventano sempre meno casuali fino a stabilizzarsi su uno stato di minima energia, cioè il pattern memorizzato più vicino all’input iniziale. In pratica, la Boltzmann Machine è come una rete di Hopfield ma con rumore controllato, che le permette di esplorare meglio tutte le soluzioni disponibili. Questo approccio aumenta la probabilità di trovare il minimo globale dell’energia (quello corrispondente al pattern corretto), invece di bloccarsi nei minimi locali.

Nella Boltzmann Machine Hinton e Sejnowski introducono anche un altro elemento che si rivelerà fondamentale per il futuro dell’IA, ovvero l’architettura con due tipi di neuroni: visibili e nascosti. I neuroni visibili sono gli unici a cui viene applicato l’input, quelli nascosti non hanno un collegamento diretto con l’input, ma sono ovviamente connessi con tutti i neuroni visibili.

La Boltzmann Machine con i suoi accorgimenti diventa una rete meno problematica di quella originale di Hopfield, tuttavia rimane particolarmente incline all’instabilità. Hinton non si era scoraggiato, e ha creato una versione semplificata che dimostra migliori possibilità di funzionamento, denominata Restricted Boltzmann Machine, in cui vengono eliminati tutti i collegamenti tra neuroni dello stesso tipo. Per esempio, un neurone nascosto ha collegamenti con tutti i neuroni visibili, ma non con altri suoi compagni nascosti.

Pur avendo grande interesse teorico, sia la rete originale di Hopfield che le sue derivazioni dovute al genio di Hinton, ebbero un limitato impiego, nulla a confronto con l’enorme successo che dopo pochi anni avrebbe riscontrato l’autoritaria strategia della supervisione. Sia le reti di Hopfield che la Boltzmann Machine hanno una particolarità che le rende biologicamente plausibili, ma poco attraenti: non hanno neuroni di output. E’ infatti proprio cosı̀ nel cervello, non vi sono neuroni a cui poter attribuire il ruolo di “output” di una funzione. Ma nello spirito funzionale delle scienze cognitive, l’analisi di un comportamento mentale richiede anzitutto aver individuato quali sono gli input e quali sono gli output della funzione cognitiva. L’anarchico evolversi liberamente dei collegamenti sinaptici tra neuroni, per apprendere cosa si cela nei dati di input, risulta quindi necessariamente alternativa alla supervisione, mancando proprio qualcosa che si chiami output, a cui applicare la sua autorità.

Alcune vie di mezzo, come l’autoencoder

Per citare un altro autorevole inglese, questa volta poeta: “what’s past is prologue” (William Shakespeare). Infatti, la Restricted Boltzmann Machine viene rispolverata vent’anni dopo per risolvere i problemi delle reti neurali guidando la transizione verso l’apprendimento profondo, noto come deep learning (LeCun, Bengio, and Hinton 2015). Le classiche reti feedforward basate sulla backpropagation, pur avendo avuto un vasto successio, sia come simulazione della cognizione che in campi applicativi, avevano incontrato uno scoglio su cui il loro sviluppo si era arenato. Nel momento in cui le reti venivano dotate di più strati nascosti, andavano incontro ad un problema di apprendimento, noto come “scomparsa del gradiente”, ovvero la backpropagation diventava imprecisa e l’addestramento era precario. Il nostro viaggio ci porta cosı̀ agli inizi degli anni 2000 dove Hinton riesce a superare elegantemente lo scoglio di più di uno strato interno in una rete (G. E. Hinton and Salakhutdinov 2006), grazie alle Restrcted Boltzmann Machine. Avendo una rete con molti strati, la strategia è di prenderne in considerazione solo due, iniziando dall’input, e di addestrarli facendo finta che siano Restrcted Boltzmann Machine. Grazie al regime anarchico di queste, non occorre nessuna uscita conosciuta per l’addestramento, basta l’input, che è lo stesso della rete complessiva. Una volta addestrata la prima piccola Restrcted Boltzmann Machine, si passa ai due strati successivi, prendendo stavolta come input, semplicemente l’output dei due strati precedenti, che sono stati addestrati. E cosı̀ via per tutta la rete, anche con decine di strati. L’inghippo sorge alla fine, l’ultimo strato dovrebbe fornire l’output atteso, e sembra proprio non si possa rinunciare alla supervisione.

Qui rispunta un’altra vecchia idea di Hinton, quella di autoencoder (G. Hinton and Zemel 1994). Apparentemente di una ingenuità spiazzante l’autoencoder prevede di addestrare una rete a produrre in output, …il uso stesso input. La prima domanda che uno si pone è a cosa serva, e la risposta è ottenere una rappresentazione interna compatta ed efficace di dati a molte dimensioni. L’autoencoder opera attraverso un encoder che condensa l’input in una rappresentazione più compatta riducendone la dimensionalità, poi grazie al decoder prende questa rappresentazione e cerca di ricostruire un output quanto più possibile simile all’input originale. Se il compito avrà successo, il risultato ridurrà la dimensionalità dei dati mantenendone però le caratteristiche più rilevanti. Da notare che mentre la sostituzione a due a due di una rete deep con una Restricted Boltzmann Machine sfocia nell’anarchia pura, l’autoencoder alla fine recupera la detestata ma efficace autoritaria backpropagation, pur con l’artificio di avere come output imposto, lo stesso input. Alla fine potrebbe sembrare un giusto tributo all’altro Nobel, Hopfield, ritrovare nel formidabile deep learning che ha rivitalizzato l’IA, tracce della sua lontana idea. No, in realtà non è cosı̀, è finita un po’ come negli anni ’80, l’idea di metterci di mezzo le Restrcted Boltzmann Machine è stata avvincente, ed ha avuto il grande merito di rilanciare la ricerca nelle reti neurali artificiali. Ricerca che ha presto suggerito di fare i bravi e rientrare disciplinatamente nel regime autoritario della supervisione. E’ infatti presto emerso – grazie anche a nuovi contributi di Hinton – che una semplice variante della backpropagation, nota come stochastic gradient descent (Bottou and LeCun 2004) funziona ottimamente anche con molti strati. La differenza essenziale rispetto alla backpropagation originale è banalmente di modificare i pesi non sui gradienti misurati per un solo campione di addestramento, ma su un loro gruppo scelto di volta in volta in modo casuale.

Ci si potrebbe anche chiedere, mettendo da parte analogie ideologiche che inducano qualcuno a privilegiare l’anarchia sull’autoritarismo: se la supervisione funziona talmente bene, perché non relegare auto-organizzazione, reti di Hopfield, Boltzmann Machine più o meno ristrette, e tentativi del genere, a momenti degni da ricordare nella storia scientifica, e basta cosı̀.

Limiti e futuro dell’apprendimento neurale

In realtà vi sono non pochi inconvenienti con la supervisione che suggeriscono di continuare a cercare alternative, nonostante la storia le sconsigli. Uno dei problemi maggiori è la necessità di disporre di dataset per l’addestramento in cui ogni input sia corredato dall’output decretato come giusto, corretto.

Prendendo per esempio i sistemi di visione usati nella guida autonoma o semi-autonoma, è oggi immediato collezionare enormi quantità di video di guida reale. Ma se si vuole usarli per addestramento supervisionato, occorre che ogni fotogramma abbia corredata una descrizione di tutti gli oggetti che si vedono. Purtroppo, mentre un’aspettativa dovuta dall’IA è che dispensi l’uomo dal lavoro, soprattutto quello meno gratificante, le esigenze dell’addestramento supervisionato hanno indotto un enorme mercato di lavoro ingrato, ripetitivo e sottopagato, noto come cyber-proletariato

Vi è una intensa ricerca su come poter eludere l’esigenza dei fatidici output corretti per l’addestramento, si può dire che le direzioni perseguite sono varianti del compito ideato da Hinton per autoencoder: si fa in modo che la rete neurale debba predire qualche variante del suo input, e nel farlo costruisca una robusta rappresentazione interna delle caratteristiche dei dati. Per esempio nel campo della visione, si danno in input alla rete immagini con alcune parti mascherate, richiedendo in output l’immagine intatta, oppure nel caso di filmati si danno in input fotogrammi in ordine diverso dall’originale. Tutti stratagemmi che permettono sempre di agganciarsi all’ancora di salvezza delle reti neurali: la backpropagation in una delle sue tante forme evolute.

La supervisione entra in crisi profonda quando si tratta della più recente frontiera dell’IA, che più di ogni altra l’avvicina alla cognizione umana: il linguaggio naturale. È decisamente fuori luogo imporre l’autoritarismo della supervisione in quest’ambito. Come se, per esempio, rispetto alla domanda “che ci stiamo a fare in questo universo?” esistesse una e una sola risposta corretta.

D’altra parte sarebbe stato impensabile addestrare reti con miliardi di parametri, e su altrettanti miliardi di dati testuali, senza la potenza della backpropagation riveduta e corretta con l’ingrediente stocastico. E qui, ancora una volta, rientra prepotentemente in gioco l’autoencoder di Hinton, che esime dalla certosina ricerca di risposte corrette per la supervisione, pur permettendo di adottare in pieno la stochastic gradient descent, basta usare come compito di addestramento il banale riprodurre in uscita lo stesso testo fornito in input. E’ cosı̀ che funziona il Transformer (Vaswani et al. 2017), la base di tutti i modelli neurali del linguaggio come GPT, Llama, Claude, Gemini e DeepSeek.

Quindi, i due premi Nobel immaginati insieme nella macchina dell’amico Boltzmann, pur avendo contribuito alla scienza in modo probabilmente equivalente, hanno indotto ricadute in IA di peso molto diverso. Il mondo dell’IA a cui assistiamo oggi è in buona parte costruito su idee di Hinton, e l’addestramento supervisionato, eventualmente mascherato tramite autoencoder, ne è parte essenziale. Non si intravede invece nessuna ricaduta delle idee di Hopfield dell’apprendimento neurale genuinamente anarchico, privo di imposizioni autoritarie. Questo è lo scenario attuale. Ma non è mai detta l’ultima.

Bibliografia

Bednar, James A., Yoonsuck Choe, Judah De Paula, Risto Miikkulainen, Jefferson Provost, and Tal Tversky. 2004. “Modeling Cortical Map with Topographica.” Neurocomputing 58–60: 1129–35.

Bénard, Henri. 1900. “Les Tourbillons Cellulaires Dans Une Nappe Liquide.” Revue Générale Des Sciences 11: 1261–71, 1309–28.

Bottou, Léon, and Yann LeCun. 2004. “Large Scale Online Learning.” In Advances in Neural Information Processing Systems, 217–24.

Fukushima, Kunihiko. 1980. “Neocognitron: A Self-Organizing Neural Network Model for a Mechanism of Pattern Recognition Unaffected by Shift in Position.” Biological Cybernetics 36: 193–202.

Hinton, Geoffrey E., and Ruslan R. Salakhutdinov. 2006. “Reducing the Dimensionality of Data with Neural Networks.” Science 28: 504–7.

Hinton, Geoffrey E., and Terrence J. Sejnowski. 1983. “Optimal Perceptual Inference.” In Proc. Of IEEE International Conference on Computer Vision and Pattern Recognition, 448–53. New York.

Hinton, Geoffrey, and Richard S. Zemel. 1994. “Autoencoders, Minimum Description Length and Helmholtz Free Energy.” In Advances in Neural Information Processing Systems, 3–10.

Hopfield, John Joseph. 1982. “Neural Networks and Physical Systems with Emergent Collective Computational Abilities.” Proceedings of the Natural Academy of Science USA 79: 2554–58.

Hubel, David, and Torsten Wiesel. 1968. “Receptive Fields and Functional Architecture of Mokey Striate Cortex.” Journal of Physiology 195: 215–43.

LeCun, Yann, Yoshua Bengio, and Geoffrey Hinton. 2015. “Deep Learning.” Nature 521: 436–44.

Maturana, Humberto R., and Francisco J. Varela. 1980. Autopoiesis and Cognition: The Realization of the Living. Berlin: Springer-Verlag.

Rosenblatt, Frank. 1962. Principles of Neurodynamics: Perceptron and the Theory of Brain Mechanisms. Washington (DC): Spartan.

Rumelhart, David E., Geoffrey E. Hinton, and Ronald J. Williams. 1986. “Learning Representations by Back-Propagating Errors.” Nature 323: 533–36.

Rumelhart, David E., and James L. McClelland, eds. 1986. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge (MA): MIT Press.

Sirosh, Joseph, and Risto Miikkulainen. 1997. “Topographic Receptive Fields and Patterned Lateral Interaction in a Self-Organizing Model of the Primary Visual Cortex.” Neural Computation 9: 577–94.

Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Łukasz Kaiser, and Illia Polosukhin. 2017. “Attention Is All You Need.” In Advances in Neural Information Processing Systems, 6000–6010.

Werbos, Paul. 1974. “Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences.” PhD thesis, Harvard University.

WHITEPAPER

Resta competitivo o resta indietro: scopri ora l’ERP intelligente. Scarica la guida!

Gestione Dati
Cloud

EU Stories - La coesione innova l'Italia

Tutti
Analisi
Video & Podcast
Social
Iniziative
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4