La ricerca in intelligenza artificiale sta cercando da anni di sviluppare modelli multimodali che, con la ricchezza di diversi sensi assieme (vista, udito, movimento…), raggiungano la stessa flessibilità del cervello umano.
Sembra sempre di più, questa, l’unica via per arrivare a un nuovo livello di sviluppo dell’intelligenza artificiale, ora “bloccata” su ambiti molto specifici e limitati.
Intelligenza umana vs artificiale
Già, perché bisogna smentire la credenza popolare secondo cui l’intelligenza artificiale sia ormai arrivata al punto da essere paragonabile a quella umana. Certamente, gli esseri umani sono stati superati dai modelli basati sull’apprendimento computazionale nel raggiungimento di specifici compiti cognitivi, ma queste vittorie sono spesso arrivate al prezzo di un’estrema specializzazione dei modelli rispetto allo spazio dei dati d’ingresso.
I grandi modelli IBM che negli ultimi dieci anni hanno battuto i campioni umani di giochi anche molto complessi, come “Go” o “Chi Vuol Esser Milionario” (negli Stati Uniti, “Jeopardy!”) erano stati perfettamente addestrati sulla base esempi (configurazioni di scacchiera e misure di vantaggio, oppure coppie di domande e risposte) provenienti da spazi la cui struttura era completamente definita dalle regole del gioco.
La multimodalità “umana”
Gli esseri umani, invece, imparano fin da piccoli a integrare più sorgenti sensoriali con diversi livelli di affidabilità. I bambini imparano cose del mondo sentendolo e parlandone, con una combinazione di azioni e sensi che ora sembra la chiave di una svolta. Questa è appunto la multimodalità.
Man mano che i bambini cominciano ad associare le parole alla vista, ai suoni e ad altre informazioni sensoriali, sono in grado di descrivere fenomeni e dinamiche sempre più complicate, di distinguere ciò che è causale dalle correlazioni e di costruire un modello sofisticato del mondo. Quel modello li aiuta poi a navigare in ambienti non familiari e a contestualizzare nuove conoscenze ed esperienze.
Per esempio, un giocatore di Go o un concorrente umano di “Chi Vuol Esser Milionario” potrebbero tener conto nel rispondere dell’espressione del viso dell’avversario o del presentatore; e proprio per prevenire l’uso di questa multimodalità vengono prese precauzioni: l’avversario è spesso occultato da un paravento, e il presentatore non conosce le risposte alle domande
Se i sensi e il linguaggio fossero combinati per dare a un’IA un modo più simile a quello umano di raccogliere ed elaborare nuove informazioni, potrebbe finalmente sviluppare qualcosa come una comprensione del mondo? Questa la promessa. Con molte sfide però.
Le difficoltà dell’integrazione di diverse modalità
Il primo problema a essere affrontato nello sviluppo di modelli multimodali è l’uso simultaneo di modalità diverse per addestrare i modelli di apprendimento computazionale per i classici problemi di previsione e classificazione. Integrare diverse modalità non è facile, anche a causa dei livelli variabili di rumore od occlusione che si possono avere sui canali usati per acquisire i dati delle varie modalità. Si tratta di un problema che abbiamo anche noi umani: in un gioco, un’espressione scornata sul viso dell’avversario può farci pensare che esista per noi una mossa vincente “vicina” partendo dalla situazione attuale, ma possiamo fidarci di un’espressione del viso appena intravista in una fessura dello schermo? Inoltre, le varie modalità possono richiedere diversi livelli di granularità per consentire al modello di far emergere le caratteristiche (le “feature”) in base alle quali eseguire la classificazione.
Infine, bisogna gestire i potenziali conflitti tra le modalità. Vi sono metodi storici “laschi”, detti “late fusion” che addestrano un modello separato per ciascuna modalità e poi mettono insieme i risultati usando aggregatori, i cui parametri possono essere adattati – anche automaticamente – al livello di fiducia attribuito alle varie modalità. Più recentemente, sono stati sviluppati metodi basati sull’apprendimento computazionale profondo per “omogeneizzare” i dati, filtrando simultaneamente il rumore sui diversi canali e creando uno spazio dati unitario la cui struttura è una sorta di minimo comune denominatore (tecnicamente, un “common manifold”) delle strutture degli spazi dati delle singole modalità.
L’output del modello usato per l’integrazione opera un campionamento nel manifold, e fornisce i dati su cui opera il modello di classificazione vero e proprio per estrarre le caratteristiche da considerare e poi prendere le decisioni di classificazione in base ad esse. Secondo i neurofisiologi, questa integrazione preliminare a livello percettivo (“early fusion”) delle diverse modalità è diversa dalle strategie di integrazione multisensoriale del cervello umano, e per questo è considerata da alcuni la base di una differenza fondamentale tra il mondo percettivo in cui opera l’intelligenza artificiale multimodale e quello in cui opera l’uomo, un gap assimilabile a quello che la fantascienza aveva immaginato tra esseri senzienti di pianeti diversi dotati di apparati sensoriali profondamente diversi.
Un tema di ricerca importante – e ancora aperto – è come eseguire la combinazione delle informazioni provenienti dalle diverse modalità di origine in modo che il processo di formazione del manifold si concentri automaticamente sulle combinazioni di informazioni provenienti dalle modalità più affidabili. Questo contrasta con il tradizionale addestramento computazionale “batch” (addestra prima, e usa in seguito) perché’ richiede che l’addestramento avvenga contestualmente all’utilizzo del modello.
Usare il modello d’integrazione in modo generativo
Da questa considerazione è nata l’idea di usare il modello d’integrazione in modo generativo, producendo direttamente dei dati nello spazio integrato multimodale (dati che sono incomprensibili per gli umani e quindi “musica per gli extraterrestri”) con una strategia che tenga conto dei diversi livelli di affidabilità delle modalità.
Per usare questa strategia, l’extraterrestre ritorna umano, o meglio bambino: i possibili manifold di dati da cui alimentare il modello multimodale vengono selezionati procedendo in modo non supervisonato, ovvero per tentativi ed errori. Il tentativo è riprodurre il processo per cui i bambini iniziano ad associare il parlato a immagini, suoni e altre informazioni sensoriali, selezionando in modo rapido le modalità di cui tenere conto momento per momento. Questa abilità aiuta i modelli a navigare in ambienti sconosciuti e a contestualizzare nuove conoscenze ed esperienze.
Conclusioni
Recentemente ci sono stati parecchi risultati importanti nella multimodalità vista/udito, o meglio immagini/parlato, soprattutto per gli aspetti generativi. I ricercatori dell’Allen Institute for Artificial Intelligence (AI2) hanno creato un modello in grado di generare un’immagine da una didascalia di testo, dimostrando la capacità del loro modello di associare le parole alle informazioni visive, ovvero di lavorare in uno spazio dati dove le rappresentazioni di parole e immagini possono essere accostate e paragonate secondo una nozione di distanza.
Alla fine dell’anno scorso, i ricercatori dell’Università della Carolina del Nord, a Chapel Hill, hanno annunciato un metodo che incorpora le immagini nei modelli linguistici esistenti. L’Europa, dal canto suo, è avanti sul tema dei modelli multimodali per specifici domini applicativi.
Alcuni atenei italiani (in particolare l’Università di Firenze) hanno lavorato a lungo su modelli multimodali per la sanità capaci di prendere decisioni integrando dati clinici molto diversi. Le prospettive del “medico artificiale” sono molto interessanti, anche se occorrerà tener conto della difficile spiegabilità delle decisioni prese sulla base dei dati integrati.