Agli appassionati non sarà sfuggito che l’evoluzione della ricerca in Intelligenza Artificiale sta riportando in campo alcune idee storiche della filosofia del linguaggio, fornendone una inattesa convalida sperimentale attraverso le prestazioni di modelli di apprendimento computazionale che le rispecchiano.
Linguaggio naturale e mondo reale
Già all’inizio del secolo scorso, ad esempio, il grande Bertrand Russell scriveva che le relazioni tra le componenti sintattiche delle proposizioni (semplicemente le “parole” delle “frasi” del linguaggio ordinario) rappresentano spesso i fatti nel mondo reale (ad esempio, nella frase “sulla tavola imbandita, la forchetta è posta a sinistra del coltello”, la parola “forchetta” si trova effettivamente alla sinistra di quella “coltello” ), e che quindi la “verità” di una frase si può determinare confrontando sperimentalmente le relazioni espresse nella frase con quelle del mondo reale.
Certo, l’osservazione di Russell trascurava il fatto che noi possiamo esprimere in linguaggio naturale anche cose che non esistono nel mondo reale, e che quindi una proposizione può avere un significato anche quando lo stato di cose che descrive non si verifica nel mondo reale.
Ludwig Wittgenstein, nel suo “Tractatus Logico-Philosophicus” risolse questa difficoltà chiarendo che solo le proposizioni-specchio che raffigurano la realtà (le cosiddette proposizioni fattuali) sono significative: anzi, secondo Wittgenstein è proprio rispecchiando la realtà fisica che le proposizioni acquisiscono significato. Tutte le altre proposizioni (quelle “non-specchio”) non hanno senso, e quindi bisognerebbe evitare di scriverle o pronunciarle; da qui la frase “Whereof one cannot speak, thereof one must be silent”, uno degli aforismi più famosi – e peggio tradotti – della filosofia moderna (aforisma che, peraltro, non è esso stesso una raffigurazione del mondo reale).
Da Wittgenstein all’Intelligenza artificiale
L’idea inconfondibilmente novecentesca delle proposizioni-specchio può essere espressa in modo più moderno dicendo che la struttura della descrizione verbale (o testuale) di un’immagine rispecchia lo stato di cose che l’immagine rappresenta, ovvero la disposizione dei suoi componenti.
Per noi informatici, conta molto l’aspetto computazionale: le componenti grammaticali della descrizione testuale di un’immagine sono spesso nello stesso numero dei componenti visivi (gli “oggetti”) che l’immagine contiene e la loro disposizione nel testo si trova in qualche relazione computabile con la posizione degli oggetti stessi nell’immagine.
Da questa intuizione è nata l’idea di provare a usare le descrizioni testuali al posto delle immagini nei problemi di visione, ad esempio per i problemi di predizione (“cosa comparirà adesso?”) oppure di rilevazione di anomalie. Questa idea, però, si è scontrata per decenni con la difficoltà (a parte gli esempi semplici come quello della tavola imbandita) di esprimere matematicamente la natura della relazione tra la struttura sintattica di una descrizione e la struttura dell’immagine che rappresenta.
Arrivano i modelli trasformatori
Oggi, questa difficoltà viene aggirata con un metodo classico dell’Intelligenza Artificiale, cioè usando un modello di apprendimento computazionale come approssimatore della relazione, e addestrandolo attraverso esempi. Questo approccio è applicato da decenni quando si devono risolvere problemi NLP (Natural Language Processing) che riguardano brani di testo, che si tratti di classificazione (e.g. spam/non spam) o di predizione (la prossima parola è …). Non tutti i modelli NLP però si prestano a lavorare su descrizioni di immagini, perché la relazione tra disposizione delle parole nella descrizione e quella degli oggetti nell’immagine descritta è spesso elusiva e dipendente dal linguaggio in cui la descrizione è redatta.
La differenza la stanno facendo i modelli detti “trasformatori”, che sono molto usati grazie al successo della libreria BERT di Google per il trattamento del linguaggio naturale. Il più famoso ora è GPT-3 di Open AI.
I modelli predittivi per il linguaggio naturale sono storicamente basati su un approccio direzionale, tipicamente usano la parte sinistra delle frasi per prevedere quella destra. Vengono addestrati con esempi di completamento corretto, come quello in cui “Il bambino mangia la ___” corrisponde a “Il bambino mangia la merenda”.
BERT ha introdotto una nuova tecnica chiamata “mascheramento multiplo”, mirata a apprendere meglio i contesti. Si tratta di mascherare diverse parole in una frase e chiedere al modello di riempire gli spazi vuoti. Gli esempi con cui viene addestrato il modello contengono quindi mascheramenti multipli come “Il _____ mangia la ___ “ corrisponde a “Il bambino mangia la merenda”.
Oggi, l’addestramento di un modello BERT può comprendere milioni di frasi. Il 15% delle parole in ciascuna frase viene sostituita con una maschera. Il modello tenta quindi di prevedere il valore originale delle parole mascherate in base al contesto fornito dalle altre parole non mascherate nella sequenza. Da un punto di vista tecnico, è importante notare che la funzione di perdita (loss function) usata nell’addestramento BERT per valutare le predizioni del modello prende in considerazione solo la previsione delle parole mascherate, ignorando eventuali errori nella previsione delle parole non mascherate. Di conseguenza, di solito il modello BERT converge più lentamente dei modelli direzionali, ma acquisisce anche una maggiore consapevolezza della struttura del contesto.
Verso un BERT visuale
Dopo che il mascheramento multiplo si è dimostrato molto efficace, i ricercatori hanno cercato di applicarlo a descrizioni di immagini. Molte descrizioni letterarie o scientifiche di immagini non si adattano allo scopo (in senso filosofico, non hanno significato) perché non sono specchi del contenuto. Ad esempio, non ha significato (per l’addestramento modelli, beninteso) la descrizione di un’immagine che mostra un fumatore di pipa e che ci spiega, poniamo, che si tratta del commissario Maigret.
Il serbatoio più naturale di descrizioni che contengono proposizioni-specchio è quello delle didascalie, e quindi la tecnica del mascheramento multiplo è stata usata per apprendere la struttura delle didascalie, associandola alle immagini descritte dalle didascalie stesse. Questa associazione, che lega ad esempio tutte le immagini che contengono “qualcuno” che mangia “qualcosa” alla struttura “Il ____ mangia la _____” è un approssimatore computabile (ed apprendibile) della relazione tra forma logica delle proposizioni-specchio e struttura visuale delle immagini, così come la immaginavano i filosofi del secolo scorso.
Questa relazione si è rivelata preziosa per prevedere le parti mancanti o nascoste di immagini mai viste prima, un problema che mette a dura prova i modelli di elaborazione di immagini tradizionali. E’ stata usata con successo anche per creare didascalie partendo da nuove immagini.
Il prossimo step: dal testo all’immagine
Oggi, la ricerca sta cercando di trovare una soluzione al problema inverso: generare nuove immagini partendo dalle didascalie. Prevedibilmente, si è iniziato usando la tecnica inversa di quella che abbiamo appena descritta: si generano esempi di immagini “bucherellate” mascherando con blocchi monocromatici alcuni oggetti nell’immagine e associando poi l’immagine mascherata alla didascalia che aveva da integra, in modo da ottenere esempi della relazione tra la struttura delle immagini e la forma logica delle proposizioni specchio. Una volta addestrato il modello, gli si propone una didascalia mai vista prima e gli si chiede di generare un’immagine adeguata.
Il solo fatto che le immagini generate dai prototipi oggi disponibili – per quanto rozze – sembrino plausibili all’osservatore umano ci suggerisce che forse siamo vicini a capire qualcosa di basilare su come si crea anche nell’uomo l’associazione tra un dato visivo e la sua concettualizzazione. Su questa comprensione potrà forse basarsi una nuova generazione di sistemi IA che potranno parlare in modo sensato del mondo che li circonda.