CULTURA DIGITALE

Visiogrammi, come l’intelligenza artificiale impara a parlare per immagini

Muove i primi passi nella ricerca sull’Intelligenza artificiale l’apprendimento linguistico basato su “visiogrammi”. L’inserimento di modelli visuali nell’addestramento di sistemi neurali promette di superare una serie di nodi finora irrisolti. La strada è ancora lunga: ma l’industria ci sta già scommettendo

Pubblicato il 17 Dic 2020

Ernesto Damiani

Senior Director of Robotics and Intelligent Systems Institute at Khalifa University

language-2

Linguisti e filosofi si sono interrogati per secoli su come avviene l’apprendimento del linguaggio. E soprattutto su come sia possibile per l’uomo ottenere risultati così brillanti nell’impararlo. I linguaggi naturali non sono progettati da qualcuno: emergono dall’uso. Certo, ci sono regole formali di grammatica e sintassi, ma chi parla può violarle. Inoltre, il linguaggio naturale presenta vari tipi di ambiguità (come interpretare la frase “una vecchia porta la sbarra”?).

Gli esseri umani convivono tranquillamente con tutte queste difficoltà. Che però risultano insormontabili nelle tecniche di Intelligenza artificiale basate sulla sintassi per elaborare testo e parlato in linguaggio naturale.

Una svolta potrebbe venire, per l’IA, con i visiogrammi: ossia, parlare per immagini.

Dalla grammatica alla statistica

È un viaggio che comincia dalle basi dell’AI. La modellazione statistica del linguaggio, tramite algoritmi, può essere considerata un atto di modestia della linguistica, che rinuncia a “spiegare” il linguaggio per limitarsi ad “osservarlo”. Un modello di linguaggio, infatti, non fa altro che elencare le frasi osservabili e assegna a ciascuna di esse una probabilità, sulla base della frequenza con cui appare nel corpus linguistico di riferimento. Idealmente, le frequenze delle frasi andrebbero calcolate (e continuamente aggiornate) sulla base di tutti i testi e le registrazioni del parlato esistenti; ma osservare direttamente gli scriventi e i parlanti di tutte le lingue è oggi alla portata di poche grandi organizzazioni come Google, a cui si aggiungono Amazon ed Apple per il parlato. Tutti gli altri devono accontentarsi di stimare la probabilità di occorrenza sulla base di corpus testuali standard.

Il più semplice modello di linguaggio (detto modello a unigramma o bag-of-words) associa una probabilità a ogni singola parola. I modelli bag-of-words sono facili da costruire perché la probabilità di ciascuna parola può essere stimata attraverso la sua frequenza nel testo o nel parlato. I modelli linguistici a multigrammi sono molto più utili per risolvere le ambiguità; ad esempio, permettono di distinguere tra frasi omofone, che suonano simili. In italiano, la frase “l’una di notte tramonta al mattino” ha una frase omofona con meno parole, che però ha una frequenza nei corpus (e quindi una probabilità) molto più alta.

Parlare e scrivere senza capire

I modelli di linguaggio sono alla base della capacità dei modelli di fare predizioni negli scambi linguistici (ad esempio, decidere la parola “giusta” da pronunciare, o la prossima frase da dire in un dialogo). Si tratta di una capacità che noi umani associamo alla comprensione, ma per sapere come continuare una frase (ad esempio “il bambino mangia… ”) si può ricorrere a un conteggio basato su un teorema che ci hanno insegnato al liceo, il teorema di Bayes sulla probabilità condizionale.

Il teorema ci dice che la probabilità che una frase inizi con “il bimbo mangia” sapendo che continua con “la sua merenda” è uguale a quella che continui con “la sua merenda”, sapendo che inizia con “il bimbo mangia”, moltiplicata per il rapporto tra le frequenze dei due multi-grammi “il bimbo mangia” e “la sua merenda” nell’intero corpus. Quindi se le frequenze assolute dei trigrammi sono state pre-calcolate, basterà interrogare il corpus per recuperare le (poche) frasi che dopo il multigramma iniziale proseguono con “la sua merenda”, e calcolare la percentuale che inizia con “il bimbo mangia” per stimare la probabilità che sia quella la prosecuzione da usare.

Ovviamente ci si può domandare come siano scelti i trigrammi candidati (chi dice al sistema di provare proprio “la sua merenda” come prosecuzione?). Per questo, si ricorre spesso a liste precompilate di termini che hanno una relazione concettuale tra loro (la cosiddetta Latent Semantic Analysis o LSA), in cui le alternative come “merenda” e “mela” sono entrambe associate a “mangia”. Ovviamente questo metodo può sbagliare; un approccio bayesiano “ingenuo” che sceglie la più probabile tra le alternative date da una LSA centra la prosecuzione giusta meno della metà delle volte.

Per aumentare la precisione si possono usare le previsioni del modello bayesiano che sono state confermate dagli utenti umani per accumulare i dati di addestramento per un altro modello di apprendimento computazionale, come una rete neurale profonda. Per parecchio tempo, però, l’addestramento di queste reti non ha permesso di raggiungere i livelli di accuratezza elevati necessari per rendere il testo sintetico accettabile.

Il ruolo del Teacher Forcing

Un salto di qualità è avvenuto quando si è capito meglio come eseguire questo addestramento. Il problema del completamento delle frasi è iterativo, cioè la soluzione di un passo (la parola da pronunciare o da scrivere per completare la frase) è parte degli input del passo successivo (la frase da completare). Il rischio è che l’errore fatto in uno dei passaggi comprometta delle sequenze che prima e dopo l’errore stesso erano perfette.

Una speciale tecnica di addestramento, il Teacher Forcing (“forzatura dell’insegnante”) ha risolto questo problema: dopo che il sistema neurale sotto addestramento ha proposto un primo completamento erroneo (ad esempio proponendo “la sua cartella” dopo “il bimbo mangia”), invece di usare la proposta errata “la sua cartella” come base per il secondo passo, e registrare l’errore complessivo alla fine, si calcola subito l’errore del primo completamento, e si usa invece la frase corretta “il bimbo mangia la sua merenda” come base per il secondo passo. Senza il Teacher Forcing, il completamento successivo userebbe “la sua cartella” come punto di partenza e potrebbe andare completamente fuoristrada, generando “piena di libri”, visto che altri esempi possono aver suggerito che le cartelle sono legate ai libri di testo. Con il Teacher Forcing, invece la rete in ingresso riceve la frase corretta e propone come secondo completamento “con un panino”, che è sulla strada giusta.

Dai multigrammi ai visiogrammi

Per quanto i loro risultati siano brillanti, i sistemi che usano l’apprendimento basato su multigrammi sono molto distanti dall’apprendimento umano. Chi ha, o ha avuto, dei figli piccoli sa benissimo che la maggior parte degli esseri umani impara la propria lingua associando alle frasi una visualizzazione. “Puntare a un’immagine” è un passo essenziale per la maggior parte dei bambini nell’apprendimento del linguaggio. Un modello di linguaggio in cui i multigrammi sono completati da immagini considerate come visualizzazioni dei multi-grammi corrispondenti, o modello a visiogrammi, è uno strumento essenziale per incorporare l’elemento visuale nell’apprendimento del linguaggio naturale.

Supponendo di avere un grande dataset di visiogrammi, si possono usare le tecniche di apprendimento descritte sopra per addestrare un modello che possa “parlare delle immagini” cioè generare e completare frasi come prosecuzioni di immagini, anche quelle mai viste prima. Sfortunatamente, un data set del genere non è ancora disponibile, ed è improbabile che lo diventi nel prossimo futuro. Finora sono stati raccolti circa 120 milioni di visiogrammi, che sono molti meno rispetto al 3.3 miliardi di multi-grammi nei dati di addestramento di BERT (la libreria per il trattamento del linguaggio naturale creata da Google, di cui abbiamo già parlato), e una piccola frazione dei 220 miliardi di multigrammi usati per i modelli trasformazionali di T5. Il problema è che la maggior parte delle parole in linguaggio naturale non sono facilmente collegabili a immagini.

Secondo una stima approssimativa, solo il 28% voci dell’edizione inglese di Wikipedia si possono usare per generare direttamente visiogrammi (cioè, contengono un’associazione immagine-multigramma creata dall’uomo). Questo rapporto basso rispecchia la scarsa “copertura visiva” del linguaggio naturale, che sembra essere un aspetto intrinseco della lingua.

La soluzione proposta dagli esperti di Intelligenza Artificiale per aumentare la copertura è, come intuibile… un altro modello di apprendimento computazionale, il generatore di visiogrammi (vokenizer), che è addestrato per aggiungere un’immagine anche ai multi-grammi a cui non ne corrisponde direttamente nessuna. Ad esempio, il di-gramma “depressione nera”, che contiene un termine astratto senza rappresentazione visuale diretta, può essere associato a immagini che mostrano musi lunghi ed espressioni lugubri.

L’attenzione dell’industria ai visiogrammi

I modelli conversazionali basati su visiogrammi hanno attirato l’attenzione dell’industria, perché competono con successo con quelli basati sul solo testo creati usando BERT. I modelli visuali hanno mostrato buone prestazioni su diversi benchmark internazionali come GLUE, che comprende nove attività di comprensione di frasi o coppie di frasi appartenenti a vari generi di testo e gradi di difficoltà. Il momento in cui una macchina potrà commentare adeguatamente una scena mai vista prima si sta avvicinando a grandi passi.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

EU Stories - La coesione innova l'Italia

Tutti
INIZIATIVE
ANALISI
PODCAST
L'ANALISI
Video&podcast
Analisi
VIDEO&PODCAST
Video & Podcast
Social
Iniziative
IL PROGETTO
5GMed, ecco i quattro casi d’uso per la mobilità europea
L'APPELLO
Banda 6GHz chiave di volta del 6G: le telco europee in pressing su Bruxelles
EU COMPASS
Tlc, l’Europa adotta la linea Draghi: ecco la “bussola” della nuova competitività
ECONOMIE
EU Stories, il podcast | Politica industriale in Puglia: attrazione di talenti creativi e investimenti esteri grazie ai fondi di coesione
L'APPROFONDIMENTO
La coesione è ricerca e innovazione. Long form sugli impatti del FESR 2014-2020 nel quadro della Strategia di Specializzazione Intelligente a favore della ricerca e dell’innovazione
L'APPROFONDIMENTO
Pnrr e banda ultralarga: ecco tutti i fondi allocati e i target
L'ANNUARIO
Coesione e capacità dei territori
INNOVAZIONE
EU Stories | Dalla produzione industriale a fucina di innovazione: come il Polo universitario della Federico II a San Giovanni a Teduccio ha acceso il futuro
L'INIZIATIVA
DNSH e Climate proofing: da adempimento ad opportunità. Spunti e proposte dal FORUM PA CAMP Campania
INNOVAZIONE
EU Stories, il podcast | Laboratori Aperti: riqualificazione e innovazione in 10 città dell’Emilia-Romagna
Da OpenCoesione 3.0 a Cap4City: ecco i progetti finanziati dal CapCoe.  Il podcast “CapCoe. La coesione riparte dalle persone”
Capacità amministrativa e coesione: il binomio vincente per lo sviluppo dei territori
FORUM PA PLAY: come unire sostenibilità e investimenti pubblici. Speciale FORUM PA CAMP Campania
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
IL PROGETTO
5GMed, ecco i quattro casi d’uso per la mobilità europea
L'APPELLO
Banda 6GHz chiave di volta del 6G: le telco europee in pressing su Bruxelles
EU COMPASS
Tlc, l’Europa adotta la linea Draghi: ecco la “bussola” della nuova competitività
ECONOMIE
EU Stories, il podcast | Politica industriale in Puglia: attrazione di talenti creativi e investimenti esteri grazie ai fondi di coesione
L'APPROFONDIMENTO
La coesione è ricerca e innovazione. Long form sugli impatti del FESR 2014-2020 nel quadro della Strategia di Specializzazione Intelligente a favore della ricerca e dell’innovazione
L'APPROFONDIMENTO
Pnrr e banda ultralarga: ecco tutti i fondi allocati e i target
L'ANNUARIO
Coesione e capacità dei territori
INNOVAZIONE
EU Stories | Dalla produzione industriale a fucina di innovazione: come il Polo universitario della Federico II a San Giovanni a Teduccio ha acceso il futuro
L'INIZIATIVA
DNSH e Climate proofing: da adempimento ad opportunità. Spunti e proposte dal FORUM PA CAMP Campania
INNOVAZIONE
EU Stories, il podcast | Laboratori Aperti: riqualificazione e innovazione in 10 città dell’Emilia-Romagna
Da OpenCoesione 3.0 a Cap4City: ecco i progetti finanziati dal CapCoe.  Il podcast “CapCoe. La coesione riparte dalle persone”
Capacità amministrativa e coesione: il binomio vincente per lo sviluppo dei territori
FORUM PA PLAY: come unire sostenibilità e investimenti pubblici. Speciale FORUM PA CAMP Campania
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati