nuove frontiere

Modelli multimodali: cosa fare con l’IA che fonde linguaggio e immagini

I modelli multimodali combinano linguaggio, visione e audio per offrire un’IA generativa avanzata. Possono fornire informazioni, assistenza e avere molteplici applicazioni, ma richiedono dati culturalmente diversificati e devono affrontare rischi di privacy e bias culturali. Lo stato dell’arte e i possibili sviluppi

Pubblicato il 1 feb 2024

Bernardo Magnini

Fondazione Bruno Kessler, Trento

Sono l’ultima frontiera dell’IA generativa, la tecnologia non è ancora consolidata, ma già lasciano intravedere enormi potenzialità: sono i large multimodal model (LMM), in grado di combinare le capacità della comprensione del linguaggio, della computer vision e del riconoscimento dell’audio in un unico modello. La artificial general intelligence (AGI) sta facendo un altro, forse decisivo, passo in avanti.

AI generativa: sei strade per lo sviluppo nel 2024

Indice degli argomenti

Modelli multimodali: immersi nel mondo reale

Mi trovo in giro per Roma. Scatto una fotografia ad una fontana in stile barocco che non avevo mai notato, chiedo di cosa si tratta e scopro che è una delle Quattro Fontane, che si trovano all’incrocio tra Via delle Quattro Fontane e Via del Quirinale a Roma. È stata realizzata da Domenico Fontana e Pietro da Cortona, tra il 1588 e il 1593, e rappresenta il fiume Aniene, che è riconoscibile dalla figura di una divinità che regge una cornucopia, simbolo di abbondanza e ricchezza, da cui sgorga l’acqua.

Sto usando GPT-4 [1] con le nuove funzionalità di comprensione delle immagini (nome tecnico GPT-4 with Vision), introdotte da OpenAI a partire dal 14 dicembre 2023. Con buona probabilità si tratta del modello di intelligenza artificiale generativa più potente oggi in circolazione. In fase di addestramento il modello ha “visto” diverse migliaia di miliardi di parole e circa un miliardo di immagini, ognuna con una descrizione del suo contenuto. Sono i large multimodal model (LMM) e mettono insieme le capacità dei modelli del linguaggio (large language model – LLM) e dei modelli che interpretano e generano immagini (large vision model LVM).

Finalmente, grazie alla comprensione delle immagini, i modelli del linguaggio possono calarsi (grounding) nel mondo reale. Viene naturale immaginare GPT-4 with vision collegato alla fotocamera del cellulare: può vedere ciò che accade intorno a noi, sia che ci troviamo in un ambiente chiuso o all’aperto, può darci informazioni sull’ambiente, ma anche dare consigli su come meglio risolvere un problema seguendoci passo passo (ad esempio riparare una ruota bucata). Può essere uno strumento di grande aiuto per una persona (pensiamo ai non vedenti), ma, in prospettiva, sarà l’intelligenza che potrà pianificare e guidare le azioni di un robot in un ambiente reale. Fino ad ora non era possibile: anche i più potenti modelli generativi (ad esempio ChatGPT) non hanno “sensi” in grado di catturare cosa sta avvenendo nel mondo reale. Dunque, un progresso enorme, almeno sulla carta.

Per adesso le modalità sono due: linguaggio e immagini statiche, ma alcuni recenti LMM possono interpretare il contenuto di brevi video (GPT-4 non ha ancora aperto questa funzionalità, anche se è stata annunciata). Qui la tecnologia è veramente agli inizi: il video viene scomposto nei suoi fotogrammi (frame), dei quali il modello riesce a considerarne solo una piccola frazione, nell’ordine di poche decine, selezionati in base della loro rilevanza con la richiesta dell’utente. Ad esempio, se chiedo quante persone ci sono in una ripresa in cui le persone compaiono solo alla fine, è ragionevole che i frame siano selezionati solamente in quella porzione di video. Anche se ancora in modo approssimato, i video introducono nel modello multimodale la dimensione temporale. I fotogrammi sono infatti considerati nella loro sequenza temporale, e quindi, a differenza delle immagini, l’ordine con cui vengono analizzati è rilevante. Pensiamo alla immensa quantità di conoscenza procedurale che il modello può imparare dai video: quali micro-azioni si compiono per accendere e spegnere la luce in una stanza, quali movimenti si fanno, e in quale ordine, per aggiustare la ruota di una bicicletta, come ci si comporta quando si deve pagare la spesa in un supermercato?

Modelli multimodali: come funzionano

Ma come funziona l’accoppiamento di testi e immagini in un modello multimodale? L’architettura più utilizzata prevede che un modello per solo linguaggio funzioni come “pivot” per le altre modalità: in sostanza, il contenuto delle immagini viene aggiunto ad un modello del linguaggio preesistente. Per ottenere questa fusione l’immagine deve essere convertita in una rappresentazione vettoriale (embedding) compatibile con la rappresentazione vettoriale di una frase. In pratica, immagini e descrizioni delle immagini devono posizionarsi nello stesso spazio semantico. Per ottenere rappresentazioni omogenee l’immagine viene scomposta in un certo numero di zone, ad esempio un reticolo di nove zone, tre x tre. Ogni zona dell’immagine viene trasformata in un vettore con lo stesso numero di dimensioni dei vettori usati per rappresentare le parole nel modello del linguaggio. Il risultato di questa fase, l’encoding, è che immagini e frasi si possono ora posizionare nello stesso spazio geometrico, e che possiamo calcolare la distanza semantica tra loro.

Durante la fase di apprendimento (training) l’immagine e la sua descrizione vengono passate in modo indipendente rispettivamente all’encoder visuale e al modello del linguaggio, cioè senza sapere quali siano gli accoppiamenti corretti. Tramite la tecnica del contrastive learning, un tipo particolare di deep learning, il modello impara a posizionare la rappresentazione vettoriale di una descrizione vicino alla sua corrispondente immagine, e lontana da altre immagini. Ad esempio, la descrizione “un albero accanto ad una casa” sarà posizionata, alla fine dell’apprendimento, vicino all’immagine di una casa con un albero, mentre la descrizione “Annunciazione di Simone Martini” sarà posizionata lontana dalla casa e dall’albero e vicina alle immagini altre annunciazioni. Affinché l’apprendimento sia efficace, gli attuali LMM utilizzano centinaia di milioni di coppie immagine-descrizione, con le descrizioni tipicamente in inglese. A fine processo il modello ha imparato l’insieme dei parametri, nell’ordine delle centinaia di milioni, che ottimizzano gli accoppiamenti corretti delle coppie immagine-descrizione.

Il modello è pronto per essere usato: possiamo caricare un’immagine e chiedere una descrizione del suo contenuto. In alcuni modelli possiamo chiedere di generare un’immagine partendo da una descrizione (si può fare con GPT-4 vision perché è integrato con DALL·E) ma, almeno per il momento, non è possibile per tutti i LMM. Questo perché è il modello del linguaggio che ha la funzione “pivot”, e determina quello che si può fare. Possiamo generare testo, ma non generare immagini; possiamo chiedere informazioni su un’immagine, ma non cercare immagini simili ad un’altra, perché il modello del linguaggio non ha queste funzionalità.

Modelli multimodali: grandi potenzialità applicative

Le applicazioni per questa nuova generazione di modelli multimodali saranno di grande impatto. Sicurezza, education, salute e benessere, gaming, sono alcune delle aree in cui l’accoppiamento di capacità visive e di interpretazione semantica dei contenuti potrà dare un alto valore aggiunto rispetto allo stato dell’arte attuale.

Nel gaming

Nel gaming si potranno raggiungere ulteriori gradi di realismo: ad esempio, un LMM evoluto potrà raccontare cosa sta accadendo sul campo di gioco, interpretare i fischi dell’arbitro, i gesti dei calciatori, integrando il racconto con le conoscenze sulle squadre in campo e le regole del gioco: una sorta di telecronista virtuale impersonato da un modello multimodale.

Nella robotica

Ma forse le potenzialità applicative più evidenti dei modelli multimodali sono nel campo della robotica. È infatti prevedibile gli LMM forniranno il supporto cognitivo alle capacità motorie del robot, permettendo non solo di pianificare azioni per il raggiungimento di un obiettivo, ma anche di verificare se sussistono le condizioni per poterle eseguire. Ad esempio, supponiamo che ad un robot domestico sia chiesto di chiudere una finestra. Il modello multimodale, grazie alle conoscenza del modello del linguaggio, potrà pianificare una sequenza di azioni da intraprendere per raggiungere l’obiettivo (verificare che esista una finestra, avvicinarsi alla finestra), ma sarà il modello che analizza l’ambiente a verificare se queste azioni possono effettivamente essere eseguite, diminuendo la probabilità di azioni per cui non sussistano le condizioni (se la finestra è già chiusa, l’azione di chiuderla ha poche probabilità di essere eseguita).

I nodi privacy

Se da una parte di intravedono enormi potenzialità applicative, va anche detto che, con l’aumentare dei dati a disposizione del modello (immagini, video), aumentano anche i rischi legati agli utilizzi dei modelli multimodali, in termini di scarsa trasparenza del modello e di potenziali violazioni della privacy personale e di copyright. Sugli aspetti normativi per limitare tali rischi il dibattito è in corso (vedi la discussione a livello europeo su AI Act [2]).

Modelli multimodali: ragionano veramente?

La comunità accademica da qualche tempo si pone la questione se, e in quale misura, i modelli di intelligenza artificiale generativa (ricordiamoci che sono modelli statistici) abbiano una reale comprensione del linguaggio. I modelli multimodali, grazie alla potenziale rete di sensori (immagini, video, audio) sul mondo reale, approssimano una nozione di “intelligenza” più vicina a quella degli esseri umani, tramite la capacità di assorbire e elaborare stimoli sensoriali dai quali apprendere comportamenti intelligenti.

La domanda sulle capacità degli LMM è strettamente collegata ai criteri che adottiamo per misurare le capacità del modello. I benchmark attuali consistono in una serie di domande relative ad un insieme di immagini a cui il modello deve rispondere (visual question answering). Le domande sono formulate in modo da ammettere risposte di tipo sì/no, così da rendere facile valutare la correttezza della risposta. Una modalità particolarmente interessante consiste nel porre domande controfattuali, dove il modello deve scegliere tra due alternative molto simili. Ad esempio, supponiamo di dare al modello un’immagine dove si vedono tre alpinisti intenti a scalare una montagna. Poi chiediamo al modello quale delle seguenti affermazioni è corretta: “Due persone scalano una montagna” oppure “Tre persone scalano una montagna”. Questo test controfattuale permette di isolare e valutare la capacità del modello di contare entità presenti nell’immagine. Test simili si possono confezionare per valutare il ragionamento causa-effetto, il corretto ordine temporale di eventi, e le relazioni spaziali tra oggetti in una scena.

I modelli multimodali pongono un’ulteriore interessante questione: quando il modello risponde ad una domanda, quale componente (linguaggio, visione, audio) viene utilizzata dal modello? Per capire l’importanza della questione, facciamo un esempio, sempre per vedere se il modello sa effettivamente contare. Mostriamo un’immagine e poi chiediamo quale delle due descrizioni sia corretta “Due persone giocano a tennis” oppure “Cinque persone giocano a tennis”. Si intuisce che la prima risposta ha una probabilità molto maggiore di essere corretta (a tennis si gioca normalmente in due o in quattro), indipendentemente da quante persone stiano giocando. In questo caso la componente del linguaggio è avvantaggiata, e potrebbe rispondere correttamente anche senza consultare il componente di analisi delle immagini. Sembra un caso limite, ma in realtà è difficile trovare situazioni in cui la conoscenza del modello del linguaggio non prevalga sull’analisi dell’immagine.

Modelli multimodali: e la cultura italiana?

Le immagini sono fortemente dipendenti dal contesto culturale in cui sono prodotte, e quelle usate per addestrare i modelli multimodali in gran parte risentono del contesto americano. Anche le descrizioni linguistiche associate alle immagini sono sostanzialmente in inglese. Come conseguenza, i modelli generativi (vale anche per gli LLM) sono fortemente sbilanciati verso la cultura anglo-americana. È un aspetto che non va sottovalutato: non solo in termini di prestazioni (ad esempio, il modello riconoscerà con maggiore accuratezza una scena di football americano piuttosto che una partita di calcio a cinque), ma anche, e soprattutto, per i bias culturali veicolati dal modello. Pensiamo alle differenze culturali che si manifestano in situazioni comuni (in una sala d’aspetto da un dottore, in una scuola italiana, per non parlare del gesticolare che ci contraddistingue, e delle nostre inflessioni dialettali). Gli attuali modelli di AI generativa, e in particolare i modelli multimodali, tendono ad appiattire queste differenze in una sorta di mono-cultura globale. Per ovviare al problema dei bias culturali, la strada obbligata è ri-addestrare (finetuning) un modello con dati culturalmente differenziati: testi, immagini, video, audio, per così dire, nativi italiani. A questo riguardo è utile menzionare il progetto PNRR tutto italiano FAIR (Future Artificial Intelligence Research) che, tra le altre, comprende specifiche ricerche su tecniche di adattamento di modelli generativi alla lingua e alla cultura italiana.

Modelli multimodali: la competizione è aperta

Il 6 dicembre 2023 Google ha lanciato al pubblico Gemini, un modello multimodale che promette di battere GPT-4. Il modello più potente della serie (Gemini Ultra, non ancora disponibile) possiede avanzate capacità di interpretazione di video e segnali audio, un ulteriore passo avanti rispetto alla versione attuale di GPT-4 vision. Google afferma che, a differenza di GPT-4, in Gemini la multimodalità è stata ottenuta tramite fusione di input sensoriali per così dire “alla pari”. Sembra quindi che siano possibili tutti gli incroci input-output tra quattro modalità (testo, immagine, video e audio): ad esempio, un segnale audio di un temporale come input e un video di un temporale come output, oppure un video senza audio di una persona felice come input e un racconto parlato del perché la persona possa essere felice in output.

Questo per quanto riguarda modelli multimodali proprietari, che possiamo usare come servizi a pagamento su cloud. Ci sono poi modelli che vengono utilizzati in ambito di ricerca, meno potenti di GPT-4 o Gemini, ma che possono essere installati (serve un’infrastruttura di calcolo di media capacità), modificati ed estesi con nuove funzionalità. In questo settore si stanno facendo progressi veloci e significativi, con soluzioni che allo stesso tempo sono sempre più performanti e che richiedono sempre minori quantità di dati di addestramento e minori capacità di calcolo, a tutto vantaggio della sostenibilità del modello.

Insomma, la competizione sui modelli multimodali è ufficialmente aperta, e i prossimi sviluppi saranno decisivi per le sorti della artificial general intelligence.