intelligenza artificiale

Usiamo l’IA multimodale: ecco alcuni usi pratici che sono una svolta



Indirizzo copiato

Con l’annuncio delle nuove funzioni di GPT e Gemini, OpenAI e Google spostano l’attenzione su modelli di intelligenza artificiale capaci di elaborare non solo testo, ma anche audio, immagini e video. Questi modelli multimodali promettono di rivoluzionare le interazioni quotidiane, sebbene restino interrogativi sull’effettiva utilità e impatto di queste tecnologie

Pubblicato il 10 giu 2024

Antonio Cisternino

Università di Pisa



Frontiers-Multimodal-Learning-BlogHeroFeature-1400×788-1-1024×576

I recenti annunci di OpenAI e Google sulle nuove funzioni di GPT e Gemini hanno spostato l’attenzione dalla semplice elaborazione del testo e del completamento di un prompt testuale da parte di un modello LLM ad una visione decisamente più integrata di elaborazione che non si limiti a manipolare testo ma anche audio, immagini e video.

What Is Multi Modal Generative AI? An Easy Explanation In 60 Seconds

Questa nuova generazione di modelli sembra spostare l’attenzione e cambiare nuovamente il modo con cui possiamo interagire con queste intelligenze artificiali rispetto a quanto siamo abituati. Ma abbiamo davvero bisogno di queste nuove interazioni? Oppure sono solo delle funzioni utili agli annunci ma che non cambieranno in modo significativo il nostro, seppur giovane, rapporto con l’intelligenza artificiale generativa.

Applicazioni pratiche dell’intelligenza artificiale multimodale

Considerato che i nuovi modelli sono solo parzialmente disponibili possiamo solo cercare di indovinare come saranno utilizzando le funzioni già disponibili per capire la reale applicazione di queste nuove funzionalità in pratica: quali sono applicazioni pratiche per questa capacità del modello di ragionare su più tipologie di input? Non credo di poter rispondere in modo generale a queste domande, ma posso sicuramente raccontare come in pochi mesi ho cominciato a utilizzare l’abilità di usare immagini e audio nell’interazione con l’AI generativa non solo al fine di provarne le abilità.

Ricerca visuale e OCR: l’IA come strumento di traduzione

All’inizio avevo cominciato a fare foto a etichette di bottiglie (acqua e vino) per testare GPT vision utilizzando Copilot, ma si trattava quasi di un esercizio e di un test. Più recentemente ho cominciato invece a usarlo perché è utile e non per semplice curiosità.

Poche ore prima del rilascio di GPT-4o partecipavo alla conferenza International Super Computing ad Amburgo e in un ristorante avevano solo menu in tedesco. Molti commensali hanno usato i vari “Translate” che traducono il testo in una foto, io ho preferito chiedere consiglio a GPT:

Come si può vedere il modello ha cambiato lingua nella risposta passando all’inglese, se dovessi dare una spiegazione per questo comportamento sarei propenso a imputare il comportamento al fatto che in GPT-4 il modello vision è separato dal modello che elabora il testo, e probabilmente il codice che coordina i due modelli può introdurre cambiamenti presumibilmente legati all’uso di prompt in inglese che si mischiano a quelli nella lingua dell’utente. La mia richiesta è fatta da sole due parole e quindi presumo che il modello vedendo il risultato della descrizione dell’immagine e il prompt in inglese avrà proseguito a rispondere in inglese.

Questa teoria sembra essere supportata dal passaggio a GPT-4o che prende in input sia l’immagine che il testo:

L’interazione è completamente differente dall’ormai tradizionale traduzione effettuata dai vari sistemi che traducono il testo in una foto. L’AI non solo funziona come un efficiente OCR, ma sfrutta le conoscenze del modello per completare l’informazione, ed interpretarla in modo decisamente più efficace. Inoltre, il modello mi ha suggerito un possibile percorso culinario e non si è limitato a mostrarmi la traduzione, e in quel particolare momento non ero alla ricerca di un’esperienza gastronomica ma semplicemente di ordinare e spendere il mio tempo con i commensali.

Ho addirittura aiutato un’altra persona a selezionare possibili scelte date le sue restrizioni alimentari:

In questa applicazione l’immagine ha funzionato come un modo naturale di fornire input quando non si è al computer per poi affidarsi alla capacità dei modelli di analizzare il testo ed effettuare traduzioni. In fondo anche nella demo di OpenAI una delle interazioni vocali dimostrate è stata la traduzione in tempo reale da parte del nuovo modello GPT-4o.

L’abilità di riconoscere il testo nelle immagini rappresenta un modo naturale per accelerare il processo di fornire informazioni testuali all’intelligenza artificiale e trova innumerevoli applicazioni: dalla trascrizione degli scontrini per inserire le informazioni nel sistema di rimborso missioni, alla richiesta di informazioni su un libro a partire dalla sua copertina, al riassunto di un poster o di materiale cartaceo. Almeno nel caso di GPT mi è addirittura capitato di caricare un PDF ottenuto da una fotocopiatrice ed ottenere delle slides per una presentazione senza doversi sforzare di usare numerosi strumenti e molto lavoro per raggiungere lo stesso risultato (ovviamente verificando attentamente il risultato prodotto).

Indicazioni operative di apparati

Un altro uso che mi è divenuto quasi normale è quello di chiedere informazioni relativamente ad apparati nel mondo reale. Mi trovo sempre più spesso a fotografare un quadro elettrico o un pannello e chiedere all’AI una valutazione sul suo funzionamento. Le risposte non sono sempre perfette, ma per me è sempre molto utile come confronto e per verificare le mie ipotesi (avendo già una cognizione di base su quello che sto facendo).

Una volta ho suggerito al telefono a un conoscente di usare il proprio smartphone per chiedere una valutazione sulla pressione di una caldaia facendo una foto al manometro. Dalla lettura del modello sono riuscito ad aiutare questa persona a ripristinare il livello corretto di pressione (che per altro l’AI aveva correttamente individuato).

In alcuni casi si possono chiedere anche opinioni sullo stato di giochi da tavolo come, ad esempio, una partita di Risiko!.

Ho addirittura fatto una foto alla mia scrivania caotica perché non vedevo qualcosa nella speranza che il modello la trovasse più velocemente di me, ha funzionato.

Interazioni vocali

L’uso della voce non è ancora così comodo e naturale come potrebbe essere, e soprattutto non è ancora disponibile l’accesso ai nuovi modelli multimodali. Devo però dire che dal rilascio di GPT-4o uso sempre più spesso l’interazione vocale, soprattutto dallo smartphone, semplicemente perché la velocità di risposta è già molto migliorata e mi capita di preferirlo all’input manuale.

Da questa semplice esperienza sembra evidente che l’arrivo dei modelli multimodali possa incoraggiare questo tipo di interazione, anche se l’impressione che ho è che l’interazione vocale richiederà un po’ di maturazione perché sia il canale preferenziale (anche perché capita spesso che il modello non capisca, almeno per ora, la pronuncia di una particolare parola).

Altra cosa sarà l’interazione vocale unita ad altri canali come il video: credo sia molto più naturale commentare quello che si vede facendo domande piuttosto che usare il dito per disegnare sullo schermo dello smartphone per puntare l’attenzione del modello su una porzione specifica dell’inquadratura.

Dovremo aspettare il rilascio delle piene funzionalità dei nuovi modelli multimodali per poter provare l’interazione col video e capire come un modello multimodale possa essere usato pienamente per interagire in modi nuovi con l’AI.

Conclusioni

I modelli multimodali sembrano effettivamente cambiare in modo significativo l’interazione con l’intelligenza artificiale, soprattutto in scenari “on the go” dove è necessario essere efficaci e sfruttare al meglio il fattore tempo. La capacità di assolvere compiti che tradizionalmente erano svolti da strumenti specifici tende a rendere più naturale l’interazione.

È però presto capire quanto queste nuove modalità cambieranno il nostro modo di usarla, per ora posso solo dire che nel mio personale flusso di lavoro quotidiano capita sempre più spesso di usare il canale visivo mediante delle foto per interagire col modello, e per ora il bilancio è più che positivo e in questo senso sono sicuro che non appena le nuove funzionalità saranno disponibili lo sarà ancor di più. In effetti sono molto curioso di interagire con il video chiedendo vocalmente cose relativamente all’evoluzione del mondo così come è ripresa dalla camera.

Resta aperto il problema che sempre più informazioni saranno inviate nei cloud delle grandi multinazionali che nuovamente avranno accesso a volumi di informazioni che tenderanno a consolidare la loro posizione di oligopolio. Credo che sia importante che la comunità che sviluppa modelli aperti dovrebbe cominciare a lavorare su modelli analoghi senza limitarsi ai modelli LLM che si limitano all’analisi del testo.

Speciale PNRR

Tutti
Incentivi
Salute digitale
Formazione
Analisi
Sostenibilità
PA
Sostemibilità
Sicurezza
Digital Economy
CODICE STARTUP
Imprenditoria femminile: come attingere ai fondi per le donne che fanno impresa
DECRETI
PNRR e Fascicolo Sanitario Elettronico: investimenti per oltre 600 milioni
IL DOCUMENTO
Competenze digitali, ecco il nuovo piano operativo nazionale
STRUMENTI
Da Istat e RGS gli indicatori per misurare la sostenibilità nel PNRR
STRATEGIE
PNRR – Piano nazionale di Ripresa e Resilienza: cos’è e novità
FONDI
Pnrr, ok della Ue alla seconda rata da 21 miliardi: focus su 5G e banda ultralarga
GREEN ENERGY
Energia pulita: Banca Sella finanzia i progetti green incentivati dal PNRR
TECNOLOGIA SOLIDALE
Due buone notizie digitali: 500 milioni per gli ITS e l’inizio dell’intranet veloce in scuole e ospedali
INNOVAZIONE
Competenze digitali e InPA cruciali per raggiungere gli obiettivi del Pnrr
STRATEGIE
PA digitale 2026, come gestire i fondi PNRR in 5 fasi: ecco la proposta
ANALISI
Value-based healthcare: le esperienze in Italia e il ruolo del PNRR
Strategie
Accordi per l’innovazione, per le imprese altri 250 milioni
Strategie
PNRR, opportunità e sfide per le smart city
Strategie
Brevetti, il Mise mette sul piatto 8,5 milioni
Strategie
PNRR e opere pubbliche, la grande sfida per i Comuni e perché bisogna pensare digitale
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr
CODICE STARTUP
Imprenditoria femminile: come attingere ai fondi per le donne che fanno impresa
DECRETI
PNRR e Fascicolo Sanitario Elettronico: investimenti per oltre 600 milioni
IL DOCUMENTO
Competenze digitali, ecco il nuovo piano operativo nazionale
STRUMENTI
Da Istat e RGS gli indicatori per misurare la sostenibilità nel PNRR
STRATEGIE
PNRR – Piano nazionale di Ripresa e Resilienza: cos’è e novità
FONDI
Pnrr, ok della Ue alla seconda rata da 21 miliardi: focus su 5G e banda ultralarga
GREEN ENERGY
Energia pulita: Banca Sella finanzia i progetti green incentivati dal PNRR
TECNOLOGIA SOLIDALE
Due buone notizie digitali: 500 milioni per gli ITS e l’inizio dell’intranet veloce in scuole e ospedali
INNOVAZIONE
Competenze digitali e InPA cruciali per raggiungere gli obiettivi del Pnrr
STRATEGIE
PA digitale 2026, come gestire i fondi PNRR in 5 fasi: ecco la proposta
ANALISI
Value-based healthcare: le esperienze in Italia e il ruolo del PNRR
Strategie
Accordi per l’innovazione, per le imprese altri 250 milioni
Strategie
PNRR, opportunità e sfide per le smart city
Strategie
Brevetti, il Mise mette sul piatto 8,5 milioni
Strategie
PNRR e opere pubbliche, la grande sfida per i Comuni e perché bisogna pensare digitale
Formazione
Trasferimento tecnologico, il Mise mette sul piatto 7,5 milioni
Strategie
PSN e Strategia Cloud Italia: a che punto siamo e come supportare la PA in questo percorso
Dispersione idrica
Siccità: AI e analisi dei dati possono ridurre gli sprechi d’acqua. Ecco gli interventi necessari
PNRR
Cloud, firmato il contratto per l’avvio di lavori del Polo strategico
Formazione
Competenze digitali, stanziati 48 milioni per gli Istituti tecnologici superiori
Iniziative
Digitalizzazione delle reti idriche: oltre 600 milioni per 21 progetti
Competenze e competitività
PNRR, così i fondi UE possono rilanciare la ricerca e l’Università
Finanziamenti
PNRR, si sbloccano i fondi per l’agrisolare
Sanità post-pandemica
PNRR, Missione Salute: a che punto siamo e cosa resta da fare
Strategie
Sovranità e autonomia tecnologica nazionale: come avviare un processo virtuoso e sostenibile
La relazione
Pnrr e PA digitale, l’alert della Corte dei conti su execution e capacità di spesa
L'editoriale
Elezioni 2022, la sfida digitale ai margini del dibattito politico
Strategie
Digitale, il monito di I-Com: “Senza riforme Pnrr inefficace”
Transizione digitale
Pnrr: arrivano 321 milioni per cloud dei Comuni, spazio e mobilità innovativa
L'analisi I-COM
Il PNRR alla prova delle elezioni: come usare bene le risorse e centrare gli obiettivi digitali
Cineca
Quantum computing, una svolta per la ricerca: lo scenario europeo e i progetti in corso
L'indice europeo
Desi, l’Italia scala due posizioni grazie a fibra e 5G. Ma è (ancora) allarme competenze
L'approfondimento
PNRR 2, ecco tutte le misure per cittadini e imprese: portale sommerso, codice crisi d’impresa e sismabonus, cosa cambia
Servizi digitali
PNRR e trasformazione digitale: ecco gli investimenti e le riforme previste per la digitalizzazione della PA
Legal health
Lo spazio europeo dei dati sanitari: come circoleranno le informazioni sulla salute nell’Unione Europea
Servizi digitali
PNRR e PA digitale: non dimentichiamo la dematerializzazione
Digital Healthcare transformation
La trasformazione digitale degli ospedali
Governance digitale
PA digitale, è la volta buona? Così misure e risorse del PNRR possono fare la differenza
Servizi digitali
Comuni e digitale, come usare il PNRR senza sbagliare
La survey
Pnrr e digitale accoppiata vincente per il 70% delle pmi italiane
Missione salute
Fascicolo Sanitario Elettronico alla prova del PNRR: limiti, rischi e opportunità
Servizi pubblici
PNRR: come diventeranno i siti dei comuni italiani grazie alle nuove risorse
Skill gap
PNRR, la banda ultra larga crea 20.000 nuovi posti di lavoro
Il Piano
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUMPA2022
PNRR e trasformazione digitale: rivedi i Talk di FORUM PA 2022 in collaborazione con le aziende partner
I contratti
Avio, 340 milioni dal Pnrr per i nuovi propulsori a metano
Next Generation EU
PNRR, a che punto siamo e cosa possono aspettarsi le aziende private
Fondi
Operativo il nuovo portale del MISE con tutti i finanziamenti per le imprese
Servizi comunali
Il PNRR occasione unica per i Comuni digitali: strumenti e risorse per enti e cittadini
Healthcare data platform
PNRR dalla teoria alla pratica: tecnologie e soluzioni per l’innovazione in Sanità
Skill
Competenze digitali, partono le Reti di facilitazione
Gli obiettivi
Scuola 4.0, PNRR ultima chance: ecco come cambierà il sistema formativo
Sistema Paese
PNRR 2, è il turno della space economy
FORUM PA 2022
FORUM PA 2022: la maturità digitale dei comuni italiani rispetto al PNRR
Analisi
PNRR: dalla Ricerca all’impresa, una sfida da cogliere insieme
Innovazione
Pnrr, il Dipartimento per la Trasformazione digitale si riorganizza
FORUM PA 2022
PA verde e sostenibile: il ruolo di PNRR, PNIEC, energy management e green public procurement
Analisi
PNRR, Comuni e digitalizzazione: tutto su fondi e opportunità, in meno di 3 minuti. Guarda il video!
Rapporti
Competenze digitali e servizi automatizzati pilastri del piano Inps
Analisi
Attuazione del PNRR: il dialogo necessario tra istituzioni e società civile. Rivedi lo Scenario di FORUM PA 2022
Progetti
Pnrr, fondi per il Politecnico di Torino. Fra i progetti anche IS4Aerospace
Analisi
PNRR, Colao fa il punto sulla transizione digitale dell’Italia: «In linea con tutte le scadenze»
La Svolta
Ict, Istat “riclassifica” i professionisti. Via anche al catalogo dati sul Pnrr
Analisi
Spazio, Colao fa il punto sul Pnrr: i progetti verso la milestone 2023
FORUM PA 2022
Ecosistema territoriale sostenibile: l’Emilia Romagna tra FESR e PNRR
Il Piano
Innovazione, il Mise “centra” gli obiettivi Pnrr: attivati 17,5 miliardi
Analisi
PNRR: raggiunti gli obiettivi per il primo semestre 2022. Il punto e qualche riflessione
Analisi
PNRR: dal dialogo tra PA e società civile passa il corretto monitoraggio dei risultati, tra collaborazione e identità dei luoghi
Webinar
Comuni e PNRR: un focus sui bandi attivi o in pubblicazione
Analisi
Formazione 4.0: cos’è e come funziona il credito d’imposta
PA e Sicurezza
PA e sicurezza informatica: il ruolo dei territori di fronte alle sfide della digitalizzazione
PA e sicurezza
PNRR e servizi pubblici digitali: sfide e opportunità per Comuni e Città metropolitane
Water management
Water management in Italia: verso una transizione “smart” e “circular” 
LE RISORSE
Transizione digitale, Simest apre i fondi Pnrr alle medie imprese
Prospettive
Turismo, cultura e digital: come spendere bene le risorse del PNRR
Analisi
Smart City: quale contributo alla transizione ecologica
Decarbonizzazione
Idrogeno verde, 450 milioni € di investimenti PNRR, Cingolani firma
Unioncamere
PNRR, imprese in ritardo: ecco come le Camere di commercio possono aiutare
I fondi
Industria 4.0: solo un’impresa su tre pronta a salire sul treno Pnrr

Articoli correlati

Articolo 1 di 3