la guida

ChatGPT, a me gli occhi: l’AI ora ci vede, ecco il test



Indirizzo copiato

La funzione non è ancora disponibile ovunque, la prova qui descritta è stata fatta utilizzando un servizio VPN: approfondiamo come funziona e quali sono i risvolti di questa innovazione

Pubblicato il 8 gen 2025

Antonio Cisternino

Università di Pisa



agenti ai (1)

Come annunciato a dicembre OpenAI ha cominciato il rollout della funzione video nell’advanced voice mode in modo che ChatGPT possa non solo ascoltare ma anche vedere nell’interazione multimodale. La nuova modalità è stata già resa disponibile per ChatGPT Plus e pro e sarà aperto anche ai livelli enterprise e Edu nei prossimi giorni. Sulla mia sottoscrizione personale, la funzione è apparsa ed ha funzionato il 31 dicembre per poi sparire. Sebbene non abbia trovato alcuna evidenza scritta sembra che al momento l’Europa non abbia ricevuto ancora l’aggiornamento, provando con un servizio di VPN ho verificato che la funzione è disponibile negli Stati Uniti, nel Regno Unito, e in Turchia mentre non è disponibile in Italia, Francia e Germania. La prova descritta in questo articolo è quindi stata effettuata utilizzando un servizio VPN.

OpenAI e Google hanno entrambi annunciato e fatto demo dei propri modelli multimodali per intelligenza artificiale generativa nel 2023 mostrando come sarebbe stato possibile elaborare non solo audio e immagini ma anche video. C’è voluto oltre un anno affinché queste funzioni fossero realmente disponibili e non delle semplici demo. Non nascondo quindi una certa emozione nell’essere finalmente riuscito a provare questa modalità di interazione con l’AI per capire quali nuovi scenari potrà aprire.

Il funzionamento di base

Le nuove funzioni sono disponibili avviando una nuova conversazione vocale (il cosiddetto advanced voice mode). OpenAI ha migliorato la qualità della voce parlata adattandola all’italiano, parlare con GPT ora non da più l’impressione di parlare con un americano che parla bene l’italiano.

Quando la modalità video è disponibile oltre all’icona del microfono appare l’icona della video camera e un ulteriore menu che consente di inviare immagini o condividere lo schermo del dispositivo come si vede nella figura seguente.

Immagine che contiene testo, schermata, designDescrizione generata automaticamente

Durante la conversazione è possibile condividere col modello sia il flusso video che lo stato dello schermo o semplici immagini. Una volta avviata la condivisione si può discutere di quello che vede la videocamera o di quello che è visualizzato sullo schermo.

Dal punto di vista funzionale non c’è quindi molta differenza rispetto all’uso della conversazione, con la grande differenza che possiamo mostrare qualcosa al modello e quindi poi porre domande o commentare ciò che stanno vedendo. Ad esempio ho avviato una conversazione sulla riproduzione della notte stellata di Van Gogh ottenendo molte informazioni interessanti sul quadro in modo incredibilmente naturale. Il modello ha subito individuato non solo il quadro ma anche che è una riproduzione anche se all’inizio avevo inquadrato il solo quadro.

Immagine che contiene testo, multimediale, schermata, schermo/paraventoDescrizione generata automaticamente

Ho trovato anche la possibilità di condividere lo schermo del dispositivo con GPT, mi sono avvalso del suo aiuto per giocare a giochi di strategia, ed ho chiesto aiuto sul compiere specifiche configurazioni. È molto utile poter discutere potendo mostrare al modello l’oggetto del discorso.

Applicazioni dell’interazione multimodale

Da quando sono stato abilitato all’interazione con video ho sperimentato varie applicazioni per capire la reale utilità di questa nuova funzione e devo dire che sono sorpreso dalle numerose applicazioni che ho trovato in poco tempo d’uso.

Nell’ambito dell’uso personale si può chiedere un consiglio sull’abbigliamento, o su questioni di casa, ad esempio chiedendo il perché del malfunzionamento di un particolare elettrodomestico o consigli su come svolgere piccoli lavori in casa.

In ambito artistico si possono chiedere informazioni su artefatti o di tradurre iscrizioni antiche in modo molto più naturale piuttosto che caricare una foto e poi dover scrivere le domande. La cosa che mi ha colpito però di più è stato quando ho chiesto una mano mentre risolvevo un sistema di equazioni. Il modello ha correttamente commentato i vari passaggi ed ho chiesto suggerimenti durante lo svolgimento che ho puntualmente ricevuto nonostante qualche problema che aveva a leggere la mia calligrafia (e lo capisco).

In sostanza la capacità di vedere offre un’interazione decisamente più naturale quando si vuole interagire in un contesto che si esprime visivamente meglio che usando descrizioni o numerose immagini.

L’interazione con la condivisione dello schermo è un’altra applicazione decisamente utile anche se bisogna fare attenzione a cosa si condivide col modello, si capisce perché le applicazioni desktop si ancorano a singole finestre piuttosto che a tutto lo schermo.

Quanta capacità di rete è necessaria

Mi sono chiesto: il modello riceve davvero un flusso video? O l’applicazione si limita ad estrapolare dei fotogrammi e li invia riducendo la banda di rete e la quantità di dati che il modello deve elaborare. Ho quindi provato a monitorare la banda durante il mio uso del video.

L’applicazione manda un flusso video che occupa circa 1,5Mbps nel caso della condivisione della videocamera e addirittura superiore quando si condivide lo schermo. Ciò non significa che il modello poi elabori tutti i dati, ma si può dire che i server di OpenAI ricevono il flusso video senza che questo venga ridotto in fase di invio. Si tratta di un aspetto molto importante ad esempio ai fini delle informazioni che involontariamente si condividono con la multinazionale. È quindi importante fare attenzione quando si condividono video o schermo col modello.

Immagine che contiene testo, Carattere, schermata, DiagrammaDescrizione generata automaticamente

Conclusioni

L’introduzione della possibilità di interagire con l’AI condividendo ciò che si vede rappresenta un’evoluzione interessante che allontana sempre più i modelli dalla semplice manipolazione di testo e dall’interazione basata su messaggi con un chatbot.

L’applicazione principale è quella di condivisione di qualcosa che consenta di interagire con l’AI al fine di chiedere suggerimenti, ulteriori informazioni, o più semplicemente confrontarsi per un brainstorming.

È lecito chiedersi quale sia il carico computazionale aggiuntivo per elaborare i flussi video da parte del modello, anche se probabilmente dei preprocessori prepareranno i dati da passare al modello per l’elaborazione vera e propria. Si tratta in ogni caso di un passo avanti significativo dal punto di vista dell’usabilità e di un’interazione più naturale con noi uomini.

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Social
Analisi
Video
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4