Come annunciato a dicembre OpenAI ha cominciato il rollout della funzione video nell’advanced voice mode in modo che ChatGPT possa non solo ascoltare ma anche vedere nell’interazione multimodale. La nuova modalità è stata già resa disponibile per ChatGPT Plus e pro e sarà aperto anche ai livelli enterprise e Edu nei prossimi giorni. Sulla mia sottoscrizione personale, la funzione è apparsa ed ha funzionato il 31 dicembre per poi sparire. Sebbene non abbia trovato alcuna evidenza scritta sembra che al momento l’Europa non abbia ricevuto ancora l’aggiornamento, provando con un servizio di VPN ho verificato che la funzione è disponibile negli Stati Uniti, nel Regno Unito, e in Turchia mentre non è disponibile in Italia, Francia e Germania. La prova descritta in questo articolo è quindi stata effettuata utilizzando un servizio VPN.
OpenAI e Google hanno entrambi annunciato e fatto demo dei propri modelli multimodali per intelligenza artificiale generativa nel 2023 mostrando come sarebbe stato possibile elaborare non solo audio e immagini ma anche video. C’è voluto oltre un anno affinché queste funzioni fossero realmente disponibili e non delle semplici demo. Non nascondo quindi una certa emozione nell’essere finalmente riuscito a provare questa modalità di interazione con l’AI per capire quali nuovi scenari potrà aprire.
Il funzionamento di base
Le nuove funzioni sono disponibili avviando una nuova conversazione vocale (il cosiddetto advanced voice mode). OpenAI ha migliorato la qualità della voce parlata adattandola all’italiano, parlare con GPT ora non da più l’impressione di parlare con un americano che parla bene l’italiano.
Quando la modalità video è disponibile oltre all’icona del microfono appare l’icona della video camera e un ulteriore menu che consente di inviare immagini o condividere lo schermo del dispositivo come si vede nella figura seguente.
Durante la conversazione è possibile condividere col modello sia il flusso video che lo stato dello schermo o semplici immagini. Una volta avviata la condivisione si può discutere di quello che vede la videocamera o di quello che è visualizzato sullo schermo.
Dal punto di vista funzionale non c’è quindi molta differenza rispetto all’uso della conversazione, con la grande differenza che possiamo mostrare qualcosa al modello e quindi poi porre domande o commentare ciò che stanno vedendo. Ad esempio ho avviato una conversazione sulla riproduzione della notte stellata di Van Gogh ottenendo molte informazioni interessanti sul quadro in modo incredibilmente naturale. Il modello ha subito individuato non solo il quadro ma anche che è una riproduzione anche se all’inizio avevo inquadrato il solo quadro.
Ho trovato anche la possibilità di condividere lo schermo del dispositivo con GPT, mi sono avvalso del suo aiuto per giocare a giochi di strategia, ed ho chiesto aiuto sul compiere specifiche configurazioni. È molto utile poter discutere potendo mostrare al modello l’oggetto del discorso.
Applicazioni dell’interazione multimodale
Da quando sono stato abilitato all’interazione con video ho sperimentato varie applicazioni per capire la reale utilità di questa nuova funzione e devo dire che sono sorpreso dalle numerose applicazioni che ho trovato in poco tempo d’uso.
Nell’ambito dell’uso personale si può chiedere un consiglio sull’abbigliamento, o su questioni di casa, ad esempio chiedendo il perché del malfunzionamento di un particolare elettrodomestico o consigli su come svolgere piccoli lavori in casa.
In ambito artistico si possono chiedere informazioni su artefatti o di tradurre iscrizioni antiche in modo molto più naturale piuttosto che caricare una foto e poi dover scrivere le domande. La cosa che mi ha colpito però di più è stato quando ho chiesto una mano mentre risolvevo un sistema di equazioni. Il modello ha correttamente commentato i vari passaggi ed ho chiesto suggerimenti durante lo svolgimento che ho puntualmente ricevuto nonostante qualche problema che aveva a leggere la mia calligrafia (e lo capisco).
In sostanza la capacità di vedere offre un’interazione decisamente più naturale quando si vuole interagire in un contesto che si esprime visivamente meglio che usando descrizioni o numerose immagini.
L’interazione con la condivisione dello schermo è un’altra applicazione decisamente utile anche se bisogna fare attenzione a cosa si condivide col modello, si capisce perché le applicazioni desktop si ancorano a singole finestre piuttosto che a tutto lo schermo.
Quanta capacità di rete è necessaria
Mi sono chiesto: il modello riceve davvero un flusso video? O l’applicazione si limita ad estrapolare dei fotogrammi e li invia riducendo la banda di rete e la quantità di dati che il modello deve elaborare. Ho quindi provato a monitorare la banda durante il mio uso del video.
L’applicazione manda un flusso video che occupa circa 1,5Mbps nel caso della condivisione della videocamera e addirittura superiore quando si condivide lo schermo. Ciò non significa che il modello poi elabori tutti i dati, ma si può dire che i server di OpenAI ricevono il flusso video senza che questo venga ridotto in fase di invio. Si tratta di un aspetto molto importante ad esempio ai fini delle informazioni che involontariamente si condividono con la multinazionale. È quindi importante fare attenzione quando si condividono video o schermo col modello.
Conclusioni
L’introduzione della possibilità di interagire con l’AI condividendo ciò che si vede rappresenta un’evoluzione interessante che allontana sempre più i modelli dalla semplice manipolazione di testo e dall’interazione basata su messaggi con un chatbot.
L’applicazione principale è quella di condivisione di qualcosa che consenta di interagire con l’AI al fine di chiedere suggerimenti, ulteriori informazioni, o più semplicemente confrontarsi per un brainstorming.
È lecito chiedersi quale sia il carico computazionale aggiuntivo per elaborare i flussi video da parte del modello, anche se probabilmente dei preprocessori prepareranno i dati da passare al modello per l’elaborazione vera e propria. Si tratta in ogni caso di un passo avanti significativo dal punto di vista dell’usabilità e di un’interazione più naturale con noi uomini.