I recenti annunci di OpenAI e Google sulle nuove funzioni di GPT e Gemini hanno spostato l’attenzione dalla semplice elaborazione del testo e del completamento di un prompt testuale da parte di un modello LLM ad una visione decisamente più integrata di elaborazione che non si limiti a manipolare testo ma anche audio, immagini e video.
Questa nuova generazione di modelli sembra spostare l’attenzione e cambiare nuovamente il modo con cui possiamo interagire con queste intelligenze artificiali rispetto a quanto siamo abituati. Ma abbiamo davvero bisogno di queste nuove interazioni? Oppure sono solo delle funzioni utili agli annunci ma che non cambieranno in modo significativo il nostro, seppur giovane, rapporto con l’intelligenza artificiale generativa.
Applicazioni pratiche dell’intelligenza artificiale multimodale
Considerato che i nuovi modelli sono solo parzialmente disponibili possiamo solo cercare di indovinare come saranno utilizzando le funzioni già disponibili per capire la reale applicazione di queste nuove funzionalità in pratica: quali sono applicazioni pratiche per questa capacità del modello di ragionare su più tipologie di input? Non credo di poter rispondere in modo generale a queste domande, ma posso sicuramente raccontare come in pochi mesi ho cominciato a utilizzare l’abilità di usare immagini e audio nell’interazione con l’AI generativa non solo al fine di provarne le abilità.
Ricerca visuale e OCR: l’IA come strumento di traduzione
All’inizio avevo cominciato a fare foto a etichette di bottiglie (acqua e vino) per testare GPT vision utilizzando Copilot, ma si trattava quasi di un esercizio e di un test. Più recentemente ho cominciato invece a usarlo perché è utile e non per semplice curiosità.
Poche ore prima del rilascio di GPT-4o partecipavo alla conferenza International Super Computing ad Amburgo e in un ristorante avevano solo menu in tedesco. Molti commensali hanno usato i vari “Translate” che traducono il testo in una foto, io ho preferito chiedere consiglio a GPT:
Come si può vedere il modello ha cambiato lingua nella risposta passando all’inglese, se dovessi dare una spiegazione per questo comportamento sarei propenso a imputare il comportamento al fatto che in GPT-4 il modello vision è separato dal modello che elabora il testo, e probabilmente il codice che coordina i due modelli può introdurre cambiamenti presumibilmente legati all’uso di prompt in inglese che si mischiano a quelli nella lingua dell’utente. La mia richiesta è fatta da sole due parole e quindi presumo che il modello vedendo il risultato della descrizione dell’immagine e il prompt in inglese avrà proseguito a rispondere in inglese.
Questa teoria sembra essere supportata dal passaggio a GPT-4o che prende in input sia l’immagine che il testo:
L’interazione è completamente differente dall’ormai tradizionale traduzione effettuata dai vari sistemi che traducono il testo in una foto. L’AI non solo funziona come un efficiente OCR, ma sfrutta le conoscenze del modello per completare l’informazione, ed interpretarla in modo decisamente più efficace. Inoltre, il modello mi ha suggerito un possibile percorso culinario e non si è limitato a mostrarmi la traduzione, e in quel particolare momento non ero alla ricerca di un’esperienza gastronomica ma semplicemente di ordinare e spendere il mio tempo con i commensali.
Ho addirittura aiutato un’altra persona a selezionare possibili scelte date le sue restrizioni alimentari:
In questa applicazione l’immagine ha funzionato come un modo naturale di fornire input quando non si è al computer per poi affidarsi alla capacità dei modelli di analizzare il testo ed effettuare traduzioni. In fondo anche nella demo di OpenAI una delle interazioni vocali dimostrate è stata la traduzione in tempo reale da parte del nuovo modello GPT-4o.
L’abilità di riconoscere il testo nelle immagini rappresenta un modo naturale per accelerare il processo di fornire informazioni testuali all’intelligenza artificiale e trova innumerevoli applicazioni: dalla trascrizione degli scontrini per inserire le informazioni nel sistema di rimborso missioni, alla richiesta di informazioni su un libro a partire dalla sua copertina, al riassunto di un poster o di materiale cartaceo. Almeno nel caso di GPT mi è addirittura capitato di caricare un PDF ottenuto da una fotocopiatrice ed ottenere delle slides per una presentazione senza doversi sforzare di usare numerosi strumenti e molto lavoro per raggiungere lo stesso risultato (ovviamente verificando attentamente il risultato prodotto).
Indicazioni operative di apparati
Un altro uso che mi è divenuto quasi normale è quello di chiedere informazioni relativamente ad apparati nel mondo reale. Mi trovo sempre più spesso a fotografare un quadro elettrico o un pannello e chiedere all’AI una valutazione sul suo funzionamento. Le risposte non sono sempre perfette, ma per me è sempre molto utile come confronto e per verificare le mie ipotesi (avendo già una cognizione di base su quello che sto facendo).
Una volta ho suggerito al telefono a un conoscente di usare il proprio smartphone per chiedere una valutazione sulla pressione di una caldaia facendo una foto al manometro. Dalla lettura del modello sono riuscito ad aiutare questa persona a ripristinare il livello corretto di pressione (che per altro l’AI aveva correttamente individuato).
In alcuni casi si possono chiedere anche opinioni sullo stato di giochi da tavolo come, ad esempio, una partita di Risiko!.
Ho addirittura fatto una foto alla mia scrivania caotica perché non vedevo qualcosa nella speranza che il modello la trovasse più velocemente di me, ha funzionato.
Interazioni vocali
L’uso della voce non è ancora così comodo e naturale come potrebbe essere, e soprattutto non è ancora disponibile l’accesso ai nuovi modelli multimodali. Devo però dire che dal rilascio di GPT-4o uso sempre più spesso l’interazione vocale, soprattutto dallo smartphone, semplicemente perché la velocità di risposta è già molto migliorata e mi capita di preferirlo all’input manuale.
Da questa semplice esperienza sembra evidente che l’arrivo dei modelli multimodali possa incoraggiare questo tipo di interazione, anche se l’impressione che ho è che l’interazione vocale richiederà un po’ di maturazione perché sia il canale preferenziale (anche perché capita spesso che il modello non capisca, almeno per ora, la pronuncia di una particolare parola).
Altra cosa sarà l’interazione vocale unita ad altri canali come il video: credo sia molto più naturale commentare quello che si vede facendo domande piuttosto che usare il dito per disegnare sullo schermo dello smartphone per puntare l’attenzione del modello su una porzione specifica dell’inquadratura.
Dovremo aspettare il rilascio delle piene funzionalità dei nuovi modelli multimodali per poter provare l’interazione col video e capire come un modello multimodale possa essere usato pienamente per interagire in modi nuovi con l’AI.
Conclusioni
I modelli multimodali sembrano effettivamente cambiare in modo significativo l’interazione con l’intelligenza artificiale, soprattutto in scenari “on the go” dove è necessario essere efficaci e sfruttare al meglio il fattore tempo. La capacità di assolvere compiti che tradizionalmente erano svolti da strumenti specifici tende a rendere più naturale l’interazione.
È però presto capire quanto queste nuove modalità cambieranno il nostro modo di usarla, per ora posso solo dire che nel mio personale flusso di lavoro quotidiano capita sempre più spesso di usare il canale visivo mediante delle foto per interagire col modello, e per ora il bilancio è più che positivo e in questo senso sono sicuro che non appena le nuove funzionalità saranno disponibili lo sarà ancor di più. In effetti sono molto curioso di interagire con il video chiedendo vocalmente cose relativamente all’evoluzione del mondo così come è ripresa dalla camera.
Resta aperto il problema che sempre più informazioni saranno inviate nei cloud delle grandi multinazionali che nuovamente avranno accesso a volumi di informazioni che tenderanno a consolidare la loro posizione di oligopolio. Credo che sia importante che la comunità che sviluppa modelli aperti dovrebbe cominciare a lavorare su modelli analoghi senza limitarsi ai modelli LLM che si limitano all’analisi del testo.