OpenAI

GPT-4o, ecco la vera svolta della nuova intelligenza artificiale

GPT-4o (omni), con la stessa intelligenza di GPT-4 ma molto più veloce e soprattutto multimodale, potrà analizzare, anche in simultanea, testo, audio, video e immagini. Ma la vera novità è l’accesso gratuito a tutti gli utenti alle funzioni che erano prima a pagamento

Pubblicato il 15 mag 2024

Antonio Cisternino

Università di Pisa

screenshot-2024-05-13-at-13242e280afpm-1240×697.png

È una settimana di annunci per i giganti che sviluppano le AI generative del momento: lunedì OpenAI ha annunciato il nuovo modello GPT-4o (dove la ‘o’ sta per omni) e la disponibilità dei modelli e martedì Google ha annunciato a Google I/O il modello Veo per la generazione di video sulla scia di Sora il modello di OpenAI che ha stupito per la sua capacità di generare interi video a partire da testo.

Introducing GPT-4o

Guarda questo video su YouTube

Prima di approfondire gli annunci fatti dal CTO di OpenAI Mina Murati, destinati a cambiare nuovamente il panorama dell’intelligenza artificiale, è interessante notare come OpenAI abbia deciso di fare un annuncio il giorno prima della conferenza di Google, riconoscendo di fatto la crescita del gigante nella realizzazione di modelli AI e quindi il ruolo di vero competitor nel panorama dei megamodelli di AI generativa. Altro aspetto degno di nota è che l’annuncio è stato fatto abbastanza in sordina, senza Sam Altman sul palco, e con uno stile sobrio senza particolari sensazionalismi, nonostante il contenuto sia decisamente degno di nota.

Ma veniamo agli annunci fatti: il primo riguarda la disponibilità di un nuovo modello, chiamato GPT-4o (omni), con la stessa intelligenza di GPT-4 ma molto più veloce e soprattutto multimodale, ovverosia capace di analizzare, anche in simultanea, testo, audio, video e immagini; il secondo riguarda il radicale cambiamento di business con l’apertura dell’accesso a funzioni come l’accesso a GPT-4 e all’elaborazione documentale anche agli utenti non paganti del servizio. Entrambi gli annunci sono destinati a consolidare la posizione di leadership di OpenAI nel settore e rappresentano sicuramente uno spostamento dell’attenzione dai modelli LLM puri e l’elaborazione solo testuale dell’AI generativa ad un modello in cui l’AI diviene capace di interagire vocalmente, anche osservando attraverso la telecamera, l’utente o il mondo e commentando in tempo reale.

Indice degli argomenti

Gpt 4o in numeri

Rispetto al GPT-4T, OpenAI sostiene che è due volte più veloce, il 50% più economico sia per i token in ingresso (5 dollari per milione) che per quelli in uscita (15 dollari per milione)
ha un limite di velocità cinque volte superiore (fino a 10 milioni di token al minuto).
GPT-4o ha una finestra di contesto di 128K e ha una data di scadenza delle conoscenze fissata a ottobre 2023.
La versione free però è limitata in alcuni di questi parametri rispetto a quella per utenti plus.

Alcune delle nuove abilità sono attualmente disponibili online attraverso ChatGPT, attraverso l’app ChatGPT su dispositivi desktop e mobili, attraverso l’API OpenAI ( e attraverso Microsoft Azure.

L’importanza di un modello multimodale

Da un punto di vista strettamente funzionale molte delle capacità annunciate da OpenAI erano già di fatto disponibili: si poteva interagire vocalmente col modello, l’applicazione sintetizzava le risposte vocali, era possibile porre questioni su immagini ottenendo risposte spesso sorprendenti. In modo molto informatico però queste capacità erano ottenuto attraverso il coordinamento di modelli di AI capaci di elaborare individualmente testo, audio, e immagini. Chiunque li abbia provati sa che un’interazione vocale con ChatGPT richiede molta pazienza: si parla, si aspetta (anche 5-6 secondi) e si ottiene una risposta che va ascoltata per intero prima di poter rispondere.

L’efficienza del nuovo modello GPT-4o

Il nuovo modello GPT-4o, grazie alla sua efficienza, è capace di cominciare a rispondere in meno di 300ms, e gestisce in modo organico testo audio e video, senza dunque alcuna necessità di coordinare modelli diversi e consentendo quindi un’interazione molto più naturale con l’AI che addirittura permetta di interrompere la risposta e aggiungere informazione esattamente come avviene in un dialogo tra persone.

Un’altra capacità degna di nota è quella di saper ragionare in tempo reale osservando il video, per esempio attraverso la fotocamera del telefono, commentando in tempo reale ciò che il modello mostra. Questa capacità era stata annunciata anche da Google con il modello Gemini Ultra, ma a oggi sembra essere limitato al solo annuncio e soprattutto il video che mostrava questa abilità era stato accelerato per mostrare un’interazione più naturale con l’utente. Vediamo se OpenAI invece sarà davvero capace nelle prossime settimane di rendere effettivamente disponibile questa versione di un “companion” capace di interagire in modo più naturale e non solo limitatamente ad una chat.

Miglioramento dell’usabilità nell’interazione con l’AI

L’annuncio fatto da Murati non è quindi relativo a una AI più “intelligente” ma è interamente dedicato all’usabilità dell’AI e a una interazione più naturale con gli utenti capace di combinare il riconoscimento vocale, con una sintesi vocale più naturale (capace addirittura di canticchiare) e un’interazione visiva.

Dai primi test del modello (nonostante non sia ancora disponibile l’interazione completa con video e audio) i risultati sono sicuramente sorprendenti. Sono due gli aspetti che mi hanno colpito in particolare:

anche con la modalità vocale “tradizionale”, in cui il testo viene trascritto e inviato al modello, la velocità di risposta è significativamente più alta e l’interazione vocale è già piacevole e non farraginosa come avveniva con GPT-4;
l’accesso alle informazioni del Web è ora veramente integrato e nel momento in cui il modello ricorre a fonti esterne la risposta è analoga a quella a cui ci hanno abituato Copilot e Gemini.

Fino ad ora l’interazione con il Web nei sistemi di OpenAI era decisamente meno soddisfacente rispetto a quella dei competitor e aver colmato questo gap aiuta a fornire un’interazione più naturale dove le informazioni che già ha il modello si fondono con quelle ottenute dalla rete. Quando ho chiesto informazioni sull’ultima classifica della Top500 annunciata da neanche 24 ore GPT-4o ha risposto correttamente senza interruzioni nel flusso di risposta a cui eravamo invece abituati finora.

Sempre nel contesto dell’usabilità rientra l’annuncio della disponibilità di una app desktop (inizialmente per Mac e prossimamente per Windows) capace di semplificare il passaggio di informazioni tra le applicazioni del proprio PC e l’AI. Ho trovato decisamente smart l’idea di usare la clipboard come il modo di consentire all’AI di vedere informazioni dal PC: l’utente copia un testo o un’immagine (questa seconda parte la presumo) e semplicemente interagisce con l’AI che è autorizzata a quel punto a leggere il contenuto nella clipboard senza aver accesso ad altri dati sul proprio PC.

L’accessibilità del modello GPT-4o

Un altro aspetto decisamente importante dell’annuncio di lunedì è quello di rendere disponibili funzioni che erano limitate al livello GPTPlus a tutti gli utenti. Per quanto mi riguarda si tratta della parte forse più importante dell’annuncio: da ora in poi anche senza pagare sarà possibile analizzare file, capacità unica di ChatGPT, mediante un processo che genera programmi python che vengono eseguiti fornendo risposte esatte (a patto che il programma generato sia corretto ovviamente), e i GPTs disponibili nello store potranno essere utilizzati da tutti gli utenti e non solo da quelli paganti.

Questa seconda mossa ritengo sia centrale poiché in pochi mesi sono migliaia gli assistenti creati nella piattaforma, e ora questi divengono accessibili a tutti, rendendo decisamente più attraente il loro sviluppo come forma innovativa per “vendere” i propri servizi. Adesso tutti gli utenti potranno organizzare i viaggi beneficiando dell’analisi delle tariffe reali di un certo periodo, oppure analizzare PDF, ricercare informazioni in fonti specifiche ecc.

Si tratta di aspetti meno tecnologici ma che per la prima volta aprono a tutti un modello di AI generativa che va oltre la chat.

Ci si può chiedere “ha ancora senso pagare?”, come sempre la priorità nell’accesso al modello sarà data agli utenti del servizio Plus così come l’accesso alle nuove funzioni. Sta a ciascuno di noi valutare se sia ancora conveniente pagare il servizio o meno.

Implicazioni per i programmatori nell’utilizzo del GPT-4o

Le API danno accesso al nuovo modello anche se non sono ancora stati resi disponibili gli endpoint del servizio per poter utilizzare interazioni multimodali: si tratta di un aspetto importante poiché sempre più strumenti implementano le API di OpenAI (come, ad esempio, ollama o LM Studio) e che quindi stanno rapidamente divenendo lo standard de facto della comunità.

Anche i costi sono destinati a calare: GPT-4o costerà il 50% rispetto a GPT-4, notizia che rende più realistico il suo impiego in applicazioni in cui si usava GPT-3.5 finora. Inoltre il dizionario dei token è raddoppiato in dimensioni (da centomila a duecentomila) riducendo il numero di token necessari per codificare input e output e di conseguenza costi e dimensioni delle finestre di contesto (in italiano, ad esempio, a parità di testo servono il 25% in meno di token). Si tratta di novità tecniche di dettaglio che però contribuiranno a diffondere l’uso dei modelli di OpenAI in sistemi esterni.

Conclusioni

GPT-4o è decisamente una notevole aggiunta al panorama dell’AI, e mostra come OpenAI non si preoccupi esclusivamente della complessità del modello di AI ma presti attenzione a tutti gli aspetti che poi determinano l’usabilità di queste tecnologie.

Nonostante l’impressionante demo durante l’annuncio restano più interessanti i cambiamenti del servizio che rendono disponibili a tutti funzioni che cambiano la percezione collettiva delle capacità di un’AI che non è più limitata al semplice chatbot. Personalmente ritengo che la funzione di analisi di dati di OpenAI si sposi naturalmente con gli OpenData, dati che non hanno il problema della privacy e che potranno essere analizzati oltre che pubblicati per obbligo dalla PA. Si potrebbero anche immaginare dei GPTs che aiutino il cittadino nella loro analisi e fruizione.

GPT-4o, ecco la vera svolta della nuova intelligenza artificiale

Gpt 4o in numeri

L’importanza di un modello multimodale

L’efficienza del nuovo modello GPT-4o

Miglioramento dell’usabilità nell’interazione con l’AI

L’accessibilità del modello GPT-4o

Implicazioni per i programmatori nell’utilizzo del GPT-4o

Conclusioni

Antonio Cisternino

Università di Pisa

Antonio Cisternino

Università di Pisa

Articoli correlati

Il futuro delle reti è "user-centrico": le soluzioni per migliorare servizi e UX

Codice Rss

Codice Rss