intelligenza artificiale

Open O3, la nostra prova: un passo verso l’AGI



Indirizzo copiato

Alcuni dicono che o3 è veramente AGI. Non si sa, ma la sensazione nell’uso dei nuovi modelli è che si sia rotta un’altra barriera e nuove applicazioni e scenari si aprono. Diventa sempre più difficile però valutare una risposta e sempre più necessario verificare come è stata prodotta, soprattutto nei modelli con ragionamento

Pubblicato il 23 apr 2025

Antonio Cisternino

Università di Pisa



o3 prova

Nel mondo dell’AI gli annunci si susseguono ad un ritmo frenetico e i nuovi modelli escono a ritmi che a fatica consentono di essere valutati. Dopo pochissimi mesi il modello o3 di OpenAI è stato rilasciato e la sensazione è che si tratti di un nuovo balzo in avanti, non un semplice miglioramento del modello precedente con alcune capacità in più. Non è l’unico, OpenAI ha anche rilasciato il modello o4-mini, un modello più efficiente e meno caro per condurre compiti che richiedono il ragionamento.

Prova di o3, è Agi?

È sempre più difficile valutare questi nuovi modelli, sono mesi ormai che i prompt necessari a testare davvero questi giganti non possono più essere quelli semplici che poco più di due anni fa ci consentivano di meravigliarci al fatto che ad una particolare domanda il modello ci aveva quasi azzeccato. Forse è un po’ presto per grandi annunci ma la prima reazione a quando si prova o3 è quella che Tyler Cowen ha sintetizzato dichiarando che la sua sensazione, in assenza di definizioni formali, è che o3 abbia raggiunto davvero la soglia della cosiddetta AGI.

La posizione di Cowen, sicuramente provocatoria, cattura la sensazione che si tratti di un passo avanti che i semplici benchmark fatichino a catturare, ma la sensazione nell’usare o3 è quella di avere a che fare con tutta un’altra cosa rispetto ai predecessori.

Le capacità di o3 nella nostra prova

Parlare di modelli sta divenendo sempre più difficile, nell’anno degli agenti AI è evidente che il modello rappresenti il pezzo centrale di un sistema più complesso che non si limita a rispondere a prompt. Da un punto di vista tecnico o3 appartiene alla categoria dei modelli che ragionano, attuando la tecnica della chain of thought, ovverosia iterando richieste al modello per spezzettare un ragionamento complesso in passi che aiutano il modello a raggiungere l’obiettivo. Il nuovo o3 è capace di ragionare però non solo sul testo ma anche sulle immagini, aprendo nuovi scenari di impiego, e soprattutto sa usare nel suo ragionamento strumenti esterni, siano essi l’esecuzione di codice o la ricerca di informazioni online.

Per provare le capacità di ragionamento di o3 mi sono avvalso dello screenshot di una partita di Go, gioco notoriamente arduo anche per le macchine. Senza specificare il gioco mi sono limitato a chiedere “Chi sta vincendo e quali strategie si potrebbero seguire?” per rimanere affascinato dal ragionamento e dall’uso degli strumenti per produrre una risposta in poco più di quattro minuti che mi sembra di poter condividere pur non essendo un esperto del gioco.

Giustamente la prima cosa che fa il modello è quella di cercare di leggere lo stato della scacchiera, affronta quindi in primis il problema dell’image processing per individuare gli incroci liberi e la posizione delle pedine bianche e nere.

Per rilevare le posizioni ricorre a codice Python che può essere esaminato nella traccia del ragionamento.

Mi ha decisamente sorpreso quando ha cominciato ad effettuare zoom di parti dell’immagini per capire meglio la struttura della scacchiera, mi sono sentito proiettato in una scena di un film di fantascienza. Colpisce come le valutazioni non si limitino a considerare l’immagine, le scelte sembrano effettuate anche sulla base della conoscenza del gioco e dei suoi vari regolamenti (per cui viene addirittura menzionato il regolamento della Nuova Zelanda).

Il modello cerca quindi di ottenere una rappresentazione simbolica della scacchiera di cui da evidenza rappresentandola testualmente, verificando con vari tentativi che sia il più vicino possibile alla scacchiera. Il risultato non è perfetto, ha infatti classificato erroneamente i bordi.

Gli elementi che ha raccolto consentono una valutazione ragionevole dello stato della scacchiera, ma la cosa notevole è che la possibilità di ispezionare il ragionamento in modo che sia a me comprensibile mi consente di valutare se accettare il risultato oppure integrarlo, magari correggendo gli errori di riconoscimento dei singoli pezzi.

Un aspetto che trovo affascinante del ragionamento è che risulta tremendamente umano: l’uso del codice rende più difficile la classificazione degli elementi di un’immagine con tecniche di analisi per pixel. Certo, una persona magari potrebbe decidere di descrivere la scacchiera invece che scrivere un programma per analizzarla, ma è comunque assolutamente sorprendente ed affascinante, ed anche pericoloso. L’analisi sembra essere corretta e se non si valuta attentamente il ragionamento fatto si rischia di prendere per buono un risultato che non è tale (o lo è ma per la ragioni sbagliate). Ethan Mollick si è ad esempio accorto che a volte o3 durante il ragionamento non usa strumenti ed allucina producendo conclusioni non corrette, ma facendolo notare corregge il ragionamento.

Il modello o3 è decisamente sorprendente sia nel processo di ragionamento sia nel modo con cui ricorre a strumenti esterni per poter raggiungere il proprio obiettivo.

Cosa dicono i benchmark su o3 e o4-mini

Sebbene i benchmark non dicono molto su un modello restano comunque un modo per poter effettuare confronti oggettivi tra modelli, ed ho sempre trovato molto utili i dati che rilascia OpenAI poiché confronta i propri modelli, escludendo quindi il problema di confronti mirati a mostrare la propria superiorità rispetto a modelli di terze parti.

Il modello o3 (senza l’ausilio di strumenti esterni) si rivela più accurato sia del predecessore o1 che della versione o3-mini. Anche il modello o4-mini rilasciato insieme ad o3, una versione meno capace ma decisamente più economica per un modello di ragionamento, supera i predecessori.

È interessante osservare come nel benchmark “Humanity’s Last Exam” i due modelli migliorino significativamente quando usano gli strumenti, a testimoniare come la valutazione del solo modello non sempre caratterizza la reale capacità di un sistema AI. È anche interessante vedere come la tecnica della Deep Research continua ad essere più capace in questo particolare benchmark.

Anche nei confronti multimodali e relativi al codice entrambi i modelli superano il precedente o1 in modo significativo.

Sui costi colpisce come OpenAI stia adottando una metrica simile a quella che ha caratterizzato le CPU per tanto tempo: poiché il nuovo modello è più caro si cerca di argomentare che a parità di compito e di costo si ottengono risultati migliori col nuovo modello. Anche guardando metriche più tradizionali evidenziano comunque una convenienza nell’adozione dei nuovi modelli, ma questo potrebbe cambiare in futuro.

Dopo la prova di o3: i dubbi

Non sono sicuro di condividere l’idea che o3 sia veramente AGI, ma la sensazione nell’uso dei nuovi modelli è che si sia rotta un’altra barriera e nuove applicazioni e scenari si aprono. Diventa sempre più difficile però valutare una risposta e sempre più necessario verificare come è stata prodotta, soprattutto nei modelli con ragionamento.

Questo richiede la diffusione di una cultura diversa da quella che ha caratterizzato i motori di ricerca, con ‘AI dobbiamo sviluppare uno spirito critico e soppesare ogni risposta che otteniamo non pensando che visto che sembra corretta e ben argomentata allora lo sarà, aspetto centrale visto che l’AI sembra ormai superare il Turing test.

EU Stories - La coesione innova l'Italia

Tutti
L'ANALISI
INIZIATIVE
PODCAST
Video&podcast
Analisi
VIDEO&PODCAST
Video & Podcast
Social
Iniziative
INNOVAZIONE
EU Stories | Dalla produzione industriale a fucina di innovazione: come il Polo universitario della Federico II a San Giovanni a Teduccio ha acceso il futuro
L'INIZIATIVA
DNSH e Climate proofing: da adempimento ad opportunità. Spunti e proposte dal FORUM PA CAMP Campania
INNOVAZIONE
EU Stories, il podcast | Laboratori Aperti: riqualificazione e innovazione in 10 città dell’Emilia-Romagna
Da OpenCoesione 3.0 a Cap4City: ecco i progetti finanziati dal CapCoe.  Il podcast “CapCoe. La coesione riparte dalle persone”
Capacità amministrativa e coesione: il binomio vincente per lo sviluppo dei territori
FORUM PA PLAY: come unire sostenibilità e investimenti pubblici. Speciale FORUM PA CAMP Campania
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
INNOVAZIONE
EU Stories | Dalla produzione industriale a fucina di innovazione: come il Polo universitario della Federico II a San Giovanni a Teduccio ha acceso il futuro
L'INIZIATIVA
DNSH e Climate proofing: da adempimento ad opportunità. Spunti e proposte dal FORUM PA CAMP Campania
INNOVAZIONE
EU Stories, il podcast | Laboratori Aperti: riqualificazione e innovazione in 10 città dell’Emilia-Romagna
Da OpenCoesione 3.0 a Cap4City: ecco i progetti finanziati dal CapCoe.  Il podcast “CapCoe. La coesione riparte dalle persone”
Capacità amministrativa e coesione: il binomio vincente per lo sviluppo dei territori
FORUM PA PLAY: come unire sostenibilità e investimenti pubblici. Speciale FORUM PA CAMP Campania
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4