Nel mondo dell’AI gli annunci si susseguono ad un ritmo frenetico e i nuovi modelli escono a ritmi che a fatica consentono di essere valutati. Dopo pochissimi mesi il modello o3 di OpenAI è stato rilasciato e la sensazione è che si tratti di un nuovo balzo in avanti, non un semplice miglioramento del modello precedente con alcune capacità in più. Non è l’unico, OpenAI ha anche rilasciato il modello o4-mini, un modello più efficiente e meno caro per condurre compiti che richiedono il ragionamento.
Indice degli argomenti
Prova di o3, è Agi?
È sempre più difficile valutare questi nuovi modelli, sono mesi ormai che i prompt necessari a testare davvero questi giganti non possono più essere quelli semplici che poco più di due anni fa ci consentivano di meravigliarci al fatto che ad una particolare domanda il modello ci aveva quasi azzeccato. Forse è un po’ presto per grandi annunci ma la prima reazione a quando si prova o3 è quella che Tyler Cowen ha sintetizzato dichiarando che la sua sensazione, in assenza di definizioni formali, è che o3 abbia raggiunto davvero la soglia della cosiddetta AGI.

La posizione di Cowen, sicuramente provocatoria, cattura la sensazione che si tratti di un passo avanti che i semplici benchmark fatichino a catturare, ma la sensazione nell’usare o3 è quella di avere a che fare con tutta un’altra cosa rispetto ai predecessori.
Le capacità di o3 nella nostra prova
Parlare di modelli sta divenendo sempre più difficile, nell’anno degli agenti AI è evidente che il modello rappresenti il pezzo centrale di un sistema più complesso che non si limita a rispondere a prompt. Da un punto di vista tecnico o3 appartiene alla categoria dei modelli che ragionano, attuando la tecnica della chain of thought, ovverosia iterando richieste al modello per spezzettare un ragionamento complesso in passi che aiutano il modello a raggiungere l’obiettivo. Il nuovo o3 è capace di ragionare però non solo sul testo ma anche sulle immagini, aprendo nuovi scenari di impiego, e soprattutto sa usare nel suo ragionamento strumenti esterni, siano essi l’esecuzione di codice o la ricerca di informazioni online.
Per provare le capacità di ragionamento di o3 mi sono avvalso dello screenshot di una partita di Go, gioco notoriamente arduo anche per le macchine. Senza specificare il gioco mi sono limitato a chiedere “Chi sta vincendo e quali strategie si potrebbero seguire?” per rimanere affascinato dal ragionamento e dall’uso degli strumenti per produrre una risposta in poco più di quattro minuti che mi sembra di poter condividere pur non essendo un esperto del gioco.

Giustamente la prima cosa che fa il modello è quella di cercare di leggere lo stato della scacchiera, affronta quindi in primis il problema dell’image processing per individuare gli incroci liberi e la posizione delle pedine bianche e nere.

Per rilevare le posizioni ricorre a codice Python che può essere esaminato nella traccia del ragionamento.

Mi ha decisamente sorpreso quando ha cominciato ad effettuare zoom di parti dell’immagini per capire meglio la struttura della scacchiera, mi sono sentito proiettato in una scena di un film di fantascienza. Colpisce come le valutazioni non si limitino a considerare l’immagine, le scelte sembrano effettuate anche sulla base della conoscenza del gioco e dei suoi vari regolamenti (per cui viene addirittura menzionato il regolamento della Nuova Zelanda).


Il modello cerca quindi di ottenere una rappresentazione simbolica della scacchiera di cui da evidenza rappresentandola testualmente, verificando con vari tentativi che sia il più vicino possibile alla scacchiera. Il risultato non è perfetto, ha infatti classificato erroneamente i bordi.

Gli elementi che ha raccolto consentono una valutazione ragionevole dello stato della scacchiera, ma la cosa notevole è che la possibilità di ispezionare il ragionamento in modo che sia a me comprensibile mi consente di valutare se accettare il risultato oppure integrarlo, magari correggendo gli errori di riconoscimento dei singoli pezzi.
Un aspetto che trovo affascinante del ragionamento è che risulta tremendamente umano: l’uso del codice rende più difficile la classificazione degli elementi di un’immagine con tecniche di analisi per pixel. Certo, una persona magari potrebbe decidere di descrivere la scacchiera invece che scrivere un programma per analizzarla, ma è comunque assolutamente sorprendente ed affascinante, ed anche pericoloso. L’analisi sembra essere corretta e se non si valuta attentamente il ragionamento fatto si rischia di prendere per buono un risultato che non è tale (o lo è ma per la ragioni sbagliate). Ethan Mollick si è ad esempio accorto che a volte o3 durante il ragionamento non usa strumenti ed allucina producendo conclusioni non corrette, ma facendolo notare corregge il ragionamento.
Il modello o3 è decisamente sorprendente sia nel processo di ragionamento sia nel modo con cui ricorre a strumenti esterni per poter raggiungere il proprio obiettivo.
Cosa dicono i benchmark su o3 e o4-mini
Sebbene i benchmark non dicono molto su un modello restano comunque un modo per poter effettuare confronti oggettivi tra modelli, ed ho sempre trovato molto utili i dati che rilascia OpenAI poiché confronta i propri modelli, escludendo quindi il problema di confronti mirati a mostrare la propria superiorità rispetto a modelli di terze parti.
Il modello o3 (senza l’ausilio di strumenti esterni) si rivela più accurato sia del predecessore o1 che della versione o3-mini. Anche il modello o4-mini rilasciato insieme ad o3, una versione meno capace ma decisamente più economica per un modello di ragionamento, supera i predecessori.
È interessante osservare come nel benchmark “Humanity’s Last Exam” i due modelli migliorino significativamente quando usano gli strumenti, a testimoniare come la valutazione del solo modello non sempre caratterizza la reale capacità di un sistema AI. È anche interessante vedere come la tecnica della Deep Research continua ad essere più capace in questo particolare benchmark.

Anche nei confronti multimodali e relativi al codice entrambi i modelli superano il precedente o1 in modo significativo.

Sui costi colpisce come OpenAI stia adottando una metrica simile a quella che ha caratterizzato le CPU per tanto tempo: poiché il nuovo modello è più caro si cerca di argomentare che a parità di compito e di costo si ottengono risultati migliori col nuovo modello. Anche guardando metriche più tradizionali evidenziano comunque una convenienza nell’adozione dei nuovi modelli, ma questo potrebbe cambiare in futuro.


Dopo la prova di o3: i dubbi
Non sono sicuro di condividere l’idea che o3 sia veramente AGI, ma la sensazione nell’uso dei nuovi modelli è che si sia rotta un’altra barriera e nuove applicazioni e scenari si aprono. Diventa sempre più difficile però valutare una risposta e sempre più necessario verificare come è stata prodotta, soprattutto nei modelli con ragionamento.
Questo richiede la diffusione di una cultura diversa da quella che ha caratterizzato i motori di ricerca, con ‘AI dobbiamo sviluppare uno spirito critico e soppesare ogni risposta che otteniamo non pensando che visto che sembra corretta e ben argomentata allora lo sarà, aspetto centrale visto che l’AI sembra ormai superare il Turing test.