Arrivano due nuovi attori di intelligenza artificiale sulla scena, o3 e o4-mini, i nuovi modelli della serie “o” di OpenAI. Il loro ruolo? Aiuteranno un mucchio altre persone a sentire in modo diverso la conversazione con ChatGPT: non più un dialogo uomo-macchina, ma un confronto tra colleghi.
Qualcuno già lo sente così. Quando chiede di analizzare uno schizzo fotografato al volo, oppure di scrivere lo script che pulisce un database e di inserirne il risultato in un foglio di calcolo.
Oppure quando si carica un file di un progetto di analytics contenente modello dati, logica di business, report — e si ricevono risposte come se fosse la cosa più naturale al mondo.
Indice degli argomenti
o3 e o4-mini: particolarità
Con i modelli o3 e o4 mini la vera sorpresa non sta nella risposta finale, ma nel modo in cui i modelli ci arrivano.
Durante il proprio flusso di pensiero, possono autonomamente attivare strumenti come la web search, una sessione Python, la rotazione di un’immagine o l’estrazione di testo da un PDF — senza che l’utente debba orchestrare nulla.
Questo uso strumentale del ragionamento diventa un moltiplicatore: trasforma il paradigma degli LLM da “ciò che so” a “ciò che so fare adesso”, adattando ogni passaggio al problema concreto.
Il risultato di questo approccio si riflette anche nelle analisi eseguite tramite diversi benchmark.
o3
o3 ha saturato la nuova SEAL (Systematic Evaluation of Artificial Learners) leaderboard, piazzandosi al primo posto in categorie chiave come HLE, Multichallenge a turni multipli, MASK (“onestà sotto pressione”) ed ENIGMA (risoluzione di puzzle).
Si tratta di prove che misurano non la memoria del dataset, ma la capacità di ragionare sotto vincoli. Con i test citati si misurano la capacità del modello di suddividere compiti complessi in sottotask e portarli a termine con un alto livello di astrazione (ad esempio: “Organizza una presentazione tecnica” prevede raccolta dati, generazione slide, creazione script di esposizione, ecc.); si simulano scenari interattivi e dinamici, dove il modello deve mantenere il contesto tra più turni, come in una conversazione o in un gioco a tappe; si misura quanto il modello mantiene accuratezza e veridicità anche in condizioni complesse o ambigue, dove potrebbe essere incentivato (implicitamente) a “indovinare” o rispondere con eccessiva sicurezza; si valutano le abilità logiche e deduttive del modello: risoluzione di enigmi, pattern recognition, ragionamenti a catena.
Ha anche superato le prestazioni umane medie sull’ARC AGI (AI Research Center AGI Benchmark), toccando l’87,5% contro l’85% stimato per i partecipanti umani.
Basato sull’ARC (Abstraction and Reasoning Corpus), propone problemi logici visivi in cui il modello deve capire la regola implicita dietro a una trasformazione e applicarla a nuovi casi.
Questo non significa che abbiamo raggiunto l’AGI (Artificial General Intelligence, ovvero Intelligenza Artificiale Generale), ma indica che la frontiera tra competenza specialistica e intelligenza artificiale si sta spostando più in fretta di quanto pensassimo solo un anno fa.
o4 mini
Anche o4 mini, pur avendo una potenza computazionale inferiore rispetto a o3, eredita molte delle stesse capacità chiave: reasoning multimodale, uso razionale degli strumenti, ragionamento in loop.
È pensato per essere più leggero, più efficiente e più economico, mantenendo performance di alto livello in contesti reali — ed è già disponibile all’interno del tier gratuito di ChatGPT.
Questo rende l’accesso all’IA avanzata ancora più inclusivo e diffuso, abbattendo ulteriormente le barriere all’adozione.
In molti scenari pratici, come la generazione di codice, l’analisi di dati visivi o l’assistenza nella scrittura, o4 mini si comporta in modo sorprendentemente vicino al fratello maggiore, dimostrando che intelligenza non significa necessariamente grandezza.
Molto interessante il fatto che entrambi i modelli “pensino” con le immagini.
Un diagramma, un grafico incollato in chat o la foto di un macchinario diventano variabili dentro al ciclo di ragionamento: il modello può misurare distanze in pixel, applicare filtri o ricampionare l’immagine con Python prima di rispondere.
Non si limita a descrivere ciò che vede — lo manipola per capirlo meglio.
Memoria a lungo termine in chatgpt
Un’altra novità è la memoria di lungo periodo integrata in ChatGPT.
o3 può riconoscere preferenze esplicite — il tono di voce che si ama nei testi, l’ambito in cui si lavora, i progetti in corso — e usarle per personalizzare le conversazioni e l’esperienza d’uso.
Si riduce così quel rituale (fastidioso) del “dover spiegare tutto da capo”, che rallentava la fluidità delle versioni precedenti.
La memoria resta sotto controllo dell’utente: può essere disattivata o cancellata in ogni momento, ma quando attiva rende l’interazione sorprendentemente naturale.
Il loop del ragionamento
OpenAI descrive o3 come “deep research lite”: possiamo affidargli un incarico, tornare dopo un po’ e trovare un lavoro completo, con fonti verificate e tabelle pronte per la revisione.
La novità più profonda, forse il vero passaggio chiave, è che il modello ragiona in loop:
- se un’iterazione non basta, la riscrive;
- se un dato appare dubbio, lo confronta con un’altra fonte;
- se manca una visualizzazione, la genera.
È l’evoluzione concreta del concetto di agente IA: percepire, pianificare, agire, valutare, ripetere.
Nelle note tecniche, OpenAI insiste su due leve fondamentali:
- lo scaling dell’inferenza, cioè più calcolo dedicato al ragionamento in tempo reale;
- lo scaling del reinforcement learning, con più iterazioni di feedback umano che sollevano l’intera curva compute vs. intelligence.
I risultati di o3 e o4 mini dimostrano che le due scale non si escludono, ma si potenziano a vicenda — e lasciano intendere che c’è ancora margine di crescita.
I limiti dei modelli di ragionamento come o3 e o4 mini
Molti commentatori hanno salutato questi modelli come la “soluzione definitiva” alla matematica, per la loro scioltezza in algebra, calcolo e programmazione simbolica.
È vero: nei test interni risolvono Sudoku esperti e dimostrano teoremi di media difficoltà.
Ma non scrivono ancora articoli accademici complessi né vincono da soli le Olimpiadi Internazionali (anche se, forse, già ora potrebbero piazzarsi sul podio).
Il progresso è notevole, ma la strada è ancora aperta.
Si abbassa il costo
Dal punto di vista dello sviluppo, OpenAI ha già reso disponibili i modelli anche via API, permettendo a chi sviluppa di sperimentare l’integrazione di tool multipli in una singola chiamata.
Il costo d’ingresso per progetti AI diminuisce, mentre la qualità media delle risposte sale: un invito implicito a ripensare flussi di lavoro e prodotti digitali.
L’esperienza utente passa da “prompt → risposta” a “brief → processo completo”, con un modello che mostra come ragiona, non solo dice cosa pensa.
O3 e vicino all’AGI?
Interessante notare che, quando gli ingegneri di OpenAI hanno visto o3 all’opera, hanno ammesso di aver sentito, per la prima volta, la tentazione di usare la parola AGI.
Un segnale forte — non perché il traguardo sia già raggiunto, ma perché l’orizzonte appare meno nebuloso.
Se un modello può usare strumenti, ragionare su immagini, tenere memoria delle nostre preferenze e farlo in pochi secondi, allora il futuro non è più un concetto astratto: è un prototipo funzionante.
Grazie a trasparenza nel processo, governo del rischio e utilità concreta per le persone, l’IA è sempre più un partner capace di imparare, collaborare e apprendere.