intelligenza artificiale

OpenAI o3: è salto epocale nell’AI, ecco perché

Home Industry 4.0/Innovazione in azienda

Il nuovo modello o3 di OpenAI sta dimostrando che un’intelligenza artificiale può apprendere e generalizzare in modo simile agli esseri umani. Può affrontare problemi complessi senza essere specificamente addestrata per farlo. E’ un grosso passo avanti nelle capacità di “pensiero” e ragionamento. Ma il problema delle allucinazioni non è risolto. La nostra analisi

Pubblicato il 22 dic 2024

Andrea Benedetti

Senior Cloud Architect Data & AI, Microsoft

L’annuncio di o3, il nuovo modello di intelligenza artificiale di OpenAI evoluzione di o1 e per ora disponibile solo a un gruppo limitato di tester, segna un punto di svolta epocale.

Questo non è semplicemente un aggiornamento incrementale rispetto ai modelli precedenti, ma un cambiamento radicale nelle capacità dell’AI. Con risultati che sembrano impossibili, o3 ridefinisce ciò che riteniamo possibile per un’intelligenza artificiale, spingendo la frontiera del ragionamento, della programmazione e della matematica molto più in là.

OpenAI Launches A New Model O3 - Shipmas Live Stream - Day 12! & Sam Altman on Free Press

Guarda questo video su YouTube

Ma, onestamente, credo che ciò che rende o3 davvero straordinario non siano solo i numeri: è il ritmo con cui questo progresso è stato raggiunto, in un ambito dove ci aspettavamo che le sfide più difficili sarebbero rimaste insormontabili ancora per lungo tempo.

La scelta di saltare il nome “o2” per evitare conflitti con marchi registrati, non è comunque solo una questione di branding: a mio avviso simboleggia (e sottolinea) anche un’evoluzione significativa rispetto al modello precedente.

Indice degli argomenti

OpenAI o3, cos’è e com’è nata

Il nome “o3” si lega alla piattaforma Orion, un nuovo sistema di generazione di dati sintetici utilizzato per addestrare il modello. Questa tecnica, già dimostrata efficace da Microsoft con il modello Phi-4, che ha gettato le basi per il tipo di innovazione che vediamo oggi con o3 e ha permesso a questo modello appena presentato di raggiungere capacità che sembravano impossibili solo pochi mesi fa.

Dati sintetici

I dati sintetici sono informazioni generate artificialmente da algoritmi, piuttosto che raccolte direttamente dal mondo reale. Questi dati sono creati per simulare informazioni realistiche e possono essere utilizzati per addestrare modelli di intelligenza artificiale in modo più efficace.

Perché sono utili?

Ampiezza dei dati: I dati sintetici possono essere generati in quantità enormi, superando i limiti delle raccolte di dati reali.
Varietà: Possono includere scenari rari o specifici che difficilmente si verificano nel mondo reale, ma che sono cruciali per l’addestramento di un modello.
Riduzione dei bias: Consentono di bilanciare dataset sbilanciati, evitando che i modelli sviluppino pregiudizi.
Privacy: Non essendo collegati a persone o entità reali, i dati sintetici eliminano i problemi di privacy e conformità normativa.

O3: apprendimento di rinforzo ed errori

OpenAI ha costruito il suo nuovo sistema utilizzando il cosiddetto “apprendimento per rinforzo”. Attraverso questo processo, un sistema può apprendere un comportamento attraverso prove ed errori. Lavorando su vari problemi di matematica, ad esempio, può imparare quali tecniche portano alla risposta giusta e quali no. Se ripete questo processo con un numero molto elevato di problemi, può identificare degli schemi.

Il sistema è progettato per “pensare” ai problemi. Cerca di scomporre il problema in pezzi e di trovare modi per risolverlo, il che può richiedere una quantità di potenza di calcolo molto maggiore di quella necessaria per i normali chatbot. Questo può anche essere costoso, come si è visto con o1.

Errori e limiti

Sebbene sistemi come o3 siano progettati per ragionare, si basano sulla stessa tecnologia di base del ChatGPT originale. Ciò significa che possono ancora sbagliare o avere allucinazioni.

I ricercatori di Apple hanno recentemente pubblicato un documento che sostiene che i modelli di ragionamento, comprese le versioni di o1, molto probabilmente imitavano i dati che vedevano durante l’addestramento piuttosto che risolvere effettivamente nuovi problemi.

I ricercatori di Apple hanno dichiarato di aver riscontrato “cali di prestazioni catastrofici” se le domande venivano modificate per includere dettagli irrilevanti, come ad esempio la modifica di un problema di matematica sui kiwi per notare che alcuni frutti erano più piccoli di altri.

Redazione

Costi e disponibilità

All’inizio del mese OpenAI ha iniziato a vendere OpenAI o1 a privati e aziende. Rivolto ai professionisti, ha un prezzo di 200 dollari al mese nel pacchetto ChatGpt Pro.

Probabilmente anche o3 sarà disponibile in questa forma, l’anno prossimo. Da notare la presenza anche della versione o3 mini, dove è possibile regolare tre livelli di tempo-costo di ragionamento.

Arc-Ai e o3: perché l’AI ragiona

ARC-AGI (Advanced Reasoning Challenge for AGI) è un benchmark progettato per testare la capacità di un’AI di adattarsi a problemi completamente nuovi. Ogni test è unico e richiede capacità di ragionamento e generalizzazione, abilità che fino a poco tempo fa erano considerate dominio esclusivo degli esseri umani.

Perché un test di questo tipo è difficile per un’IA tradizionale?

Unicità: Ogni test è unico e non può essere risolto tramite semplici correlazioni statistiche o dati visti durante l’addestramento
Ragionamento astratto: Il modello deve capire la logica dietro il pattern, non solo replicare qualcosa di familiare
Zero-shot learning: Il modello deve ragionare “da zero” senza esempi precedenti o contesto addestrato

Un esempio lampante della rivoluzione portata da o3 è proprio relativo a questo benchmark. Progettato per esaminare la capacità di adattamento a problemi nuovi e complessi, per quanto spiegato poco sopra, ARC-AGI rappresenta uno dei test più difficili per un’intelligenza artificiale.

2019: GPT-2 ottenne uno 0% su ARC-AGI
2020-2023: I modelli successivi, inclusi GPT-3 e GPT-4, si fermarono a risultati compresi tra lo 0% e il 5%
2024 (o1 e o1-pro): Le prestazioni salirono fino al 50%, un miglioramento notevole ma ancora lontano dall’eccellenza
2024 (o3): Un balzo epocale, straordinario, all’87,5%, superando persino le performance umane in molti contesti

In soli quattro anni siamo passati da 0% a 5% e poi, in un solo anno, dal 5% all’87%.

Questo ritmo di progresso è semplicemente senza precedenti e, per certi aspetti, assolutamente inaspettato. Da oggi sono in molti, quando un tempo pensavano che ARC-AGI avrebbe resistito alle AI per anni, a riconoscere che siamo “semplicemente” di fronte a un salto generazionale.

Molti esperti stanno paragonando il rilascio di o3 al “momento AlexNet”, che nel 2012 ha dimostrato il potenziale rivoluzionario del deep learning per il riconoscimento delle immagini. Tuttavia, o3 non si limita a ripetere quel tipo di svolta: è un segnale che la sintesi di programmi sta entrando nel regno dell’intelligenza concettuale.

Possiamo dire che, tipicamente, la sintesi di programmi è stata vista come un problema estremamente difficile, che richiede capacità di ragionamento umano. Questo perché implica non solo la capacità di scrivere codice o eseguire istruzioni, ma anche di capire il contesto, dedurre le regole sottostanti e adattarsi a nuove situazioni. Ad esempio, sintetizzare un programma può significare generare automaticamente soluzioni algoritmiche per problemi mai visti prima, basandosi su obiettivi e vincoli forniti in linguaggio naturale o in forma astratta.

Thinking Mode di Gemini 2.0 Flash

Anche Google lavora a un modello di reasoning, con la Thinking Mode di Gemini 2.0.

La “modalità di pensiero” di Gemini 2.0 Flash è un modello sperimentale addestrato per generare il “processo di pensiero ” che il modello segue nell’ambito della sua risposta. Di conseguenza, la modalità di pensiero è in grado di offrire risposte con capacità di ragionamento più avanzate rispetto al modello di base Gemini 2.0 Flash.

La modalità di pensiero è disponibile come modello sperimentale in Google AI Studio e per l’utilizzo diretto nell’API Gemini.

Redazione

o3 sta dimostrando che un’intelligenza artificiale può apprendere e generalizzare in modo simile agli esseri umani, affrontando problemi complessi senza essere specificamente addestrata per farlo (zero-shot learning: una tecnica di apprendimento automatico in cui un modello è in grado di svolgere un compito su categorie o concetti mai visti durante l’addestramento, utilizzando conoscenze pregresse o descrizioni testuali).

Questo significa che, invece di replicare schemi o dati visti durante l’addestramento, o3 è in grado di ‘ragionare’ attraverso un approccio chiamato ‘chain-of-thought’, testando e valutando diverse strategie per arrivare a una soluzione ottimale.

Questo metodo consente al modello di affrontare i problemi in modo più simile al ragionamento umano, suddividendo la soluzione in una sequenza di passaggi logici. Invece di limitarsi a generare una risposta diretta, o3 esplora diverse strategie di risoluzione, valuta le implicazioni di ogni scelta e sceglie la strada migliore per raggiungere un risultato ottimale.

L’AI che ragiona: ecco la prossima svolta evolutiva

Per esempio, se si chiedesse a o3 di scrivere un algoritmo per risolvere un puzzle logico completamente nuovo, il modello potrebbe non solo produrre codice corretto, ma anche spiegare il ragionamento dietro ogni decisione. Questo è un salto qualitativo rispetto ai modelli tradizionali, che si basano su correlazioni o pattern predefiniti. o3, al contrario, dimostra una capacità di adattamento e comprensione del problema che prima era ritenuta esclusiva dell’intelligenza umana.

O3, casi d’uso

Proviamo a fare due esempi estremamente differenti tra loro.

Scenario 1: diagnosi medica

Immaginiamo di fornire a o3 una descrizione complessa di sintomi clinici: “Il paziente ha febbre alta, dolori articolari, eruzioni cutanee e ha fatto un recente viaggio in una zona tropicale.”

o3 potrebbe:

Identificare che i sintomi indicano un possibile quadro di malattie infettive
Esaminare fattori geografici per restringere le opzioni a malattie tropicali (ad esempio, febbre dengue o malaria)
Analizzare ulteriori dettagli specifici, come l’eruzione cutanea, per suggerire una diagnosi primaria (es. febbre dengue)
Fornire una spiegazione della diagnosi e raccomandare i test diagnostici da eseguire per confermare il sospetto

Scenario 2: assistenza finanziaria

Un investitore fornisce i seguenti dettagli: “Vorrei un portafoglio che minimizzi il rischio ma mantenga un rendimento annuale del 7%. Sono disposto a investire in azioni, obbligazioni e ETF sostenibili.”

o3 potrebbe:

Suddividere il problema in componenti: identificare il profilo di rischio, calcolare la combinazione di asset appropriata e considerare gli ETF sostenibili.
Analizzare i dati di mercato più recenti per trovare gli asset che soddisfano i criteri dell’investitore.
Simulare diverse allocazioni di portafoglio e valutare il rendimento atteso e il rischio associato.
Presentare il portafoglio ottimale con spiegazioni dettagliate per ogni scelta, come “Questo ETF riduce la volatilità e ha un rendimento previsto del 7,2%.

Il cambiamento che porta o3 rappresenta un passo significativo verso ciò che François Chollet, nel suo influente paper del 2019 ‘On the Measure of Intelligence’, ha definito come ‘generalizzazione consapevole dello sviluppatore‘.

Fu proprio in quel lavoro, che Chollet introdusse il benchmark ARC-AGI per valutare le capacità di un’intelligenza artificiale di affrontare problemi nuovi e complessi. Questo benchmark riflette la visione secondo cui un sistema intelligente dovrebbe essere in grado di comprendere e risolvere problemi mai visti prima, proprio come farebbe uno sviluppatore umano esperto, adattandosi al contesto e deducendo regole implicite.

Vantaggi pratici di o3

Automazione di compiti complessi: in ambiti come la robotica avanzata, o3 potrebbe essere utilizzato per affrontare scenari imprevisti. Ad esempio, un robot in un magazzino potrebbe incontrare ostacoli non standard e calcolare un percorso alternativo senza input umano.
Ricerca e innovazione: In settori come la scienza dei materiali, o3 potrebbe analizzare dati sperimentali e formulare ipotesi su nuovi materiali o processi, adattandosi a esperimenti unici e non standardizzati.
Supporto decisionale: nel management strategico, o3 può fornire analisi e consigli su problemi complessi, come l’ottimizzazione della catena di approvvigionamento in condizioni di mercato imprevedibili.

Il ragionamento

Uno degli aspetti più rivoluzionari di o3 è la sua capacità di adottare un approccio noto come ‘chain-of-thought’, o ‘catena di pensiero’.

In breve, questo metodo consente al modello di:

Valutare più strategie di soluzione per un problema.
Scegliere la migliore, simulando un ragionamento simile a quello umano.

Questa capacità non è solo teorica: si traduce in applicazioni pratiche che ridefiniscono cosa un’AI può fare.

Per esempio:

Nell’ingegneria del software, o3 può generare codice in modo più efficace di qualsiasi modello precedente.
In matematica avanzata, può risolvere problemi complessi che richiedono sia competenze teoriche che pratiche.
Nel ragionamento generale, dimostra un’abilità sorprendente di adattarsi a nuovi contesti, superando persino le performance umane in alcuni casi.

Perché Questo è Così Importante?

ARC-AGI è un benchmark unico: ogni test è progettato per essere impossibile da “pre-apprendere”. Ogni problema richiede capacità di adattamento, ragionamento e generalizzazione, qualità che finora erano considerate dominio esclusivo degli esseri umani.

Il fatto che o3 abbia non solo migliorato, ma letteralmente demolito i limiti precedenti, dimostra:

La potenza del ragionamento AI avanzato: o3 utilizza l’approccio che gli consente di valutare più soluzioni a un problema e scegliere la migliore
Che non siamo nemmeno vicini a un limite superiore: Le prestazioni di o3 dimostrano che il potenziale dei modelli di intelligenza artificiale è molto più ampio di quanto avessimo immaginato fino a qualche giorno fa

Frontier Math Benchmark di EpochAI

Un altro risultato straordinario di o3 riguarda il Frontier Math Benchmark di EpochAI, un test progettato per misurare la capacità di affrontare problemi matematici estremamente complessi.

Questo benchmark include quesiti che richiedono una combinazione di competenze teoriche avanzate, intuizione e strumenti di calcolo sofisticati per essere risolti. Si tratta di sfide così impegnative che, nella maggior parte dei casi, persino esperti altamente qualificati faticherebbero ad affrontarle senza supporto tecnologico.

Il fatto che o3 abbia ottenuto risultati eccezionali su questo benchmark dimostra una capacità di ragionamento e adattamento che va ben oltre ciò che ci si aspettava da un’intelligenza artificiale.

Prima di o3: I migliori modelli AI raggiungevano appena il 2%.
Con o3: Il punteggio è salito al 25,2%.

Con il punteggio ottenuto, o3 non solo ha risolto problemi considerati impossibili, ma ha dimostrato che la combinazione di dati sintetici e ragionamento avanzato può superare anche le aspettative più ottimistiche.

Risolvere un quarto di questi problemi equivale a un livello di competenza eccezionale, degno di un esperto di livello accademico avanzato. Questo non è solo un miglioramento tecnico: è una dimostrazione concreta e tangibile di come un’AI possa affrontare compiti concettualmente complessi.

Vantaggi Pratici

Fisica e Ingegneria: o3 potrebbe supportare la modellazione di fenomeni fisici complessi, come la simulazione del comportamento dei materiali o l’ottimizzazione di processi ingegneristici.
Finanza Quantitativa: Risolvendo equazioni complesse, o3 potrebbe migliorare i modelli di previsione del mercato, ottimizzare portafogli di investimento o calcolare rischi complessi in tempo reale.
Scoperte Scientifiche: o3 potrebbe essere utilizzato per risolvere problemi matematici fondamentali in biologia computazionale o astrofisica, accelerando la ricerca in discipline avanzate.

Altri benchmark

Oltre ad ARC-AGI e Frontier Math, o3 ha stabilito nuovi standard in molti altri benchmark:

SWE-Bench Verified: 71,7% – Un risultato che ridefinisce l’ingegneria del software
AIME 2024: 96,7% – Quasi perfetto in uno degli esami matematici più difficili al mondo
Codeforces: 2727 ELO – Un punteggio che colloca o3 nel 99,95° percentile tra i migliori programmatori competitivi

SWE-Bench Verified (Software Engineering Benchmark Verified) è un test progettato per valutare le capacità di un modello AI nell’ambito dell’ingegneria del software. Questo benchmark si concentra su attività che simulano compiti tipici del lavoro di un ingegnere del software, come:

Scrivere codice corretto ed efficiente
Debuggare codice con errori
Comprendere requisiti tecnici e tradurli in soluzioni implementabili

Il risultato del 71,7% ottenuto da o3 dimostra una capacità senza precedenti nel gestire compiti che richiedono una combinazione di conoscenze tecniche, logica e capacità di generalizzazione. Questo punteggio segna un miglioramento significativo rispetto ai modelli precedenti, suggerendo che l’AI sta diventando sempre più autonoma ed efficace nello sviluppo del software.

L’AIME (American Invitational Mathematics Examination) è uno degli esami di matematica più prestigiosi e difficili al mondo, progettato per studenti delle scuole superiori che si distinguono nei concorsi matematici preliminari. Gli argomenti coprono:

Algebra
Teoria Combinatoria
Geometria

Il test AIME è noto per avere domande a risposta breve numerica (ad esempio, inserire un numero come risposta, senza scelte multiple), rendendo la risoluzione particolarmente impegnativa.

Il risultato di o3, 96,7%, indica che il modello ha risolto quasi tutte le domande, dimostrando non solo un’eccellenza computazionale ma anche un’eccezionale capacità di comprensione e ragionamento matematico.

È indubbio che questo livello di prestazione sia paragonabile a quello degli studenti più talentuosi a livello globale.

Codeforces è una piattaforma di competizioni di programmazione, utilizzata da programmatori di tutto il mondo per mettere alla prova le loro abilità algoritmiche.

Durante le competizioni, i partecipanti affrontano problemi che richiedono:

Progettazione di algoritmi efficienti
Ottimizzazione delle soluzioni
Debugging veloce

Ogni partecipante riceve un punteggio ELO basato sulla loro performance rispetto agli altri concorrenti. Il punteggio 2727 ELO ottenuto da o3 lo colloca nel 99,95° percentile, rendendolo superiore alla maggior parte dei programmatori umani, inclusi molti esperti. Questo risultato è la dimostrazione che o3 è in grado di affrontare problemi algoritmici complessi in modo rapido ed efficace.

Prossimi passi

Uno degli aspetti più rivoluzionari di o3 è che sfida ogni convinzione precedente sull’intelligenza artificiale:

“Il progresso è finito”: o3 dimostra che siamo lontani dall’aver raggiunto un limite
“Gli LLM non possono ragionare”: Con o3, vediamo un’intelligenza artificiale in grado di risolvere problemi complessi con un ragionamento simile a quello umano
“La scala è inutile”: o3, basato su un’architettura scalabile, prova che il potenziale della crescita è ancora immenso

Nonostante i suoi successi, o3 non è (per ovvie ragioni di tempo) ancora perfetto:

Efficienza computazionale: La configurazione high-compute di o3 richiede 172 volte più risorse rispetto alla modalità low-compute. Ridurre questo costo sarà essenziale per renderlo scalabile
Sicurezza: OpenAI sta conducendo rigorosi test, inclusi processi di red teaming con esperti esterni, per garantire che o3 sia sicuro da utilizzare

Il red teaming è una pratica comune in ambiti come la sicurezza informatica, l’intelligence e, più recentemente, lo sviluppo di modelli di intelligenza artificiale.

Si tratta di mettere alla prova un sistema o una tecnologia simulando scenari critici e/o potenziali abusi per identificarne vulnerabilità e rischi. L’obiettivo è anticipare eventuali problemi prima che il sistema venga rilasciato al pubblico.

Nel contesto di o3, il red teaming include:

Simulazione di scenari di abuso: Esperti esterni cercano intenzionalmente di manipolare o sfruttare il modello per ottenere risposte dannose o inaspettate (per fare un esempio: incitamento all’odio, disinformazione o violazioni della privacy)
Test di robustezza: Viene valutata la capacità del modello di rispondere correttamente a domande malformulate, ambigue o progettate per confonderlo
Valutazione dei bias: Gli esperti analizzano se o3 mostra pregiudizi ingiustificati basati su genere, etnia, religione o altre caratteristiche sensibili
Sicurezza e affidabilità: Si verificano le prestazioni del modello in condizioni critiche o impreviste, assicurandosi che non dia risposte pericolose o non etiche

Le implicazioni di o3 sono senza dubbio enormi e rappresentano un progresso straordinario nel campo dell’intelligenza artificiale.

Questo modello non è solo un assistente: è uno strumento concettuale che può affrontare progetti complessi in settori come:

Scienza: Accelerando la ricerca e risolvendo problemi teorici complessi.
Sanità: Analizzando dati clinici e sviluppando nuove strategie terapeutiche.
Finanza: Creando modelli predittivi avanzati per la gestione del rischio e l’ottimizzazione degli investimenti.

o3 non è solo un momento rivoluzionario per la programmazione: è una nuova finestra sul futuro dell’AI. Sta spostando il focus da semplici compiti computazionali a intelligenza concettuale, dove l’AI non si limita a risolvere problemi, ma comprende le basi logiche e semantiche sottostanti.

Dalla presentazione del modello, sono già moltissimi gli esperti che vedono in o3 un passo concreto verso l’Artificial General Intelligence (AGI), un’intelligenza capace di affrontare qualsiasi compito intellettuale. Tuttavia, come ha sottolineato Sam Altman, CEO di OpenAI, l’AGI non è un obiettivo binario: “l’abbiamo raggiunta si / no”.

È più utile considerarla come uno spettro, in cui o3 si avvicina sempre più alla “generalizzazione” tipica dell’intelligenza umana.

Non siamo ancora di fronte alla piena AGI, ma sicuramente questo è un passo concreto verso un’intelligenza artificiale che non si limita a imitare gli esseri umani, ma li affianca nel costruire il futuro.

Altman ha dichiarato che entro il 2025 vedremo modelli di AI in grado di “eseguire compiti cognitivi davvero sorprendenti” e di apparire più intelligenti degli esseri umani in molti problemi complessi.

Sebbene o3 non sia ancora AGI, si avvicina sempre più a una intelligenza generalizzata in grado di adattarsi a contesti completamente nuovi.

Perché è una nuova era

Con o3, OpenAI non ha solo sta raggiungendo nuovi traguardi: ha aperto la strada a una nuova era dell’intelligenza artificiale. Dal ragionamento avanzato alla risoluzione di problemi matematici complessi, questo modello ridefinisce ciò che l’AI può fare e apre la porta a possibilità che fino a ieri sembravano irraggiungibili.

L’incredibile salto (come detto sopra, dall’0% all’87% su ARC-AGI in meno di cinque anni) dimostra che siamo solo agli inizi. Non stiamo solo assistendo a un progresso tecnologico: stiamo partecipando alla nascita di una nuova rivoluzione.

Senza dubbio, questa è un’epoca in cui il cambiamento sta accadendo più velocemente che mai, e credo che il punto da tenere in considerazione sia – nella realtà – molto semplice: siamo tutti invitati a farne parte.

@RIPRODUZIONE RISERVATA