l’evoluzione

OpenAI o3, verso l’IA generale: la svolta che cambia tutto



Indirizzo copiato

L’approccio innovativo di o3 combina conoscenze pregresse in modo originale, simile al ragionamento umano. Generando soluzioni dinamiche durante i test, o3 dimostra una maggiore adattabilità, avvicinandosi al concetto di intelligenza fluida

Pubblicato il 15 gen 2025

Andrea Benedetti

Senior Cloud Architect Data & AI, Microsoft



intelligenza artificiale, claude ai, computer use (1)

OpenAI ha recentemente presentato il suo modello o3, stabilendo un nuovo riferimento nelle capacità di generalizzazione dell’AI.

o3 supera i limiti tradizionali grazie alla capacità di adattarsi a compiti nuovi e complessi. Utilizzando programmi linguistici naturali, avvicina l’AI all’intelligenza fluida e all’intelligenza artificiale generale.

Il punteggio di o3 sul benchmark ARC-AGI-1

Sul benchmark ARC-AGI-1, progettato per valutare l’adattabilità a nuovi compiti, il nuovo modello ha raggiunto un punteggio del 75.7% sfruttando una modalità ad alta efficienza, con un limite di costo di 10 mila dollari. Un’altra configurazione ha toccato l’87.5% utilizzando 172 volte più risorse computazionali rispetto alla configurazione standard.

Entrambi i test sono stati fatti tramite una “Semi-Private Evaluation”: alcuni dei compiti inclusi in questo set sono noti pubblicamente, mentre altri sono mantenuti privati per evitare che i modelli possano essere ottimizzati specificamente per quei test.

Lo scopo è quello di misurare l’adattabilità e la generalizzazione del modello su un insieme di compiti che non sono direttamente collegati ai dati di addestramento. È particolarmente utile per valutare la capacità di un modello di risolvere problemi inediti.

La high-compute o3 configuration utilizzata per la seconda valutazione dei test si riferisce a una configurazione del modello o3 che utilizza una quantità molto elevata di risorse computazionali per ottenere prestazioni migliori.

Questa configurazione utilizza un numero molto maggiore di “campioni” (samples) e “token” per ogni compito. Nel caso specifico, 1024 samples e miliardi di token, contro 6 samples nella configurazione standard.

Questa configurazione, non ancora applicabile nella realtà di tutti i giorni a causa dei costi elevati, ha consentito un’analisi più approfondita dello spazio delle soluzioni, incrementando le probabilità di trovare risposte ottimali.

Nella tabella riassumo le principali differenze tra le due configurazioni utilizzate per i test:

CaratteristicaConfigurazione standardHigh-compute configuration
Samples61024
Tokens usati33M5.7B
Punteggio Semi-Private Eval75.7%87.5%
Costo computazionale$10.000 o menoMolto superiore ($$$)
Idoneità per ARC-AGI-PubNo

Cosa rende o3 unico

Cosa rende o3 unico?
L’approccio tradizionale di “memorization and execution” è un paradigma tipico dei modelli di linguaggio come GPT-3 o GPT-4, ed è basato principalmente sull’apprendimento e sulla riproduzione di schemi osservati durante l’addestramento.

Proviamo a spiegarlo nel dettaglio.

Memorization

  • Acquisizione delle informazioni dai dati di addestramento: Durante il training, i modelli analizzano enormi quantità di dati (testo, codice, ecc.), costruendo rappresentazioni statistiche delle correlazioni tra parole, frasi e contesti. È il processo attivo di apprendimento
  • Memorizzazione di schemi operativi: Questi modelli immagazzinano schemi operativi, cioè strutture logiche o pattern ricorrenti, appresi dai dati di addestramento. Questi schemi sono rappresentati matematicamente come relazioni tra i token (le unità linguistiche, come parole o frammenti di testo) all’interno di uno spazio vettoriale. In pratica, il modello associa ogni token a un vettore numerico che cattura le sue proprietà semantiche e il contesto, permettendo al modello di richiamare e utilizzare tali schemi per compiti simili durante l’inferenza (il processo in cui un modello di IA utilizza ciò che ha appreso durante l’addestramento per risolvere un compito, rispondere a una domanda o fare una previsione).
    • “Leone” e “Tigre” avranno vettori vicini, poiché condividono molti contesti comuni (animali, predatori, savana)
    • “Leone” e “Jaguar” (marca di auto) avranno vettori più distanti, perché i loro contesti sono completamente diversi
  • Applicazione passiva: Quando un modello riceve una richiesta (= prompt), si muove e cerca all’interno dello spazio dei dati memorizzati per produrre una risposta plausibile, basandosi esclusivamente su schemi già noti.

Se volessimo fare un paio di esempi:

  • Un modello addestrato su molte ricette sarà in grado di generare una nuova ricetta combinando elementi noti perché visti in precedenza
  • Se incontra un compito completamente nuovo (es. spiegare un esperimento scientifico mai documentato), avrà difficoltà perché non può “inventare” nuovi schemi di pensiero

Execution

  • Esecuzione del programma “recuperato”: Una volta che il modello identifica lo schema o il contesto richiesto, lo “esegue”. In pratica, questo significa generare testo o, in generale, output coerente con ciò che ha appreso
  • Limitazione alla rigidità del programma: Poiché il modello non può adattare dinamicamente le sue conoscenze per affrontare novità, è vincolato alle capacità predeterminate dal training

Un esempio semplice:

  • Un LLM tradizionale può completare una frase, scrivere una mail o tradurre da una lingua in un’altra, purché il compito rientri nelle sue capacità di “eseguire” ciò che ha imparato.

Sebbene il set di training abbia un ruolo cruciale, non è vero che includere “qualsiasi cosa” nei dati garantisca che il modello possa rispondere a qualsiasi domanda.

Un set di training ampio e diversificato aumenta la probabilità che il modello risponda a una gamma più ampia di domande ma i modelli di AI tradizionali non comprendono davvero il mondo, ma riconoscono pattern nei dati di addestramento: anche fornendo un set di dati molto ampio, il modello può rispondere solo a domande o situazioni che rientrano nei pattern generalizzati che ha appreso.

Questo approccio, molto solido e valido in svariati contesti, ha sicuramente almeno tre distinti limiti:

  1. Adattamento ai compiti nuovi
    • Non è progettato per affrontare compiti completamente nuovi o situazioni che richiedono l’integrazione di conoscenze diverse
  2. Mancanza di “intelligenza fluida”
    • L’intelligenza fluida implica la capacità di combinare conoscenze esistenti per inventare soluzioni a problemi mai affrontati. Questo è proprio il motivo per cui i modelli tradizionali, non avendo questa capacità, sono praticamente inefficaci su benchmark come l’ARC-AGI
  3. Incapacità di apprendere al momento del test
    • I modelli non possono imparare o migliorare “al volo” durante l’inferenza. Questo significa che non sono in grado di adattarsi o modificare le loro capacità mentre stanno generando risposte o eseguendo compiti. Nella sostanza, la loro conoscenza è “cristallizzata” in quanto appreso durante la fase di addestramento e ogni adattamento richiede un nuovo ciclo di training.

L’unicità (o la vera novità) del nuovo modello sta proprio nella capacità di superare i limiti fino a ora conosciuti nei modelli precedenti: mentre i modelli della famiglia GPT seguivano un approccio tradizionale di “memorization and execution”, o3 introduce una nuova dinamica: la ricerca ed esecuzione di programmi linguistici naturali al momento del test.

Questo significa che il modello può “inventare” soluzioni per compiti mai affrontati prima, un passo fondamentale verso una reale adattabilità.

o3: un salto verso l’intelligenza adattiva

I programmi linguistici naturali sono sequenze di istruzioni o “passi logici” espresse in linguaggio naturale, progettate per risolvere un compito specifico.

Nel contesto di o3, questi programmi non sono predefiniti, ma vengono creati dinamicamente durante il test in risposta al compito che il modello deve affrontare.

Se, ad esempio, il compito richiede di identificare un pattern tra numeri o forme, il modello non recupera una soluzione già appresa, ma genera un piano d’azione descritto in linguaggio naturale, come:

  1. “Analizza la sequenza”
  2. “Identifica il valore mancante”
  3. “Applica una regola per completare il pattern”

Questo processo avviene dinamicamente, senza che il modello debba essere pre-addestrato specificamente per quel compito.

Un elemento cruciale per il progresso di modelli come o3 è l’introduzione della Chain-of-Thought: un approccio che permette di scomporre problemi complessi in passaggi logici intermedi, migliorando la capacità di adattarsi a compiti nuovi e complessi.

Questo meccanismo scompone un problema complesso in una serie di passaggi logici, proprio come farebbe un essere umano “pensando ad alta voce”. Invece di generare direttamente una risposta, il modello esplicita i passaggi intermedi che lo portano alla soluzione.

Durante l’inferenza, o3 esplora soluzioni in tempo reale attraverso un processo articolato in tre fasi:

  • Cerca tra possibili programmi linguistici che potrebbero risolvere il compito.
  • Valuta l’efficacia di ciascun programma.
  • Esegue il programma scelto per generare la risposta.

Proviamo a fare un semplice esempio concreto.

Problema da risolvere: data una sequenza di numeri (3, 6, 12, ?), completa la serie.

  • Modello tradizionale: Se il modello ha visto una sequenza simile durante l’addestramento, recupera la regola appresa e genera il prossimo numero. Se non ha mai visto un pattern del genere, fallisce.
  • o3: Analizza l’input e genera ipotesi sul pattern (“moltiplica per 2,” “somma costante”). Simula ogni ipotesi per vedere quale si adatta meglio. Esegue la soluzione e genera il risultato corretto (24).

In un certo senso, per provare a semplificare quanto avviene, potremmo dire che il processo può essere paragonato a una sorta di “problem solving guidato”:

  • Comprensione del compito: il modello analizza l’input per capire quale tipo di soluzione potrebbe essere necessaria. Ad esempio, se il compito richiede di completare una sequenza numerica, il modello identifica la necessità di una regola matematica
  • Generazione dei programmi linguistici: Viene esplorato uno “spazio di soluzioni”, cioè un insieme di possibili programmi linguistici descritti in linguaggio naturale. Ad esempio: “somma i numeri precedenti” o “trova il minimo comune multiplo”
  • Esecuzione del programma più promettente: Il modello seleziona ed esegue il programma che sembra più adatto. Se il programma non risolve il compito, o3 – naturalmente in completa autonomia – può tornare indietro e provare un’altra strada

Il modello, adesso, è in grado di costruire una soluzione nuova combinando conoscenze pregresse in modi mai visti (e/o mai pensati) prima.

Questa “modalità di lavoro”, è evidente, lo rende più simile al ragionamento umano, dove affrontiamo compiti nuovi cercando di adattare e combinare ciò che sappiamo.

La ricerca ed esecuzione di programmi linguistici naturali è il cuore dell’innovazione di o3, che lo rende capace di ragionare e adattarsi a compiti mai visti prima, un passo fondamentale verso intelligenze artificiali generali

Il futuro di o3 e il cammino verso l’AGI

Pur non essendo AGI (Artificial General Intelligence) in senso tecnico, il progresso è innegabile ed il passo avanti che è stato fatto è indubbiamente molto ampio.

Ad ogni modo, va evidenziato che o3 fallisce ancora in alcuni compiti elementari per un essere umano, dimostrando che c’è ancora un divario da colmare tra intelligenza umana e AI.

Nel frattempo, il prossimo benchmark, ARC-AGI-2, promette sfide ancora più difficili, con l’obiettivo di continuare a spingere i limiti della ricerca.

La nuova evoluzione dei test progettati per valutare l’intelligenza artificiale generale (AGI) attraverso la capacità di adattarsi a compiti nuovi e non previsti mira a superare le limitazioni dell’attuale ARC-AGI-1, introducendo sfide più complesse e diversificate per testare l’adattabilità e la generalizzazione dei modelli AI.

Con i recenti progressi è necessario un benchmark più avanzato per continuare a valutare efficacemente le capacità emergenti dei modelli AI.

Tra l’altro l’attuale set di dati di ARC-AGI-1, con solo 100 compiti nel set di valutazione (un numero di test che oggi non copre una gamma abbastanza ampia di scenari o problematiche), rischia di portare a overfitting, un problema comune nell’intelligenza artificiale e nel machine learning.

Succede quando un modello “impara troppo bene” i dettagli o le particolarità dei dati di addestramento o di test, al punto da perdere la capacità di generalizzare a nuovi dati o situazioni.

Per spiegare di che cosa si tratta, immagina di prepararti per un esame di matematica: ti concentri solo su esercizi specifici del libro di testo e impari a memoria le soluzioni, poi, il giorno dell’esame, trovi un problema diverso che richiede di applicare i concetti in modo creativo.

Il risultato è che sei bravissimo a risolvere i problemi che hai memorizzato, ma fallisci su problemi nuovi perché non hai imparato i principi generali della matematica, solo i dettagli degli esercizi.

Quindi, per risolvere tutto quanto sopra, ARC-AGI-2 mira a introdurre una gamma più ampia di compiti per garantire una valutazione più robusta tramite:

  • Resistenza all’overfitting: tramite un numero maggiore di compiti e una maggiore varietà, ARC-AGI-2 ridurrà il rischio che i modelli si adattino troppo specificamente ai dati di addestramento, promuovendo una vera generalizzazione.
  • Compiti più complessi: tramite l’introduzione di compiti che richiedono un livello più elevato di astrazione e ragionamento, rendendo il benchmark una sfida significativa anche per i modelli AI più avanzati.
  • Diversificazione delle sfide: verranno inclusi una varietà di compiti progettati per testare diverse dimensioni dell’intelligenza, assicurando che i modelli possano generalizzare efficacemente in contesti diversi

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Social
Analisi
Video
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4