OpenAI ha recentemente presentato il suo modello o3, stabilendo un nuovo riferimento nelle capacità di generalizzazione dell’AI.
o3 supera i limiti tradizionali grazie alla capacità di adattarsi a compiti nuovi e complessi. Utilizzando programmi linguistici naturali, avvicina l’AI all’intelligenza fluida e all’intelligenza artificiale generale.
Il punteggio di o3 sul benchmark ARC-AGI-1
Sul benchmark ARC-AGI-1, progettato per valutare l’adattabilità a nuovi compiti, il nuovo modello ha raggiunto un punteggio del 75.7% sfruttando una modalità ad alta efficienza, con un limite di costo di 10 mila dollari. Un’altra configurazione ha toccato l’87.5% utilizzando 172 volte più risorse computazionali rispetto alla configurazione standard.
Entrambi i test sono stati fatti tramite una “Semi-Private Evaluation”: alcuni dei compiti inclusi in questo set sono noti pubblicamente, mentre altri sono mantenuti privati per evitare che i modelli possano essere ottimizzati specificamente per quei test.
Lo scopo è quello di misurare l’adattabilità e la generalizzazione del modello su un insieme di compiti che non sono direttamente collegati ai dati di addestramento. È particolarmente utile per valutare la capacità di un modello di risolvere problemi inediti.
La high-compute o3 configuration utilizzata per la seconda valutazione dei test si riferisce a una configurazione del modello o3 che utilizza una quantità molto elevata di risorse computazionali per ottenere prestazioni migliori.
Questa configurazione utilizza un numero molto maggiore di “campioni” (samples) e “token” per ogni compito. Nel caso specifico, 1024 samples e miliardi di token, contro 6 samples nella configurazione standard.
Questa configurazione, non ancora applicabile nella realtà di tutti i giorni a causa dei costi elevati, ha consentito un’analisi più approfondita dello spazio delle soluzioni, incrementando le probabilità di trovare risposte ottimali.
Nella tabella riassumo le principali differenze tra le due configurazioni utilizzate per i test:
Caratteristica | Configurazione standard | High-compute configuration |
Samples | 6 | 1024 |
Tokens usati | 33M | 5.7B |
Punteggio Semi-Private Eval | 75.7% | 87.5% |
Costo computazionale | $10.000 o meno | Molto superiore ($$$) |
Idoneità per ARC-AGI-Pub | Sì | No |
Il benchmark ARC-AGI-1
L’ARC-AGI-1 (Abstraction and Reasoning Corpus for Artificial General Intelligence) è un benchmark sviluppato da François Chollet nel 2019 per valutare l’intelligenza artificiale generale, focalizzandosi sulla capacità di un sistema di adattarsi a compiti nuovi e non previsti.
Questo insieme di test è composto da:
- Compiti (Tasks): Ogni compito presenta una serie di coppie input-output, rappresentate come griglie di dimensioni variabili (fino a 30×30 celle), dove ogni cella può assumere uno di dieci colori. L’obiettivo è dedurre la regola che trasforma l’input nell’output e applicarla a nuovi input per generare l’output corretto
- Conoscenze predefinite (Core Knowledge): questo standard presuppone che il sistema possieda conoscenze di base universali negli esseri umani, come:
- la comprensione degli oggetti: capacità di riconoscere e distinguere oggetti nel mondo fisico o in rappresentazioni astratte come forme geometriche o simboli in un puzzle. Esempio: sapere che un triangolo è diverso da un cerchio e che una scatola può contenere altri oggetti
- la topologia elementare: conoscenze di base sulle proprietà spaziali e sulle relazioni tra elementi, indipendenti da dettagli come dimensioni o forme precise. Esempio: sapere che un anello è un oggetto con un buco al centro
- l’aritmetica intera semplice: la capacità di eseguire operazioni di base sui numeri interi, come addizioni, sottrazioni, moltiplicazioni e divisioni. Esempio: sommare rapidamente numeri piccoli o comprendere che 5 è il risultato della somma di 2+3
Da un punto di vista evolutivo queste conoscenze sono acquisite dai bambini in tenera età e sono ritenute fondamentali per risolvere i compiti proposti.
Cosa rende o3 unico
Cosa rende o3 unico?
L’approccio tradizionale di “memorization and execution” è un paradigma tipico dei modelli di linguaggio come GPT-3 o GPT-4, ed è basato principalmente sull’apprendimento e sulla riproduzione di schemi osservati durante l’addestramento.
Proviamo a spiegarlo nel dettaglio.
Memorization
- Acquisizione delle informazioni dai dati di addestramento: Durante il training, i modelli analizzano enormi quantità di dati (testo, codice, ecc.), costruendo rappresentazioni statistiche delle correlazioni tra parole, frasi e contesti. È il processo attivo di apprendimento
- Memorizzazione di schemi operativi: Questi modelli immagazzinano schemi operativi, cioè strutture logiche o pattern ricorrenti, appresi dai dati di addestramento. Questi schemi sono rappresentati matematicamente come relazioni tra i token (le unità linguistiche, come parole o frammenti di testo) all’interno di uno spazio vettoriale. In pratica, il modello associa ogni token a un vettore numerico che cattura le sue proprietà semantiche e il contesto, permettendo al modello di richiamare e utilizzare tali schemi per compiti simili durante l’inferenza (il processo in cui un modello di IA utilizza ciò che ha appreso durante l’addestramento per risolvere un compito, rispondere a una domanda o fare una previsione).
- “Leone” e “Tigre” avranno vettori vicini, poiché condividono molti contesti comuni (animali, predatori, savana)
- “Leone” e “Jaguar” (marca di auto) avranno vettori più distanti, perché i loro contesti sono completamente diversi
- Applicazione passiva: Quando un modello riceve una richiesta (= prompt), si muove e cerca all’interno dello spazio dei dati memorizzati per produrre una risposta plausibile, basandosi esclusivamente su schemi già noti.
Se volessimo fare un paio di esempi:
- Un modello addestrato su molte ricette sarà in grado di generare una nuova ricetta combinando elementi noti perché visti in precedenza
- Se incontra un compito completamente nuovo (es. spiegare un esperimento scientifico mai documentato), avrà difficoltà perché non può “inventare” nuovi schemi di pensiero
Execution
- Esecuzione del programma “recuperato”: Una volta che il modello identifica lo schema o il contesto richiesto, lo “esegue”. In pratica, questo significa generare testo o, in generale, output coerente con ciò che ha appreso
- Limitazione alla rigidità del programma: Poiché il modello non può adattare dinamicamente le sue conoscenze per affrontare novità, è vincolato alle capacità predeterminate dal training
Un esempio semplice:
- Un LLM tradizionale può completare una frase, scrivere una mail o tradurre da una lingua in un’altra, purché il compito rientri nelle sue capacità di “eseguire” ciò che ha imparato.
Sebbene il set di training abbia un ruolo cruciale, non è vero che includere “qualsiasi cosa” nei dati garantisca che il modello possa rispondere a qualsiasi domanda.
Un set di training ampio e diversificato aumenta la probabilità che il modello risponda a una gamma più ampia di domande ma i modelli di AI tradizionali non comprendono davvero il mondo, ma riconoscono pattern nei dati di addestramento: anche fornendo un set di dati molto ampio, il modello può rispondere solo a domande o situazioni che rientrano nei pattern generalizzati che ha appreso.
Questo approccio, molto solido e valido in svariati contesti, ha sicuramente almeno tre distinti limiti:
- Adattamento ai compiti nuovi
- Non è progettato per affrontare compiti completamente nuovi o situazioni che richiedono l’integrazione di conoscenze diverse
- Mancanza di “intelligenza fluida”
- L’intelligenza fluida implica la capacità di combinare conoscenze esistenti per inventare soluzioni a problemi mai affrontati. Questo è proprio il motivo per cui i modelli tradizionali, non avendo questa capacità, sono praticamente inefficaci su benchmark come l’ARC-AGI
- Incapacità di apprendere al momento del test
- I modelli non possono imparare o migliorare “al volo” durante l’inferenza. Questo significa che non sono in grado di adattarsi o modificare le loro capacità mentre stanno generando risposte o eseguendo compiti. Nella sostanza, la loro conoscenza è “cristallizzata” in quanto appreso durante la fase di addestramento e ogni adattamento richiede un nuovo ciclo di training.
L’unicità (o la vera novità) del nuovo modello sta proprio nella capacità di superare i limiti fino a ora conosciuti nei modelli precedenti: mentre i modelli della famiglia GPT seguivano un approccio tradizionale di “memorization and execution”, o3 introduce una nuova dinamica: la ricerca ed esecuzione di programmi linguistici naturali al momento del test.
Questo significa che il modello può “inventare” soluzioni per compiti mai affrontati prima, un passo fondamentale verso una reale adattabilità.
o3: un salto verso l’intelligenza adattiva
I programmi linguistici naturali sono sequenze di istruzioni o “passi logici” espresse in linguaggio naturale, progettate per risolvere un compito specifico.
Nel contesto di o3, questi programmi non sono predefiniti, ma vengono creati dinamicamente durante il test in risposta al compito che il modello deve affrontare.
Se, ad esempio, il compito richiede di identificare un pattern tra numeri o forme, il modello non recupera una soluzione già appresa, ma genera un piano d’azione descritto in linguaggio naturale, come:
- “Analizza la sequenza”
- “Identifica il valore mancante”
- “Applica una regola per completare il pattern”
Questo processo avviene dinamicamente, senza che il modello debba essere pre-addestrato specificamente per quel compito.
Un elemento cruciale per il progresso di modelli come o3 è l’introduzione della Chain-of-Thought: un approccio che permette di scomporre problemi complessi in passaggi logici intermedi, migliorando la capacità di adattarsi a compiti nuovi e complessi.
Questo meccanismo scompone un problema complesso in una serie di passaggi logici, proprio come farebbe un essere umano “pensando ad alta voce”. Invece di generare direttamente una risposta, il modello esplicita i passaggi intermedi che lo portano alla soluzione.
Durante l’inferenza, o3 esplora soluzioni in tempo reale attraverso un processo articolato in tre fasi:
- Cerca tra possibili programmi linguistici che potrebbero risolvere il compito.
- Valuta l’efficacia di ciascun programma.
- Esegue il programma scelto per generare la risposta.
Proviamo a fare un semplice esempio concreto.
Problema da risolvere: data una sequenza di numeri (3, 6, 12, ?), completa la serie.
- Modello tradizionale: Se il modello ha visto una sequenza simile durante l’addestramento, recupera la regola appresa e genera il prossimo numero. Se non ha mai visto un pattern del genere, fallisce.
- o3: Analizza l’input e genera ipotesi sul pattern (“moltiplica per 2,” “somma costante”). Simula ogni ipotesi per vedere quale si adatta meglio. Esegue la soluzione e genera il risultato corretto (24).
In un certo senso, per provare a semplificare quanto avviene, potremmo dire che il processo può essere paragonato a una sorta di “problem solving guidato”:
- Comprensione del compito: il modello analizza l’input per capire quale tipo di soluzione potrebbe essere necessaria. Ad esempio, se il compito richiede di completare una sequenza numerica, il modello identifica la necessità di una regola matematica
- Generazione dei programmi linguistici: Viene esplorato uno “spazio di soluzioni”, cioè un insieme di possibili programmi linguistici descritti in linguaggio naturale. Ad esempio: “somma i numeri precedenti” o “trova il minimo comune multiplo”
- Esecuzione del programma più promettente: Il modello seleziona ed esegue il programma che sembra più adatto. Se il programma non risolve il compito, o3 – naturalmente in completa autonomia – può tornare indietro e provare un’altra strada
Il modello, adesso, è in grado di costruire una soluzione nuova combinando conoscenze pregresse in modi mai visti (e/o mai pensati) prima.
Questa “modalità di lavoro”, è evidente, lo rende più simile al ragionamento umano, dove affrontiamo compiti nuovi cercando di adattare e combinare ciò che sappiamo.
La ricerca ed esecuzione di programmi linguistici naturali è il cuore dell’innovazione di o3, che lo rende capace di ragionare e adattarsi a compiti mai visti prima, un passo fondamentale verso intelligenze artificiali generali
Il futuro di o3 e il cammino verso l’AGI
Pur non essendo AGI (Artificial General Intelligence) in senso tecnico, il progresso è innegabile ed il passo avanti che è stato fatto è indubbiamente molto ampio.
Ad ogni modo, va evidenziato che o3 fallisce ancora in alcuni compiti elementari per un essere umano, dimostrando che c’è ancora un divario da colmare tra intelligenza umana e AI.
Nel frattempo, il prossimo benchmark, ARC-AGI-2, promette sfide ancora più difficili, con l’obiettivo di continuare a spingere i limiti della ricerca.
La nuova evoluzione dei test progettati per valutare l’intelligenza artificiale generale (AGI) attraverso la capacità di adattarsi a compiti nuovi e non previsti mira a superare le limitazioni dell’attuale ARC-AGI-1, introducendo sfide più complesse e diversificate per testare l’adattabilità e la generalizzazione dei modelli AI.
Con i recenti progressi è necessario un benchmark più avanzato per continuare a valutare efficacemente le capacità emergenti dei modelli AI.
Tra l’altro l’attuale set di dati di ARC-AGI-1, con solo 100 compiti nel set di valutazione (un numero di test che oggi non copre una gamma abbastanza ampia di scenari o problematiche), rischia di portare a overfitting, un problema comune nell’intelligenza artificiale e nel machine learning.
Succede quando un modello “impara troppo bene” i dettagli o le particolarità dei dati di addestramento o di test, al punto da perdere la capacità di generalizzare a nuovi dati o situazioni.
Per spiegare di che cosa si tratta, immagina di prepararti per un esame di matematica: ti concentri solo su esercizi specifici del libro di testo e impari a memoria le soluzioni, poi, il giorno dell’esame, trovi un problema diverso che richiede di applicare i concetti in modo creativo.
Il risultato è che sei bravissimo a risolvere i problemi che hai memorizzato, ma fallisci su problemi nuovi perché non hai imparato i principi generali della matematica, solo i dettagli degli esercizi.
Quindi, per risolvere tutto quanto sopra, ARC-AGI-2 mira a introdurre una gamma più ampia di compiti per garantire una valutazione più robusta tramite:
- Resistenza all’overfitting: tramite un numero maggiore di compiti e una maggiore varietà, ARC-AGI-2 ridurrà il rischio che i modelli si adattino troppo specificamente ai dati di addestramento, promuovendo una vera generalizzazione.
- Compiti più complessi: tramite l’introduzione di compiti che richiedono un livello più elevato di astrazione e ragionamento, rendendo il benchmark una sfida significativa anche per i modelli AI più avanzati.
- Diversificazione delle sfide: verranno inclusi una varietà di compiti progettati per testare diverse dimensioni dell’intelligenza, assicurando che i modelli possano generalizzare efficacemente in contesti diversi