Per restare al centro dell’attenzione il mondo dell’intelligenza artificiale continua a sfornare annunci a un ritmo sfrenato e diventa sempre più difficile anche per semplici osservatori capire se si tratti di qualcosa di veramente nuovo piuttosto che l’ennesimo annuncio di marketing.
Ebbene, però, l’AI che ragiona non sembra solo marketing ma un futuro che ci riguarderà tutti, probabilmente.
Il modello o1 di OpenAI
Non a caso, forse, il primo annuncio fatto da OpenAI riguarda il rilascio del modello o1 (si dovrebbe leggere “omni one” visto che OpenAI ha dichiarato che la “o” in 4o sta per “omni”), una versione decisamente più avanzata dell’anteprima di cui avevamo già parlato.
Ancora una volta OpenAI sembra dettare il passo ma elementi di ragionamento stanno già emergendo anche nei principali competitors e forse è giunto il momento di soffermarsi sulle implicazioni di questi nuovi modelli che “pensano” prima di rispondere.
Le novità di o1 in breve
Prima di addentrarci nelle riflessioni su questa nuova classe di modelli vediamo brevemente le novità di o1 rispetto alla sua anteprima. Che si tratti di un annuncio importante lo ha testimoniato la presenza di Sam Altman nello streaming, presente solo ad alcuni degli annunci fatti.
Le prestazioni del nuovo modello sono decisamente superiori rispetto all’anteprima, ma forse gli aspetti più salienti sono la maggior velocità (che può variare a seconda del quesito posto) e l’introduzione delle funzioni multimodali con la capacità di ragionare anche su immagini.
Una prova pratica
Giusto per dare un’idea della differenza tra o1 e gli altri modelli ho provato a cifrare un semplice messaggio con un cifrario monoalfabetico (essenzialmente ruotando l’alfabeto di quattro lettere, ho evitato tre perché era usato da Cesare) ed ho cifrato la frase “LA RIUNIONE SARA DOMANI MATTINA ALLE UNDICI” chiedendo ad o1 di aiutarmi a decifrare:
Ho dato una mano informando che sospettavo fosse un cifrario monoalfabetico, e il modello ha lavorato per quasi due minuti prima di produrre la soluzione corretta (qui trovate l’intera chat).
È apprezzabile che abbia anche corretto un errore che avevo fatto nella codifica ma che non lo ha tratto in inganno.
Quasi per dovere ho provato anche GPT-4o che a suo modo mi ha risolto il problema ma senza “ragionare” e con l’ausilio della forza bruta:
Trovo straordinario il funzionamento di entrambi i modelli: o1 ha effettivamente “ragionato” facendo ipotesi e procedendo alla sostituzione mentre GPT-4o ha generato un programma Python che ha a sua volta generato tutte le possibili sostituzioni e poi ha individuato quella più probabile correggendola. Ma è evidente che il funzionamento di o1 è più sofisticato esibendo una qualche forma di ragionamento.
Si potrebbe dibattere per ore discutendo se questo risultato sia rappresentativo di un vero e proprio ragionamento o meno, ma eviterei e mi atterrei ai fatti: il modello senza “aiutino dall’esterno” in autonomia ha individuato la rotazione dell’alfabeto più probabile di un crittogramma. Sono sicuro che Alan Turing avrebbe apprezzato la sua capacità.
Quattro sfidanti per il reasoning AI
1. OpenAI
01: Una versione ottimizzata di GPT-4, progettata per migliorare le capacità di ragionamento complesso e multistep.
2. Anthropic
Claude 3.5 Sonnet: L’ultima iterazione del modello Claude, con miglioramenti significativi nelle capacità di ragionamento e analisi dei dati.
3. Google DeepMind
Gemini 2.0: Il modello più recente di DeepMind, con avanzate capacità di ragionamento e output multimodali, inclusi immagini e audio.
4. Meta
Llama 3: Un significativo passo avanti rispetto alle versioni precedenti, con miglioramenti nelle capacità di ragionamento e gestione di contesti estesi.
o1, un assistente diverso
Finora abbiamo considerato i vari chatbot come una sorta di memoria smart con cui si poteva interagire per trovare risposte analoghe a contenuti indicizzati sulla conoscenza umana. Ci siamo stupiti della sua capacità di generare testo spesso corretto (ma non sempre), ma in sostanza abbiamo posto questioni orientati a riorganizzare la conoscenza umana grazie alla capacità dei modelli LLM di manipolare il linguaggio con una straordinaria efficacia.
Al netto dell’entusiasmo l’AI generativa ha finora contribuito ad accelerare il lavoro rispondendo a quesiti relativamente semplici ma in modo rapido. Per questo motivo tutti ci siamo preoccupati del fenomeno delle allucinazioni: la capacità di generare testo inaccurato ci sembrava inficiare il beneficio della tecnologia. Se il tempo che mi è richiesto per verificare la risposta è paragonabile a quello per produrla allora non si vede un vero beneficio.
IA, gli annunci di Natale
Natale ha visto sia l’annuncio di Gemini 2.0 che il calendario dell’avvento di OpenAI con un annuncio al giorno per dodici giorni lavorativi (al momento della scrittura di questo articolo sono stati fatti i primi sette annunci).
Ci vorrà tempo per digerire queste informazioni ed è sempre più difficile scrivere qualcosa di interessante a caldo: negli ultimi due anni quando veniva annunciato un modello era sufficiente provare qualche prompt e commentare come il modello fosse un po’ meno stupido, o più sicuro, o più pigro del precedente.
La massa critica degli investimenti e la maturazione del settore rende più difficile fare analisi analoghe con questi nuovi annunci, e comunque sembra che il marketing stia spingendo sugli agenti per mantenere viva l’attenzione (e di conseguenza gli investimenti).
Perché o1 è un salto in avanti
Proviamo ora ad analizzare il semplice esercizio che abbiamo chiesto di risolvere a o1: la soluzione è stata prodotta in meno di due minuti. Verificarla mi è costato meno di trenta secondi (anche grazie alla spiegazione fornita), ma la decifrazione manuale mi sarebbe costata almeno dieci minuti.
Ecco, quindi, che emerge uno scenario diverso da quello che ci ha accompagnato negli ultimi due anni: possiamo porre questioni all’AI in cui ci conviene comunque correre il rischio di una risposta errata poiché il costo di verifica è molto inferiore al costo necessario per elaborare una soluzione “manualmente”. Credo che si tratti di un passaggio decisamente significativo e possiamo sicuramente considerare o1 un salto in avanti e non un semplice modello in più in un mondo affollato.
Quando ho fatto l’esperimento mi aspettavo che GPT-4o avrebbe detto cose come quelle che ha generato Claude, mi ha invece sorpreso come il modello abbia fatto uso di Python per superare i suoi stessi limiti.
Non ho usato il modello a pagamento di Claude, quindi si tratta di un confronto non alla pari, ma GPT-4o mini che prova le sostituzioni senza allucinare come fa Claude e con un po’ di interazioni si riesce ad ottenere la risposta corretta.
Conclusioni
La nuova generazione di modelli che ragionano sembra aprire nuovi ambiti applicativi dell’AI generativa, uscendo dal recinto della memoria associativa in cui è stato di fatto confinato e aprendo la strada ad assistenti a cui delegare compiti complessi per poi limitarsi a verificare la soluzione proposta. Si tratta di un cambiamento vero e proprio di applicazione e di prospettiva.
Ma è importante tener presente che a domande complesse possono corrispondere risposte altrettanto complesse che possono richiedere conoscenze specialistiche. L’evoluzione di questa tecnologia non potrà non avere impatto sul mercato del lavoro e sulla necessità di investire sulla formazione delle nuove generazioni, non è una buona notizia per il nostro paese che come sempre non investe in istruzione.