È bastato un articolo delle università Stanford-Berkeley dal titolo “How Is ChatGPT’s Behavior Changing over Time?” che ha misurato un calo delle prestazioni su particolari test all’evolversi di GPT per concludere che l’intelligenza artificiale stia divenendo stupida e scatenare un dibattito sui media nazionali.
Cerchiamo di valutare in modo più cauto l’articolo e valutare differenti ipotesi che possano spiegare un cambiamento nel comportamento del modello AI senza che sia etichettato necessariamente come un peggioramento delle sue prestazioni con tutto quello che ne consegue. Ha fatto meno scalpore un articolo apparso su Nature dal titolo “ChatGPT broke the Turing test — the race is on for new ways to assess AI” che sottolinea come siano necessarie nuove metodologie per misurare le intelligenze artificiali e i benchmark, come abbiamo già osservato, rischiano di essere poco significativi, soprattutto quelli di cui disponiamo oggi.
ChatGpt più stupido? Porre i fatti nella giusta luce
È da notare che arXiv è un archivio di articoli scritti da scienziati ma senza revisione tra pari, è quindi un rapporto del lavoro di due ricercatori di Stanford e uno di Berkeley, sicuramente centri di ricerca prestigiosi, ma comunque senza la lettura critica che dei pari svolgono nella valutazione di un lavoro scientifico. Va inoltre sottolineato che i ricercatori, da bravi scienziati quali sono, non danno una valutazione sui risultati trovati ma si limitano a concludere
“In generale, i nostri risultati mostrano che il comportamento dello ‘stesso’ servizio LLM può cambiare sostanzialmente in un periodo di tempo relativamente breve, evidenziando la necessità di un monitoraggio continuo della qualità del LLM”
Non c’è traccia di una valutazione di merito su un “instupidimento” dell’intelligenza artificiale, contrariamente alle conclusioni frettolosamente tratte dai commentatori.
L’articolo si concentra su alcuni prompt e come l’accuratezza nel corso del tempo nella risposta del modello di GPT sia peggiorata, anche in modo significativo. Ad esempio dire se il numero 17077 sia primo o meno:
Come si può vedere l’evoluzione dei due modelli (anche ChatGPT 3.5 è costantemente aggiornato) ha portato a scambiare le risposte e in particolare a Giugno GPT 4 risponde in modo scorretto (il numero 17077 è in effetti un numero primo).
I ricercatori hanno osservato contestualmente che tra marzo 2023 e giugno 2023 entrambi i modelli si sono rivelati più difficili da attaccare (ovverosia aggirare i controlli per rispondere a domande a cui non si vuole che rispondano):
Anche in questo caso gli autori si limitano ad osservare che il lavoro svolto per bloccare gli attacchi potrebbe aver contribuito a cambiare il comportamento dei modelli peggiorando il risultato di alcune richieste.
Anche la qualità del codice generato sembra peggiorare, almeno in qualche caso:
Lo stesso si verifica per il ragionamento visivo:
La prima domanda che ci si dovrebbe porre è: ma esistono prompt per cui contestualmente è migliorato il comportamento? Bastano quattro test a condannare come instupidimento l’evoluzione di una AI al punto tale da leggere sui giornali nazionali di una crisi vera e propria della AI?
I modelli si stanno specializzando
È evidente, come osservano gli autori, che l’unica conclusione logica è quella del “drift” ovvero della deriva del modello. È errato pensare che le modifiche al modello si limitino a correggerne i difetti e migliorare le prestazioni, il processo di evoluzione assomiglia più ad una coperta corta che, una volta sistemato un aspetto, provoca qualche peggioramento in un altro aspetto.
Si potrebbe obiettare che GPT in realtà è migliorato da Marzo: ho scoperto che 17077 è un numero primo grazie a GPT con l’ausilio dei plugin:
Wolfram alpha è uno dei più importanti repository di matematica al mondo e trovo decisamente appropriato che il modello si sia rivolto a un “esperto” invece di limitarsi a ricordare se ha visto qualche testo in cui si diceva che 17077 è un numero primo.
In realtà GPT è oggi capacissimo di verificarlo in autonomia usando il modello Code interpreter:
In questo caso il sistema genera il codice Python per la verifica e lo esegue, personalmente sembra che la generazione del codice non sia così peggiorata come l’articolo lascerebbe pensare.
Anche l’uso del modello ponendo una domanda differentemente da come hanno fatto gli autori produce una risposta decisamente corretta:
Il modello 3.5 risponde addirittura che è primo.
Quindi non è vero che i due modelli si contraddicono alla stessa domanda e in entrambi i casi la risposta è corretta. Cosa è cambiato? Ho formulato in modo diverso la domanda!
E’ anche una questione di prompt
L’evoluzione del modello è difficile da misurare perché le risposte dipendono dal prompt, e al cambiare della conoscenza anche i prompt potrebbero dover essere ripensati. Il lavoro quindi individua correttamente il problema: abbiamo bisogno di nuovi metodi per misurare la variazione di performance all’evolversi dell’AI. Sono i lettori frettolosi che hanno tradotto la notizia in “è diventata più stupida!”.
Sicuramente i cambiamenti hanno effetti “globali” sul comportamento e quindi nel tempo è probabile che assisteremo ad una deriva anche dei prompt e non solo delle risposte, ponendo nuove sfide alla realizzazione di sistemi che generano prompt automaticamente per incorporare il comportamento dell’AI.
È un modello linguistico, non un oracolo
È necessario però tenere sempre a mente il funzionamento base: un algoritmo ha letto miliardi di parole da un’enorme corpus ed ha appreso un modello probabilistico che prevede, con una certa probabilità, la parola che deve seguire un testo. Abbiamo passato mesi a sorprenderci che un metodo relativamente semplice potesse rispondere in modo così ricco, ma questo non trasforma il modello statistico in un matematico!
I ricercatori di OpenAI sono molto consapevoli ed hanno già cominciato a far evolvere i propri sistemi affinché interagiscano con sistemi esterni, come nel caso dei plugin e delle funzioni rese disponibili a chi scrive applicazioni, senza continuare ad aggiornare il modello perché risponda bene ad una particolare domanda.
Il ruolo centrale dei LLM è quello di riuscire a catturare il linguaggio e, quasi per magia, capire quando coinvolgere attori esterni per affrontare un problema. Questi possono essere sistemi di terze parti oppure ambienti di esecuzione di codice come nel caso del Code interpreter, ma è evidente che il futuro non può essere limitato al modello in sé.
Oltre il test di Turing, il linguaggio non è più una metrica efficace per l’AI moderna
L’articolo di Nature pone invece un problema ancora più importante: il test che Alan Turing aveva proposto per determinare se un sistema automatico è intelligente sembra ormai non più adeguato alla realtà dei fatti.
È ormai divenuto quasi impossibile dire se dall’altro capo di un video terminale si sta chattando con una persona o con una AI. Ma, gli autori dell’articolo osservano, le risposte in linguaggio naturale possono essere convincenti senza che il modello sia capace di esibire vero e proprio ragionamento logico.
Nell’articolo si osserva anche che con test specifici si evidenza che l’AI non si avvicina lontanamente agli esseri umani, e sono sicuro che questa sia per ora una buona notizia. Ma sicuramente abbiamo bisogno dopo oltre 70 anni di formulare nuovi test per definire se una macchina è intelligente o meno.
E quindi?
È facile immaginare che una tecnologia che chiamiamo “intelligenza artificiale” sia intelligente, e sicuramente si tratta di sistemi che hanno risolto problemi che solo pochi decenni fa erano ritenuti da fantascienza. È importante però tenere i piedi per terra e seguire il metodo scientifico, non possiamo limitarci a guardare pochi esempi per trarre conclusioni. E anche chi comunica e commenta dovrebbe prestare più attenzione a non banalizzare il problema.
La mia personale impressione, da utente ormai quotidiano di queste tecnologie, è che l’evoluzione le stia rendendo più smart. Più utili, insomma: che è quello che conta per noi essere umani, non una vaga e ambigua idea di “intelligenza”.
Sono sicuro, perché lo ricordo, che il mio modo di interagire con questi modelli si sta evolvendo ad ogni rilascio, ma la mia empirica esperienza è che complessivamente funzionino meglio.
Resta aperto il problema di come questa mia sensazione possa essere verificata, forse in questo abbiamo realizzato macchine così complesse da essere analizzate in modo meno meccanicistico. È sicuramente necessario inventare nuovi modi per misurare le prestazioni, e questo sarà sicuramente centrale nell’evoluzione poiché niente assicura che sia sempre per il meglio, questo almeno lo possiamo dire.