Ogni volta che alle macchine viene chiesto di fare qualcosa che richiede l’intelligenza degli esseri umani, come giocare o usare il linguaggio, c’è qualcosa che non va. Sebbene sia ancora un tabù smorzare l’entusiasmo sui mirabolanti risultati ottenuti dai sistemi di IA generativa come ChatGPT nei test progettati per identificare alcune abilità cognitive negli esseri umani, comincia a farsi strada anche una fronda di ricercatori niente affatto convinta che le macchine possano “prendere il sopravvento” sull’uomo.
La capacità di ChatGPT di risolvere problemi
Partiamo da un recente articolo pubblicato su Nature: un team di psicologi della University of California ha voluto vederci chiaro circa la capacità della punta di diamante di casa Open AI, ChatGPT (GPT-3), di superare una serie di test ideati per valutare l’uso del ragionamento analogico per risolvere i problemi. In alcuni di questi test, GPT-3 ha ottenuto risultati migliori di un gruppo di studenti universitari. E di questo, ovviamente, non siamo sopresi, dati i numerosi esempi di “superiorità della macchina sull’uomo” contenuti nelle notizie in materia di tecnologia degli ultimi mesi.
La ricerca del team californiano, tuttavia, è solo l’ultima di una lunga serie di “trucchi” notevoli messi a segno dai modelli linguistici di grandi dimensioni. Ad esempio, quando OpenAI presentò a marzo scorso il successore di GPT-3, ossia GPT-4, la stessa azienda pubblicò anche un elenco impressionante di valutazioni professionali e accademiche che, a suo dire, tale nuovo modello linguistico di grandi dimensioni aveva superato, tra cui un paio di dozzine di test liceali e gli esami di stato per l’accesso a differenti professioni negli Stati Uniti.
In seguito, OpenAI collaborò con Microsoft per dimostrare che GPT-4 era in grado di superare parti dell’esame di abilitazione alla professione medica negli States. Inoltre, diversi ricercatori sostengono di aver dimostrato che i modelli linguistici di grandi dimensioni sono in grado di superare test progettati per identificare alcune abilità cognitive negli esseri umani, dal risolvere un problema passo dopo passo sino ad indovinare cosa pensano le altre persone. Questo tipo di risultati sta alimentando, da tempo, una martellante macchina pubblicitaria che spinge verso la “paura” dell’occupazione dei posti di lavoro da parte delle macchine, con l’Intelligenza Artificiale che potrebbe sostituirsi ad insegnanti, medici, giornalisti e avvocati. Tuttavia, sul punto, c’è un problema: c’è “poco accordo” sul significato reale di questi risultati: alcuni ricercatori ed esperti sono abbagliati da ciò che vedono come “barlumi” di intelligenza simile a quella umana; altri, invece, non sono affatto convinti che le macchine possano “prendere il sopravvento” sull’uomo.
Fermare la crescente antropizzazione delle macchine
Un numero crescente di ricercatori (informatici, neuroscienziati e linguisti in primis) vuole rivedere il modo in cui vengono valutati tali modelli, chiedendo una valutazione più rigorosa ed esaustiva. Alcuni pensano, persino, che la pratica di assegnare un punteggio alle macchine nei test dedicati all’uomo (come esami e concorsi) sia sbagliata e che debba essere abbandonata. Insomma, si punta a fermare la crescente antropizzazione delle macchine, in una sorta di sottile slogan che potremmo riassumere in: le macchine facciano le macchine, l’uomo faccia l’uomo. Certo, fin dagli albori dell’Intelligenza Artificiale, le persone hanno somministrato test di intelligenza umana (come quelle sul quoziente intellettivo) alle macchine. Il problema però, è che finalità e significati erano diversi. In definitiva, con le speranze e i timori per questa tecnologia (ai massimi storici), è fondamentale avere una solida padronanza di ciò che i modelli linguistici di grandi dimensioni possono e non possono fare (o, meglio, devono e non devono fare).
La maggior parte dei problemi legati al modo in cui vengono testati i modelli linguistici di grandi dimensioni si riduce alla questione dell’interpretazione dei risultati. Le valutazioni progettate per gli esseri umani, come gli esami di maturità e i test del quoziente intellettivo, danno diverse cose per scontato.
Quando le persone ottengono un buon punteggio in un test, è lecito supporre che possiedano le conoscenze, la comprensione o le abilità cognitive che tale test intende misurare. Anche se questa supposizione vale solo fino a un certo punto. Gli esami universitari o i test di accesso a talune università o facoltà, ad esempio, non sempre riflettono le reali capacità degli studenti. Tuttavia, quando un modello linguistico di grandi dimensioni ottiene un buon punteggio in questi test, non è affatto chiaro cosa sia stato effettivamente misurato. Ciò che è certo, è che la macchina non è “umanamente” intelligente. L’errore dei valutatori risiede nel fatto che i modelli linguistici di grandi dimensioni producono risultati che sembrano così simili a quelli umani che si è tentati di supporre che i test di psicologia “per umani” sarebbero utili per valutarli. Ma non è così. I test di psicologia umana si basano su molti presupposti che potrebbero non essere validi per i modelli linguistici di grandi dimensioni. Si pensi a GPT-3 che, nonostante abbia ottenuto risultati migliori dei “concorrenti” umani in alcuni test, ha prodotto risultati assurdi in altri. Per esempio, ha fallito una versione di un test di ragionamento analogico su oggetti fisici che gli psicologi dello sviluppo, a volte, somministrano ai bambini.
ChatGPT e la logica: il nuovo test
I ricercatori della University of California hanno somministrato un test logico a GPT-3 che vede una sorta di “genio della lampada” trasferire gioielli tra due bottiglie, chiedendo al modello linguistico come trasferire – invece – delle palline di gomma da una ciotola all’altra, usando oggetti come un cartellone e un tubo di cartone. L’idea alla base della richiesta è che la storia del genio suggerisse alla macchina dei modi per risolvere il problema. GPT-3, tuttavia, ha proposto per lo più soluzioni meccanicamente insensate, con molti passaggi estranei e nessun meccanismo chiaro con cui le palline di gomma sarebbero state trasferite tra le due ciotole. Alquanto strano se si pensa che questo è il genere di cose che i bambini possono risolvere con una certa facilità. Le cose in cui questi modelli linguistici tendono a “peccare” sono quelle che implicano la comprensione del mondo reale, come la fisica di base o le interazioni sociali, cose che per le persone è abbastanza agevole fare.
Resta da comprendere come possiamo dare un senso a una macchina che supera l’esame di abilitazione in medicina ma che viene “bocciata” all’asilo.
I modelli linguistici di grandi dimensioni, come il più recente GPT-4, vengono addestrati su un gran numero di documenti presi da Internet: libri, blog, fiction, relazioni tecniche, post sui social media e molto altro. Così come è probabile che vengano addestrati su gigabyte e gigabyte di esami conclusi con successo alla facoltà di medicina. Potremmo quasi dire che modelli come GPT-4 sono stati addestrati su così tanti test professionali e accademici che hanno imparato a completare automaticamente le risposte, ottenendo una padronanza completa di determinate materie. Ad esempio, per quanto attiene il test per l’abilitazione a medicina negli Stati Uniti, OpenAI ha utilizzato domande di test a pagamento per essere sicura che i dati di addestramento di GPT-4 non le includessero nell’esame. Ma queste precauzioni non sono infallibili: GPT-4 potrebbe comunque aver visto test simili, ma non proprio identici. Insomma, c’è sempre un certo margine di errore.
La “fragile” intelligenza dei modelli linguistici
Le prestazioni dei modelli linguistici di grandi dimensioni sono fragili. Tra le persone, si può presumere che chi ottiene un buon punteggio in un test lo ottenga anche in un altro test simile. Ma questo non è il caso dei modelli linguistici di grandi dimensioni: una piccola modifica a un test può far scendere la valutazione da eccellente a insufficiente. In generale, la valutazione dei modelli di Intelligenza Artificiale non è stata fatta in modo tale da permetterci di capire effettivamente quali capacità abbiano questi modelli.
In un documento pubblicato a marzo scorso da un gruppo di ricercatori di Microsoft, si affermava di aver individuato “scintille” di Intelligenza “generale” Artificiale in GPT-4. Il team di Microsoft valutò il modello linguistico di grandi dimensioni di OpenAI utilizzando una serie di test. In uno di questi, fu chiesto a GPT-4 come impilare in modo stabile un libro, nove uova, un computer portatile, una bottiglia e un chiodo. Il modello propose di posizionare il computer portatile sopra le uova, con lo schermo rivolto verso il basso e la tastiera rivolta verso l’alto, con il portatile inserito perfettamente nei bordi del libro e delle uova e la sua superficie piatta e rigida come piattaforma stabile per lo strato successivo. Non male come risposta. Tuttavia, in un altro test in cui si chiese a GPT-4 di impilare uno stuzzicadenti, una ciotola di budino, un bicchiere d’acqua e un marshmallow, la macchina di OpenAI suggerì di infilare lo stuzzicadenti nel budino e il marshmallow nella ciotola d’acqua.
Conclusioni
E pensare che cinquant’anni fa si pensava che per battere un grande maestro di scacchi fosse necessario un computer intelligente quanto una persona. Ma gli scacchisti di decenni fa furono battuti da macchine che erano semplicemente più brave di loro. Vinse la “forza bruta”, non l’intelligenza[1]. E sfide simili vennero lanciate anche al di fuori del settore scacchistico. Tuttavia, ogni volta che alle macchine viene chiesto di fare qualcosa che richiede l’intelligenza degli esseri umani, come giocare o usare il linguaggio, c’è qualcosa che non va. I modelli linguistici di grandi dimensioni stanno ora affrontando il loro momento scacchistico (o “momento Kasparov”).
Sembra che GPT-4 dimostri una vera intelligenza superando tutti quei test in cui trova una “scorciatoia” efficace. Tuttavia, sembra ancora un tabù smentire gli entusiasti sostenitori di tale tecnologia sostenendo che GPT-4 è capace ma, probabilmente, non intelligente come l’uomo (e, men che meno, più di esso). Si tratta, in definitiva, di capire come i modelli linguistici di grandi dimensioni fanno quello che fanno. Alcuni ricercatori vogliono abbandonare l’ossessione per i punteggi ottenuti nei test e cercare di capire cosa succede sotto il “cofano” della macchina. È necessario che per comprendere davvero la loro intelligenza, se vogliamo chiamarla così, dovremo capire i meccanismi con cui tale macchine “ragionano”.[2]
Note
[1] Si pensi al “match del secolo” IBM Deep Blue contro Garri Kasparov del 1996. Cfr. https://www.chess.com/it/blog/Schondiger/deep-blue-vs-kasparov-24-anni-fa-il-primo-match-vinto-da-una-macchina-contro-il-campione-del-mondo
[2] Large language models aren’t people. Let’s stop testing them as if they were. MIT Technology Review. https://www.technologyreview.com/2023/08/30/1078670/large-language-models-arent-people-lets-stop-testing-them-like-they-were/