intelligenza artificiale

ChatGPT alla prova della Maturità: ecco gli esami già superati e i limiti

ChatGPT non ha solo superato gli esami di Stato, ma numerose prove svolte nel mondo per testarne la validità. Gli esperimenti e i test passati, i limiti del chatbot

Pubblicato il 13 giu 2023

Carmelina Maurizio

Università degli Studi di Torino

L’AI si può diplomare? A quanto pare sì, almeno secondo l’esperimento condotto alla Radboud University, l’università cattolica di Nimega. I risultati a detta dei docenti sono stati stupefacenti, poiché il punteggio ottenuto è stato altissimo: 9.8, un risultato quasi irraggiungibile per gli studenti.

L’impatto di ChatGPT sull’istruzione: cosa ne pensano docenti e studenti

Indice degli argomenti

L’esperimento

L’esperimento è stato condotto dal professor Marc van Oostendorp della Radboud University di Rotterdam. I risultati del suo lavoro di ricerca sono stati pubblicati sulla rivista online di linguistica, letteratura e competenza linguistica olandesi Neerlandistiek. L’esperimento è stato realizzato con l’obiettivo di studiare le dinamiche di un futuro utilizzo nella didattica del chatbot basato su intelligenza artificiale sviluppato da OpenAI. “Credo che un anno fa nessuno avrebbe pensato che ci sarebbe stato un computer in grado di sostenere l’esame finale delle superiori”, ha dichiarato van Oostendorp, che per questa ricerca ha utilizzato la versione del software accessibile gratuitamente.

Il primo risultato emerso dall’esperimento è che ChatGPT non comprende un testo, ma risponde correttamente; è certo un punto di partenza per un risultato eccezionale, specie se consideriamo che ad affrontare l’esame è stata la versione gratuita di ChatPGT. È un argomento complesso, come sembra confermare la ricerca olandese, perché i chatbot non sembrano capire davvero il contenuto che viene presentato loro, tuttavia rispondono correttamente. “Questo solleva questioni non solo filosofiche su cosa significhi la ‘comprensione reale’ del testo” ha spiegato il ricercatore di Nimega.

Il test, poi condotto anche sulla versione premium 4.0, ha dato risultati ancora migliori: passando da 33 su 60 della versione gratuita al punteggio di 50 su 60 della versione potenziata.

Come l’IA concepisce ed elabora un testo

Dalla ricerca emerge un altro argomento di dibattito importante, destinato a far discutere: l’AI avrebbe un differente modo – rispetto alla mente umana – di concepire ed elaborare un testo.

Ma ChatGPT può davvero avere la capacità di comprendere un testo complesso? Questa la risposta del linguista di Rotterdam: “La discussione è ampia perché in un certo senso i chatbot non sembrano capire veramente cosa viene loro presentato e a cosa rispondono correttamente. Ma il dibattito è molto filosofico e fino a quando non avremo test alternativi che misurino la comprensione reale e siano fatti bene dagli umani e non dai robot, non sappiamo nemmeno quali siano le conseguenze pratiche”.

I limiti

Il limite principale che riguarda la versione gratuita non risiede tanto nella comprensione del testo ma, come spiega il professore olandese, nel capire le convenzioni di un esame e confrontare i testi tra loro. Un altro problema è che ChatGPT non è in grado di contare correttamente e dà risposte troppo lunghe. Se c’è un limite di, diciamo, 30 parole, viene superato.

Un’altra linguista, Roberta D’Alessandro dell’Università di Utrecht, ha diffuso la notizia dell’esperimento in Italia. La cosa interessante, dice D’Alessandro, “è che l’esame di maturità olandese comprende una parte che si chiama ‘begrijpend lezen’, e cioè comprensione del testo. Lo studente deve capire le implicazioni del testo, quello che viene suggerito ma non detto. ChatGPT ci è riuscita benissimo, a capire. Ha capito tutto perfettamente. All’esame di francese, ha preso un bell’8”.

Ma ChatGPT ha miseramente fallito la maturità delle scuole professionali e questo, secondo gli esperti, può significare, che l’intelligenza c’è, ma come si fanno le cose pratiche è un qualcosa che attualmente ignora. Il livello di prestazione dell’AI si è mantenuto alto una media alta, secondo la logica dello studente brillante in molte materie, il qualcosa compensa quelle per cui non è portato.

Le prove svolte nel mondo per testare la validità di ChatGPT

ChatGPT, come è noto, non ha solo superato gli esami di Stato, ma numerose sono le prove svolte nel mondo per testarne la validità in occasione di test.

SAT – Scholastic Aptitude Test, Scholastic Assessment Test

Secondo OpenAI, ChatGPT-4 ha superato la sezione SAT[1] Reading & Writing con un punteggio di 710 su 800, che lo colloca nel 93° percentile dei partecipanti al test. Il GPT-3.5, invece, ha ottenuto un punteggio di 670 su 800 all’87° percentile.

Per la sezione di matematica, il GPT-4 ha ottenuto un punteggio di 700 su 800, posizionandosi tra l’89° percentile dei partecipanti al test, secondo OpenAI. Mentre il GPT-3.5 ha ottenuto un punteggio pari al 70° percentile, secondo OpenAI.

In totale, il GPT-4 ha ottenuto 1410 punti su 1600. Il punteggio medio del SAT nel 2021 è stato di 1060, secondo un rapporto del College Board.

GRE – Graduate Record Examinations

I punteggi del di ChatGPT 4 al Graduate Record Examinations, o GRE[2], variavano notevolmente a seconda delle sezioni.

Mentre ha ottenuto il 99° percentile nella sezione verbale dell’esame e l’80° percentile nella sezione quantitativa, il GPT-4 ha ottenuto solo il 54° percentile nella prova di scrittura.

Anche il GPT-3.5 ha ottenuto il 54° percentile nella prova di scrittura e ha ottenuto punteggi entro il 25° percentile e il 63° percentile rispettivamente per le sezioni quantitativa e verbale.

USA Biology Olympiad

Si tratta di una prestigiosa competizione scientifica nazionale che attira regolarmente alcuni dei più brillanti studenti di biologia del Paese. Il primo turno prevede un esame online aperto di 50 minuti che attira migliaia di studenti in tutto il Paese, secondo il sito dell’USABO.

La seconda prova – l’esame di semifinale – consiste in un esame di 120 minuti in tre parti con domande a scelta multipla, vero/falso e a risposta breve, si legge sul sito dell’USABO. Secondo l’USABO, gli studenti con i migliori 20 punteggi all’esame di semifinale passeranno alle finali nazionali.

Secondo OpenAI, il GPT-4 ha ottenuto un punteggio compreso tra il 99° e il 100° percentile nell’esame di semifinale del 2020.

Esami Advanced Placement

GPT-4 ha superato una serie di esami Advanced Placement, esami per corsi di livello universitario sostenuti da studenti delle scuole superiori e amministrati dal College Board.

I punteggi vanno da 1 a 5, con punteggi pari o superiori a 3 generalmente considerati voti di passaggio.

Secondo OpenAI, GPT-4 ha ottenuto un 5 in Storia dell’arte AP, Biologia AP, Scienze ambientali AP, Macroeconomia AP, Microeconomia AP, Psicologia AP, Statistica AP, Governo AP degli Stati Uniti e Storia AP degli Stati Uniti AP.

In AP Physics 2, AP Calculus BC, AP Chemistry e AP World History, GPT-4 ha ricevuto un 4, sempre secondo il riscontro fornito da OpenAI.

AMC

Gli AMC[3] 10 e 12 sono esami da 25 domande e 75 minuti somministrati agli studenti delle scuole superiori che coprono argomenti matematici, tra cui algebra, geometria e trigonometria, secondo il sito della Mathematical Association of America.

Nell’autunno del 2022, il punteggio medio su 150 punti totali dell’AMC 10 è stato di 58,33 e 59,9 dell’AMC 12, secondo il sito della MAA. Il GPT-4 ha ottenuto rispettivamente 30 e 60 punti, collocandosi tra il 6° e il 12° percentile dell’AMC 10 e tra il 45° e il 66° percentile dell’AMC 12.

Sommelier

Sebbene sia notoriamente difficile ottenere le credenziali come steward del vino, GPT-4 ha superato anche gli esami di Sommelier Introduttivo, Sommelier Certificato e Sommelier Avanzato con percentuali rispettive del 92%, 86% e 77%.

Note

[1] Lo SAT^, Scholastic Aptitude Test e Scholastic Assessment Test) è un test attitudinale molto diffuso, generalmente richiesto e quasi universalmente riconosciuto per l’ammissione ai college negli Stati Uniti. Il marchio SAT è posseduto e amministrato dalla College Board, con sede a New York.

[2] Il Graduate Record Examinations (GRE) è un test standardizzato che costituisce requisito di ammissione per le più prestigiose scuole di specializzazione, Business School e Law School del mondo.

[3] L’AMC 10 e l’AMC 12 sono entrambi esami di matematica per le scuole superiori, della durata di 25 domande e 75 minuti, a scelta multipla, progettati per promuovere lo sviluppo e il miglioramento delle capacità di risoluzione dei problemi.

L’AMC 10 è destinato agli studenti che frequentano il 10° anno di scuola superiore o meno e copre il curriculum della scuola superiore fino al 10° anno.

@RIPRODUZIONE RISERVATA