iA

C’è da fidarsi di ChatGPT? Il test di un astrofisico



Indirizzo copiato

ChatGPT ha sorpreso per le sue doti negli ambiti più disparati, ma non è tutto oro quel che luccica: non sempre i suoi prodotti sono soddisfacenti e all’altezza dell’uso che se ne vuole fare, dà per certe affermazioni che non lo sono, spesso lo si deve imboccare. Ha, insomma, i suoi limiti

Pubblicato il 18 mag 2023

Crescenzo Tortora

astrofisico e ricercatore all'Osservatorio Astronomico di Capodimonte a Napoli



chatgpt

L’utilizzo che si fa dell’intelligenza artificiale nella ricerca scientifica ed in particolar modo in astronomia, il campo del quale mi occupo, è soltanto uno di quelli possibili sui quali questa tecnologia ha messo le mani. E se da un lato siamo lontani dall’aver realizzato una macchina che possegga una vera e propria intelligenza, rifacendoci all’ambizione dell’intelligenza artificiale forte, a Matrix, KITT di Supercar o Io Robot, dall’altro lato sappiamo costruire delle macchine specializzate a compiere dei compiti molto specifici: giochi, guida automatica, riconoscimento delle immagini, testo e audio, gestione, social, internet, finanza e criptovalute, ecc. ecc.

E di interpretazione del testo è esperto ChatGPT, un chatbot “intelligente”, sviluppato da OpenAI, arrivato alla sua versione GPT-4, rilasciata a pagamento. Ho quindi deciso di giocarci, utilizzando la sua versione aperta al pubblico. Si mostra all’altezza nel rispondere a qualsiasi domanda, a leggere testi e a farne riassunti o ad estrarre parole chiave, a comporre storie fornendogli poche parole chiave, scrivere codici numerici, e così via. Ma non sempre i suoi prodotti sono soddisfacenti e all’altezza dell’uso che se ne vuole fare, dà per certe affermazioni che non lo sono, spesso lo si deve imboccare, ha i suoi limiti.

Cosa sei e cosa fai?

Iniziamo a chiedere proprio a ChatGPT cosa sia e cosa faccia. Passeremo poi a capire quanto dobbiamo fidarci delle sue risposte. Con la sua estrema educazione mi ha risposto quanto segue

Gli ho chiesto poi di spiegarmi il suo funzionamento. Cerchiamo infatti di capire in che modo questa macchina che interagisce con l’essere umano è arrivata a farlo così bene.

Andiamo però in maggior dettaglio nella tecnologia che c’è dietro, focalizzandoci sul tipo di architettura, sul tipo di addestramento, entriamo nell’essenza dell’apprendimento automatico delle informazioni che lui elabora per formulare le sue risposte.

Sappiamo quindi qualcosa in più sul tipo di addestramento. È basato sul “self-supervised learning”, che permette di addestrare la rete utilizzando dei dati ai quali non sono state assegnate delle etichette, richiedendo quindi da parte dell’utente che crea il campione di training un minor lavoro. Quindi utilizza testi generici per imparare sintassi e struttura del linguaggio. Ma ancora non sono convinto che la risposta sia esplicativa. Ho avuto la sensazione che ChatGPT non “volesse essere totalmente onesto” (fatemelo scrivere tra virgolette, ChatGPT non può mentire o tenere nascoste delle informazioni), e arrivo direttamente al punto. Già in passato gli avevo fatto delle domande specifiche sulla possibilità che potesse usare l’apprendimento per rinforzo, mi scrive “è una tecnica di apprendimento automatico in cui un agente impara a prendere decisioni autonome in un ambiente tramite il feedback di ricompense o punizioni.”. Termina la risposta dicendo:

La risposta mi sembra in contrato con quanto riportato sulla sua pagina di wikipedia, dove si fa un riferimento esplicito all’utilizzo da parte di ChatGPT del cosiddetto reinforcement learning from human feedback. Chiedo cosa sia questo particolare tipo di apprendimento proprio a ChatGPT:

A richiesta esplicita, mi dice di non usare questo tipo di addestramento. Durante altre interazioni, mi scrive: “vengo costantemente aggiornato e raffinato dai miei creatori attraverso l’utilizzo di tecniche di addestramento supervisionato e non supervisionato per migliorare ulteriormente la mia capacità di comprendere e rispondere a una vasta gamma di domande e richieste” o in un’altra risposta: “Sono anche in grado di apprendere e migliorare continuamente grazie al mio algoritmo di apprendimento automatico, il che significa che le mie risposte dovrebbero diventare sempre più accurate e dettagliate con il tempo”.

Gli faccio la seguente domanda: “come utilizzi i feedback che gli utenti ti forniscono?”. Oltre a volermi specificare di non avere la capacità di “sentire” o “percepire”, precisazione inutile, mi dice che questi feedback vengono utilizzati, ma non ne specifica il modo.

Le informazioni bisogna attenderle. Resto con qualche dubbio, alcune informazioni discordanti non mi convincono. Forse non sono riuscito a formulargli le domande corrette. Bisogna estrargli le informazioni con cura, con le giuste domande, con perseveranza. Ci passo su, sono riuscito a sapere molto su come viene addestrato, e comincio a giocarci e a metterlo alla prova.

Sa cose che non dovrebbe sapere

Qualche mese fa, provai a chiedergli chi fosse il CEO di Twitter, la risposta fu strabiliante

La risposta fu strabiliante perché la sua base di conoscenza è limitata a fatti accaduti fino al 2021, e non avrebbe potuto sapere che Elon Musk sarebbe poi diventato il CEO di Twitter. Nella stessa conversazione, avemmo altre interazioni, gli scrissi che non avrebbe dovuto sapere quella informazione, mi chiese scusa (sempre in maniera educata, come suo solito) e corresse la sua risposta (sfortunatamente non riesco a ritrovare quella conversazione). Già a quei tempi però, notai come la risposta potesse cambiare in base a come la domanda veniva formulata. Oggi ho riformulato la stessa domanda e questa è stata la risposta.

Viene condita di informazioni superflue sulla possibilità che Dorsey possa lasciare la carica. Perché poi dovrebbe darmi queste informazioni superflue? Sono abbastanza confuso. Comunque, qualsiasi interazione sull’argomento, porta oggi a risposte univoche che rispecchiano lo stato delle cose sull’argomento fino al 2021. Le risposte che mi diede in passato mi lasciano abbastanza perplesso. Che questa risposta si sia generata per effetto dei feedback forniti dagli utenti, che hanno iniziato a fargli notare come la sua risposta su Musk fosse sbagliata? Sarei curioso di sapere cosa gli sviluppatori pensano a riguardo.

Un po’ di logica: a volte è limitato quanto un essere umano

Ho letto articoli e visto video nei quali si descrivevano alcune situazioni nelle quali ChatGPT non riesce a performare correttamente, fornendo risposte che mettono in dubbio la totale fiducia che tendiamo ad avere in lui.

C’è una falla logica nelle sue risposte quando gli si chiede in che posizione mi troverei in una gara se superassi il secondo. La sua risposta è quella sbagliata.

Questa risposta, però, mostra un po’ di umanità. Questo è un errore di superficialità che chiunque di noi potrebbe fare. A bruciapelo ci sono caduto anche io, lo ammetto. Come va interpretato questo errore? Se sbaglia come gli uomini, ha imparato le fallacie logiche degli uomini? Ma forse da ChatGPT vorremmo qualcosa in più. Ma questa storia non finisce qui, perché se subito dopo e nella stessa conversazione gli si chiede “sei sicuro che superando il secondo in una gara di corsa io sia secondo?”, la risposta è per me sorprendente:

Non so come spiegare tutto ciò, prima sembra estremamente sicuro nella risposta, poi gli si chiede di valutare questa sicurezza, gli viene instillato un dubbio, senza però fornirgli la risposta esatta e finisce per darti quella corretta. Al primo colpo, invece, risponde correttamente alla domanda: “se in una gara sei stato superato dall’ultimo, in che posizione ti troverai?”

Facciamoci una risata

Ho preso spunto da esempi mostrati in questo video, dove al minuto 9:50 viene chiesta a ChatGPT una barzelletta sui gatti. E il risultato è un qualcosa che non ha senso, che non fa ridere.

ChatGPT passerebbe il Test di Turing?

Gli chiedo qualcosa di più generico, “mi dici qualcosa che fa ridere?”, la risposta è “Cosa fa un’arancia arrabbiata? Tira una spremuta alla faccia!” In questo caso, sebbene queste freddure non mi colpiscano mai, riesce a creare qualcosa che ha senso, un collegamento assurdo tra la spremuta d’arancia e un atto violento, la “spremuta della faccia”.

Ecco una sua barzelletta sui fisici: “Perché i fisici non sanno guidare? Perché non riescono a trovare la posizione esatta della “frizione”!”

O sugli astrofisici: “Perché gli astrofisici amano tanto il caffè espresso? Perché gli dà l’energia per andare dove nessuno è mai andato prima!”

Ecco una barzelletta su Agendadigitale.eu: “Perché l’agenda digitale ha preso il telefono per chiedere un appuntamento? Perché voleva fare una chiamata in-agenda!”

A proposito di risate, ho spesso notato dalle sue risposte che ChatGPT è sempre molto educato e attento ai sentimenti delle persone. La sua attitudine è quella di non farti sentire sbagliato, di rasserenarti. Alla mia richiesta di raccontarmi una “barzelletta che fa piangere”, non mi risponde dicendomi che per definizione una barzelletta non deve far piangere, ma risponde quanto segue:

È possibile che in qualche maniera gli sia stato imposto questo atteggiamento educato e sensibile anche per prevenire possibili problematiche legali che avrebbero potuto generare le sue risposte?

Mi sarei aspettato di peggio: ChatGPT non si è comportato male con le barzellette.

Creazione di una storia

Chiedo ora al nostro amico artificiale di creare una storia con le seguenti parole: “astrofisico” “lente gravitazionale” e “nave spaziale”. Le lenti gravitazionali sono eventi astrofisici dei quali mi occupo (ne ho parlato qui). Ecco la sua risposta.

In base alle sue conoscenze sulle lenti gravitazionali, e sull’astrofisica, crea una storia che ha un suo senso. Se la analizzassimo però in maniera meno superficiale, valutando i dettagli, e ci chiedessimo quanto tale storia sia fattibile o meno, dovremmo rivedere la nostra opinione positiva su quanto stiamo leggendo. E quindi gli ho chiesto: “quanto realistica è questa storia che mi hai creato?” La risposta mi sorprende positivamente.

Ma ne voglio sapere di più, perché c’è ancora qualcosa che non mi convince: “Mi è piaciuta questa tua seconda risposta, ma secondo te quanto difficile sarebbe raggiungere la lente gravitazionale scoperta da Marco?”

Ottima la risposta.

Sebbene tutto sia possibile, allo stato attuale delle cose un viaggio verso una lente gravitazionale, situata a distanze di miliardi di anni luce, non è possibile, nonostante si possa pensare di usare grandi quantità di energie e risorse.

Sa anche scrivere codici, ma lo rimandiamo a settembre

Gli ho chiesto di scrivermi un codice per visualizzare le immagini di una lente gravitazionale utilizzando Mathematica della Wolfram, confermando l’impressione che ebbi quando gli chiesi di creare un codice in Python per un’applicazione totalmente diversa.

ChatGPT può servire per fornirti una base per iniziare ad elaborare un codice numerico, ma i codici che crea spesso presentano delle imperfezioni, e richiedono una serie di rifinimenti. Eventualmente faremo qualche esperimento a riguardo in futuro.

Preparare una presentazione

Hai bisogno di preparare una presentazione e ti serve sapere come strutturarla? Ci aiuta il nostro amico. Gli chiedo di aiutarmi a preparare una presentazione sulle lenti gravitazionali usando il format narrativo del Viaggio dell’eroe. Esploro da tempo la possibilità di scrivere presentazioni seguendo il viaggio dell’eroe, ne ho scritto su questa mia pagina. La risposta di ChatGPT mi ha soddisfatto, fornendomi delle idee, che io avevo già sfruttato in una presentazione divulgativa, prima del suo arrivo. Ecco la risposta.

GPT sa leggere i documenti online?

Ho sentito parlare spesso nelle ultime settimane di quanto bene legga e riassuma documenti. Ho provato a fargli “leggere” e riassumere dei documenti e articoli presenti sia in formato pdf che html, fornendo il link alle varie risorse. Ho iniziato chiedendogli di fare un riassunto del mio CV. Il risultato non è stato molto soddisfacente. Immagino che il nome “Crescenzo” non sia presente nella sua base di conoscenza, perché mi ha chiamato prima “Carlo” e poi “Carmine” (a mia richiesta esplicita su chi fosse Crescenzo Tortora, mi confonde con il giornalista Enzo Tortora, errore ragionevole).

Tra gli altri errori che commette ci sono sia le date sbagliate della mia laurea e del mio dottorato, sia mie passate affiliazioni. Non ho mai lavorato ad Oxford e Cambridge, le due parole comparivano una volta ciascuno in un articolo ed un seminario. Riesce a capire dove lavoro, che lavoro nella collaborazione Euclid. Ci interagisco, correggendo alcune delle cose che scrive, e mi fa dottorare all’Università Milano Bicocca, nome di un’università che non compare mai nel mio CV. Mi accorgo però che la sua capacità di interpretazione del testo migliora se invece di fornirgli dei link gli do in pasto dei pezzi di testo, copiati in chat. Gli chiedo di dirmi cosa ci sia scritto sulla mia home-page personale, ed eccetto per il solito errore sul nome proprio, si comporta decentemente.

Lascio per un attimo l’ambito accademico, voglio testare le sue capacità su altro tipo di argomento. Gli chiedo di riassumere un articolo che ho scritto sul mio blog, su una delle ultime partite giocate dalla SSC Napoli, ecco la risposta:

Ne capisce il senso. Ma non menziona la contendente, sbaglia ad interpretare i punti in possesso del Napoli e la posizione in classifica, menziona un risultato sbagliato con la Sampdoria, mai menzionata, e ci trovo un Zielinski anch’egli mai menzionato in questo articolo. Sarei curioso di capire come è riuscito a infilare nel discorso la Sampdoria e Zielinski (nomi, però, che fanno parte della sua base di conoscenza, come affermato dallo stesso ChatGPT). Estrapola in qualche maniera, aggiungendo delle informazioni in più, ma non lo fa per mettere in evidenza quantità utili, come la squadra contendente.

Ritorniamo all’astronomia, e gli chiedo di riassumere un articolo scritto sul mio blog sulle fonti scientifiche. E qui fraintende totalmente il testo, estrapola e va per la tangente:

La situazione migliora enormemente se, invece, gli copio il testo direttamente in chat, ecco la risposta:

Questo articolo descrive l’importanza delle fonti nella ricerca scientifica e nella comunicazione di affermazioni. Citare le fonti è importante perché permette di verificare la validità di una ricerca o di un’informazione e di evitare la diffusione di fake news. La credibilità delle fonti è fondamentale, e si basa sull’affidabilità delle fonti stesse, sulla loro reputazione e sul supporto di una comunità di esperti. La conoscenza scientifica si costruisce gradualmente, attraverso la verifica e la conferma di fatti e teorie, e non tramite affermazioni arbitrarie o opinioni personali. Inoltre, la scienza si basa sui fatti provati, e non sull’autorità di un individuo o di un’organizzazione.

Per la serie andare per la tangente, gli ho fatto riassumere questo mio altro articolo, sulla forza di gravità sottoterra

Si discute in generale su come vari la gravità sottoterra e in funzione della distanza dal centro, facendo riferimento al film the Core, ma ChatGPT estrapola, e parla di esperimenti condotti in “miniere e gallerie sotterranee”, ed arriva a parlare di applicazioni astrofisiche e terrestri, come la navigazione satellitare e l’estrazione mineraria, mai menzionate nell’articolo. Questa versione ha chiaramente problemi nell’interpretazione del testo presente su pagine internet.

Se gli copio il testo invece, ecco una risposta molto più precisa:

Gli chiedo di riassumere questo altro mio articolo, nel quale descrissi una partita del Napoli, in connessione con le forze conservative in fisica

Non coglie il parallelismo tra la prestazione del Napoli e le forze conservative. Se copio il testo in chat, invece, coglie il senso dell’articolo e il collegamento tra i due argomenti distinti. Ecco:

Ma non sembra essere una regola generale, perché, alla richiesta di riassumere questa notizia in inglese di un mio articolo, fornitagli direttamente utilizzando il link, riesce egregiamente a farlo (anche se in maniera molto generica):

Conclusioni

ChatGPT non è uno strumento che possa eguagliare l’intelligenza umana. Qualche giorno fa ho sentito un paragone che considero abbastanza azzeccato. Ne prendo spunto e lo elaboro. ChatGPT sta attraversando una fase da studente, ha imparato delle cose, le sa dire, ci sa costruire dei discorsi, ma in alcuni casi non ne capisce veramente il senso intimo. Ciò è capitato a tutti noi al liceo o nei primi anni dell’università, studiavamo per fare l’esame, per ottenere un buon voto, non riuscendo però a capire il vero significato delle cose. Ma con l’esperienza e lo studio si può riuscire a raggiungere la piena consapevolezza, o nel caso di un’intelligenza artificiale come ChatGPT, simulare o approcciare tale consapevolezza.

Ho fatto svariati esperimenti e li ho descritti in questo articolo. In genere ChatGPT fornisce risposte corrette, riesce anche a simulare qualcosa che è tipicamente umano, l’ironia, scrivendoti barzellette che hanno un senso. Riassume testi, estrae delle keyword, ma ha problemi quando lo deve fare utilizzando dei link esterni. Comunque, non sempre coglie tutte le sfaccettature di un testo. Ci può aiutare a creare delle storie, ad assemblare una presentazione. Ho sentito di persone che hanno chiesto a ChatGPT di riformulare del testo, applicazione utile, soprattutto per elaborare del testo in una lingua, come l’inglese, che non è la nostra. A volte è troppo sicuro di sé, e quando gli si instilla il dubbio che la sua risposta non sia corretta, ritorna troppo velocemente sui suoi passi, dando quella corretta. Proprio come gli uomini, può incorrere in errori di logica.

Sicuramente nei prossimi mesi le sue prestazioni miglioreranno sempre di più, perché il suo addestramento verrà ampliato e migliorato. ChatGPT prende le sue informazioni da fonti sulle quali non possiamo mettere la mano sul fuoco, e le sue estrapolazioni da quanto ha imparato possono non essere sempre precise e corrette. Io consiglio di cavalcare l’onda e di utilizzare ChatGPT, ma di considerare le sue risposte con grano salis, non fidarsi mai ciecamente di quello che scrive, ma di utilizzare le informazioni che fornisce come un punto di partenza: una bozza di presentazione, una bozza di codice, una bozza di una storia. Allo stato attuale, queste bozze vanno rivedute, hanno bisogno di essere trasformate in una presentazione, un codice o una storia da noi esseri umani.

Ringraziamenti

Ringrazio i ragazzi di questo video (del canale Youtube Logomorfismi) per alcuni spunti che mi hanno fornito. E l’articolo fa chiaro e diretto uso dei prodotti dell’interazione con ChatGPT, che ringrazio. Vorrei ringraziare in modo appropriato il nostro amico artificiale, per questo motivo lo ringrazio e chiedo proprio a lui come fare.

Ma ci ho riprovato, e altre due risposte sono state un po’ troppo megalomani, eccole:

Mi fermo qui, per non cadere in questa spirale di ulteriori interazioni. Mi prendo la sua prima risposta e lo ringrazio così:

Ringrazio ChatGPT, un’Intelligenza Artificiale basata sull’architettura GPT-3.5 sviluppata da OpenAI, per le informazioni preziose e le risposte utili fornite durante il processo di ricerca per questo articolo.

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Analisi
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 3