Conversazioni umane e "artificiali", non facciamoci abbagliare da ChatGPT: ecco dove il confine è netto

C’è una caratteristica centrale che distingue ChatGPT e simili da un interlocutore umano: pur sapendo rispondere in modo coerente e creativo a richieste anche complesse, sono del tutto incapaci di proporre contenuti conversazionali non puramente reattivi, manca, all’AI, la parte “affiliativa” della conversazione

La straordinaria naturalezza e complessità del linguaggio prodotto da modelli di intelligenza artificiale quali ChatGPT ha generato al contempo grande entusiasmo e grande perplessità, tanto nel vasto pubblico quanto all’interno di comunità accademiche che si occupano di linguaggio. Non c’è quasi conversazione sull’intelligenza artificiale che non finisca in un’enumerazione di prodigiosi e sorprendenti abilità del sistema.

Dialogare con un’intelligenza artificiale è sempre più facile: ecco perché inizia una nuova era

ChatGPT ha riportato in voga la grande domanda filosofica sulla possibilità di creare una cosiddetta Artificial General Intelligence (o AGI), polarizzando le opinioni tra coloro che ritengano che lo stato attuale di questi modelli sia già prossimo a una forma di intelligenza generalizzata, coloro che ritengono l’impresa impossibili, e coloro che sottolineano l’insensatezza della domanda in assenza di una definizione consensuale di intelligenza svincolata dal suo appartenere a una forma di vita umana.

Indice degli argomenti

La competenza linguistica dell’intelligenza artificiale

Le capacità di sistemi generativi quali ChatGPT sembrano aver messo in questione l’idea che ci sia un netto confine tra linguaggio umano e linguaggio artificiale e aver messo in discussione l’assunto che la capacità di interagire linguisticamente sia una prerogativa unicamente umana. In presenza di capacità tanto sofisticate di generare linguaggio grammaticalmente corretto, coerente rispetto al contesto di conversazione, e incredibilmente flessibile da un punto di vista stilistico, vien da chiedersi se sia ancora possibile identificare divergenze tra il comportamento linguistico umano e quello degli attuali modelli linguistici.

Questa domanda declina il più generico interrogativo sull’AGI in termini di competenza linguistica. Abbiamo già creato, o sarebbe possibile creare, un sistema che dispone del linguaggio nel modo in cui dispongono gli esseri umani, considerati “golden standard” della competenza linguistica? Se la capacità di padroneggiare forme di produzione linguistica complessa e creativa (per esempio, comporre poesie) e l’emergere di modelli che sono in grado di gestire input sia linguistici che multimodali (GPT-4) potrebbe suggerire di sì, ci sono pure una serie di caratteristiche e scenari in cui le differenze sono eclatanti e che, a nostro avviso, aiutano a chiarire la domanda sulla natura e la specificità di questa nuova forma di intelligenza.

Informazioni plausibili ma scorrette

In primo luogo, è stato mostrato a più e più riprese come questi modelli tendano spesso a fornire informazioni plausibili ma scorrette, e ad inventare fonti (per esempio, articoli scientifici) inesistenti imitando lo stile di un articolo scientifico. Per ricorrere ad un’interpretazione filosofica radicata in molta della filosofia del linguaggio “classica” del Novecento, tali modelli mancano di processi vero-funzionali, ovvero della capacità di valutare enunciati non soltanto in relazione alla loro correttezza linguistica e alla loro adeguatezza rispetto alla conversazione in corso, ma anche rispetto a un modello esplicito del mondo. La capacità di integrare tali processi all’interno dei modelli esistenti è un requisito fondamentale per una loro diffusione eticamente sostenibile e sicura.

Per fare un esempio, a dicembre 2022, Paolino Madotto riportava un saggio prodotto da ChatGPT sui pappagalli violinisti, di cui riportiamo l’inizio: “I pappagalli che suonano il violino sono un fenomeno sempre più diffuso in tutto il mondo. Non è insolito vedere questi simpatici animali esibirsi in pubblico, mostrando le loro abilità musicali e suscitando stupore e ammirazione nel pubblico. Alcuni di questi animali sono stati addestrati a suonare il violino in modo autonomo, altri sono accompagnati da un violinista umano…”. È evidente che un pappagallo non possa suonare il violino per ragioni cognitive e, ancor più radicalmente, per ragioni anatomiche. L’evidente impossibilità non crea però alcun problema a ChatGPT che non ha i vincoli di adeguatezza rispetto al mondo. Un ulteriore elemento di interesse di questo testo è dato dal fatto che, a seguito di rinforzi negativi, ChatGPT ha corretto la risposta e attualmente non darebbe la stessa risposta. Non è migliorata l’adeguatezza al mondo, ma alle aspettative che noi umani abbiamo sul mondo.

Un secondo aspetto notevole è l’incapacità di rappresentare e agire esplicitamente sull’incertezza non legata soltanto agli aspetti fattuali di un enunciato, ma al suo stesso contenuto semantico. In presenza di enunciati o richieste potenzialmente ambigue, questi modelli tendono a forzare l’input rispetto a un’interpretazione plausibile, piuttosto che, come farebbe un essere umano, chiedere attivamente chiarimenti (per esempio, attraverso una domanda) sul significato della frase in questione. Più genericamente, ChatGPT e simili sembrano funzionare benissimo nel contesto di atti linguistici ben definiti e non-ambigui in cui a una richiesta dell’utente segue una e una sola risposta, ma mancano della componente “fenomenologica” della comprensione, e della capacità di ricorrere a strumenti conversazionali che permettano di modulare e risolvere significati potenzialmente ambigui, uno scenario tutt’altro che raro nelle conversazioni umane. Di norma le nostre conversazioni, anche rimanendo nell’ambito della richiesta di informazioni, che è l’interazione per cui è ottimizzata ChatGPT, si svolgono attraverso diversi passi, nei quali i ruoli di parlante e ascoltatore vengono continuamente invertiti. Di seguito un esempio di conversazione descritta da ChatGPT.

Una conversazione che attualmente l’IA non sarebbe in grado di realizzare

Una conversazione che attualmente l’intelligenza artificiale non sarebbe certamente in grado di realizzare:

Amico 1: Ciao! Come stai?

Amico 2: Ciao! Bene grazie, e tu?

Amico 1: Anche io bene, grazie. Cosa hai fatto di bello nel weekend?

Amico 2: Sono andato al mare con la mia famiglia. È stato fantastico, abbiamo preso il sole e fatto il bagno.

Amico 1: Che bello! Io invece ho fatto una passeggiata in montagna con il mio cane. È stata una giornata splendida.

Amico 2: Sì, sembra davvero una bella giornata. Hai visto le previsioni del tempo per la prossima settimana?

Amico 1: Sì, sembra che ci saranno un paio di giorni di sol . Ma poi dovrebbe piovere.

Amico 2: Va bene, allora vediamo di organizzarci per uno di quei due giorni.

Amico 1: Bene, sarà divertente!

Si noti come alla frase dell’ Amico 1, che dà il via alla conversazione, l’Amico 2 non risponda con una semplice informazione, ma concluda la sua risposta ponendo egli stesso una domanda che dà vita ad un nuovo turno conversazionale, però invertito. Queste interazioni conversazionali possono essere reiterate più volte, molto raramente esse si esauriscono in un solo turno, come invece accade nelle interazioni con ChatGPT.

Ancora, si noti come sarebbe considerato scortese se il primo scambio conversazionale (Ciao! Come stai?), si concludesse con “Ciao! bene, grazie”, senza mostrare reciprocità nella manifestazione di interesse, ben esemplificata nella conclusione della prima risposta: “e tu?” , che infatti apre il nuovo turno conversazionale.

Infatti, ed è forse l’elemento più importante, c’è una caratteristica centrale che distingue ChatGPT e i suoi simili e predecessori da un interlocutore umano. Se le IA sono efficacissime nel rispondere coerentemente e creativamente a richieste anche estremamente astratte e complesse, il loro comportamento è radicalmente diverso dagli interlocutori umani nel loro essere incapaci di proporre contenuti conversazionali non puramente “reattivi”. Addestrate a riprodurre pattern statistici e incorporare feedback umano in contesti di pura richiesta e risposta, i modelli attuali sono incapaci di giostrare la complessa alternanza tra coerenza tematica e capacità di esplorare nuovi argomenti e introdurre nuovi contenuti conversazionali che sta alla base di buona parte delle conversazioni umane. Il nostro uso della lingua ha in moltissimi casi uno scopo almeno in parte puramente “affiliativo”, orientato, cioè, non a risolvere problemi, ma a rinsaldare legami tra individui sostenendo una complicata danza tra ripetizione e innovazione.

Conclusioni

Queste differenze (a nostro avviso centrali, ma non esaustive) gettano nuova luce sugli interrogativi legati all’AGI. Se da un lato, focalizzandosi sulle loro capacità di interagire in maniera fluida e flessibile in un particolare contesto conversazionale di domanda e risposta, il comportamento linguistico degli attuali sistemi di IA potrebbe essere indistinguibile da quello di un assistente umano, dall’altro, questi sistemi sono ottimizzati, appunto, per questa particolare modalità di interazione, i cui criteri di successo divergono nettamente da quelli di buona parte delle conversazioni in cui ci troviamo coinvolti quotidianamente.

Sebbene non sia impossibile immaginare modalità d’addestramento che potrebbero permettere a questi modelli di sviluppare, almeno in parte, capacità conversazionali generalizzate, è forse questa una delle divergenze ancora irrisolte. Se l’illusione dell’unicità dell’animale linguistico può essere, forse, messa da parte, la strada verso l’implementabilità dei processi cognitivi e sociali che giacciono alla base di conversazioni non goal-directed sembra, ancora, tutta da percorrere.