l'analisi

I limiti e i rischi di ChatGPT non sono quelli che crediamo, possiamo ancora evitare il peggio

ChatGPT ha riavviato il dibattito sulle Intelligenze artificiali spostando l’attenzione sui loro pregi e difetti e distogliendola dal pericolo che si corre accentrando il potere tecnologico nelle mani di poche aziende

Pubblicato il 03 Mar 2023

Giuseppe Attardi

professore di Informatica all'Università di Pisa

chatgpt

ChatGPT ha portato all’attenzione del vasto pubblico la tecnologia dei Large Language Model (LLM), che ne sono alla base. La sua capacità di interagire e di rispondere in linguaggio naturale in più lingue ha fatto insorgere curiosità e ha lasciato intendere che possa esibire capacità paragonabili all’intelligenza umana. Tramite esperimenti scientifici controllati, è stato possibile verificare che questo può succedere, ma solo in compiti di trattamento di testi molto specifici, mentre i Llm sono ben lontani dalle capacità della cosiddetta Artificial General Intelligence (Agi).

Ma quali scenari si prefigurano per un fuutro in cui questa tecnologia e le sue evoluzioni rimarranno nappannaggio di poche grandi imprese? E, soprattutto, possiamo ancora fare in modo che questo non accada?

I  chatbot e ChatGPT

Finora, la tecnologia principale per costruire i chatbot era basata su schemi di dialogo preconfezionati (template) con domande tipiche per ciascuno scopo (intent) con corrispondenti risposte (fulfillment) che i sistemi si limitavano ad adattare, riempiendone i campi con valori estratti dai dialoghi.

ChatGPT, ora basta giocare: ecco utilizzi e rischi (seri)

Un assistente online, per esempio, poteva essere predisposto a rispondere domande su come accedere a un servizio, come creare un account, come ottenere una password, o come cambiarla in caso di smarrimento. A tutti sarà capitato di imbattersi in tali tipi di chatbot, rimanendo frustrati dall’incapacità di ottenere aiuto al di fuori degli argomenti prefissati.

Amazon, alla ricerca di idee su come migliorare la capacità di dialogo di Alexa, il suo voice assistant, organizza la Alexa Prize, una sfida tra tutte le università del mondo, per “inventing next-generation conversational AI experiences”, che ha assegnato un premio di $500.000 al team vincitore, di cui fa parte Federico Rossetto, un laureato alla Magistrale di Intelligenza Artificiale a Pisa.

Perché ChatGPT e diverso

ChatGPT supera i limiti dei chatbot tradizionali combinando tre tecniche:

  • un Large Language Model (GPT-3.5) di cui sfrutta la capacità di capire e generare frasi in linguaggio naturale
  • la messa a punto (fine-tuning) sul compito specifico di rispondere a domande
  • il Reinforcement Learning per imparare a scegliere la mossa migliore di una strategia per raggiungere un obiettivo, in questo caso la risposta migliore, per compiacere l’interlocutore.

I Large Language Model (Llm) sono modelli di reti neurali profonde (Deep Learning) in grado di acquisire una conoscenza dettagliata di una lingua, ricavandola da enormi quantità di testi, tratti principalmente dal Web.

Per esempio, su Wikipedia si può leggere che Roma è la capitale dell’Italia e Parigi quella della Francia. Si intuisce che un Llm sappia completare la frase “La capitale è _” con la parola “Parigi”, a fronte della domanda “Qual è la capitale della Francia?”: il fine-tuning gli ha insegnato la forma della risposta e l’attention, di cui parleremo dopo, a tenere conto della parola “Francia” dal contesto della domanda.

Ma le possibilità dei Llm si sono presto dimostrate ben superiori alla loro intrinseca capacità di completare una frase o di comporre intere storie a partire da un breve spunto iniziale.

Il Reinforcement Learning utilizza un premio da assegnare al sistema quando la mossa che sceglie è utile a raggiungere l’obiettivo. Nel caso di ChatGPT l’obiettivo è di soddisfare le richieste dell’interlocutore, e il premio si basa sul confronto tra più risposte possibili.

OpenAI ha raccolto tantissime risposte alternative, ricavate da dialoghi con allenatori umani che interagivano con il chatbot da addestrare e davano un punteggio a quelle migliori. Il Llm di base (GPT-3.5) è stato messo a punto (fine-tuned) per generare la risposta migliore coerentemente a questi esempi di risposte.

Il perché della popolarità di ChatGPT

ChatGPT è diventato popolare perché OpenAI ha messo a disposizione una demo online per dialogare col chatbot nella propria lingua, anziché doverlo programmare come gli altri Llm.

Milioni di persone lo hanno voluto mettere alla prova e i commenti si sono divisi tra gli entusiasti e i detrattori. I primi erano stupiti e orgogliosi di vedere una piccola creatura alzarsi in piedi e compiere i primi passi, considerandolo un momento cruciale del suo sviluppo. Gli altri si sono sforzati di farla cadere con uno sgambetto o di farla cadere dalla bicicletta, che non aveva mai provato. Cercare domande sbagliate a cui ChatGPT dà risposte sbagliate è diventato uno sport diffuso, anziché cercare le domande giuste a cui dà la risposta giusta.

Per farsi un’opinione scientificamente valida, non bastano singoli esempi scelti appositamente, ma occorre innanzitutto capire la tecnologia e i suoi limiti per saperla sfruttare al meglio. Anche coi motori di ricerca, ci siamo rapidamente adattati ai loro limiti: sapendo che si basano sul confronto tra parole chiave della ricerca e parole presenti nei testi, abbiamo imparato a scegliere le parole giuste e a cambiarle quando non ottenevamo i risultati che ci aspettavamo.

In realtà, ChatGPT era stato preceduto da Galactica di Meta, che svolgeva compiti simili di produrre brevi saggi a tema o riassunti di articoli a partire da una raccolta di testi scientifici. Ma Galactica fu ritirato dalla circolazione tre giorni dopo il debutto per una valanga di critiche sui suoi errori e su possibili abusi. ChatGPT ha introdotto una serie di contromisure per proteggersi dagli abusi, ma soprattutto ha avuto la sfrontatezza di mettere alla prova del pubblico un sistema sperimentale, che un’azienda consolidata con miliardi di utenti come Meta non poteva permettersi.

ChatGPT è solo uno dei tanti modi che si stanno scoprendo su come usare i Llm per una varietà di compiti. La ricerca sta facendo rapidissimi progressi in questo settore e nuovi modelli vengono sviluppati in continuazione. Non dobbiamo quindi pensare che ChatGPT sia il meglio che la tecnologia possa offrire, ma solo un passo di uno sviluppo che continuerà a stupirci.

I Large Language Model

I Llm costituiscono il secondo dei tre inaspettati breakthrough scientifici del Deep learning applicato al Natural Language Processing, avvenuti nel breve periodo di dieci anni.

Il primo breakthrough fu l’invenzione di un metodo per rappresentare il senso delle parole con tecniche di apprendimento non supervisionato (self-supervised), ossia bastava fornire a una rete neurale un elevato numero di frasi affinché imparasse a cogliere somiglianze di significato tra le parole che le componevano.

Ogni parola viene rappresentata da un word-embedding, un vettore di centinaia di numeri, ciascuno che in qualche modo coglie una particolare sfumatura di significato. Parole di significato simile si trovano vicine tra loro in questo spazio, per esempio Francia, Italia e Germania sono vicine (basta provare a inserire la parola “France” nel camp di ricerca), facendo supporre che possano essere accomunate da qualcosa che noi chiameremmo la categoria nazione.

Microsoft, Google e Apple saranno altrettanto vicine, legate forse dal concetto di azienda digitale.

Categorie e concetti emergono naturalmente, come parole presenti in un certo intorno dello spazio degli embedding, anche più articolati e numerosi dei concetti che si possono ritrovare in dizionari o ontologie curate a mano. Apple però è un termine ambiguo, il cui significato dipende dal contesto.

Su questo interviene il secondo breakthrough, con l’introduzione di un meccanismo di attenzione, descritto nell’articolo seminale “Attention is All You Need” (Vaswani, et al., 2017). Con l’attention si riescono a cogliere legami e relazioni tra le parole in un contesto e costruire i cosiddetti Transformer, ossia modelli che trasformano una sequenza di input in una sequenza di output, conservando le relazioni tra le parole.

Più in generale, si tratta di reti neurali utilizzate per elaborare dati sequenziali (quindi frasi, voce, fenomeni con andamenti temporali, eccetera) che ne elaborano tutti gli elementi in parallelo, per sfruttare l’accelerazione delle GPU, e che utilizzano l’attention, per tener conto della rilevanza di altre parti dell’input: per esempio, nella traduzione automatica, il testo originale viene trasformato nella sua traduzione in un’altra lingua, tenendo conto del senso e della corrispondenza con le parole nell’originale.

La traduzione automatica, un caso di successo

La tecnica dei Transformer applicata alla traduzione automatica è stata uno dei più clamorosi successi della disciplina, che ha portato a surclassare in pochi mesi per qualità ed efficienza i precedenti sistemi di traduzione automatica che avevano richiesto anni di sviluppo e messa a punto.

I Transformer hanno poi sbaragliato tutte le altre tecniche usate in precedenza nel campo del NLP in ogni tipo di compito: traduzione, classificazione, riassunto, risposte a domande, analisi di opinioni, inferenza linguistica, ecc.

Basta scorrere la classifica dei sistemi a confronto su SuperGlue, una raccolta di benchmark di analisi linguistica, per notare non solo che i migliori fanno tutti uso di Transformer, ma che molti già superano in accuratezza le capacità umane.

I Transformer possono essere adattati a nuovi compiti in modo relativamente semplice con la tecnica del fine-tuning. Si parte da un modello pre-allenato su un’ampia raccolta di testi e gli si fornisce una raccolta relativamente piccola di esempi del nuovo compito da svolgere e il modello si adatta rapidamente.

È un progresso notevole perché accelera lo sviluppo di nuove potenti applicazioni, sfruttando l’enorme conoscenza linguistica contenuta in un unico Transformer generico, e specializzandolo verso un nuovo compito.

Tutto ciò porta con sé qualità, limiti e – potenzialmente – anche danni.

Il Bello

I Transformer fanno parte della Generative AI, sistemi di Intelligenza artificiale capaci di generare risposte in modo creativo, producendo risultati che sorprendono per la loro qualità che sembrerebbe tipica della mente umana: testi, immagini, musica e video possono venire generati a partire da frasi che le descrivono.

Per esempio, un testo può essere tradotto a partire dall’originale in un’altra lingua, una figura può essere ottenuta da una descrizione della sua composizione e una musica dal testo di una canzone.

La tecnologia dei Transformer è applicabile a modalità diverse, dalla voce ai testi, dalle immagini ai video. Per questo in futuro verranno sempre più sviluppati modelli multimodali, in grado di interagire accettando input sensoriali di tipi diversi e producendo loro combinazioni, rendendo sempre più naturale l’interazione con loro.

I Llm mostrano risultati impressionanti per una serie di attività di elaborazione di testi come la risposta alle domande (QA), la generazione di codice (o altri linguaggi formali/assistenza editoriale) e la generazione di storie (fittizie).

Esibiscono capacità che sorprendono gli stessi ricercatori, al punto che sono diventati oggetti di studio per capire quali siano le loro capacità: un settore di studio chiamato BERTology.

Tale studio si esegue stimolando i modelli con delle sonde (probe), per verificare se sanno svolgere compiti che richiedono capacità per le quali non sono stati allenati.

I Llm sembrano mostrare capacità emergenti (Wei & al., 2022), ossia che appaiono solo quando si accresce notevolmente la loro dimensione, in termini sia di dati di apprendimento che di numero di parametri di cui si compongono. Capacità che non manifestano i modelli di analoga architettura ma di dimensioni più piccole.

Per esempio, modelli di dimensioni elevate cominciano a esibire capacità di ragionamento di tipo Chain of Thought, come nella figura accanto, in cui risolve un problema che richiede un ragionamento matematico, seguendo la traccia indicata nella prima domanda/risposta sulle palle da tennis.

Questa sorprendente potenzialità dà ulteriore stimolo a una corsa verso la costruzione di modelli sempre più grandi.

I limiti

I Llm costruiscono risposte a partire dalle informazioni linguistiche che hanno accumulato nei loro parametri, non estraggono direttamente la risposta dalle fonti. Perciò sono utilizzabili per compiti in cui questo modo di operare sia efficace, quali:

  • traduzione automatica
  • riassunto di un testo
  • sintesi di una raccolta di testi
  • comporre bozze (di articoli, mail, eccetera)
  • trasformare sequenze di un tipo in un altro (testo in immagine, voce in testo, eccetera)

Per questi compiti possono essere di valido aiuto, mentre se si cerca di usarli per ottenere informazioni fattuali possono cadere in allucinazioni (hallucinations), introducendo nella risposta informazioni plausibili ma non proprio corrette.

Questo problema viene comunque affrontato con tecniche che guidano un modello a produrre frasi che contengono informazioni precise e corrette ricavate da fonti sicure, ad esempio con la tecnica del prompting, adottata nei sistemi di data-to-text.

ChatGPT è stato allenato a non prendere posizioni su argomenti controversi, e se la cava relativamente bene se interrogato su questioni su cui esiste un’opinione prevalente. Per esempio, chiedendogli se i vaccini possono causare autismo, risponde che la scienza è unanime nel negare una correlazione e riporta che gli studi che ne sostenevano l’esistenza sono stati smentiti.

Questo è stato confermato da esperimenti su vari benchmark, dove ChatGPT risponde correttamente a domande trivia, su fatti che ricorrono frequentemente su internet.

Invece la comprensione del testo necessaria per rispondere a una domanda complessa da un singolo esempio di testo è ancora insufficiente.

D’altra parte, questo significa che ChatGPT è influenzato dalle opinioni prevalenti o più diffuse, e quindi non va usato per farsi opinioni o suffragare opinioni preconcette.

Occorre sempre esercitare il proprio spirito critico e considerare le sue risposte per quello che sono, un’estrapolazione dai testi su cui è stato allenato. Su molti argomenti non esiste una verità univoca e non si può certo pensare di trovarla tramite ChatGPT. Una delle stesse fonti principali su cui ChatGPT è allenato è Wikipedia: ma le informazioni riportate su certi temi nella stessa Wikipedia sono il risultato di litigi tra gli editori che cercano di imporre il proprio punto di vista.

Magari in futuro verranno prodotti chatbot che incarnano modi di pensare diversi e gli utenti potranno scegliere a quale di questi aderire per formare le proprie opinioni. Questo però richiederebbe che la capacità di costruire Llm diventasse più accessibile, come diremo più avanti.

I Llm non hanno capacità astratte quali quella di conteggiare, di fare calcoli, di effettuare ragionamenti logici o di pianificare in più passi. Per esempio, non sempre sanno calcolare quanto è lunga una parola o disegnare un’immagine con mani a cinque dita o una bocca sorridente con il numero giusto di denti.

Con appositi studi si è osservato che gli attuali Llm da una parte esibiscono davvero competenze linguistiche formali come la conoscenza lessicale e grammaticale, illustrate nella figura accanto, ma dall’altra sono privi di competenze funzionali richieste per svolgere calcoli matematici o ragionamento logico. (Mahowald, et al., 2023).

Non stupisce quindi che i professori  Gary Marcus ed Ernest Davis abbiano potuto mostrare come GPT-3 non sia in grado di generare storie coerenti a partire da situazioni che richiederebbero qualche tipo di ragionamento, in base a conoscenze di senso comune.

ChatGPT è stato allenato a gestire dialoghi e quindi a tenere traccia dell’intera conversazione, rispondendo a tono, a volte scusandosi gentilmente se gli si segnala un errore e fornendo una nuova risposta per correggersi. Questo fa sembrare che ChatGPT apprenda attraverso i dialoghi: in realtà ciò di cui tiene conto è limitato alla conversazione in corso e non si estende a quelle future.

OpenAI sollecita gli utilizzatori a inviare loro feedback sulle risposte, al fine di migliorare il modello, ma ciò avviene con l’aggiunta di nuovi esempi alla raccolta usata per il passo di Reinforcement learning, che richiede settimane o mesi di allenamento e viene fatto quindi solo di tanto in tanto.

ChatGPT ha sollevato perplessità su possibili effetti che il suo utilizzo potrebbe avere sulla scuola, con studenti che si fanno produrre risposte o saggi da ChatGPT esimendosi dallo studio, ma ha sollevato dubbi anche sul mondo dell’informazione e sulla possibilità che possa sostituire i giornalisti nella stesura di notizie.

Altri sistemi come Dall-E 2 potrebbero avere impatti nel mondo creativo, sostituendo gli illustratori con strumenti che generano automaticamente immagini o produrre musica e video. Di recente è stata minacciata una causa contro l’azienda che produce StableDiffusion, sostenendo che utilizza immagini di apprendimento ottenute in violazione del copyright.

Più grande è il sistema Learning machine, più difficile diventa per l’uomo e per tecniche algoritmiche distinguere le notizie scritte da una macchina dagli articoli scritti da esseri umani e questo apre un dibattito che crea due fronti: da una parte chi opta per bandire l’uso di modelli di AI generative e, dall’altra parte, chi suggerisce metodi di controllo, per esempio con tecniche di watermarking.

I rischi potenziali

È ben noto che le applicazioni di AI generativa come i chatbot a volte possono essere difficili da controllare e si può finire con un programma che vomita commenti razzisti o sessisti.  OpenAI ha affrontato questo problema identificando contenuti tossici o semplicemente politici generati e fornendo un avvertimento agli utenti.

Di fatto oggi gli unici che possono permettersi le enormi risorse di calcolo necessarie per allenare un Llm sono le grandi aziende tecnologiche. E il loro ulteriore sviluppo e diffusione richiede investimenti massicci, come dimostrano i 10 miliardi di dollari che Microsoft ha annunciato di volere investire in OpenAI e nell’integrazione di ChatGPT con il suo motore di ricerca Bing.

In questo settore stiamo per assistere a una guerra tra titani, per conquistare spazi in un nuovo settore applicativo: Microsoft con il sistema Prometheus contro Google con Bard.

Il passaggio da un chatbot a un sistema integrato di dialogo e ricerca è tutt’altro che banale, come emerge dai primi passi falsi di entrambi i sistemi e richiederà un ridisegno sostanziale dell’architettura del sistema integrato.

Sarà una battaglia cruciale con effetti dirompenti anche sull’ecosistema digitale del web: infatti finora i motori di ricerca guadagnavano sulla pubblicità che attraevano sfruttando l’interesse per i contenuti che altri introducevano nei loro siti web. Questi ultimi venivano a loro volta remunerati con un aumento di traffico e una quota di entrate pubblicitarie.

Coni chatbot che producono direttamente le risposte senza fare riferimento alle fonti, si spezza questo cordone ombelicale che alimenta i produttori di contenuti. Gli effetti di questo cambiamento di paradigma sono del tutto imprevedibili.

Ci sono due strade possibili per rendere accessibile e democratizzare la tecnologia dei Llm: progetti dal basso che aggregano una comunità di ricercatori come BLOOM (Le Scao & al., 2022) o costruire e rendere disponibili ai ricercatori infrastrutture pubbliche dotate di risorse di calcolo adeguate, come chiedono a gran voce i ricercatori stessi tanto negli Stati Uniti quanto in Europa.

Conclusioni

I progressi rapidi della tecnologia fanno immaginare ulteriori miglioramenti, sia incrementali sia dovuti ad ulteriori eventuali breakthrough, visto il sempre maggior interesse che la tecnologia sta suscitando nei ricercatori e negli investitori. Limitarsi quindi alle critiche per gli attuali limiti della tecnologia non tiene conto che ChatGPT non sarà l’ultimo dei modelli e se si guardasse alla velocità dei progressi recenti, potremmo presto stupirci per nuovi risultati in arrivo.

Occorre però evitare che il controllo della tecnologia rimanga appannaggio di poche grandi imprese che si possono permettere le enormi risorse necessarie per costruire i modelli più sofisticati.

In un caso o nell’altro, l’evoluzione tecnologica dei modelli di AI porterà a cambiamenti dirompenti nel modo di sviluppare applicazioni, nella concentrazione di potere tecnologico e nella disparità tra i detentori della tecnologia e gli altri, e infine nel mondo delle professioni.

Bibliografia

Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. N., (…) Polosukhin, I. (2017). Attention is all you need. Neurips 2017. Curran.

Mahowald, K., Ivanova, A. A., Blank, I. A., Kanwisher, N., Tenenbaum, J. B., & Fedorenko, E. (2023, January 23). Dissociating language and thought in large language models: a cognitive perspective. Tratto da ArXiv: https://arxiv.org/abs/2301.06627.

Le Scao, T., & al., e. (2022). BLOOM: A 176B-Parameter Open-Access Multilingual Language Model. Tratto da ArXiv: https://arxiv.org/pdf/2211.05100.

Wei, J., & al., e. (2022, 12). Emergent Abilities of Large Language Models. Tratto da ArXiv: https://arxiv.org/pdf/2206.07682.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Analisi
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 2