L’arrivo al grande pubblico dei modelli generativi di linguaggio (o LLMs, dall’inglese Large Language Models) nell’autunno del 2022 è stato una sorta di tornado improvviso.
Da un momento all’altro attività che sembravano distintive dell’uomo, come scrivere testi creativi, si sono rivelate non solo accessibili anche alle macchine, ma da esse realizzabili in maniera da rendere il risultato indistinguibile rispetto a quanto prodotto dall’uomo (Clark et al. 2021).
Indice degli argomenti
Limiti ed evoluzioni dei modelli generativi
Certo, ci si è accorti in fretta delle limitazioni di strumenti come ChatGPT o Gemini, modelli sofisticati in grado sì di generare testo grammaticalmente e sintatticamente corretto, ma spesso poco affidabile dal punto di vista della veridicità e dell’accuratezza (Huang et al. 2023).
Tuttavia, si è anche riscontrata una notevole rapidità nel rendere questi modelli sempre migliori, in grado di produrre testi con meno “allucinazioni” (come vengono chiamate in gergo le imprecisioni fattuali dei modelli generativi) e maggiore semplicità per l’uomo di rendere i loro risultati più affidabili, ad esempio attraverso tattiche di prompt engineering, ovvero di formulazione della richiesta secondo specifici criteri in grado di indirizzare il modello verso contenuti non solo realistici ma propriamente reali e fattuali.
Rag: la nuova frontiera dei LLM
Ad oggi, i cosiddetti RAG (dall’inglese Retrieval-Augmented Generation systems, o sistemi generativi supportati dal recupero di informazioni) sono la frontiera dei grandi modelli generativi di linguaggio e combinano le capacità di modelli come ChatGPT di generare testo con un sistema intelligente di ricerca e recupero di informazioni, così da produrre risposte più accurate, contestualmente rilevanti, informative e affidabili rispetto ai modelli di linguaggio generici (Zamani et al. 2022).
Reazioni sociali e professionali al tornado LLM
Come sta reagendo la società a questa vera e propria rivoluzione tecnologica?
Da un lato c’è chi non può che dare il benvenuto ad un’intelligenza artificiale generativa che non solo è in grado di scrivere testo in tempistiche inimmaginabili per l’essere umano, ma è anche in grado di farlo con risultati di fatto indistinguibili da ciò che un umano produrrebbe, sia dal punto di vista della correttezza grammatico-sintattica che dal punto di vista dell’accuratezza. (Studenti di tutto il mondo con il compito di scrivere su argomenti che non vi interessano: vi vediamo!). Dall’altro lato c’è chi, invece, ha fatto della scrittura una professione e si vede perciò minacciato dal tornado LLM (scrittori di storie fiction e romanzi, che temete di essere sostituiti dalle macchine: vediamo anche voi!).
Questo breve articolo vuole essere un messaggio diretto sia a chi spera che l’intelligenza artificiale moderna possa sollevarlo dalla croce di un lavoro indesiderato, sia a chi a quel lavoro, al contrario, ha sempre aspirato e teme perciò di perderlo. Purtroppo non possiamo rivolgerci agli scrittori di tutti i tipi di testo, perché parleremo di ricerche scientifiche che si concentrano specificatamente sulla scrittura creativa. Siamo senz’altro simpatetici con scrittori di testi non creativi che rischiano di essere rimpiazzati da una macchina, ma molta letteratura scientifica esistente al riguardo (ad esempio, Brynjolfsson et al. 2018) è incoraggiante, in quanto indica che non sarà la macchina a soppiantare l’uomo ma, piuttosto, sarà l’uomo che sa utilizzare la macchina per migliorare il proprio il lavoro a soppiantare l’uomo che non sa farlo e non può o non vuole imparare.
Per anticipare il risultato del nostro studio, diciamo già da ora che la scrittura creativa richiede necessariamente un contributo umano, in quanto se viene lasciata interamente alla macchina il risultato è deludente, indipendentemente da quanto sofisticato sia il modello utilizzato dalla macchina. Entriamo ora nel dettaglio dello studio.
Cosa rende un modello più o meno creativo?
Anzitutto partiamo dalla definizione del problema: con il nostro studio vogliamo analizzare come viene valutata la creatività di un testo scritto da un essere umano in collaborazione con un modello generativo di linguaggio più o meno “creativo.” Cosa rende un modello più o meno creativo? La letteratura esistente si concentra sull’evoluzione di un modello generazione dopo generazione: chiaramente, la qualità del testo generato da GPT-3 sarà valutata inferiore rispetto a quella del testo generato da GPT-4 o GPT-4.5 (Achiam et al. 2023). Ma questo è piuttosto ovvio.
Parametri dei modelli di linguaggio
Il nostro studio, quindi, si concentra sui parametri di una specifica generazione di modelli, qualunque essa sia, parametri che sono personalizzabili ma che, come spesso accade quando un prodotto o servizio è personalizzabile, vengono quasi sempre usati così come vengono, con valori di default. In particolare, i modelli generativi di linguaggio hanno due parametri che si possono modificare a seconda delle proprie esigenze: si tratta dei parametri di (in inglese) temperature e frequency penalty.
Non entriamo nel dettaglio tecnico, ma ci limitiamo a spiegare che questi parametri possono essere modificati in modo da rendere il modello più o meno casuale (o in inglese random), cosicché il testo generato sia più o meno inaspettato, sorprendente, non ripetitivo (Bellemare-Pepin et al., 2024; Peeperkorn et al., 2024). Ci si aspetterebbe che il testo prodotto da un modello con randomness (casualità) elevata venga valutato da un lettore come più creativo rispetto a quello prodotto da un modello con randomness bassa. Quindi, se qualcuno si volesse improvvisare autore di una storia potrebbe limitarsi a chiedere ad un’intelligenza artificiale generativa di scriverla per lui, dopo averne semplicemente modificato i parametri in modo da ottenere randomness elevata. Ma i risultati del nostro studio suggeriscono che non è così semplice.
Metodologia dello studio
Per dimostrarlo abbiamo utilizzato un database di brevi storie creative, CoAuthor, messo a disposizione pubblicamente da alcuni ricercatori (Lee, Liang and Yang, 2022). Il database contiene storie scritte da esseri umani in collaborazione con un’intelligenza artificiale generativa: nello specifico, una parte dei partecipanti ha potuto utilizzare un modello con randomness elevata, mentre l’altra parte aveva a disposizione un modello con randomness bassa. Abbiamo quindi reclutato persone che leggessero queste storie e ne valutassero la creatività. Contrariamente a quanto ci aspettassimo, abbiamo scoperto che la randomness del modello, da sola, non aumenta la creatività del testo prodotto in maniera statisticamente significativa. In altre parole, i nostri partecipanti hanno valutato come identica la creatività delle storie scritte in collaborazione con modelli generativi di linguaggio più o meno creativi.
Risultati e implicazioni
Il primo messaggio importante che mandiamo quindi ai nostri lettori è che le caratteristiche di una macchina, per quanto sofisticata, non sono sufficienti a produrre testi davvero creativi.
C’è bisogno d’altro. Quindi: studenti, fate attenzione ad utilizzare l’intelligenza artificiale per i vostri compiti di scrittura creativa, perché se li affidate interamente ad essa la qualità valutata dal vostro insegnante sarà molto probabilmente scarsa; e scrittori, non preoccupatevi troppo della competizione dell’intelligenza artificiale generativa, per quanto sofisticata sia.
Fattori mancanti per la creatività
Il secondo risultato importante che abbiamo ottenuto con il nostro studio consiste nell’aver individuato cos’è che manca all’intelligenza artificiale affinché produca storie che un lettore giudichi davvero creative. Ciò che manca è 1. la propensione dello scrittore umano ad accettare i consigli migliori che il modello fornisce e 2. l’interazione attiva con il modello stesso. Analizziamo più a fondo questi fattori uno per uno.
Avversione all’algoritmo
Se chi si fa aiutare da un’intelligenza artificiale per scrivere un testo pensa, sotto sotto, anche inconsciamente, di saper fare meglio di quello che resta, di fatto, solo un sofisticato modello statistico predittivo che calcola qual è la serie di parole più probabile dopo una determinata richiesta, tenderà a non accettare molti dei consigli fornitigli da quel modello.
Di conseguenza, la maggiore o minore capacità del modello di generare testo creativo non influirà sulle valutazioni di chi leggerà il testo finale. Il database CoAuthor comprende non solo i testi delle storie, ma anche la percentuale di parole presenti in quei testi che sono state suggerite dall’intelligenza artificiale (ed adottate dall’umano che con essa ha collaborato per scrivere ed inviare il testo finale). Aggiungendo quindi alla nostra analisi questa misura di utilizzo dei consigli dell’intelligenza artificiale scopriamo che l’effetto della randomness diventa significativo.
Interazione uomo-algoritmo
La letteratura esistente sulla collaborazione tra esseri umani (Storch 2002) identifica due importanti dimensioni dell’interazione che potrebbero avere un effetto sul risultato della collaborazione: mutualità ed eguale contribuzione.
Per mutualità si intende il livello di coinvolgimento dell’umano nella sua interazione con l’intelligenza artificiale (ad esempio, cliccando sul pulsante di aiuto per richiedere l’assistenza del modello, navigando tra i vari suggerimenti forniti, selezionando un suggerimento o riaprendo la schermata di interazione per impegnarsi ulteriormente a conversare con il modello…).
Per eguale contribuzione si intende, appunto, l’equilibrio dei contributi tra il creatore umano e l’intelligenza artificiale nella generazione del risultato finale. Oltre alle informazioni indicate in precedenza, il database CoAuthor comprende anche dati su tutte le azioni (richieste, copia-incolla, modifiche…) fatte dallo scrittore umano durante il processo di collaborazione con l’intelligenza artificiale generativa, consentendoci così di analizzare anche l’impatto dell’interazione uomo-algoritmo sulla creatività.
I risultati indicano che l’eguale contribuzione non svolge un ruolo cruciale, ma la mutualità sì: se anche non si è avversi all’algoritmo, e si seguono quindi i migliori consigli generati dal modello, l’effetto sulla creatività del testo finale dipende dal processo di interazione uomo-algoritmo. Maggiore il coinvolgimento umano nella collaborazione, maggiore la creatività del testo scritto. Da notare il fatto che questo risultato si osserva sia per modelli con alta che con bassa randomness.
Come comportarsi, allora?
I modelli generativi di linguaggio rappresentano un potente strumento per chi scrive. Possono essere personalizzati a seconda delle proprie esigenze, ad esempio di scrittura più o meno creativa. Ma, sebbene le loro capacità di generare in un attimo testi originali sia indiscutibile, non sono in grado di generare autonomamente testi creativi di qualità. Ciò che possono fare, e molto bene, è invece assistere l’uomo in questa (e molte altre) attività. Chi sarà in grado di accogliere il tornado LLM ed accettare che la natura del proprio lavoro è, volente o nolente, cambiata profondamente, non potrà che giovarsene. Chi purtroppo non saprà o non potrà accogliere il cambiamento rimarrà inesorabilmente svantaggiato.
Bibliografia
Achiam, J., Adler, S., Agarwal, S., Ahmad, L., Akkaya, I., Aleman, F. L., … & McGrew, B. (2023). Gpt-4 technical report. arXiv preprint arXiv:2303.08774.
Bellemare-Pepin, A., Lespinasse, F., Thölke, P., Harel, Y., Mathewson, K., Olson, J. A., … & Jerbi, K. (2024). Divergent creativity in humans and large language models. arXiv preprint arXiv:2405.13012.
Brynjolfsson, E., Mitchell, T., & Rock, D. (2018, May). What can machines learn and what does it mean for occupations and the economy?. In AEA papers and proceedings (Vol. 108, pp. 43-47). 2014 Broadway, Suite 305, Nashville, TN 37203: American Economic Association.
Clark, E., August, T., Serrano, S., Haduong, N., Gururangan, S., & Smith, N. A. (2021). All that’s ‘human’ is not gold: Evaluating human evaluation of generated text. arXiv preprint arXiv:2107.00061.
Huang, L., Yu, W., Ma, W., Zhong, W., Feng, Z., Wang, H., … & Liu, T. (2023). A survey on hallucination in large language models: Principles, taxonomy, challenges, and open questions. ACM Transactions on Information Systems. Available at https://dl.acm.org/doi/pdf/10.1145/3703155.
Lee, M., Liang, P., & Yang, Q. (2022). CoAuthor: Designing a human-AI collaborative writing dataset for exploring language model capabilities. In Proceedings of the 2022 CHI Conference on Human Factors in Computing Systems (pp. 1-19).
Peeperkorn, M., Kouwenhoven, T., Brown, D., & Jordanous, A. (2024). Is temperature the creativity parameter of large language models?. arXiv preprint arXiv:2405.00492.
Storch, N. (2002). Patterns of interaction in ESL pair work. Language learning, 52(1):119–158.
Zamani, H., Diaz, F., Dehghani, M., Metzler, D., & Bendersky, M. (2022, July). Retrieval-enhanced machine learning. In Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval (pp. 2875-2886).