I Large Language Models (LLMs) stanno trasformando processi e modelli di business, cambiando approcci e aspettative rispetto all’applicazione della data science alla relazione con i clienti e alla gestione delle operations, spostando il confine dell’automazione nella creazione sintetica di contenuti.
Integrazione dell’IA generativa nel business: vantaggi e sfide strategiche, tecniche ed etiche
La corretta integrazione dell’intelligenza artificiale generativa nell’attività quotidiana delle persone e nei modelli di business e operativi delle imprese è fondamentale. Le organizzazioni che non saranno in grado di sfruttare adeguatamente questo nuovo fattore produttivo rischieranno di rimanere indietro e di rallentare nel proprio percorso di crescita. L’IA generativa presenta anche diverse sfide, strategiche, tecniche ed etiche.
Alcuni dei problemi principali riguardano proprio la protezione della privacy, la protezione dei dati, l’affidabilità, l’esplicabilità e il pregiudizio (bias) che gli LLMs potrebbero non sono confermare, ma addirittura rinforzare.
L’innovazione deve bilanciarsi con la responsabilità e il rispetto delle normative, richiedendo a manager, tecnologi e semplici utenti di essere consapevoli dei rischi intrinseci nell’uso di queste tecnologie, così da poterle implementare e adoperare in modo responsabile, sicuro ed efficace.
Come si diceva, diversi sono i rischi associati allo sviluppo di soluzioni basate sugli attuali LLM:
- Rafforzamento dei pregiudizi (bias) dei dati.
- Interpretabilità ed esplicabilità.
- Sostenibilità nell’utilizzo delle risorse computazionali (e dunque l’impronta ambientale).
- Robustezza e sicurezza dei modelli.
- Eccessiva dipendenza dalle tecnologie generativa e svilimento / sostituzione delle capacità e delle competenze umane.
- Regolamentazione e conformità alle diverse normative.
- Conoscenza delle performance dei diversi modelli per singoli specifici compiti in diversi ambiti di applicazione.
- Rapidità nell’evoluzione dello scenario tecnologico.
- Accompagnamento delle persone all’adozione consapevole.
Approcci per valutare i rischi degli LLM
Diventa fondamentale essere in grado di valutare i rischi connessi e trovare delle metodologie e delle metriche per poter misurare le molteplici dimensioni di performance dei modelli linguistici alla base delle tecnologie di intelligenza artificiale generativa e dei prodotti derivati. Per realizzare questo compito sono adottati nella ricerca e nel management due approcci differenti:
- Approcci completamente o principalmente automatizzati
- Approcci che coinvolgono l’intervento umano nella valutazione
Gli approcci automatizzati permettono di misurare le performance rispetto a 4 diverse metriche:
- Accuratezza
- Calibration
- Equità
- Robustezza
Le valutazioni umane coinvolgono le persone nell’attività di valutazione e misurano principalmente le seguenti dimensioni:
• Accuratezza
• Rilevanza
• Fluidità
• Trasparenza
• Sicurezza
• Human Alignment
I principali rischi associati all’uso dell’IA Generativa nei processi aziendali
Lo sviluppo e l’implementazione degli LLM comportano diversi rischi, che sono essenziali da riconoscere per un’integrazione responsabile dell’IA. Vediamoli più nel dettaglio
Pregiudizio (bias) dei dati
Essendo stati addestrati con dati provenienti dal web, gli LLM potrebbero replicare nei modelli i pregiudizi esistenti nei dati di partenza, portando ad output distorti o inappropriati. Tra le principali implicazioni etiche c’è il rischio di perpetuare gli stereotipi; sono pertanto necessarie linee guida etiche nello sviluppo dell’IA, in particolare nella raccolta dei dati e nella creazione o nel fine tuning dei modelli.
Interpretabilità ed esplicabilità
Gli LLM sono di natura delle scatole nere, la cui complessità rende impossibile decifrare il razionale delle decisioni, rendendone problematico l’utilizzo in campi che richiedono la piena trasparenza, come la sanità o la finanza. La difficoltà nell’interpretare le decisioni prese dai modelli può ostacolare il tracciamento del processo decisionale necessario per interventi di audit e identificare così specifiche responsabilità lungo il processo decisionale.
Sfruttamento intensivo delle risorse
Gli LLM sono “large” perché necessitano di grandi quantità di dati per la loro creazione, per il training e il fine tuning. Si accompagnano pertanto ad alti costi computazionali, con rischi di accentramento della capacità cognitiva in poche mani, essendo di fatto la dimensione una barriera formidabile all’accesso di entità più piccole, incapaci di sostenere investimenti e costi operativi connessi a capacità computazionali e di storage impressionanti. Ad un tema di equità e di concentrazione delle risorse, si affianca quello dell’impatto ambientale: l’addestramento e la manutenzione degli LLM richiedono anche un grande consumo di elettricità, acqua e risorse, rendendoli poco sostenibili.
Robustezza e sicurezza dei modelli
Anche gli LLM sono vulnerabili agli attacchi. Sono per certi versi molto delicati: anche piccole modifiche all’input possono generare output anche molto errati. C’è poi il tema della sicurezza dei dati usati nell’addestramento e nell’operatività per evitare violazioni o abusi, specialmente in aree sensibili.
Eccessiva dipendenza e sostituzione delle competenze
Un’eccessiva dipendenza dall’IA rischia di degradare le competenze delle persone. Nell’euforia dell’automazione rischia di perdersi anche la necessità di una supervisione umana su tutte le attività e gli output prodotti. Non è per altro pienamente valutabile l’impatto sull’occupazione. L’IA potrebbe sostituire diversi posti di lavoro, rendendo necessaria una gestione proattiva e iniziative di riqualificazione delle persone.
Regolamentazione e conformità
La natura in evoluzione dell’IA richiede di rimanere aggiornati e conformi rispetto a una regolamentazione in continua evoluzione e con differenze profonde tra stato e stato: un’ulteriore complicazione nello sviluppo dei progetti di intelligenza artificiale su scala globale.
Bilanciare questi rischi con i benefici degli LLM richiede lo sviluppo di un approccio etico all’IA per il monitoraggio dei bias, l’adeguata allocazione delle risorse, la piena comprensione delle regolamentazioni nei diversi territori, la promozione dell’alfabetizzazione sull’IA e la preparazione per un’importante transizione della forza lavoro.
La mitigazione dei rischi
Per mitigare i rischi associati all’utilizzo degli LLM, le organizzazioni devono implementare una combinazione di strategie tecnologiche, etiche e organizzative. Nel seguito, si elencano alcuni meccanismi e contromisure da sviluppare per minimizzare gli impatti di comportamenti non desiderati o imprevisti delle applicazioni di intelligenza artificiale sviluppate.
Rilevamento e mitigazione dei pregiudizi (bias)
Per ridurre il rischio dovuto a eventuali pregiudizi contenuti nei dati di addestramento e confermati dai modelli in uso, si possono sviluppare diverse soluzioni:
- Diversificazione dei dati di addestramento, assicurandosi che siano rappresentativi di diverse categorie e tipologie di soggetti.
- Svolgimento di audit regolari sugli output dei modelli per rilevare eventuali bias, sia con auditor interni che esterni.
- Implementazione di algoritmi di correzione dei bias, specificamente progettati per identificare e correggere i pregiudizi insiti nei modelli di IA.
Miglioramento dell’esplicabilità e dell’interpretabilità
Anche per quanto riguarda l’esplicabilità e l’interpretabilità dei modelli, rendendo l’intelligenza artificiale più trasparente, sono possibili diverse strategie, quali:
- Investire in Explainable AI (XAI), ovvero strumenti e metodologie che aumentino la trasparenza del processo decisionale dell’IA.
- Creare e mantenere un completo reporting dei processi decisionali dell’IA per garantire responsabilità e conformità.
Gestione dei costi computazionali e ambientali
Per la riduzione dell’impatto ambientale e del costo computazione si possono intraprendere due iniziative specifiche:
- Disegno e selezione di modelli più efficienti, optando, ove possibile, per architetture di modelli o metodi di addestramento più efficienti dal punto di vista computazionale.
- Adozione di pratiche di green computing, utilizzando hardware a basso consumo energetico e servizi cloud più sostenibili.
Rafforzamento della robustezza e sicurezza del modello
Per garantire la robustezza del modello si possono adottare diverse iniziative, tra cui:
- Adversarial Training, addestrando il sistema a resistere ad attacchi.
- Sviluppando misure di sicurezza dei dati, ovveroimplementando robusti protocolli di sicurezza per proteggere i dati di addestramento e operativi.
Limitare l’eccessiva dipendenza e la sostituzione delle competenze
La dipendenza dall’IA e i rischi di perdita di competenze e posti di lavoro sono tra i rischi più temuti rispetto alla diffusione pervasiva dell’intelligenza artificiale. Per ridurne l’impatto occorre:
- Costruire sistemi “human-in-the-loop”, mantenendo la supervisione umana nei processi decisionali dell’IA, per garantire giudizi equilibrati.
- Sviluppare programmi di formazione e riqualificazione dei dipendenti, per favorire l’adattamento e l’integrazione dell’IA, spostando le persone su compiti di livello superiore, che l’IA non può eseguire.
Conformità alle regolamentazioni
In un contesto molto frammentato dal punto di vista legislativo e in continua evoluzione, per le organizzazioni è sempre più necessario:
- costruire meccanismi di continua informazione e aggiornamento sulla legislazione relativa all’utilizzo dell’IA, conoscendo le regolamentazioni e i requisiti di conformità nazionali e internazionali;
- chiedere una consulenza legale ed etica, con team dedicati o consulenti che aiutino nella valutazione delle tematiche etiche e legali connesse all’implementazione dell’IA.
Cultura, etica, innovazione
Per far sì che l’IA non abbia effetti indesiderati sulla società è fondamentale dotarsi di una strategia definita, con linee guida chiare, avviando un dialogo con la società e ascoltando le diverse sensibilità. Un approccio attento agli aspetti dell’etica e contemporaneamente all’innovazione, dovrebbe comprendere:
- Lo sviluppo e la condivisione di linee guida etiche chiare per lo sviluppo e l’uso dell’IA.
- Il coinvolgimento degli stakeholder, inclusi dipendenti, clienti e pubblico, nelle discussioni sull’etica e le politiche dell’IA.
- La collaborazione con le AI community, per rimanere al passo con le best practice e conoscere le sfide emergenti.
- Costruire partnership con università e istituti di ricerca per la conoscenza, la sperimentazione e l’adozione di soluzioni avanzate.
Un approccio sistematico di questo tipo che prevede l’adozione di strategie coordinate e integrate di minimizzazione del rischio permette alle imprese di cogliere le opportunità emergenti con un buon grado di sicurezza. Per passare dalle strategie all’azione, garantendo la sicurezza e l’affidabilità dei sistemi, occorre dotarsi di metodi e metriche di valutazione efficaci e riconosciuti.
Metodi e metriche di valutazione
Le prestazioni per certi versi stupefacenti degli LLM di ultima generazione hanno fatto intravedere il raggiungimento dell’intelligenza artificiale generale (AGI – Artificial General Intelligence), ovvero aver la realizzazione di sistemi autonomi in grado di ragionare e risolvere compiti diversificati con performance simili a quelle degli umani, in contesti di elevata incertezza e bassa codificazione. In realtà, la misurazione delle performance degli attuali sistemi mostra che siamo ancora nel campo dell’intelligenza artificiale ristretta o debole (Narrow o Weak AI), ovvero le IA mostrano capacità molto sviluppate in contesti limitati, rispetto a compiti specifici e codificati. Ancora oggi, le performance delle IA sono lontane da quelle umane. Sono inoltre poco uniformi, rispetto ai diversi compiti e alle diverse lingue. Inoltre, i diversi modelli mostrano performance variegate rispetto alle diverse applicazioni possibili. Pertanto, diventa cruciale saper individuare quali sono i migliori modelli nei singoli specifici contesti.
Date le dimensioni degli LLM e la varietà degli utilizzi, i tradizionali protocolli di valutazione adottati nel campo del machine learning e in particolare per gli algoritmi di classificazione (k-fold validation, holdout validation, cross-validation-leave-one-out – LOOCV, bootstrap, ecc.) non sono sufficienti.
La ricerca sta sviluppando e testando nuovi approcci per valutare le performance degli LLM, considerando gli ambiti di utilizzo più frequenti, introdotti qui nel seguito.
Sentiment Analysis
L’analisi del sentiment comporta la classificazione dei testi in base al tono emotivo. Tipicamente sono problemi di classificazione binaria (positiva e negativa) o ternaria (positiva, neutra e negativa). Un compito che i modelli attuali svolgono piuttosto bene, anche se hanno qualche difficoltà nella comprensione del sentiment di testi redatti in lingue meno diffuse e in particolare nel riconoscimento delle sfumature delle emozioni.
Comprensione semantica
La comprensione semantica si riferisce alla capacità dell’IA di comprendere il significato di un testo o un discorso e dei concetti associati. Implica l’interpretazione e la comprensione di parole, frasi e delle relazioni reciproche. L’elaborazione semantica va oltre il livello superficiale e ambisce alla comprensione del significato e dell’intento sottostante. I risultati indicano che gli LLM possiedono una comprensione di eventi individuali, ma commettono ancora alcuni errori nella percezione e nel collegamento di eventi distanti e diversi. Nel ragionamento, gli LLM mostrano buone capacità in caso di relazioni causali e intenzionali. In contesti più articolati e meno definiti, gli LLM mostrano capacità ancora
Riassumere
Il riassunto di testi è di uno degli usi più diffusi degli LLM: i test mostrano buone prestazioni nell’estrazione e nella sintesi di testi, anche in lingue diverse dall’inglese.
Dialogo e domande e risposte
Rispetto alla capacità di elaborazione del linguaggio naturale, la capacità di comprensione del contesto e la capacità di rispondere a domande specifiche sono buone, anche se esistono ulteriori margini di miglioramento, attraverso cui si potrebbero realizzare sistemi di dialogo più intelligenti e naturali. Le applicazioni sono numerose – chatbot, motori di ricerca, agenti per la gestione del servizio clienti, ecc. Le aree di miglioramento riguardano la capacità di riferirsi a nozione e conoscenze parte del senso comune.
Traduzione
Sebbene gli LLM non siano esplicitamente stati addestrati per compiti di traduzione, mostrano delle ottime prestazioni in questa attività, anche se le performance variano molto a seconda del modello e della lingua di traduzione, con un’ovvia ottimizzazione delle performance nella lingua inglese.
In compiti di scrittura, le ricerche hanno evidenziato che gli LLM hanno prestazioni affidabili in diverse categorie come la scrittura informativa, professionale, e perfino creativa, anche se in alcuni ambiti specifici o nel caso di contenuti più articolati, anche i migliori LLM mostrano diversi limiti.
Le dimensioni di valutazione
Prima di elencare le metriche di valutazione delle performance dei modelli linguistici, occorre introdurre le dimensioni oggetto di valutazione, ovvero la fattualità, la robustezza, l’etica, i bias informativi e l’affidabilità.
Fattualità
La fattualità nel contesto degli LLM si riferisce alla capacità del modello di fornire informazioni veritiere e riportare fatti verificabili. Rispettare la fattualità implica mantenere la coerenza rispetto a fatti noti, evitando di generare informazioni fuorvianti o false, le cosiddette “allucinazioni fattuali”. Il processo di misurazione include di solito la valutazione umana. Anche se i risultati sono incoraggianti, varie ricerche mostrano che esiste ancora un 15% – 20% di miglioramento possibile. Gli esperimenti inoltre suggeriscono che l’aumento della dimensione dei modelli non è l’unica né la migliore soluzione per il miglioramento della veridicità: un miglioramento decisivo potrebbe essere portato proprio dal modo in cui è fatto l’addestramento.
Robustezza
La robustezza misura la stabilità del sistema di fronte a input imprevisti. In particolare, la robustezza rispetto agli “adversarial prompt” – ovvero la capacità di resistere a input volontariamente fuorvianti – rappresenta un ambito di ricerca molto importante, anche perché i sistemi attuali si dimostrano ancora relativamente attaccabili su questo fronte.
Etica e pregiudizio
È ampiamente dimostrato che gli LLM internalizzano, diffondono e potenzialmente amplificano pregiudizi e informazioni nocive presenti nei dati con cui sono stati addestrati. Avendo come base testi e dialoghi presenti sul web, sono stati utilizzati anche linguaggi tossici, offensivi, hate speech e insulti, pregiudizi sociali rispetto a diversi generi, etnie, religioni, professioni, idelogie, ecc. particolare identità demografica (ad esempio, genere, razza, religione, occupazione e ideologia). Tenere conto di questi rischi significa predisporre soluzioni per limitare correggere gli effetti più pericolosi e nocivi.
Affidabilità
La ricerca si è infine concentrata sul tema dell’affidabilità, rispetto alla tossicità, alla diffusione di stereotipi, alla robustezza rispetto ad attacchi realizzati con adversarial prompt, alla capacità di rispettare la privacy, l’etica e l’equità. Le capacità cognitive sono in alcuni contesti superiori a quelle umane: gli LLM evitano alcuni degli errori cognitivi tipici del ragionare umano, essendo predisposti a un pensiero iper-razionale. Rimane come area di debolezza la capacità di mantenere la coerenza del giudizio se messi di fronte a interruzioni nel ragionamento, a tentativi di sviare e mettere in dubbio, a continue e ripetute negazioni, a suggerimenti fuorvianti: un modello potrebbe partire da un giudizio corretto ma essere portato a cambiare opinione, assumendone uno errato, se sottoposto a una insistente messa in dubbio tramite adversarial prompt. In generale, gli LLMs sono in grado di generare testi coerenti e fattuali, anche se le informazioni generate possono includere inesattezze o affermazioni prive di fondamento nella realtà, un fenomeno noto come allucinazioni.
Valutare gli LLM: approcci e metriche
Per valutare i modelli linguistici sono utilizzate due categorie di approcci: quelli totalmente automatizzati e quelli che prevedono un intervento umano. Ciascuno con specifici approcci e metriche e con risultati differenti, a seconda del tipo di task analizzato, del contesto di riferimento e della complessità della valutazione.
La valutazione automatizzata
La valutazione automatizzata è una metodologia ampiamente utilizzata, che impiega metriche largamente condivise per misurare le prestazioni del modello. La capacità di questi sistemi di generare valutazioni affidabili senza l’intervento umano permette di risparmiare tempo e di ridurre l’impatto di fattori soggettivi, rendendo il processo più standardizzato e prevedibile. Le metriche principali utilizzate per queste valutazioni sono:
- Accuratezza
- Calibration
- Equità
- Robustezza
Accuratezza
L’accuratezza misura quanto correttamente il modello svolge un determinato compito. Il concetto di accuratezza può variare in diversi scenari ed è dipendente dal compito specifico e dalla definizione del problema. Nel seguito alcune delle principali metriche con cui si misura l’accuratezza dei modelli linguistici.
- Exact Match (EM), metrica utilizzata per valutare se il testo generato da un modello corrisponde esattamente a una risposta campione di riferimento.
- Perplexity, che misura l’incertezza del modello nel prevedere la sequenza generata. Più bassa è la perplexity maggiore è la “sicurezza” del modello nella sua previsione, ovvero migliore è l’accuratezza predittiva.
- BLEU (Bilingual Evaluation Understudy) Score, una metrica utilizzata per misurare la qualità delle traduzioni automatiche, confrontando l’output generato da un modello linguistico con un insieme di traduzioni di riferimento. Più alto è il punteggio, migliore è l’accuratezza del sistema.
- F1-score, una metrica per valutare le prestazioni dei modelli di classificazione binaria, garantendo l’ottimizzazione bilanciata di altre due metriche, ovvero Precision e Recall. Da ricordare che la Precision misura la proporzione istanze realmente positive sul totale di quelle previste come positive, in pratica risponde alla domanda: “di tutte le istanze che il modello ha etichettato come positive, quante sono effettivamente positive?”, mentre la Recall, detta anche Sensitivity, misura la proporzione di istanze previste positive sul totale di istanze realmente positive, rispondendo alla domanda: “di tutte le istanze positive reali, quante sono state correttamente etichettate come positive?”.
- ROUGE (Recall-Oriented Understudy for Gisting Evaluation) Score: Valuta la qualità di un riassunto o di una traduzione confrontandola con riassunti di riferimento, misurando la sovrapposizione in termini di sequenze di parole.
Calibration
La calibration misura il grado di accordo tra il livello di confidenza dell’output del modello e l’effettiva accuratezza della previsione, usando metriche come l’Expected Calibration Error (ECE).
Equità
L’equità si riferisce alla consistenza con cui il modello tratta diversi gruppi, in particolare rispetto ad alcuni attributi sensibili come genere, etnia, età, ecc. Tra le metriche utilizzate troviamo:
- La Demographic Parity Difference (DPD) che misura se le previsioni del modello sono distribuite equamente tra diversi gruppi della popolazione.
- La Equalized Odds Difference (EOD) che garantisce che il modello abbia tassi di errore statisticamente identici tra le diverse popolazioni.
Robustezza
La robustezza valuta le prestazioni di un modello di fronte a input malevoli, inclusi advesarial prompt, tentativi di sviamento, rumore nei dati, variazioni nella distribuzione dei dati, ecc, utilizzando metriche come l’Attack Success Rate (ASR), che misura la capacità del sistema di resistere ad attacchi malevoli e il Performance Drop Rate (PDR), che misura l’effettivo calo della robustezza delle prestazioni di un LLM messo in crisi da un adversarial prompt.
Efficienza e Scalabilità
L’efficienza e la scalabilità sono connesse con la capacità del modello di rispondere entro un lasso di tempo specifico e di controllare l’uso di risorse scarse.
- Il tempo di inferenza misura il tempo necessario affinché il modello generi un output, una metrica fondamentale per le applicazioni in tempo reale.
- Utilizzo delle risorse: misura quanto efficientemente il modello utilizza risorse computazionali come memoria e potenza di elaborazione per arrivare al risultato.
La valutazione umana
I compiti sempre più complessi che sono in grado di svolgere i modelli linguistici rendono anche più complessa la valutazione delle performance. Per questo, la valutazione umana diventa in molti casi una scelta obbligata per valutare le performance di un LLM.Rispetto alla valutazione automatica, la valutazione manuale è più vicina allo scenario di applicazione effettivo e può fornire un feedback più completo e accurato. Nella valutazione manuale degli LLM di solito si invitano valutatori (esperti, ricercatori o utenti comuni) a valutare i risultati generati da diversi modelli. Nel seguito si analizzano alcune delle principali metriche utilizzate per misurare le performance degli LLMs con l’intervento umano.
L’accuratezza è un criterio fondamentale con cui si misura la precisione e la correttezza del testo generato. Implica il confronto tra i contenuti generati dal modello e la conoscenza fattuale umana, individuando errori e imprecisioni.
La rilevanza misura l’appropriatezza del contenuto generato, misurandone la pertinenza e la coerenza con il contesto di riferimento e l’input o il comando inserito.
La fluency valuta la capacità del modello di produrre contenuti scorrevoli, con un tono e uno stile coerenti. Un testo fluente non è solo grammaticalmente corretto, ma assicura anche la leggibilità e un’esperienza utente di qualità.
La trasparenza misura quanto sia comprensibile per un umano la catena del ragionamento con cui l’IA è arrivata a una conclusione, una decisione, la creazione di un output. Un modello trasparente rende possibile comprenderne il funzionamento interno.
La sicurezza esamina la capacità del modello di evitare di produrre contenuti inappropriati, offensivi o dannosi, garantendo il benessere degli utenti e minimizzando i rischi di disinformazione.
Lo human alignment valuta quanto gli output generati siano allineati con valori, preferenze e aspettative umane, considerando le implicazioni etiche del contenuto generato, in modo da rispettare le norme sociali e favorire un’interazione positiva con gli umani.
Conclusioni
Gli LLM offrono ottime prestazioni nello svolgimento di moltissimi compiti, anche se i diversi modelli sul mercato hanno prestazioni nell’espletazione dei diversi task possibili. Non esiste in pratica un modello unico che offre sempre le migliori prestazioni: occorre conoscere diversi modelli e, sulla base del contesto, dell’ambito, del compito e delle proprie esigenze e vincoli, scegliere quello più adatto.
Esistono aree di miglioramento come l’analisi, la classificazione, la traduzione e soprattutto l’analisi semantica in lingue diverse dall’inglese, nel ragionamento più astratto o in cui sono necessari collegamenti tra contesti diversi e scollegati, nella robustezza rispetto a prompt svianti, nell’affidabilità e sicurezza dei modelli, per evitare la generazione di contenuti offensivi, il rafforzamento dei pregiudizi, la diffusione di informazioni false o non verificabili.
Per la valutazione delle prestazioni degli LLM si possono adottare approcci completamente automatizzati o che includono l’intervento umano. In entrambi i casi, sono largamente diffuse diverse metriche che permettono di misurare e di comparare le performance rispetto alle molteplici dimensioni e alle diverse applicazioni.
Bibliografia
- Yupeng Chang, Xu Wang, et al., 2024, A Survey on Evaluation of Large Language Models.
- Yejin Bang, Samuel Cahyawijaya, Nayeon Lee, Wenliang Dai, Dan Su, Bryan Wilie, Holy Lovenia, Ziwei Ji, Tiezheng Yu, Willy Chung, et al. 2023. A multitask, multilingual, multimodal evaluation of chatgpt on reasoning, hallucination, and interactivity.
- YewKen Chia, Pengfei Hong, Lidong Bing, and Soujanya Poria. 2023. INSTRUCTEVAL: Towards Holistic Evaluation of Instruction-Tuned Large Language Models.
- Samuel Gehman, Suchin Gururangan, Maarten Sap, Yejin Choi, and Noah A Smith. 2020. RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models. In Findings of the Association for Computational Linguistics: EMNLP 2020. 3356ś3369.
- Jwala Dhamala, Tony Sun, Varun Kumar, Satyapriya Krishna, Yada Pruksachatkun, Kai-Wei Chang, and Rahul Gupta. 2021.
- Alicia Parrish, Angelica Chen, Nikita Nangia, Vishakh Padmakumar, Jason Phang, Jana Thompson, Phu Mon Htut, and Samuel Bowman.
- 2022. BBQ: A hand-built bias benchmark for question answering. In Findings of the Association for Computational Linguistics: ACL 2022.
- Terry Yue Zhuo, Yujin Huang, Chunyang Chen, and Zhenchang Xing. 2023. Exploring ai ethics of chatgpt: A diagnostic analysis.
- Gabriel Simmons. 2022. Moral mimicry: Large language models produce moral rationalizations tailored to political identity.
- Yonatan Geifman and Ran El-Yaniv. 2017. Selective classiication for deep neural networks. Advances in neural information processing systems.
- Chris Van Der Lee, Albert Gatt, Emiel Van Miltenburg, Sander Wubben, and Emiel Krahmer. 2019. Best practices for the human evaluation of automatically generated text. In Proceedings of the 12th International Conference on Natural Language Generation.