gli studi

Bias dell’IA: origini, impatti, strategie per mitigarli



Indirizzo copiato

Lo studio dei bias nei sistemi di NLP evidenzia una crescente preoccupazione per i pericoli dei Large Language Models. La ricerca, caratterizzata da eterogeneità, esplora bias rappresentazionali e allocativi nei dataset e modelli, con focus su stereotipi e sottorappresentazione

Pubblicato il 2 apr 2024

Marco Antonio Stranisci

Università degli Studi di Torino



gender bias

Lo studio dei bias nei sistemi di Natural Language Processing (NLP) e nei dataset utilizzati per addestrarli e valutarli è un settore di ricerca in grande crescita, soprattutto in riferimento all’analisi dei potenziali pericoli prodotti dai Large Language Models (LLM). Questi lavori sono tuttavia caratterizzati da una profonda eterogeneità, che rende difficile definire in maniera precisa che cosa si intenda per bias quando lo si applica in ambito NLP. Passiamo allora in rassegna alcuni dei lavori più citati su questo argomento, organizzandoli per temi.

Due tipi di bias: rappresentazionali e allocativi

Un punto di riferimento necessario per organizzare tematicamente i lavori sui bias in NLP sono le survey. Ne abbiamo scelte due, che si integrano bene nel formare una panoramica ancora valida sulle tendenze attuali in questo ambito di ricerca.

Language (Technology) is Power: A Critical Survey of “Bias” in NLP (Blodgett et al 2020) propone una distinzione tra due tipi di bias: rappresentazionali e allocativi. I primi consistono nell’attribuzione di caratteristiche stereotipiche o degradanti a determinate categorie di persone, come per esempio l’associazione prevalente tra donne e lavori poco prestigiosi. I bias allocativi riguardano invece la sottorappresentazione di determinati gruppi sociali dentro i dataset o la loro sistematica esclusione dalle decisioni prese dai classificatori automatici, come nel caso degli algoritmi che tendono a non selezionare persone afro-americane per l’ottenimento di prestiti (Hardt et al, 2016).

5 Sources of Bias (Hovy et al 2021) propone invece una classificazione basata sulle fonti da cui derivano i bias.

Il ruolo dei dataset nella generazione dei bias

Le prime fonti riguardano i dataset. Questi infatti possono essere poco rappresentativi di alcune fasce demografiche, causando potenziali bias allocativi. Un esempio su tutti è Wikipedia, una fonte di conoscenza utilizzata ampiamente per l’addestramento automatico, dove però è evidente lo squilibrio tra pagine dedicate a uomini bianchi occidentali ed eterosessuali e pagine dedicate a minoranze etniche (Adams et al 2019) e di genere (Weathington et al 2023), come da stessa ammissione dell’enciclopedia. Questo gap informativo è un problema in quanto può portare a strumenti di Intelligenza Artificiale incapaci di rappresentare, riprodurre o suggerire i contenuti prodotti da persone appartenenti a minoranze.

Un secondo problema relativo ai dati riguarda la presenza dei bias nei corpora annotati. Sap et al (2020) sono stati i primi a scoprire che nei dataset annotati per il riconoscimento automatico dello Hate Speech molti messaggi scritti da afroamericani sono stati etichettati come discriminatori in modo errato perché il gruppo di annotatori che ha creato il dataset è composto solo da persone bianche. Questo lavoro ha ispirato numerose ricerche focalizzate sull’inclusività dei processi di annotazione. Per esempio Sachdeva et al (2022) hanno sviluppato un corpus per il riconoscimento dell’Hate Speech in cui le annotazioni non sono raggruppate e i dati socio-demografici sugli autori sono esplorabili. In questo modo è possibile studiare il fenomeno da diverse prospettive per poterne cogliere la complessità. Questo nuovo approccio all’annotazione dei corpora, che dà una grande importanza alle prospettive espresse dagli annotatori, si sta diffondendo in diversi ambiti tematici aprendo la strada a rappresentazioni più ricche di fenomeni come il riconoscimento dell’ironia (Casola et al 2023) o l’influenza che hanno i valori morali nella percezione di determinati eventi (van der Meer et al 2023).

Bias rappresentazionali nei models di NLP

Due ulteriori fonti di bias identificate da Hovy et al (2021) hanno a che fare con i modelli di NLP. Un primo problema riguarda la presenza di bias rappresentazionali all’interno dei loro embeddings, ovvero le rappresentazioni vettoriali acquisite dai modelli in seguito all’addestramento automatico, che permettono di riconoscere la similarità semantica tra determinati concetti sulla base della loro vicinanza nello spazio vettoriale. Ormai da diversi anni si è scoperto che negli embeddings le parole che descrivono persone appartenenti a determinate categorie tendono ad essere più vicine a termini che presuppongono la presenza di stereotipi. Per esempio, è stato dimostrato che il termine infermier* è più vicino alle parole che identificano le donne rispetto a quelle che identificano gli uomini, mentre succede il contrario nel caso del termine dottor*. Uno dei primi lavori che ha affrontato questo aspetto è quello di Caliskan et al (2017), dove sono state introdotte una serie di metriche per misurare la presenza dei bias nei word embeddings. Lavori successivi hanno proposto tecniche per mitigare questo fenomeno (Zhao et al 2017) o per applicare tecniche di mitigazione e riconoscimento a diversi gruppi svantaggiati, come le minoranze etniche (Manzini et al 2019). Una seconda fonte di bias riguardante i modelli può apparire durante la classificazione automatica. In questo caso il problema riguarda l’associazione di alcune feature attribuibili a gruppi sociali durante la classificazione di testi su fenomeni come l’Hate Speech, la misoginia o altre forme di linguaggio abusivo. Per esempio, un modello può erroneamente identificare la parola donna come segnale della presenza di contenuti misogini nonostante la semantica di questo termine sia neutra. Lavori che si occupano di questo problema (Cfr: Sen et al, 2022) cercano innanzitutto di riconoscere questo genere di pattern e poi di introdurre delle forme di mitigazione per rimuovere l’associazione tra termini neutrali e classificazioni di misoginia o altri fenomeni abusivi.

Il bias culturale nella ricerca NLP

L’ultima fonte di bias è culturale e riguarda il modo in cui gli studi di NLP vengono impostati. La scelta delle ipotesi di ricerca, la definizione di uno schema di annotazione per una risorsa e l’identificazione degli indicatori per la valutazione sono tutti elementi che si prestano alla soggettività del team di ricerca (Santy et al 2023). Si tratta di uno dei problemi di più difficile risoluzione, soprattutto per la difficoltà di stabilire degli indicatori in grado di quantificare la presenza di bias culturali nel design di una ricerca scientifica.

Strategie di mitigazione dei bias in NLP

Una forma di mitigazione di questo problema riguarda la documentazione degli artefatti prodotti dalla ricerca attraverso l’uso di model cards e ancora più di recente sono stati formati di documentazione che abbracciano tutte le fasi di sviluppo degli LLM. Tuttavia, la diffusione di queste pratiche nell’accademia e nell’industria è ancora limitata a pochi esempi, che rendono questa fonte di bias una delle più difficili da affrontare in questo momento.

Bibliografia

Adams, J., Brückner, H., & Naslund, C. (2019). Who counts as a notable sociologist on wikipedia? gender, race, and the “professor test”. Socius, 5, 2378023118823946

Blodgett, S. L., Barocas, S., Daumé III, H., & Wallach, H. (2020, July). Language (Technology) is Power: A Critical Survey of “Bias” in NLP. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 5454-5476).

Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183-186.

Casola, S., Lo, S., Basile, V., Frenda, S., Cignarella, A., Patti, V., & Bosco, C. (2023, December). Confidence-based Ensembling of Perspective-aware Models. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (pp. 3496-3507).

Hardt, M., Price, E., & Srebro, N. (2016). Equality of opportunity in supervised learning. Advances in neural information processing systems, 29

Hovy, D., & Prabhumoye, S. (2021). Five sources of bias in natural language processing. Language and Linguistics Compass, 15(8), e12432.

Manzini, T., Lim, Y. C., Tsvetkov, Y., & Black, A. W. (2019). Black is to Criminal as Caucasian is to Police: Detecting and Removing Multiclass Bias in Word Embeddings. In Proceedings of NAACL-HLT (pp. 615-621)

Sachdeva, P., Barreto, R., Bacon, G., Sahn, A., Von Vacano, C., & Kennedy, C. (2022, June). The measuring hate speech corpus: Leveraging rasch measurement theory for data perspectivism. In Proceedings of the 1st Workshop on Perspectivist Approaches to NLP@ LREC2022 (pp. 83-94)

Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019, July). The risk of racial bias in hate speech detection. In Proceedings of the 57th annual meeting of the association for computational linguistics (pp. 1668-1678).

Sen, I., Samory, M., Wagner, C., & Augenstein, I. (2022, July). Counterfactually Augmented Data and Unintended Bias: The Case of Sexism and Hate Speech Detection. In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 4716-4726)

Sebastin Santy, Jenny Liang, Ronan Le Bras, Katharina Reinecke, and Maarten Sap. 2023. NLPositionality: Characterizing Design Biases of Datasets and Models. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 9080–9102, Toronto, Canada. Association for Computational Linguistics.

van der Meer, M., Vossen, P., Jonker, C., & Murukannaiah, P. (2023, December). Do Differences in Values Influence Disagreements in Online Discussions?. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (pp. 15986-16008).

Weathington, K., & Brubaker, J. R. (2023). Queer Identities, Normative Databases: Challenges to Capturing Queerness On Wikidata. Proceedings of the ACM on Human-Computer Interaction, 7(CSCW1), 1-26

Zhao, J., Wang, T., Yatskar, M., Ordonez, V., & Chang, K. W. Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Social
Analisi
Video
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 2