Lo studio dei bias nei sistemi di Natural Language Processing (NLP) e nei dataset utilizzati per addestrarli e valutarli è un settore di ricerca in grande crescita, soprattutto in riferimento all’analisi dei potenziali pericoli prodotti dai Large Language Models (LLM). Questi lavori sono tuttavia caratterizzati da una profonda eterogeneità, che rende difficile definire in maniera precisa che cosa si intenda per bias quando lo si applica in ambito NLP. Passiamo allora in rassegna alcuni dei lavori più citati su questo argomento, organizzandoli per temi.
Due tipi di bias: rappresentazionali e allocativi
Un punto di riferimento necessario per organizzare tematicamente i lavori sui bias in NLP sono le survey. Ne abbiamo scelte due, che si integrano bene nel formare una panoramica ancora valida sulle tendenze attuali in questo ambito di ricerca.
Language (Technology) is Power: A Critical Survey of “Bias” in NLP (Blodgett et al 2020) propone una distinzione tra due tipi di bias: rappresentazionali e allocativi. I primi consistono nell’attribuzione di caratteristiche stereotipiche o degradanti a determinate categorie di persone, come per esempio l’associazione prevalente tra donne e lavori poco prestigiosi. I bias allocativi riguardano invece la sottorappresentazione di determinati gruppi sociali dentro i dataset o la loro sistematica esclusione dalle decisioni prese dai classificatori automatici, come nel caso degli algoritmi che tendono a non selezionare persone afro-americane per l’ottenimento di prestiti (Hardt et al, 2016).
5 Sources of Bias (Hovy et al 2021) propone invece una classificazione basata sulle fonti da cui derivano i bias.
Il ruolo dei dataset nella generazione dei bias
Le prime fonti riguardano i dataset. Questi infatti possono essere poco rappresentativi di alcune fasce demografiche, causando potenziali bias allocativi. Un esempio su tutti è Wikipedia, una fonte di conoscenza utilizzata ampiamente per l’addestramento automatico, dove però è evidente lo squilibrio tra pagine dedicate a uomini bianchi occidentali ed eterosessuali e pagine dedicate a minoranze etniche (Adams et al 2019) e di genere (Weathington et al 2023), come da stessa ammissione dell’enciclopedia. Questo gap informativo è un problema in quanto può portare a strumenti di Intelligenza Artificiale incapaci di rappresentare, riprodurre o suggerire i contenuti prodotti da persone appartenenti a minoranze.
Un secondo problema relativo ai dati riguarda la presenza dei bias nei corpora annotati. Sap et al (2020) sono stati i primi a scoprire che nei dataset annotati per il riconoscimento automatico dello Hate Speech molti messaggi scritti da afroamericani sono stati etichettati come discriminatori in modo errato perché il gruppo di annotatori che ha creato il dataset è composto solo da persone bianche. Questo lavoro ha ispirato numerose ricerche focalizzate sull’inclusività dei processi di annotazione. Per esempio Sachdeva et al (2022) hanno sviluppato un corpus per il riconoscimento dell’Hate Speech in cui le annotazioni non sono raggruppate e i dati socio-demografici sugli autori sono esplorabili. In questo modo è possibile studiare il fenomeno da diverse prospettive per poterne cogliere la complessità. Questo nuovo approccio all’annotazione dei corpora, che dà una grande importanza alle prospettive espresse dagli annotatori, si sta diffondendo in diversi ambiti tematici aprendo la strada a rappresentazioni più ricche di fenomeni come il riconoscimento dell’ironia (Casola et al 2023) o l’influenza che hanno i valori morali nella percezione di determinati eventi (van der Meer et al 2023).
Bias rappresentazionali nei models di NLP
Due ulteriori fonti di bias identificate da Hovy et al (2021) hanno a che fare con i modelli di NLP. Un primo problema riguarda la presenza di bias rappresentazionali all’interno dei loro embeddings, ovvero le rappresentazioni vettoriali acquisite dai modelli in seguito all’addestramento automatico, che permettono di riconoscere la similarità semantica tra determinati concetti sulla base della loro vicinanza nello spazio vettoriale. Ormai da diversi anni si è scoperto che negli embeddings le parole che descrivono persone appartenenti a determinate categorie tendono ad essere più vicine a termini che presuppongono la presenza di stereotipi. Per esempio, è stato dimostrato che il termine infermier* è più vicino alle parole che identificano le donne rispetto a quelle che identificano gli uomini, mentre succede il contrario nel caso del termine dottor*. Uno dei primi lavori che ha affrontato questo aspetto è quello di Caliskan et al (2017), dove sono state introdotte una serie di metriche per misurare la presenza dei bias nei word embeddings. Lavori successivi hanno proposto tecniche per mitigare questo fenomeno (Zhao et al 2017) o per applicare tecniche di mitigazione e riconoscimento a diversi gruppi svantaggiati, come le minoranze etniche (Manzini et al 2019). Una seconda fonte di bias riguardante i modelli può apparire durante la classificazione automatica. In questo caso il problema riguarda l’associazione di alcune feature attribuibili a gruppi sociali durante la classificazione di testi su fenomeni come l’Hate Speech, la misoginia o altre forme di linguaggio abusivo. Per esempio, un modello può erroneamente identificare la parola donna come segnale della presenza di contenuti misogini nonostante la semantica di questo termine sia neutra. Lavori che si occupano di questo problema (Cfr: Sen et al, 2022) cercano innanzitutto di riconoscere questo genere di pattern e poi di introdurre delle forme di mitigazione per rimuovere l’associazione tra termini neutrali e classificazioni di misoginia o altri fenomeni abusivi.
Il bias culturale nella ricerca NLP
L’ultima fonte di bias è culturale e riguarda il modo in cui gli studi di NLP vengono impostati. La scelta delle ipotesi di ricerca, la definizione di uno schema di annotazione per una risorsa e l’identificazione degli indicatori per la valutazione sono tutti elementi che si prestano alla soggettività del team di ricerca (Santy et al 2023). Si tratta di uno dei problemi di più difficile risoluzione, soprattutto per la difficoltà di stabilire degli indicatori in grado di quantificare la presenza di bias culturali nel design di una ricerca scientifica.
Strategie di mitigazione dei bias in NLP
Una forma di mitigazione di questo problema riguarda la documentazione degli artefatti prodotti dalla ricerca attraverso l’uso di model cards e ancora più di recente sono stati formati di documentazione che abbracciano tutte le fasi di sviluppo degli LLM. Tuttavia, la diffusione di queste pratiche nell’accademia e nell’industria è ancora limitata a pochi esempi, che rendono questa fonte di bias una delle più difficili da affrontare in questo momento.
Bibliografia
Adams, J., Brückner, H., & Naslund, C. (2019). Who counts as a notable sociologist on wikipedia? gender, race, and the “professor test”. Socius, 5, 2378023118823946
Blodgett, S. L., Barocas, S., Daumé III, H., & Wallach, H. (2020, July). Language (Technology) is Power: A Critical Survey of “Bias” in NLP. In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics (pp. 5454-5476).
Caliskan, A., Bryson, J. J., & Narayanan, A. (2017). Semantics derived automatically from language corpora contain human-like biases. Science, 356(6334), 183-186.
Casola, S., Lo, S., Basile, V., Frenda, S., Cignarella, A., Patti, V., & Bosco, C. (2023, December). Confidence-based Ensembling of Perspective-aware Models. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (pp. 3496-3507).
Hardt, M., Price, E., & Srebro, N. (2016). Equality of opportunity in supervised learning. Advances in neural information processing systems, 29
Hovy, D., & Prabhumoye, S. (2021). Five sources of bias in natural language processing. Language and Linguistics Compass, 15(8), e12432.
Manzini, T., Lim, Y. C., Tsvetkov, Y., & Black, A. W. (2019). Black is to Criminal as Caucasian is to Police: Detecting and Removing Multiclass Bias in Word Embeddings. In Proceedings of NAACL-HLT (pp. 615-621)
Sachdeva, P., Barreto, R., Bacon, G., Sahn, A., Von Vacano, C., & Kennedy, C. (2022, June). The measuring hate speech corpus: Leveraging rasch measurement theory for data perspectivism. In Proceedings of the 1st Workshop on Perspectivist Approaches to NLP@ LREC2022 (pp. 83-94)
Sap, M., Card, D., Gabriel, S., Choi, Y., & Smith, N. A. (2019, July). The risk of racial bias in hate speech detection. In Proceedings of the 57th annual meeting of the association for computational linguistics (pp. 1668-1678).
Sen, I., Samory, M., Wagner, C., & Augenstein, I. (2022, July). Counterfactually Augmented Data and Unintended Bias: The Case of Sexism and Hate Speech Detection. In Proceedings of the 2022 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (pp. 4716-4726)
Sebastin Santy, Jenny Liang, Ronan Le Bras, Katharina Reinecke, and Maarten Sap. 2023. NLPositionality: Characterizing Design Biases of Datasets and Models. In Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 9080–9102, Toronto, Canada. Association for Computational Linguistics.
van der Meer, M., Vossen, P., Jonker, C., & Murukannaiah, P. (2023, December). Do Differences in Values Influence Disagreements in Online Discussions?. In Proceedings of the 2023 Conference on Empirical Methods in Natural Language Processing (pp. 15986-16008).
Weathington, K., & Brubaker, J. R. (2023). Queer Identities, Normative Databases: Challenges to Capturing Queerness On Wikidata. Proceedings of the ACM on Human-Computer Interaction, 7(CSCW1), 1-26
Zhao, J., Wang, T., Yatskar, M., Ordonez, V., & Chang, K. W. Men Also Like Shopping: Reducing Gender Bias Amplification using Corpus-level Constraints