bias

Se l’algoritmo diventa lo specchio dei nostri stereotipi: uno studio

Pregiudizi razziali, di genere e di altri tipi emergono così chiaramente dalle immagini sul web, che gli algoritmi di computer vision “unsupervised” possono apprenderli e incorporarli automaticamente anche se nessuna categoria o etichetta (label) venga utilizzata durante l’allenamento. Uno studio ci spiega come è possibile

Pubblicato il 26 Feb 2021

Andrea Baldrati

Studio Legale Baldrati Strinati, Co-founder Privacy Network

Un recente studio dimostra che gli algoritmi di computer vision del genere “unsupervised” possono apprendere i pregiudizi e gli stereotipi della nostra società – nel gergo tecnico “bias” – solamente dal modo in cui le persone sono rappresentate sul web.

In poche parole, dal momento che nessuna categoria o etichetta (label) viene utilizzata durante l’allenamento, l’algoritmo diventa “portavoce” di pregiudizi e stereotipi già esistenti. Vediamo le implicazioni che ne derivano e i possibili effetti di un uso incauto di questi modelli.

Indice degli argomenti

L’aspetto innovativo della ricerca

L’aspetto più innovativo di questa ricerca, condotta da Ryan Steed (Carnegie Mellon University) e Aylin Caliskan (George Washington University), risiede nell’oggetto, più che nella metodologia.

Per la prima volta, infatti, sono stati esaminati modelli di rappresentazione dell’immagine, del genere “unsupervised”, quindi senza dati pre-categorizzati per la fase di training dell’algoritmo.

La funzione, infatti, di questi algoritmi è quella di estrarre da un data base le relazioni e le somiglianze esistenti tra i dati in esso contenuti.
In questa famiglia, vi rientrano ad esempio gli algoritmi utilizzati per individuare interessi comuni tra gli utenti, per inviare promozioni mirate ed efficaci (targeted marketing). Sono algoritmi che non fanno predizioni (come i loro gemelli “supervised”), ma che tentano di estrarre caratteristiche (features) da immensi data set allo scopo di suddividere i dati in gruppi affini per una o più caratteristiche; oppure che hanno l’obiettivo di individuare certe correlazioni tra i dati per definire, a sua volta, regole generali ricorrenti.

Le implicazioni etiche

Queste attività di clustering o di associazione hanno forti implicazioni etiche, specie se il data set è in gran parte composto da immagini che rappresentano uomini e donne, magari di etnie diverse e in vari contesti professionali e no.

Dividere, estrarre, associare, sono tutte attività che suggeriscono un processo di categorizzazione dei dati da cui, per ovvi motivi, possono emergere pregiudizi o stereotipi, che riflettono sentimenti o pensieri ricorrenti all’interno di un gruppo o di una determinata società.

Che un data set rappresentativo di una società possa riflettere i bias presenti al suo interno, appare piuttosto ovvio. Se, ad esempio, raccogliessimo in Italia dati relativi ai neolaureati in ingegneria meccanica per allenare un algoritmo che deve valutarne la loro assunzione, è probabile che questo sviluppi un bias di genere, favorendo in qualche modo i candidati di sesso maschile, essendo in Italia maggiore il numero di ingegneri meccanici maschi.

Due tasselli importanti dello studio

In questo studio, però, si aggiungono due tasselli importanti.
Il primo lo abbiamo già anticipato: la questione dei bias viene affrontata analizzando modelli un-supervised. L’algoritmo unsupervised è una vera e propria tabula rasa di fronte ai dati che riceve nella fase di training; nessuno sviluppatore o data scientist etichetta i dati, “guidando” per così dire l’apprendimento verso una certa direzione. Per intenderci, nessuno classifica a monte le immagini che raffigurano gatti da quelle che non lo includono, per allenare l’algoritmo a riconoscere un felino.
La domanda, quindi, è se e in che misura un algoritmo unsupervised di computer vision sia in grado di apprendere in modo automatico i social bias, nonostante l’assenza di qualsiasi dato pre-categorizzato.

Il secondo tassello è costituito dallo sviluppo di iEAT (Image Embedding Association Test), il primo metodo per rilevare e quantificare i social bias appresi da immagini non etichettate, che in qualche modo tenta di replicare lo IAT, il più noto test per misurare i bias negli algoritmi di elaborazione del linguaggio naturale (NLP).
La grande sfida era quella di replicare un test progettato per riconoscere bias all’interno delle parole, rendendo possibile lo stesso meccanismo di rilevamento anche per le immagini.
Se nel linguaggio una certa parola (es. “amore”) corrisponde ad un certo attributo o concetto (es. “piacevole), nelle immagini invece nessun pixel, preso singolarmente, può corrispondere ad uno stesso valore semantico. Si è quindi deciso di allargare lo spettro, prendendo a riferimento le immagini aggregate, secondo le classificazioni effettuate dall’algoritmo unsupervised. Queste classificazioni – per caratteristiche – sono infatti buone rappresentazioni di certi oggetti o categorie, e possono già di per sé fornire informazioni su certe relazioni o patterns, che riflettono social bias (un esempio è un algoritmo che estrae immagini di matrimonio in cui compiano solo persone bianche).

La metodologia dello studio

Ma ora vediamo nel dettaglio la metodologia dello studio.

Il primo passo era quello di scegliere il data base da cui attingere per la fase di training.

Per avere un risultato significativo e rappresentativo, gli studiosi hanno voluto fare affidamento su ImageNet 2012, il set di dati più diffuso di immagini selezionate estratte dal web.

Successivamente, sono stati scelti due noti e recenti modelli per la rappresentazione dell’immagine, Sim-CLRv2 e iGPT, quest’ultimo divenuto celebre per essere il primo modello in grado di completare immagini ritagliate o comunque parziali.

Queste scelte non sono affatto casuali.
Si è voluto replicare il cosiddetto Transfer Learning, un approccio oggi molto diffuso tra gli addetti ai lavori: consiste appunto nell’utilizzare modelli algoritmici di avanguardia che vengono pre-addestrati su set di dati di grandi dimensioni, così da ridurre esponenzialmente i costi della fase di training prima del fine tuning, quella fase di messa a punto del modello per adattarlo alle esigenze e ai compiti specifici di un determinato progetto o scenario applicativo.

Le tipologie di test e i bias documentati

A quel punto gli studiosi hanno applicato e validato l’iEAT, replicando il più possibile i bias test più comuni per il linguaggio. In particolare, hanno riprodotto due tipologie di test:

valence test: in cui due concetti e/o elementi sono testati per associazione con immagini piacevoli (“pleasant”), quindi di alta valenza oppure sgradevoli (“unpleasant”), cioè di bassa valenza. Ad esempio “sole” e “pioggia” potrebbero essere associati ad immagini che esprimono rispettivamente un senso di piacevolezza o non piacevolezza.
Stereotype test: in cui due concetti sono testati associandoli ad una coppia di attributi stereotipati (es. “uomo” vs “donna”, “carriera” vs “famiglia”).

Nel corso dei loro numerosi test, presi in prestito dagli studi dei bias sul linguaggio, i ricercatori hanno documentato:

Bias razziali. Nel test di valenza, entrambi i modelli hanno ad esempio mostrato un bias significativo quando è stato misurata l’associazione tra immagini di cittadini americani di origini arabe, con i parametri “pleasant” e “unpleasant”, registrando una forte propensione dell’algoritmo a collegarli al concetto di non piacevolezza.
Bias di genere. Anche in questo caso sono stati riscontrati bias in entrambi i modelli, in particolare nel test “Gender-Career”, con cui si misura la categoria “maschio” con attribuiti legati alla carriera come “business” e “officio” e la categoria femmina con attributi che rimandano al concetto di famiglia come “bambini” o “casa”.
Altre tipologie di bias. Il modello iGPT ha poi mostrato un bias nell’associare le persone magre con il concetto di piacevolezza e le persone in sovrappasso con il concetto opposto.
Intersectional bias. Si tratta di bias che si collegano al concetto di intersezionalità, cioè il bias prende vita dall’intersezione di più caratteristiche e identità personali, come ad esempio dall’unione di genere e razza. In generale, iGPT ha mostrato una valenza positiva verso i bianchi (“pleasant”) e una valenza tendenzialmente negativa verso le persone di colore (“unpleasant”). Mentre la più grande differenza di valenza fra tutti i test effettuati emerge fra uomini bianchi e donne di colore, quest’ultimi associati ad una valenza molto negativa se confrontati alle loro controparti.

Questi, alcuni dei più importanti bias riscontrati durante i test.

Da dove arrivano i bias nei modelli unsupervised

Ma qual è la loro origine?

Per spiegarlo, torniamo alla fonte, ImageNet, l’immenso data base che contiene immagini raccolte da Flickr e altri siti internet.

Potremo definirla una rappresentazione fedele del tipo di immagini che possiamo trovare sul web. E come noto oggi il web è uno specchio della nostra società, perlomeno di quella occidentale.

Non è caso che le categorie all’interno di ImageNet mostrino una disparità nella rappresentanza di alcuni generi o razze.
Queste disparità creano favoritismi verso una data categoria, dando vita alla gran parte dei bias esistenti, poi assorbiti dagli algoritmi stessi.

Per esempio, la categoria “sposo” contiene per lo più immagini di persone bianche. A questa categoria è facile ricollegare una valenza positiva (pleasant); se in un data set sono sempre i bianchi ad essere rappresentati con abiti da sposo, allora questi potrebbero essere automaticamente associati ad un concetto di piacevolezza, anche se all’algoritmo non è stata fornita alcuna immagine con etichette di “sposo” o “bianchi” durante la fase di training.

Allo stesso modo, i modelli unsupervised sono influenzati dalla collocazione abituale di certi gruppi sociali in determinati contesti. È stato dimostrato che su Flickr (da cui attinge anche ImageNet) vi sia una più alta proporzione di donne rappresentate in un ambiente casalingo rispetto agli uomini. Quest’ultimi sono invece più spesso ritratti in contesti professionali.

Secondo gli studiosi, questa differenza ha inevitabilmente condizionato i risultati dei test “gender-carreer”, sulla base dei bias che l’algoritmo aveva appreso in maniera automatica.

In generale, i ricercatori hanno dimostrato che gli algoritmi di computer vision potrebbero automaticamente apprendere social bias simili a quelli umani, se pre-addestrati con un ampio set di immagini online. E tutto questo, senza fornire alcun’immagine pre-categorizzata.
Un vero e proprio monito a chi si avvale dell’approccio Transfer Learning per addestrare algoritmi di machine Learning o di Deep Learning.

I possibili effetti di un uso incauto di questi modelli

Un monito, supportato anche da un caso di studio che evidenzia in modo emblematico quali potrebbero essere gli effetti di un utilizzo incauto di questi modelli.

I ricercatori hanno infatti selezionato 5 volti artificiali di aspetto maschile e 5 di aspetto femminile. La scelta di utilizzare volti artificiali è stata ovviamente fatta per evitare di arrecare un qualsiasi danno a persone “reali”.
Dopo aver ritagliato i volti all’altezza del collo, è stato chiesto al modello iGPT di completare ogni immagine in 8 versioni diverse.

Ebbene, nel 52,5% dei casi l’algoritmo ha scelto di vestire l’uomo con un abito; la donna invece è stata rappresentata – nel 42,5% dei casi – con un bikini o un top scollato.

Questi dati sono evidentemente il frutto di una rappresentazione stereotipata della figura femminile che è ampiamente diffusa tra le immagini sul web, ma che potremo anche riscontrare – oggi come ieri – in riviste o periodici offline.

Se da una parte, dunque, il Transfer Learning aiuta a contenere i costi della fase di training, dall’altra i dati di questo studio dimostrano che l’utilizzo di algoritmi unsupervised pre-addestrati su data set di ampie dimensioni, possono apprendere bias in modo automatico e, quindi, prendere decisioni o fare scelte polarizzanti ed inique, che risentono di tali pregiudizi o stereotipi.

Il lato positivo

C’è però un lato positivo.
Questi algoritmi ci danno l’occasione di prendere coscienza dei bias che affliggono un certo data set, e quindi di mitigarli con un approccio by design, che sarà sempre più necessario nella progettazione di nuovi sistemi di intelligenza artificiale.

Il metodo presentato in questo studio (iEAT) per rilevare e quantificare i social bias appresi da algoritmi di computer vision è un traguardo importante per aumentare il livello di trasparenza, sebbene la strada verso una reale mitigazione dei bias che affliggono i modelli pre-addestrati con Transfer Learning è – come ammettono gli stessi studiosi – ancora tutta in salita.