Anche l’Intelligenza Artificiale (AI) ha subito i contraccolpi del brutale omicidio di George Floyd, che ha mostrato al mondo – se mai ce ne fosse stato bisogno – quanto il razzismo sia un problema tutt’altro che archiviato.
La ripercussione più eclatante, al momento, si è vista nella rinuncia, da parte di tre colossi informatici – IBM, Amazon e Microsoft – a fornire alla polizia i propri software per il riconoscimento facciale.
Probabilmente a molti lettori non risulta immediata la connessione tra l’assassinio di George Floyd, le conseguenti proteste antirazziste, e un certo senso di colpa dei giganti dell’IA, implicito nelle loro dichiarazioni di desistere dall’offrire software per il riconoscimento facciale. Per meglio apprezzare il nesso è opportuno ricapitolare i passi indietro dei big tech e i passi avanti con cui l’IA si è rapidamente impadronita della capacità di individuare e riconoscere volti in immagini, e di certi aspetti di questa capacità.
Il passo indietro dei big tech
Partiamo ricapitolando il passo indietro dei colossi informatici. Ha iniziato IBM, il 9 giugno, annunciando di uscire dal mercato del riconoscimento artificiale dei volti, per le implicazioni razziali nell’uso di questa tecnologia da parte delle forze dell’ordine, a partire da quelle americane. A seguire, l’11 giugno anche Amazon annuncia di sospendere per un anno la fornitura del proprio software di riconoscimento facciale, Rekognition, alle polizie americane. Ultima arriva Microsoft, che annuncia di non vendere più software per riconoscimento dei volti alla polizia americana, fino a che il Congresso non stabilisca una normativa in grado di escludere distorsioni razziali nell’uso di queste tecnologie. Google non manca all’appello, aveva già dovuto archiviare certi utilizzi delle sue tecnologie AI un paio di anni fa, su spinta dal basso della sua base. Nel 2018 Google aveva stipulato un contratto con il Pentagono nel progetto Maven, mirante a dotare le forze armate di software per il riconoscimento di persone e di droni. Nel momento in cui la notizia si diffuse tra gli impiegati, nacque una protesta che si concretizzò in una lettera denunciante come questo impiego dell’IA calpestasse lo spirito e i valori declamati da Google, i cui vertici adottarono la decisione di rimanere alla larga da applicazioni di questo genere.
L’IA “moderna”: il deep learning
Con una certa approssimazione, parlare dell’IA odierna vuol dire parlare della famiglia di metodologie note come deep learning. Si tratta dell’eredità di un genere di software introdotto negli anni ’80 del secolo scorso, le reti neurali artificiali, dei sistemi di semplici elementi interconnessi, ispirati in qualche misura ai neuroni biologici, con la notevole proprietà di non dover essere programmati, come i normali software, ma di apprendere qualunque genere di funzione da opportune esperienze. Agli inizi di questo millennio le reti neurali artificiali sembravano aver esaurito il loro potenziale, l’IA tornò a prediligere metodi basati sulla logica anziché sull’apprendimento, ispirati al razionalismo tipico delle sue origini. Il campo della visione computerizzata prese le distanze sia dalle reti artificiali che dall’IA in generale, optando per metodi matematici privi di attinenza con la visione biologica.
Tuttavia, un drappello di irriducibili non smise mai di proseguire la ricerca sulle reti neurali artificiali, in cui spicca la figura di Geoffrey Hinton, che le ha traghettate verso il deep learning, ovvero le stesse reti con un numero maggiore di strati di neuroni. Il deep learning ha suscitato clamore proprio per aver raggiunto le prestazioni visive dell’uomo, un traguardo che dopo mezzo secolo di progressi lenti e limitati con altri tipi di algoritmi, sembrava velleitario. Il livello di accuratezza pari a quello umano viene conseguito dal deep learning su vaste collezioni di immagini generiche, come quella denominata ImageNet, composta da decine di milioni di immagini, raggruppate in migliaia di categorie di oggetti.
Ben diverso è azzardare avventurarsi nel terreno più ristretto dei volti. Si tratta infatti del tipo di oggetto su cui il nostro cervello esibisce la più raffinata capacità discriminativa. Essere competenti riguardo ai volti è prezioso per la vita sociale, per gli esseri umani come per diversi altri animali che vivono in gruppi di conspecifici ben organizzati. Anzitutto i volti sono gli indizi visivi principali per poter discriminare un individuo dall’altro, riconoscere lo stesso individuo a distanza di tempo. Inoltre, i volti rivelano molto dello stato d’animo del suo possessore, e in particolare della sua attitudine nei confronti di chi guarda. Niente di strano che quindi l’evoluzione naturale abbia sviluppato nei cervelli una dotazione computazionale particolarmente sofisticata per la percezione dei volti. Per nessun altro genere di oggetti ci risulta altrettanto facile mantenere in memoria un elevato numero di suoi esemplari, ed essere in grado di riconoscerne l’identità, nonostante differenze visive molto minute, e a dispetto delle variazioni del modo di apparire per differente posa, distanza, illuminazione. L’indagine neurocognitiva, di cui una delle figure di rilievo è Kalanit Grill-Spector di Stanford, ha individuato diverse aree corticali, sia nei lobi occipitali che in quelli temporali, dove si esplica il potenziamento computazionale necessario per la sofisticata elaborazione dei volti.
Deep learning e riconoscimento dei volti
La visione computerizzata ha tentato di cimentarsi con i volti fin dal 1990, quando venne inventato il metodo Eigenfaces, il cui nome si riferisce alla tecnica presa a prestito dall’algebra lineare degli Eigenvectors (“autovettori”). Quando in tempi più recenti, nel 2008, venne proposta una prima collezione standard di volti su cui valutare i metodi di visione computerizzata, LFW (Labeled faces in the wild), Eigenfaces risultò azzeccare il volto solamente per il 60% dei campioni. La direzione che portò ai migliori risultati fu la certosina selezione di una serie di configurazioni di pixel caratteristici di parti dei volti, soprattutto occhi e bocca.
È su un modello di questo genere che nel 2009 nasce l’azienda israeliana face.com, con la cooperazione dell’università di Tel-Aviv. Il loro modello raggiunge una precisione dell’89% su LFW, quindi ancor lontana dalle prestazioni umane. Ma tre anni dopo esplode il deep learning, face.com che nel frattempo è stata acquisita da Facebook lo adotta abbandonando le precedenti strategie. Il nuovo modello, denominato proprio DeepFace raggiunge la precisione del 97% su LFW, molto vicino a quella umana. Mentre DeepFace impiega come rete neurale di base la stessa sviluppata dal gruppo di Hinton che ottenne il celebre successo in ImageNet nel 2012, successivamente anche questa parte centrale è stata specializzata per i volti, come nel modelli DeepID sviluppati dalla cinese SenseTime, raggiungendo la soglia del 99% di precisione su LFW.
La psicologia della visione umana per il riconoscimento dei volti
Prima di esaminare cosa c’è di intrinsecamente pericoloso nel deep learning che riconosce i volti, è utile una breve digressione sulla psicologia della visione umana per lo stesso compito. Si è detto quanto siamo abili nel riconoscere i volti, è ora il momento di parlare anche di diverse pecche, una delle più note e vistose va sotto il nome di other-race effect. Non c’è modo migliore di esprimerla che con il luogo comune diffuso tra europei: “i cinesi si assomigliano tutti”. Forse i cinesi pensano lo stesso di noi, e quel che è assodato da mezzo secolo di studi è che ogni cultura perde drammaticamente la capacità di discriminare volti quando appartengono ad etnie diverse dalla propria.
Studi più recenti hanno mostrato che in effetti il pregiudizio del nostro sistema visivo non riguarda esclusivamente la diversità etnica, bensì più genericamente il livello di confidenza e frequentazione delle persone di cui percepiamo le facce. Studi sperimentali su studenti hanno mostrato come uno stesso segnale cerebrale misurato tramite elettroencefalografia (il potenziale N170) venga modulato sia dalla diversità etnica, che dall’appartenenza o meno alla stessa università. Si è riscontrato anche un other-age effect, per esempio gli adolescenti risultano molto più discriminativi dei volti di coetanei che di persone più anziane o anche di bambini piccoli.
In fin dei conti potrebbe sembrare poco grave non possedere un apparato di riconoscimento dei volti perfetto per ogni abitante del paese, ma questi fenomeni diventano drammatici quando si entra nel terreno della prevenzione del crimine e della giustizia. Nell’estate 2005 la polizia di Londra era in allarme a seguito degli attentati terroristici alla metropolitana, e aveva nell’elenco dei sospetti il cittadino di origine etiope Hussain Osman, di cui era nota una delle sue possibili abitazioni. La mattina del 22 luglio un uomo che esce dallo stabile sotto sorveglianza viene riconosciuto con sicurezza come Osman da un poliziotto, che dirama l’allarme, e l’uomo viene seguito. Quando entra nella stazione della metropolitana di Stockwell l’ordine è di impedire a tutti i costi che salga su un treno. Ordine eseguito uccidendo l’uomo sulla piattaforma, prima che salisse su una carrozza. L’uomo era Jean Charles De Menezes, brasiliano, e con una somiglianza piuttosto superficiale con Osman, ma entrambi erano di etnia diversa dal poliziotto.
Uno dei correlati che rendono ancor più pericoloso l’other-race effect è che il soggetto non si rende conto di perdere la capacità identificativa quando i volti sono di etnia diversa, allo stesso modo con cui giustifichiamo la nostra difficoltà di discriminare soggetti – i cinesi di cui sopra – sostenendo che sono realmente indistinguibili, quando crediamo di aver riconosciuto qualcuno, ci autoconvinciamo della sua correttezza. Uno dei massimi esperti nella psicologia degli errori di identificazione visiva, Mike Burton, ha verificato sperimentalmente che soggetti impegnati in compiti di identificazione da immagini del volto, nei casi in cui hanno sbagliato dichiarano di avere certezza della propria identificazione più del 30% delle volte.
Negli Stati Uniti l’iniziativa Innocence Project ha sollecitato la revisione di processi con verdetto di colpevolezza sospetto, e su 350 casi di errore giudiziario, verificato tramite test del DNA, il 70% trova la motivazione principale in un errore nel riconoscimento visivo, soprattutto di volti effettuato da operatore di polizia o altro testimone, di etnia diversa dall’accusato.
Da dove vengono i pregiudizi del deep learning
In diverse diatribe riguardanti l’IA viene incolpato proprio il deep learning, e a puntargli il dito contro sono, comprensibilmente, gli esponenti dell’ala razionalista dell’IA, che mal lo hanno digerito. Per esempio, il deep learning viene spesso accusato di non far trasparire la catena logica che conduce a suoi risultati. Questa mancanza diventa una pecca seria se il deep learning viene impiegato in sistemi decisionali, in cui se una decisione si rivelasse critica, sarebbe doveroso poter risalire ai motivi per cui è stata presa. Nel caso, invece, del riconoscimento dei volti, non c’è da imputare qualcosa di specifico al deep learning, se non il suo funzionare molto bene, in maniera sorprendentemente prossima alla visione umana. Anche nei pregiudizi.
Joy Buolamwini, ricercatrice al MIT Media Lab, è diventata una delle principali ricercatrici sulle insidie degli attuali software di riconoscimento facciale, e racconta come questo interesse scaturì quando lavorava ad un progetto di robotica, e non riusciva ad accedere ad una parte del software che richiedeva l’interazione facciale. Non si trattava di riconoscere l’identità di un volto, ma molto più banalmente di verificare se di fronte alla telecamera ci fosse una persona, ma il software quando lei si proponeva insisteva a dichiarare che non c’era nessun volto. Buolamwini capì presto che bastava indossare una maschera bianca per ottenere l’accesso al software, ma a quel punto più del progetto di robotica le incuriosiva andare a fondo sui motivi per cui un volto come il suo non venisse nemmeno riconosciuto come volto. E presto capì che il suo, di volto, associava due pecche: essere donna, ed essere di colore. Da allora ha fondato la Algorithmic Justice League, che si prefigge di studiare e denunciare i pregiudizi insiti negli algoritmi di AI e la portata del loro danno.
La collezione di volti LFW con cui, come abbiamo visto, si sono confrontati i vari algoritmi, è composta per il 78% da facce maschili, e per l’84% da bianchi. Per tentare di ovviare a questa distorsione, il National Institute of Standards and Technology ha adottato una collezione di volti, IJB-A (IARPA Janus Benchmark A) sulla cui base valutare i software disponibili in commercio. Tuttavia, Buolamwini ha riscontrato come in IJB-A persista una netta prevalenza di volti maschili e bianchi, anche se in misura meno accentuata rispetto a LFW, e ha sviluppato nel 2018 una collezione, il Pilot Parliaments Benchmark bilanciato per colore della pelle seguendo gli standard scientifici dermatologici, e per genere. Sottoponendo a questo banco di prova i software commerciali di Microsoft, IBM, e della cinese Face++, i risultati sono stati sconfortanti. Mentre per maschi bianchi l’errore risulta nullo, sia la colorazione della pelle che il genere femminile introducono errori vistosi, che cumulati per i volti femminili con colore più scuro superano il 30%.
Considerando che i software di IBM e Microsoft sono già in adozione da parte della polizia in diversi stati americani, impiegati per confrontare soggetti con lo schedario di volti di pregiudicati, è evidente come la possibilità di errore nel caso di soggetti di colore sia drammatica. Diventa ora ben comprensibile la reazione a seguito del tragico caso di George Floyd. Amazon non sfugge certo alla critica, la American Civil Liberties Union californiana ha sperimentato il suo software Rekognition sui 535 membri del Congresso, confrontati con le foto segnaletiche di 25mila pregiudicati. Riconoscimento risultato positivo (falso, ovviamente) per 28 dei parlamentari, e nonostante la quota di colore sia solamente del 20% nel Congresso, risultava raddoppiata, del 40%, tra le identificazioni errate.
Va aggiunto che IBM, Amazon e Microsoft sono da un lato le aziende con maggior visibilità e quindi necessitano di una reputazione non incrinata da razzismo, d’altro lato vantano dimensioni di mercato tali da non preoccuparsi troppo per la rinuncia alla fetta derivante dal riconoscimento facciale.
Esiste invero un certo numero di altre aziende del tutto sconosciute al vasto pubblico, specializzate proprio nel riconoscimento facciale, che sono in realtà i maggiori fornitori delle polizie nel mondo. La Clearview AI americana vanta qualcosa come 2400 clienti tra le polizie d’America e del Canada. Un’indagine di Huffington Post ha svelato gli stretti legami tra il suo fondatore, Hoan Ton-That, e l’ultradestra nazista americana, di cui si sarebbe servito per i finanziamenti iniziali della sua azienda, oltre a far confluirne alcuni esponenti nel libro paga di Clearview AI.
Con questi presupposti non giunge certo sorprendente la recente notizia di un caso conclamato di errore giudiziario dovuto al pregiudizio razziale del software di riconoscimento facciale. Si tratta di Robert Julian-Borchak Williams, arrestato di fronte a moglie e figli e detenuto per tre giorni, per il furto ad un supermercato di Detroit. Quando a Williams venne contestato il fotogramma del video di sorveglianza del supermercato, per lui la dissomiglianza era eclatante, e lamentò con chi lo interrogava la ben nota inabilità dei bianchi a distinguere le persone di colore. Ma stavolta il pregiudizio dei bianchi che lo interrogavano si era alleato con il pregiudizio di un software. Fortunatamente Williams aveva un alibi, e il caso fu attenzionato dall’ACLU del Michigan, l’accusa dovette riconoscere l’errore che divenne di dominio pubblico. Secondo l’ACLU risulta altamente probabile che vi siano già verificati diversi casi Williams, rimasti nell’ombra, e purtroppo meno fortunati.
Conclusioni
Luke Stark è arrivato ad affermare che il riconoscimento dei volti sta all’IA come il plutonio alla fisica. Stark proviene dalla New York University ed è attualmente ricercatore alla Microsoft, ma ci tiene a chiarire che la sua posizione è personale, e non riflette il punto di vista della sua azienda. Il plutonio, scoperto nel 1941 e subito tristemente famoso per il nefasto uso nelle bombe su Hiroshima e Nagasaki, ha oggi degli utilizzi molti limitati e altamente specialistici, come in alcuni sofisticati strumenti di misura. È soprattutto un costante motivo di preoccupazione, per gli elevati rischi di tossicità e per la possibilità di un suo impiego fuori controllo da parte di nazioni prive di scrupoli. Il parallelo, sostiene Stark, è pertinente, vi sono sicuramente degli ambiti piuttosto limitati in cui il riconoscimento facciale risulta benefico, ma la sua diffusione può essere altamente tossica, e difficile da controllare.
Woodrow Hartzog, docente di legge e informatica a Stanford, non è certo più conciliante, sostiene che il riconoscimento dei volti è una minaccia travestita da regalo. La tecnologia è infatti proposta come innovazione attraente e divertente per chiunque, immediatamente applicabile ai propri archivi di fotografie di amici e conoscenti. Sono anche segnalate situazioni in cui potrebbe diventare una risorsa preziosa, come nella ricerca di bambini o anziani smarriti. Ma è proprio dall’allargamento dell’impiego del riconoscimento facciale, con conseguente sempre maggior precisione e minor costo, che deriva la possibilità di impiego capillare in sorveglianza. Infine, sia Hartzog che Stark sottolineano come il riconoscimento digitale dei volti non solo erediti inevitabilmente il pericoloso other-race effect del riconoscimento naturale, ma tenda a rafforzare la percezione delle persone in categorie razziali. Applicazioni come FaceApp hanno spesso la tendenza a proporre funzioni che modificano il volto secondo classificazioni razziali, suggerendo pertanto una classificazione delle persone per presunte razze.
Molti dei fisici atomici coinvolti nel progetto Manhattan del 1940 si resero conto di poter contribuire a qualcosa di pericoloso per il genere umano e ne sono usciti. Con le dovute distanze dall’analogia, qualcosa di analogo si sta verificando nel mondo dell’IA. Si è già raccontato della ribellione di molti ricercatori di Google, venuti a conoscenza del progetto Maven. Joseph Redmon, ricercatore all’università di Washington, ha sviluppato uno dei più popolari sistemi di individuazione di oggetti nelle immagini (YOLO), che è componente di molte applicazioni di visione più ad alto livello, incluso il riconoscimento facciale. A febbraio di quest’anno ha deciso di abbandonare del tutto la ricerca in visione artificiale, essendosi reso conto di quanto tali ricerche, una volta consolidate, potessero trovare applicazioni seriamente dannose per l’umanità.