L’intelligenza artificiale assume un ruolo sempre più importante nell’identificazione dell’hate speech online Ma nonostante i recenti progressi di tale tecnologia nell’ambito della “lotta” per un linguaggio “depurato dagli eccessi”, un nuovo studio denominato “HateCheck”[1] mette in evidenza i compromessi tra la sotto e la sovra-identificazione dell’hate speech. Vediamo perché.
L’odio sui social è un business: ecco perché le piattaforme fanno poco per frenarlo
La lotta dell’intelligenza artificiale contro l’hate speech
L’hate speech – ossia quell’insieme di comportamenti che incitano all’odio verbale/non verbale verso una o più persone principalmente per motivi di genere, etnia, disabilità e appartenenza sociale – è una delle piaghe della società globalizzata degli anni Venti del duemila. Con l’evolversi della tecnologia, l’hate speech prende forma nei gangli del Web, inficiando tutti i “punti di incontro” tra due o più persone (si pensi, ad esempio, ai social media). In questa inarrestabile avanzata, l’intelligenza artificiale ha un ruolo predominante. Nello studio HateCheck alcuni scienziati dalla University of Oxford, dell’Alan Turing Institute, della Utrecht University e della University of Sheffield hanno testato quattro dei migliori sistemi di intelligenza artificiale per il rilevamento dell’hate speech, scoprendo (tra di loro) di aver adottato modalità diverse per distinguere le frasi “tossiche” (ossia contenenti odio) da quelle innocue.
Ma al di là delle modalità di approccio all’intelligenza artificiale, i risultati non sono (altrettanto) sorprendenti; infatti, creare un’intelligenza artificiale che comprenda le sfumature del linguaggio naturale è difficile. Ma focalizzandoci solo sul modo in cui i ricercatori hanno diagnosticato il problema, ci troviamo dinanzi a ben ventinove diversi test che mirano ad analizzare e affrontare diversi aspetti dell’hate speech, con il fine ultimo di individuare con più precisione dove ogni sistema fallisce. Tutto ciò rende da un lato più facile comprendere come superare le debolezze del sistema, e dall’altro dà una considerevole mano al mondo dell’industria per migliorare l’intelligenza artificiale da essa ampiamente impiegata.
La metodologia utilizzata
Gli autori del sopracitato studio “HateCheck”, guidati dai ricercatori della University of Oxford e dell’Alan Turing Institute di Londra, hanno intervistato i dipendenti di sedici organizzazioni non profit che lavorano per combattere l’odio presente sul Web. Il team britannico-olandese ha utilizzato queste interviste per creare una tassonomia di ben diciotto diversi tipi di hate speech, concentrandosi perlopiù sull’hate speech testuale “made in UK”, compresi il discorso dispregiativo, gli insulti e il linguaggio contenente minacce. Sono stati anche identificati undici scenari che, pur non includendo hate speech, fanno comunemente “inciampare” i moderatori dell’intelligenza artificiale (si pensi agli errori di Facebook), tra cui l’uso di turpiloquio in dichiarazioni innocue, insulti che sono stati segnalati dalla community di riferimento, e denunce di odio che citano o fanno riferimento all’hate speech “originario”. Per ciascuna delle ventinove diverse categorie esaminate, i ricercatori inglesi hanno “creato a mano” decine di esempi e utilizzato frasi modello come: “Odio [nome della persona]” o “Sei solo un [genere di insulto] per me”, al fine di generare lo stesso dataset di esempi per sette gruppi “protetti” (divisi ad es. per genere, etnia ecc.) che sono legalmente tutelati contro la discriminazione dalla legislazione degli Stati Uniti. I ricercatori hanno reso pubblico il dataset finale chiamato, come da titolo dello studio, “hateCheck”, che contiene quasi quattromila esempi in totale.
I ricercatori hanno poi testato due popolari servizi commerciali: “Perspective API” di Jigsaw (by Google) e “Sift Ninja” della canadese Two Hat. Entrambe le piattaforme permettono ai clienti di segnalare contenuti violenti in post o commenti. Perspective, in particolare, è utilizzato da piattaforme come Reddit e da quotidiani come il New York Times e il Wall Street Journal; tale strumento permette di segnalare e di dare la priorità ai post e ai commenti in base al contenuto di hate speech, così da permettere un’efficace risposta da parte del team “umano” dei moderatori di contenuti. Tuttavia, mentre Sift Ninja si è mostrato eccessivamente “indulgente” nello “stanare” l’hate speech, non riuscendo praticamente mai a rilevare le sue varianti, Perspective si è dimostrato eccessivamente duro in tale “lavoro”. In pratica, la soluzione di casa Google eccelleva nel rilevare la maggior parte delle diciotto categorie di odio previste da HateCheck, pur tuttavia segnalando anche la maggior parte di quelle che non figuravano come hate speech, come gli insulti non caratterizzati da odio. I ricercatori hanno trovato lo stesso schema di Perspective quando hanno testato due modelli accademici di Google che rappresentano alcune delle migliori tecnologie disponibili di intelligenza artificiale applicate al linguaggio e che, probabilmente, servono come base per altri sistemi commerciali di moderazione dei contenuti. I modelli accademici hanno anche mostrato prestazioni disomogenee tra i gruppi protetti (es. genere, etnia ecc.) segnalando più volte l’odio diretto verso alcuni gruppi rispetto ad altri. Come se, ad esempio, i discorsi d’odio su base etnica venissero segnalati maggiormente rispetto a quelli di genere.
I paradossi
I risultati della ricerca britannico-olandese indicano uno degli aspetti odierni più impegnativi del rilevamento dell’odio basato sull’intelligenza artificiale, che rappresenta quasi un clamoroso aut-aut: moderare “troppo poco” non riesce a risolvere il problema; moderare troppo, invece, può portare a censurare il tipo di linguaggio che i gruppi di persone emarginate usano per darsi potere (difendendosi). Ci si trova nella surreale situazione in cui, tutto d’un tratto, si andrebbe a penalizzare proprio quelle comunità che sono più spesso prese di mira dall’odio. Perspective di Jigsaw, ad esempio, supera queste limitazioni affidandosi a moderatori umani per prendere le decisioni finali nel campo dell’hate speech. Ma questo processo non è sempre attuabile per piattaforme più grandi (si pensi a Facebook). Jigsaw sta lavorando allo sviluppo di una funzione che potrebbe ridefinire le priorità dei post e dei commenti sulla base dell’incertezza di Perspective, rimuovendo automaticamente il contenuto che sia “sicuramente” di hate speech e, al contempo, segnalando il contenuto borderline ai moderatori umani per la decisione finale.
Ciò che è davvero interessante dello studio HateCheck, è che fornisce un modo molto “sottile” per valutare lo stato dell’arte della tecnologia in esame. Molte delle cose che sono evidenziate in questo documento – come le parole sottoposte a reclamo da parte della community di riferimento, e che rappresentano una sfida per questi modelli – sono qualcosa che è da sempre conosciuto nel settore, pur tuttavia davvero difficile da quantificare. Jigsaw, dal canto suo, sta utilizzando HateCheck per capire meglio le differenze tra i suoi modelli, al fine di intervenire lì dove sia necessario apportare dei miglioramenti alla sua piattaforma.
Anche gli accademici sono entusiasti dalla ricerca in oggetto, poiché permette di valutare “in teoria” ciò che potrebbe un giorno (non troppo lontano) tramutarsi “in pratica”, ossia la “prova del mercato”. Infatti, molto presto, le aziende stesse dovranno provare il funzionamento del sistema e, se del caso, segnalare i punti forti e i punti deboli della piattaforma, al fine di migliorare l’intero apparato. Ciò che è certo, è che i limiti dei modelli linguistici e il “disordine” del linguaggio ci fanno capire che ci saranno sempre dei compromessi tra la sotto e la sovra-identificazione dell’hate speech. Allo stato dei fatti, semplicemente, il dataset di HateCheck aiuta a rendere visibili questi compromessi.[2]
- HATECHECK: Functional Tests for Hate Speech Detection Models. University of Oxford – The Alan Turing Institute – Utrecht University – University of Sheffield. https://arxiv.org/pdf/2012.15606.pdf ↑
- AI still sucks at moderating hate speech. MIT Technology Review. https://www.technologyreview.com/2021/06/04/1025742/ai-hate-speech-moderation/ ↑