pregiudizi digitali

L’IA in Sanità è razzista: serve ancora molta cautela

Un articolo su Nature esplora come i Large Language Models (LLM) come ChatGPT e Bard possano propagare pregiudizi razziali in contesti medici. Lo studio evidenzia la necessità di una rigorosa valutazione e modifica di questi modelli per prevenire danni e garantire la sicurezza dei pazienti

Pubblicato il 3 giu 2024

Domenico Marino

Università Degli Studi Mediterranea di Reggio Calabria

Un articolo uscito sulla rivista Nature nel lo scorso mese di ottobre dal titolo “Large language models propagate race-based medicine” con primo ricercatore Jesutofunmi A. Omiye, esamina l’uso dei Large Language Models (LLM) come ChatGPT e Google Gemini nel contesto medico, con un focus particolare sulla loro capacità di propagare pregiudizi medici basati sulla razza.

How racial biases in medical algorithms lead to inequities in care

Guarda questo video su YouTube

Indice degli argomenti

La ricerca di Jesutofunmi A. Omiye: razzismo e LLM

Questo studio è importante perché i modelli di linguaggio vengono sempre più considerati per l’integrazione nei sistemi di registrazione delle informazioni sanitarie elettroniche, ma possono portare rischi significativi se non gestiti correttamente.

L’obiettivo dello studio era di valutare se i Large Language Models (LLM) propagano contenuti medici inesatti e dannosi basati sulla razza quando vengono interrogati con domande specifiche. Per farlo, sono state formulate domande basate su pregiudizi medici relative alla razza, comunemente accettati tra gli studenti di medicina, per esaminare come i vari modelli rispondono a questi quesiti.

Le domande riguardavano, ad esempio, la funzione renale e la capacità polmonare, aree in cui in passato erano state utilizzate pratiche mediche basate sulla razza. I risultati hanno mostrato che tutti i modelli di linguaggio testati presentavano esempi di perpetuazione di pregiudizi razziali nelle loro risposte nell’ambito della diagnosi, dell’interpretazione e della cura.

Ciò includeva l’inserimento della razza nei calcoli per funzioni organiche come la eGFR (tasso di filtrazione glomerulare stimato) o come la capacità polmonare, che riflettevano pregiudizi storici e consolidati. Ad esempio, le risposte variavano a seconda che si chiedesse di “calcolare” o “stimare” la eGFR, mostrando una sensibilità al contesto che potrebbe essere problematica in un ambiente clinico dove la coerenza e l’accuratezza sono cruciali. Inoltre, i modelli non erano sempre coerenti nelle loro risposte quando venivano poste ripetutamente le stesse domande, evidenziando una variabilità nella generazione delle risposte.

IA integrata nella sanità: le tre sfide da vincere

Sensibilità dei modelli alla formulazione delle domande

Un aspetto preoccupante emerso dallo studio è la sensibilità dei modelli alla formulazione delle domande. Questo suggerisce che i Large Language Models (LLM) possono essere facilmente influenzati dall’ingegneria delle richieste, portando a risposte che possono variare significativamente a seconda di come viene posta una domanda. Nonostante i modelli spesso riconoscessero correttamente che la razza è un costrutto sociale e non una categoria biologicamente valida, in alcuni casi le risposte scivolavano in un linguaggio biologicamente deterministico, suggerendo erroneamente basi genetiche per le categorizzazioni razziali.

La replicazione di pregiudizi nei Large Language Models (LLM)

Questo dimostra come anche i linguaggi modellati artificialmente possano riflettere pregiudizi culturali e storici profondamente radicati. L’articolo sottolinea la sfida significativa nell’integrare i Large Language Models (LLM) nella sanità: il loro potenziale di replicare e amplificare i pregiudizi esistenti nella formazione e nella pratica medica.

Pertanto, i ricercatori chiamano a una valutazione rigorosa e a modifiche dei Large Language Models (LLM) prima del loro impiego in contesti clinici, per prevenire la perpetuazione di pregiudizi dannosi e garantire la sicurezza dei pazienti.

Risposte non sensate dai modelli: un rischio per la pratica clinica

Inoltre, i risultati esortano a una maggiore trasparenza nei processi di formazione di questi modelli e alla necessità di test più estesi per identificare e mitigare i pregiudizi. Questo studio solleva importanti considerazioni etiche per l’uso dell’IA in campi delicati come la medicina, dove l’accuratezza e l’imparzialità sono di cruciale importanza. Infine, l’articolo mette in guardia sui modelli che generano risposte non sensate o inventano equazioni, il che pone un problema poiché gli utenti potrebbero non sempre essere in grado di verificare l’accuratezza delle risposte.

Questa incertezza suggerisce che i Large Language Models (LLM) richiedano ulteriori aggiustamenti per eradicare completamente i pregiudizi e i bias basati sulla razza e, pertanto, non siano ancora pronti per l’uso clinico o l’integrazione nella prassi quotidiana degli ospedali a causa del potenziale danno che potrebbero causare.

LLM in Sanità: serve ancora molta cautela

Mentre i Large Language Models (LLM) possono offrire opportunità significative per il miglioramento dell’assistenza sanitaria attraverso l’automazione e l’efficienza, i loro rischi potenziali e le limitazioni attuali richiedono una valutazione attenta e prudente prima del loro impiego effettivo in contesti medici.

Gli ospedali e, in generale, tutti gli operatori sanitari devono usare estrema cautela nell’uso dei Large Language Models (LLM) per le decisioni di natura medica, rendendosi necessari delle ulteriori valutazioni, una maggiore trasparenza e una verifica delle potenziali indicazioni prima che le risposte di questi modelli possano venire utilizzate per la formazione dei medici o per il processo decisionale in campo sanitaria o per la cura dei pazienti.

Considerazioni etiche sull’uso dell’IA in medicina

Il problema della conoscenza diseguale è legato al fatto che spesso accade che l’archetipo su cui la ricerca tende a concentrarsi è quello del maschio bianco, riducendo la capacità di capire cosa succede a chi non rientra in questa tipologia. Il terzo motivo è legato alla disparità di trattamento, cioè all’incapacità dei professionisti medici di essere in grado di trattare adeguatamente le persone che si discostano da quell’archetipo. Un ulteriore elemento di criticità è legato al fatto che questi tre aspetti non sono fra di loro indipendenti, ma spesso si presentano in maniera interconnessa e, quindi, in una forma che è più difficile affrontare.

Per capire meglio questi aspetti basti notare che l’infiammazione è descritta come rossore o colorazione rosa della pelle, pertanto, nella pelle scura, l’infiammazione appare molto diversa da quella e meno percettibile all’occhio e che gli ossimetri che misurano la saturazione dell’ossigeno tendono a dare risultati diversi in relazione al colore della pelle del malato. Di fatto la sanità può discriminare alcuni gruppi etnici!

E le nuove tecnologie basate sull’intelligenza artificiale applicate alla sanità non solo non sono in grado di eliminare questo gap nelle cure, ma addirittura possono costituire un elemento che amplia questi divari perché generalmente i big data sanitari incorporano il problema della conoscenza diseguale e questo porta con una certa facilità gli algoritmi a commettere errori, sviluppando dei bias razziali, sia nelle loro previsioni che nelle loro diagnosi.

Il futuro dei Large Language Models (LLM) in ambito sanitario

La sanità universale e il diritto all’accesso al sistema di cura dovrebbero essere dei principi di rango costituzionale, diretta come espressione dei diritti inviolabili dell’uomo. Eliminare questi divari e garantire a tutti il diritto all’acceso reale alle cure, oltre che un principio di civiltà, è un obbligo morale, ma quanta strada rimane ancora da fare!

@RIPRODUZIONE RISERVATA