Durante l’ultimo “biennio” di pandemia Covid-19 sono stati ideati e implementati centinaia di strumenti di intelligenza artificiale da impiegare nella lotta al virus, con tutti i loro “pro e contro”. Se sui “pro” si è scritto a sufficienza, tra i “contro” non si può negare l’inutilità dell’impiego di alcuni di loro, così come la mancanza di test adeguati prima della loro messa in commercio ed “esecuzione sul campo” (si pensi, ad esempio, agli ospedali).
Intelligenza artificiale e Covid-19, storia di un fallimento che possiamo correggere
Intelligenza artificiale, l’occasione sprecata nelle prime fasi della pandemia
Quando il Covid-19 colpì l’Europa nel marzo 2020, gli ospedali si ritrovarono in una crisi sanitaria “mal compresa” e senza precedenti. I medici, in poche parole, non avevano idea di come gestire i pazienti infetti. Vi erano i dati provenienti dalla Cina, che aveva un vantaggio di quattro mesi nella lotta alla pandemia. Quattro mesi di vantaggio che avrebbero potuto orientare gli algoritmi di machine learning ad aiutare i medici a comprendere cosa avevano sotto gli occhi e tra le mani, nonché come prendere decisioni finalizzate al salvataggio di vite umane. Ma ciò non accadde, e non di certo per mancanza di sforzi da parte dei numerosi eroi in corsia. I team di ricerca di tutto il mondo si fecero avanti in tal senso nelle primissime fasi della pandemia. I ricercatori nel campo dell’intelligenza artificiale, in particolare, si affrettarono a sviluppare software che si credeva avrebbero permesso agli ospedali di diagnosticare o smistare i pazienti in maniera più efficiente e celere, portando un supporto necessario (e sperato) in prima linea. Alla fine, però, vennero sviluppati molte centinaia di strumenti predittivi che non fecero vera differenza sul campo. Anzi, alcuni di loro si dimostrarono addirittura dannosi.
Gli studi che svelano errori e vulnerabilità
Questo “fallimento” fa eco ai risultati di due importanti studi che hanno valutato centinaia di strumenti predittivi sviluppati durante il 2020 “pandemico”. Il primo studio è di Laure Wynants[1], Assistant Professor of Epidemiology presso la Maastricht University. Lei e i suoi colleghi hanno esaminato più di duecento algoritmi per la diagnostica sui pazienti Covid-19. I ricercatori dell’università olandese hanno constatato che nessuno tra gli algoritmi esaminati, tranne due, fossero adatti per uso clinico. Lo studio della Wynants ha fatto eco ad un’altra ricerca, effettuata da Derek Driggs[2] (PhD student del Cambridge Centre for Analysis) e dai suoi colleghi. Questo gruppo di ricerca britannico si è concentrato sui modelli di deep learning (apprendimento profondo) per diagnosticare il Covid-19 e prevedere il rischio dei pazienti partendo da determinate immagini, come le radiografie del torace e la tomografia computerizzata (TC). Come per il team della Wynants, Driggs e i suoi colleghi hanno esaminato più di quattrocento strumenti, concludendo che nessuno tra loro fosse adatto per l’uso clinico (pur non negando che la pandemia è stata comunque un grande test per l’uso dell’intelligenza artificiale in campo medico).
Entrambi i gruppi hanno scoperto che i ricercatori hanno ripetuto gli stessi errori “di base” nel modo in cui hanno addestrato o testato i loro strumenti. I presupposti errati sui dati spesso significavano che i modelli addestrati non funzionavano come dichiarato. Wynants e Driggs sono preoccupati che potrebbe essere dannoso trovarsi davanti ad uno strumento clinico costruito “nel modo sbagliato”, perché potrebbe mancare la diagnosi o potrebbe esserci la sottovalutazione del rischio per i pazienti vulnerabili.
Ma le aspettative “irrealistiche” del mercato incoraggiano l’uso di questi strumenti prima che siano pronti (ossia testati). Wynants e Driggs affermano che alcuni degli algoritmi che hanno esaminato sono già stati utilizzati negli ospedali, e alcuni sono stati commercializzati da sviluppatori privati. E il timore che qualcuno di loro abbia danneggiato i pazienti è dietro l’angolo.
Le scoperte, quelle utili
Se c’è un lato positivo della vicenda, però, è che la pandemia ha reso chiaro a molti ricercatori che il modo in cui gli strumenti di intelligenza artificiale sono costruiti deve cambiare. La pandemia, in parole povere, ha messo sotto i riflettori problemi che, come uomini, ci trasciniamo da tempo.
Molti dei problemi che sono stati scoperti dal mondo accademico anglo-olandese sono legati alla scarsa qualità dei dati che i ricercatori hanno utilizzato per sviluppare i loro strumenti. Le informazioni sui pazienti Covid-19, comprese le scansioni di immagini mediche, sono state raccolte e condivise nel mezzo di una pandemia globale, molto spesso da medici che lottavano per curare quei pazienti. I ricercatori volevano dare un celere aiuto e questi erano gli unici dataset pubblici disponibili. Così facendo, ciò ha significato che molti strumenti sono stati costruiti usando dati etichettati male o dati provenienti da fonti sconosciute. Driggs si focalizza su quelli che lui chiama “Frankenstein dataset”, ossia dati che sono messi insieme da più fonti e che possono contenere duplicati. Questo significa che alcuni strumenti finiscono per essere testati sugli stessi dati sui quali sono stati addestrati, facendoli apparire più “accurati” di quanto non siano. Inoltre si può “confondere” persino l’origine di alcuni dataset: questo può significare che i ricercatori perdono caratteristiche importanti che alterano l’addestramento dei loro modelli. Molti ricercatori hanno inconsapevolmente utilizzato un dataset che conteneva scansioni del torace di bambini che non avevano il Covid come esempio di come si presentavano i casi non-Covid. Ma come risultato, l’intelligenza artificiale ha imparato a identificare i bambini e non il Covid-19! Facendo un altro esempio, il gruppo di Driggs ha addestrato il proprio modello utilizzando un dataset che conteneva un mix di scansioni fatte quando i pazienti erano sdraiati e in piedi. Poiché i pazienti scansionati mentre erano sdraiati avevano più probabilità di apparire alla macchina come gravemente malati, l’intelligenza artificiale ha imparato erroneamente a prevedere un grave rischio Covid-19 dalla posizione di una persona. In altri casi ancora, l’intelligenza artificiale ha provato a captare il carattere del testo che alcuni ospedali usavano per etichettare le scansioni. Di conseguenza, i caratteri degli ospedali con casistiche più gravi diventavano predittori di rischio Covid-19.
Errori come questi sembrano ovvi col senno di poi. Possono anche essere corretti aggiustando i modelli, se i ricercatori ne sono consapevoli. È possibile, inoltre, riconoscere i difetti e rilasciare un modello meno accurato e meno fuorviante. Ma molti strumenti sono stati sviluppati da ricercatori esperti di intelligenza artificiale che non avevano la competenza medica per individuare i difetti nei dati oppure da ricercatori medici che non avevano le competenze matematiche per compensare tali difetti. Un problema più sottile che Driggs evidenzia è il bias introdotto nel momento in cui un dataset viene etichettato. Per esempio, molte scansioni di immagini mediche sono state etichettate in base al fatto che i radiologi che le hanno create hanno affermato che mostravano la presenza di Covid-19. Ma questo incorpora qualsiasi pregiudizio di quel particolare clinico in un determinato dataset. Sarebbe stato molto meglio etichettare una scansione di immagine medica con il risultato di un test PCR piuttosto che l’opinione di un medico. Questo non ha fermato alcuni di questi strumenti dall’essere “affrettati” nella pratica clinica. Per Driggs gli ospedali, a volte, affermano che stanno utilizzando uno strumento solo per scopi di ricerca, il che rende difficile valutare in che maniera i medici si stiano affidando loro. Wynants ha chiesto a una società che commercializzava algoritmi di deep learning di condividere informazioni sul loro approccio, ma non ha avuto risposta. In seguito, ha trovato diversi modelli pubblicati da ricercatori legati a questa azienda, tutti con un alto rischio di distorsione.
Conclusioni
L’utilizzo di dati qualitativamente migliori aiuterebbe molto, è vero, ma in tempi di crisi economica questo punto si dimostra una grande sfida. In pratica, l’alternativa percorribile è il migliore sfruttamento dei dati che abbiamo già a nostra disposizione. La mossa più semplice sarebbe che i team esperti di intelligenza artificiale collaborassero di più con i medici, nonché con i ricercatori che dovrebbero condividere i loro modelli e “rivelare” ai medici come sono stati addestrati, in modo che altri professionisti possano testarli e implementarli.[3]
Note
- Prediction models for diagnosis and prognosis of covid-19: systematic review and critical appraisal. British Medical Journal. https://www.bmj.com/content/369/bmj.m1328 ↑
- Common pitfalls and recommendations for using machine learning to detect and prognosticate for COVID-19 using chest radiographs and CT scans. Nature. https://www.nature.com/articles/s42256-021-00307-0 ↑
- Hundreds of AI tools have been built to catch covid. None of them helped. Technology Review. https://www.technologyreview.com/2021/07/30/1030329/machine-learning-ai-failed-covid-hospital-diagnosis-pandemic/ ↑