CheXzero è uno strumento diagnostico basato sull’intelligenza artificiale che permette di individuare delle patologie a partire da radiografie del torace.
Un gruppo di ricercatori della Harvard Medical School ha provato ad addestrare l’algoritmo su un insieme di dati disponibili pubblicamente che consisteva in quasi 400.000 radiografie del torace e in quasi 300.000 rapporti clinici corrispondenti.
In questo modo l’algoritmo ha imparato ad associare le immagini alle note cliniche. In questo processo di apprendimento l’algoritmo, dopo aver esaminato migliaia di radiografie del torace e i referti clinici associati, ha imparato a riconoscere le patologie presenti nelle immagini replicando in sostanza il processo di diagnosi di un radiologo umano.
L’IA come supporto alla diagnosi: la medicina intelligente e il nodo dell’interpretazione
Perché CheXzero è diverso dagli atri sistemi AI
La differenza rispetto ai precedenti modi di affrontare il problema dell’addestramento dell’algoritmo sta nel fatto che i precedenti metodi prevedevano di addestrare l’intelligenza artificiale su scansioni etichettate dall’uomo, in questo approccio, invece, l’intelligenza artificiale veniva addestrata solo dai referti medici normalmente compilati. La valutazione dei risultati prodotti da CheXzero, descritta in Nature Biomedical Engineering, ha rilevato che questo metodo sembrerebbe più efficace nell’identificare problemi come polmonite, forma cancerose e altre patologie del polmone rispetto ad altri modelli di basati sull’intelligenza artificiale. Poter apprendere direttamente dai referti è un notevole vantaggio, non solo in termini di esiti finali del processo diagnostico, ma anche in termini di economia del processo di diagnosi. Si può infatti far risparmiare tempo nel processo diagnostico e anche risparmiare in termini di risorse umane coinvolte nel processo.
Le prospettive dell’applicazione di CheXzero
In tutti i casi in cui vi sia un sovraccarico di lavoro per i medici o nel caso in cui i medici siano una risorsa scarsa, vedi il caso del sistema sanitario dei paesi poveri, questo metodo è vantaggioso, sia perché può ridurre drasticamente il carico di lavoro dei radiologi, sia perché può validamente sostituire un radiologo nel caso in cui sia difficile averne uno a disposizione. Il software del modello è stato, inoltre, messo a disposizione di altri ricercatori nella speranza che possa essere applicato anche alle TAC, alle Risonanze Magnetiche ed alle Ecocardiografie per aiutare a rilevare una gamma più ampia di malattie che si possono manifestare in altre regioni dell’organismo umano. Se questo si rivelasse vero, il modello di diagnostica basato sull’intelligenza artificiale che richiede una supervisione minima potrebbe contribuire ad aumentare l’accesso all’assistenza sanitaria nei Paesi e nelle comunità in cui gli specialisti scarseggiano.
L’efficacia di questi metodi al di fuori delle sperimentazioni controllate
Ma andando per un attimo oltre i facili ottimismi occorre riflettere anche sulla effettiva efficacia di questi metodi al di fuori delle sperimentazioni controllate, quando, cioè, devono essere impiegati su larga scala nella prassi quotidiana. Uno dei principali problemi quando sia approccia l’intelligenza artificiale in generale, e nel settore sanitario in particolare, è quello di capirne i limiti e ammettere la possibilità che dalle elaborazioni possano emergere degli errori. Troppo spesso i software di deep learning vengono enfatizzati e le loro capacità sovrastimate. Si è diffusa la convinzione che l’intelligenza artificiale possa essere la panacea di ogni male e possa risolvere in maniera semplice e veloce problemi complessi. L’eccessivo ottimismo sulle capacità quasi taumaturgiche dell’intelligenza artificiale può portare fuori strada quando si tratta di studiare applicazioni nuove e, in campo sanitario, può condurre ad errori che poi impattano pesantemente sui pazienti.
Se la facilità d’uso dell’IA trae in inganno
La facilità di uso dello strumento può trarre in inganno e far pensare che basti avere grandi quantità di dati per raggiungere attraverso il deep learning un buon risultato. È la potenza dello strumento a trarre in inganno e a far credere che l’intelligenza artificiale assomigli ad una scatoletta in cui basti inserire dei dati per ricavare un buon risultato. Questa falsa credenza si è molto diffusa nella comunità scientifica, soprattutto in campo medico, durante la pandemia di Covid 19. Sono stati elaborati un numero estremamente elevato di algoritmi che si proponevano di predire aspetti legati alla pandemia da Covid 19 per poter tentare di combatterla efficacemente.
Facendo però un’analisi retrospettiva quello che emerge, purtroppo, è che delle centinaia o migliaia di strumenti di intelligenza artificiale pensati per riuscire a gestire meglio la pandemia, in realtà quelli che sono riusciti a superare il test clinico, ossia l’impatto concreto con la realtà ospedaliera, si possono contare con la metà delle dita di una mano.
Ciò significa che lo sforzo ciclopico di elaborazione di soluzioni alla fine ha partorito un topolino. La quasi totalità delle applicazioni ha avuto un impatto nullo rispetto allo scopo di migliorare la gestione della pandemia. Hanno fallito gli algoritmi di previsione della probabilità di aggravamento dei pazienti, hanno fallito i programmi di diagnosi rapida e precoce, hanno fallito i modelli di previsione della diffusione dell’epidemia. Le informazioni sui pazienti covid, comprese le scansioni mediche, sono state, inoltre, raccolte e condivise durante la pandemia a partire dalla prassi quotidiana dei reparti che, in alcuni momenti di picco dell’epidemia, diventava enormemente complessa da gestire. Per fare un esempio, quando si sono utilizzati dei set di dati che contenevano scansioni polmonari di bambini che non avevano contratto il covid come archetipi di casi non covid, l’algoritmo di intelligenza artificiale ha imparato solo ad identificare i bambini, non il covid!
Conclusioni
Se vogliamo, quindi, evitare il fallimento dei modelli di AI dobbiamo cercare una solida metodologia di costruzione e di analisi dei dati, dobbiamo creare dei database standardizzati e dobbiamo far precedere una seria analisi sulla qualità del dato alla costruzione degli algoritmi. Il metodo CheXzero costituisce sicuramente un passo avanti in questo senso perché riduce la possibilità che l’algoritmo generi dei bias, perché in questo caso viene addestrato su referti e, quindi, su dati che hanno già in sé un certo contenuto di informazione controllata. Questa intuizione è importante per strutturare metodologie di apprendimento più scientifiche degli algoritmi ed è sicuramente promettente, anche se, a mio avviso, deve essere ulteriormente messa alla prova prima di essere applicata con garanzia di successo su larga scala.