L’IA nella diagnosi delle malattie respiratorie: risultati e prospettive

In che modo l’intelligenza artificiale può aiutare un medico nella diagnosi delle malattie respiratorie? Lo stato dell’arte, i problemi più comuni e le speranze per l’immediato futuro

La pandemia ha dato una spinta fortissima a tutte le scienze, e la diagnostica, anche attraverso metodi basati sulle moderne tecniche di intelligenza artificiale, non fa eccezione. Ma l’auscultazione è un esame diagnostico che esiste da oltre 150 anni; dunque, è lecito chiedersi: che cosa la moderna intelligenza artificiale può fare per aiutare il medico nella sua diagnosi?

L’intelligenza artificiale nella diagnostica avanzata e nella medicina: le nuove frontiere

Indice degli argomenti

Auscultazione e diagnosi

L’auscultazione è un test medico, non invasivo e privo di controindicazioni, che permette e coadiuva la diagnosi preliminare di certe condizioni mediche. Oggetto di auscultazione sono diversi organi, cuore, vasi principali, intestino, e polmoni/vie aeree inferiori. In questo ultimo caso, in particolare, il medico va alla ricerca di rantoli e stridori, che possono essere indicativi di condizioni tra cui tracheiti, bronchiti, bronchioliti, asma, e polmoniti. Trattandosi di un esame analogico, basato sull’esperienza del medico, ed in buona parte soggettivo, è un candidato ideale ad essere affrontato con tecniche proprie della moderna intelligenza artificiale, che è basata sull’estrazione della conoscenza dai dati e non su schemi algoritmici classici.

Il trattamento del segnale

Il primo passo verso il trattamento automatico di questo problema è quello della digitalizzazione del segnale, Il segnale audio, nel nostro caso un colpo di tosse oppure un ciclo respiratorio, viene registrato attraverso un microfono e digitalizzato. Questo segnale singolo viene poi trattato attraverso un processo ben noto chiamato trasformata di Fourier, che permette di isolare, in un certo senso, tutte le diverse frequenze alle quali l’informazione è trasmessa. Questa forma è chiamata forma spettrale del suono, e ha come risultato quello di rappresentare ogni segnale come un insieme di serie temporali: ad ogni determinata frequenza ed ogni determinato istante di registrazione, si assegna una potenza (in decibel).

Questo processo ha anche come effetto quello di creare una grande quantità di informazioni per ogni esempio, rendendo progressivamente più complesso il loro trattamento automatico. Questi segnali sono, in una fase successiva, etichettati manualmente: ad ogni registrazione di colpo di tosse, diciamo, viene assegnata una etichetta che rappresenta il concetto che noi vogliamo fare imparare alla macchina. Per esempio, se volessimo addestrare un sistema in grado di riconoscere un’auscultazione di un paziente affetto da una certa polmonite da quella di un paziente sano, produrremmo un insieme di registrazioni come descritto prima, idealmente divisa a metà tra istanze positive (a quella polmonite) e istanze negative. Questa fase di etichettatura è propria di tutti o quasi tutti i processi di intelligenza artificiale moderna, e normalmente viene effettuata all’inizio di un esperimento per permettere l’allenamento iniziale e lo studio di fattibilità, e poi, in certi casi, viene sistematizzata e automatizzata per permettere l’aggiornamento continuo.

Le tecniche di intelligenza artificiale

La moderna intelligenza artificiale (IA) è un insieme di tecniche informatiche estremamente variegato e complesso. Tutte queste, però, condividono alcuni principi fondamentali: sono costituite da schemi predeterminati di apprendimento, hanno un’anima statistica inferenziale, e sono votate all’estrazione della conoscenza. La più importante differenziazione che si delinea all’interno dell’insieme di queste tecniche è quella tra sistemi funzionali e simbolici.

I primi sono sistemi il cui schema predeterminato è una funzione matematica, e va dai casi più semplici (esempio: regressioni lineari) a quelli più complessi (esempio: reti neurali). I secondi sono sistemi il cui schema predeterminato è una funzione logica, e anche tra essi si possono individuare schemi semplici (esempio: alberi di decisione) e complessi (esempio: sistemi di regole). Questa divisione tra metodi funzionali e simbolici non è poi sempre così netta, esistendo degli approcci misti, ibridi, e combinati che in certi casi funzionano molto bene. La ricerca recente sulla diagnosi automatica di condizioni mediche di malattie dell’apparato respiratorio contiene esempi di entrambe queste categorie, con risultati simili ma focus diversi: le tecniche funzionali tendenzialmente funzionano meglio da un punto di vista statistico, mentre invece le tecniche simboliche permettono un’analisi a posteriori, esplicita, dei modelli, che quindi sono passibili di essere esaminati, e validati, da esperti.

L’IA al servizio della diagnostica delle malattie respiratorie

Abbiamo capito come il segnale acustico viene trattato digitalmente, e abbiamo visto una panoramica, anche se molto superficiale, sui moderni sistemi di IA. È giusto chiedersi, adesso, in quale misura questi sono stati applicati nel campo della diagnostica di malattie respiratorie a partire, appunto, dai segnali audio digitalizzati, come ad esempio colpi di tosse o cicli respiratori. La storia di queste applicazioni è breve, ma ricca di contributi, ai quali hanno partecipato i più prestigiosi centri di ricerca, dall’ Imperial College di Londra, all’ Università di Cambridge, l’Università di Harvard, l’Università del Michigan, ed anche alcuni istituti italiani, tra cui l’Università di Ferrara. Sebbene il problema fosse stato posto ed affrontato anche nel recente passato, per esempio nel 2013, da un gruppo di ricercatori indonesiani che hanno trattato il caso della diagnosi di polmonite, così come nel 2015 aveva fatto un altro gruppo a Singapore, la diffusione del SARS-COv2 e la conseguente ben nota pandemia che ha colpito il mondo a partire da inizio 2020 ha dato una spinta fortissima anche a questa disciplina. I lavori si dividono in due categorie: quelli centrati nell’ottenere un insieme di dati (registrazioni) da volontari, applicazioni per smartphone programmate allo scopo, o siti web di accesso pubblico, e che propongono studi in cui questi dati vengono analizzati con una o più metodologie IA, e quelli focalizzati sul miglioramento delle prestazioni dei sistemi intelligenti ma partendo da insiemi di dati già esistenti ed etichettati. Come in tutte le ricerche di tipo medico (e non solo), la fase di ri-sperimentazione e ri-ottenimento dei risultati è tanto importante come quella in cui emergono le prime idee originali; nell’ambito dell’emergenza, poi, questi sistemi, per essere utili, necessariamente devono essere compresi da più scienziati, e resi disponibili con tecnologie e soluzioni locali, non globali.

Quanto è brava la IA a riconoscere una malattia respiratoria?

Che risultati si sono ottenuti? In altre parole, quanto è brava la IA a riconoscere una malattia respiratoria a partire dalla registrazione digitalizzata di un colpo di tosse o di un ciclo respiratorio? Non è banale riportare tutti i risultati rilevanti, ma il messaggio che traspare chiaramente è quello di un problema che, di fatto, si riesce a risolvere. Gli elementi di valutazione di un sistema di questo tipo, al netto delle considerazioni tecniche, comunque non trascurabili, sono tre: la accuratezza della diagnosi, cioè il rapporto tra il numero di casi correttamente diagnosticati rispetto al numero di casi totali, la sensibilità, cioè il rapporto tra il numero di casi positivi correttamente diagnosticati ed il numero di casi positivi esistenti, e la specificità, cioè il rapporto di casi negativi correttamente diagnosticati ed il numero di casi negativi esistenti. Laddove l’accuratezza è una misura assoluta della bontà di un sistema, la sensibilità è una misura di quanto bene la malattia viene correttamente individuata, e la specificità di quanto lo è la condizione di non malattia.

I risultati legati al covid

Nel caso, ad esempio, della malattia da SARS-COv2, si sa che i cosiddetti test rapidi hanno una sensitività che varia tra il 40% e l’86% se eseguiti tra 7 e 13 giorni dopo l’infezione; a questo va aggiunto il costo economico (si era calcolato, ad inizio pandemia, un costo di 8.6 miliardi di dollari per testare tutta la popolazione statunitense, assumendo un costo unitario di 23 dollari), ed il fatto che i test a tampone sono da considerarsi invasivi. I risultati che sono stati pubblicati tra il 2020 e l’inizio del 2022 parlano di accuratezze che superano abbondantemente il 90%, e sensitività e specificità molto superiori all’85%, presentando un costo operativo sostanzialmente nullo, una totale non-invasività, ed una universalità di applicazione, senza limiti di età o localizzazione, e senza necessità di personale specializzato né di strutture apposite. Le ricerche sono state effettuate in condizioni molto diverse: sono state prese in considerazione persone sane, persone malate ma asintomatiche, persone malate ma con sintomi non direttamente connessi alla malattia (per esempio asma, oppure tosse cronica), e persone malate ma con sintomi respiratori tipici.

I sistemi di IA sono normalmente sensibili al cambio delle condizioni al contorno, presentando, in molti casi, delle diminuzioni di prestazione quando utilizzati in condizioni diverse da quelle in cui sono stati allenati. Questo problema è normalmente affrontato in due modi: da un lato si cerca di avere dati che presentino grande varietà di condizioni (nel caso in questione questo significa ad esempio avere rumori di fondo e avere registrazioni di soggetti di entrambi i sessi e di tutte le età), e dall’altro si valutano le prestazioni con modalità statisticamente solide, cioè utilizzando delle tecniche di rimescolamento delle istanze e test per assicurare che l’apprendimento non sia il risultato di una scelta casualmente troppo favorevole delle stesse.

Presente e futuro

I moderni sistemi di IA sono soggetti ad un ciclo di vita molto ben definito. Nascono, come abbiamo visto, con una raccolta ed etichettatura dei dati, la loro digitalizzazione e pulizia, la scelta del/dei modelli di apprendimento, i loro test e la loro validazione. Ma per essere davvero utili, devono poi essere inseriti nei processi reali.

Nel caso della diagnostica delle malattie respiratorie, questo inserimento può avvenire in tanti modi. Il software può, in prima istanza, diventare parte della dotazione dei medici, anche di famiglia, che attivando un microfono sul loro PC possono chiedere l’aiuto della macchina che suggerisce una diagnosi. In alternativa o in aggiunta, semplicissimi apparecchi hardware dotati di microfono possono essere istallati esattamente nella stessa maniera e con la stessa diffusione dei termometri digitali che vediamo all’entrata di certi edifici pubblici, con precisamente la stessa funzione (ma affidabilità estremamente più alta) e costo comunque contenuto. Infine, è possibile (ed è stato anche proposto in forma di prototipo) programmare una semplice applicazione per smartphone che non solo può fungere da certificato personale di assenza di malattia, ma può anche servire come test automatico e indipendente, basato unicamente sulla voce dell’utente. Si osservi come, anche in quest’ ultima versione, stiamo sostanzialmente descrivendo un sistema che aggira, in colpo solo, tutte le difficoltà legate alla privacy, all’invasività, al costo, ed anche all’affidabilità dei sistemi di controllo che abbiamo imparato a conoscere in questi ultimi due anni. Un sistema del genere non ha bisogno di salvare dati, personali e non, di trasmettere alcuna informazione, e, estremizzando, neppure di una connessione ad internet funzionante, una volta istallato. Idealmente, un sistema così strutturato potrebbe anche essere progettato per continuare l’apprendimento in maniera continua: tra tutti gli utenti, potrebbero perfettamente essere individuati dei volontari che si prestassero a comunicare alla macchina anche il risultato del loro eventuale test molecolare classico. In questo caso, e sempre su base volontaria, la applicazione potrebbe continuare a raccogliere registrazioni (anonimizzate) e relative etichette, e, periodicamente, potrebbe eseguire un ulteriore allenamento al fine di affinare il sistema diagnostico; questo processo potrebbe essere chiave in presenza, come nel caso in cui ci troviamo, di malattie che presentano un’alta variabilità.

La questione clinica

Qual è, nell’opinione di chi scrive, il maggior ostacolo alla diffusione di questi sistemi? Come abbiamo spiegato, i sistemi di IA non sono tutti uguali. Quelli basati su modelli di apprendimento funzionali sono certamente quelli che, di primo acchito, offrono le migliori prestazioni statistiche, e sono anche quelli meglio conosciuti, non solo al pubblico non tecnico.

Il loro difetto però sta nella natura stessa di un sistema intelligente funzionale: la mancanza di trasparenza. Un sistema di diagnosi basato su una rete neurale è, in fondo, una matrice di numeri; ogni input, anch’esso trasformato in un insieme di numeri, è elaborato attraverso questa matrice, ed il risultato (positivo o negativo) è il prodotto di questa elaborazione. Sebbene i sistemi di valutazione statistica di misura della bontà come quelli che abbiamo spiegato sono universalmente accettati, questi non consentono in nessun modo di comprendere il ragionamento fatto dalla macchina al momento di prendere una decisione. Questo problema, noto come il problema dell’interpretabilità dell’intelligenza artificiale moderna, è stato in più riprese dibattuto, e un generico obbiettivo di focalizzare gli sforzi sullo studio di sistemi intelligenti interpretabili è stato anche individuato dalla commissione europea nel 2019. Tornando alle soluzioni proposte al problema della diagnosi di malattie respiratorie, e della polmonite da SARS-COv2 in particolare, quasi tutta la ricerca di questi due anni si è concentrata proprio su sistemi funzionali, perché sono versatili, idealmente più semplici da utilizzare e testare, alla portata di molti ricercatori anche non necessariamente esperti di intelligenza artificiale, ed anche attraenti, in un certo senso. D’altra parte, i sistemi simbolici richiedono un certo sforzo, tecnico e computazionale, per essere adattati a problemi come questo. Quando si supera questo ostacolo però, restituiscono modelli trasparenti, fatti di regole logiche, di passaggi quantitativi, e che permettono una validazione, cosiddetta, a posteriori. Un sistema intelligente che aspiri non già a prendere il posto di test medici basati su processi chimico-biologici, ma anche solo ad essere accettato ufficialmente come aiuto alla diagnosi non può, e non deve, prescindere dal superare i necessari test clinici, effettuati in condizioni canoniche, e con l’aiuto di medici esperti della condizione che si vuole diagnosticare. Questo a sua volta non può non includere un passaggio nel quale il medico valuta la bontà della teoria soggiacente, che in questo caso è fatta di frequenze acustiche, di picchi e valli nelle onde, e di valori numerici che descrivono, in linguaggio logico prima, e in linguaggio naturale poi, il processo che la macchina fa nel prendere una decisione. Questo è prima di tutto un ragionamento metodologico, che deve essere affrontato per tutti i sistemi basati sulla IA che poi hanno un impatto vero nel mondo reale, dalla guida autonoma, all’etichettatura automatica delle fake news, passando per la diagnostica medica. Si tratta di un dibattito che pervade questi temi in maniera trasversale e che esiste da tempo; casi come la pandemia da SARS-COv2 non fanno altro che farlo emergere e renderlo evidente anche al grande pubblico.

Bibliografia

S.B. Davis and P. Mermelstein. Comparison of parametric representations for monosyllabic word recognition in continuously spoken sentences. IEEE Transactions on Acoustics, Speech, and Signal Processing, 28(4):357–366, 1980.
C. Brown, J. Chauhan, A. Grammenos, J. Han, A. Hasthanasombat, D. Spathis, T. Xia, P. Cicuta, and C. Mascolo. Exploring automatic diagnosis of COVID-19 from crowdsourced respiratory sound data. In Proc. of the 26th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, pages 3474–3484, 2020.
A. Imran, I. Posokhova, H.N. Qureshi, U. Masood, M. Sajid Riaz, K. Ali, C.N. John, I. Hussain, and M. Nabeel. AI4COVID-19: AI enabled preliminary diagnosis for COVID-19 from cough samples via an app. Informatics in Medicine Unlocked, 20:1 – 14, 2020.
J. Laguarta, F. Hueto and B. Subirana. COVID-19 Artificial Intelligence Diagnosis Using Only Cough Recordings. IEEE Open Journal of Engineering in Medicine and Biology, vol. 1, pp. 275-281, 2020.
F. Manzella, G. Pagliarini, G. Sciavicco, and I.E. Stan. Interval temporal random forests with an application to COVID-19 diagnosis. In Proc. of the 28^th International Symposium on Temporal Representation and Reasoning, 7:1 – 7-18.