Apprendimento distribuito in Sanità: prospettive e barriere

L’apprendimento distribuito è una strategia efficace per la collaborazione multi-istituzionale, che ha il potenziale vantaggio di preservare la privacy. Vediamo perché costituisce una soluzione promettente e affidabile, soprattutto per la ricerca sull’intelligenza artificiale in ambito sanitario e quali sono i punti deboli

La medicina sta evolvendo da una visione “basata sulla malattia” verso un approccio “basato sul paziente” cioè sui dati multidimensionali che descrivono condizioni fisiologiche e patologiche. L’apprendimento distribuito può rappresentare un quadro affidabile per la futura ricerca e pratica clinica, multi-istituzionale e multidisciplinare.

Informatica in Sanità, l’idea di rifondarla con blockchain e AI

Indice degli argomenti

Intelligenza artificiale e apprendimento basato sui dati

L’intelligenza artificiale (AI) si è affermata grazie ai risultati del “machine learning” (ML) e degli algoritmi di “deep learning”, che accelerano rapidamente la ricerca e modificano le nostre scelte in più campi, inclusa la medicina. Tuttavia, l’apprendimento basato sui dati richiede grandi quantità di informazioni (big data), per essere affidabile. In effetti, gli studi su campioni di piccole dimensioni che utilizzano il ML sono influenzati da un pregiudizio metodologico, intrinseco che potrebbe minarne la validità. La dimensione adeguata del campione è quindi cruciale, per il ML come per la statistica classica. Un campione adeguato, in medicina, può essere un problema nelle malattie rare o in condizioni di bassa prevalenza. La piccola dimensione del campione è riconosciuta come una limitazione in quasi tutti gli studi basati sull’estrazione di dati dalle immagini.

Altri punti deboli comunemente riconosciuti negli studi di estrazione delle immagini sono il disegno retrospettivo monocentrico e la mancanza di una convalida indipendente. Nel complesso, tutti questi aspetti influenzano negativamente la riproducibilità e la generalizzabilità dei risultati. Queste limitazioni potrebbero essere superate da studi multicentrici o di benchmarking.

Tuttavia, i test di benchmarking richiedono notevoli sforzi infrastrutturali per sviluppare piattaforme di repository di dati, mentre gli studi multicentrici tradizionali sono affetti da molte difficoltà logistiche, principalmente legate alla condivisione di dati clinici e di imaging. Il trasferimento dei dati è inoltre gravato da questioni di sicurezza, legali, etiche e di riservatezza.

Una Sanità migliore grazie ai dati, Polimi: “Ecco i passi per una svolta”

L’apprendimento distribuito

Dati questi vincoli, l’apprendimento distribuito è emerso come una strategia per una collaborazione efficace tra diversi Centri, preservando le responsabilità di gestione e gli aspetti normativi. L’apprendimento distribuito mira a addestrare uno o più modelli di apprendimento automatico all’interno di una rete di nodi, ognuno dei quali possiede un set di dati locale. Le singole istituzioni non condividono i dati dei pazienti all’esterno solo i dati post-elaborati sotto forma di aggiornamenti del modello vengono condivisi tra i centri per creare il modello finale. I metodi di apprendimento distribuito possono essere distinti in base a principi computazionali.

Tuttavia, alcuni principi generali sono rilevanti per progettare il modello di apprendimento distribuito:

modalità di gestione dei parametri del modello sulla rete di nodi,
modalità di interazione tra i nodi e tipo di dati scambiati,
limitazioni sul tipo di dati condivisi,
tecniche e vincoli tecnologici legati allo scopo del progetto. Di conseguenza, i metodi di apprendimento distribuito includono approcci diversi, vale a dire l’apprendimento d’insieme, diviso e federato (ensemble, split and federated learning).

Pertanto, l’apprendimento distribuito che si occupa di una rete di nodi, ognuno dei quali possiede un set di dati locale, è stato proposto come metodo per superare gli ostacoli legati alla condivisione dei dati dei pazienti. Tuttavia, ci sono alcune incertezze relative all’apprendimento distribuito rispetto ai modelli addestrati centralmente. Il nostro gruppo di ricerca ha recentemente pubblicato una revisione della letteratura che evidenzia la non inferiorità dell’apprendimento distribuito rispetto a modelli addestrati a livello centrale e locale [1]. Naturalmente, questo è un requisito essenziale per nominare l’apprendimento distribuito come un approccio adatto per la condivisione dei dati all’interno di collaborazioni multicentriche.

L’apprendimento distribuito e la conservazione della privacy

L’apprendimento distribuito è una strategia efficace per la collaborazione multi-istituzionale, che ha il potenziale vantaggio di preservare la privacy. Sebbene questo approccio sia stato proposto per condividere i dati garantendo questioni di tutela della privacy, non garantisce per sé la sicurezza e la privacy della dei dati inseriti nel sistema. In effetti, potrebbe essere possibile recuperare le stime dei dati originali attraverso un approccio complesso, chiamato di “reverse engineering”, dai pesi condivisi sui vari nodi. Tuttavia, l’apprendimento distribuito dovrebbe essere considerato come un pre-requisito della infrastruttura per affrontare le questioni di gestione e di conformità alla normativa.

In effetti, una rete distribuita può essere facilmente potenziata da specifici metodi di conservazione della privacy. Per proporre un’efficace metodologia di conservazione della privacy nella collaborazione multicentrica, la valutazione delle prestazioni di apprendimento distribuito rispetto a un approccio centralizzato è il primo passaggio da compiere, al fine di giustificare la reale necessità di questo approccio.

Indipendentemente dallo scopo (previsione del rischio, diagnosi, prognosi o effetti collaterali del trattamento / previsione di reazioni avverse ai farmaci), dal tipo di input (dati clinici, immagini o dati genetici), dal metodo (federated or ensembling) e dal classificatore ( es. artificial neural networks, support vector machine, random forest), i dati disponibili in letteratura evidenziano come l’addestramento distribuito porti a risultati superiori con quelli dell’addestramento centralizzato in quasi tutti gli studi. L’armonizzazione dei dati preelaborazione (ad esempio, ricampionamento delle immagini, utilizzazione di una metodologia chiara e criteri uniformi per la raccolta dei dati) potrebbe avere un impatto positivo sull’integrazione dei dati, semplificando la collaborazione multi istituzionale per analisi su larga scala.

L’efficienza dell’apprendimento distribuito in campo medico

Il nostro gruppo ha valutato i documenti pubblicati per trovare prove sull’efficienza dell’apprendimento distribuito indipendentemente dal tipo di dati di input, in campo medico.

Recentemente è stato proposto l’approccio dei “gemelli digitali” (digital twins) per rispondere alla sfida dell’integrazione e dell’analisi di grandi quantità di dati all’interno di un quadro dinamico. Questa tecnologia si basa sulla costruzione di un modello digitale di un singolo paziente (raffigurante il profilo molecolare, lo stato fisiologico e le abitudini di stile di vita) per testare virtualmente una moltitudine di trattamenti, al fine di scegliere quello ottimale. In questo caso, sia la componente concettuale, medica, che quella tecnologica possono trarre vantaggio da un quadro di apprendimento distribuito. Allo stato attuale delle conoscenze, un metodo di apprendimento distribuito su misura per ogni compito specifico non può essere raccomandato. Tuttavia, il modello di insieme (ensembling) si è dimostrato estremamente utile quando i dati di input sono molto eterogenei; può essere applicato a qualsiasi algoritmo di apprendimento automatico e utilizza diversi modelli di apprendimento per ogni nodo.

L’apprendimento diviso (split), grazie alla sua architettura a strati, è adatto per reti neurali profonde. Infine, l’apprendimento federato (federated) che addestra parallelamente i modelli locali e aggrega i loro aggiornamenti in un nodo “centrale”, può essere utilizzato in modo efficiente con diversi algoritmi di apprendimento automatico. Pertanto, quando si imposta una rete basata sull’apprendimento distribuito, è possibile sviluppare dati artificiali e reti simulate in base alla particolare impostazione e obiettivo del modello, al fine di ottenere risultati preliminari, simulati, e confrontare approcci distribuiti e non distribuiti.

Le barriere all’apprendimento diffuso nel settore sanitario

I vincoli tecnici e l’accettazione dell’intelligenza artificiale (AI) possono essere le principali barriere all’apprendimento diffuso e distribuito nel settore sanitario. Le sfide tecniche consistono nel carico computazionale e nel sovraccarico di comunicazione (cioè la quantità di dati condivisi tra i nodi) che devono soddisfare i vincoli dell’infrastruttura. A questo proposito, il numero di nodi e i tipi di dati distribuiti tra i nodi sono “iperparametri” cruciali che devono essere opportunamente regolati. Tuttavia, a supporto di questo approccio, bisogna segnalare che sono disponibili, da poco tempo, alcune soluzioni commerciali e open source, che possono favorire la fattibilità e l’implementazione di un’infrastruttura di apprendimento distribuita.

Infine, deve essere ricordato che la mancanza di fiducia e la valutazione critica degli strumenti basati sul ML da parte del personale sanitario possono limitare l’implementazione di questa tecnologia. Materiale educativo e programmi che coinvolgono medici, ricercatori e funzionari amministrativi stanno progressivamente diventando disponibili, al fine di promuovere la consapevolezza sulle opportunità di sperimentazioni e pratiche multi-istituzionali basate sull’apprendimento distribuito. Inoltre, l’affidabilità dei metodi basati sull’intelligenza artificiale è messa a dura prova dalla barriera della spiegabilità (explainability). Il cosiddetto campo eXplainable AI (XAI) è in crescita, con l’intenzione di sviluppare una AI responsabile e incoraggiare esperti e professionisti ad abbracciare i vantaggi della nuova tecnologia, per superare il limite relativo alla spiegabilità.

Le strategie di apprendimento distribuito sono state introdotte per la prima volta per analizzare i dati clinici dalle cartelle cliniche elettroniche (EHR). La struttura rigida delle cartelle cliniche elettroniche è stata influenzata dai sistemi di raccolta dati della ricerca e dai progressi tecnologici applicati negli studi clinici. Infatti, nella ricerca clinica, la progettazione dello studio, la raccolta, l’analisi e la condivisione dei dati si sono significativamente evolute negli ultimi 20 anni. Allo stato attuale, i dati all’interno delle sperimentazioni cliniche sono registrati secondo regole rigide volte a renderli standardizzati e strutturati, o semistrutturati. Nel complesso, questi approcci forniscono informazioni di alta qualità, utili per la valutazione dei risultati derivanti da interventi correttivi sulla pratica clinica e per una efficiente e completa diffusione dei dati. In generale, le cartelle cliniche elettroniche condividono terminologia, codici e sezioni comuni che potrebbero essere facilmente raccolti da diversi centri o paesi e successivamente analizzati, mentre altri domini, inclusa la diagnostica per immagini, sono meno strutturati. Negli ultimi anni, diverse iniziative e registri contenenti dati strutturati sono stati sviluppati principalmente come strumenti epidemiologici descrittivi e di sanità pubblica. Il CancerLinQ è stata la prima e più importante iniziativa sponsorizzata dall’American Society of Clinical Oncology e dall’Institute for Quality per raccogliere dati EHR “protetti” con l’obiettivo finale di valutare, monitorare e migliorare l’assistenza erogata ai pazienti oncologici. Tuttavia, tutte queste iniziative hanno dovuto affrontare problemi di privacy e sicurezza relativi alla raccolta, all’utilizzazione e alla divulgazione delle informazioni sui pazienti.

Inoltre, le preoccupazioni relative agli aspetti etici e di affidabilità degli algoritmi basati sull’intelligenza artificiale possono influenzare la diffusione della tecnologia di apprendimento distribuito. Un potenziale svantaggio della previsione della AI è la sua dipendenza dai dati utilizzati per addestrare l’algoritmo. I dati utilizzati per l’addestramento devono rappresentare le malattie e le popolazioni di pazienti oggetto di valutazione ed essere bilanciati, in modo da ottimizzare la funzione di questi sistemi, quando utilizzati per analizzare dati di pazienti diversi.

Conclusioni

In conclusione, i modelli basati sull’apprendimento distribuito, da quanto si può valutare in letteratura, si sono dimostrati affidabili; anzi, si sono comportati allo stesso modo dei modelli addestrati su set di dati centralizzati. I dati sensibili possono essere preservati dall’apprendimento distribuito poiché non sono condivisi per lo sviluppo del modello. L’apprendimento distribuito costituisce una soluzione promettente, soprattutto per la ricerca sulla AI, poiché set di dati ampi e diversificati sono fondamentali per il successo di queste soluzioni.

__________________________________________________________________________________________

1- Distributed learning: a reliable privacy-preserving strategy to change multicenter collaborations using AI. M. Kirienko, M. Sollini, G. Ninatti, et al. , in press.