sanità digitale

Privacy Preserving Data Mining: come apprendere dai dati sanitari senza violare la privacy

Le tecniche di Privacy Preserving Data Mining permettono di valorizzare i dati sanitari senza violare la privacy. Queste includono Differential Privacy, Federated Learning, Homomorphic Encryption e Synthetic Data Generation. Tali metodologie permettono analisi e modelli predittivi mantenendo il controllo sui dati, garantendo sicurezza e rispetto delle normative sulla privacy

Pubblicato il 3 giu 2024

Giovanni Arcuri

Direttore – Direzione Tecnica, Ict e Innovazione Tecnologie Sanitarie – Fondazione Policlinico Universitario A. Gemelli IRCCS

Andrea Damiani

Direttore – Direzione Tecnica, Ict e Innovazione Tecnologie Sanitarie – Fondazione Policlinico Universitario A. Gemelli IRCCS

Nel contesto sanitario, gli scenari di sviluppo dei sistemi di intelligenza artificiale hanno un enorme potenziale di contribuire ad un significativo avanzamento delle cure ed al miglioramento della sostenibilità dei sistemi.

Affrontare in modo corretto il tema della proprietà e dell’utilizzo del dato non solo garantisce il rispetto della normativa sulla privacy, ma permette anche alle aziende sanitarie di preservare in modo corretto il proprio ruolo nell’interlocuzione con l’industria.

Indice degli argomenti

Dati sanitari, l’importanza del controllo

Quando i dati rimangono sotto il controllo dell’ente che li ha originati, quest’ultimo può definire i termini di utilizzo e di accesso, stabilendo così le condizioni in base alle quali terzi possono beneficiare del patrimonio informativo. Inoltre, il mantenimento della proprietà sui dati consente alle aziende sanitarie di negoziare con maggiore forza, potendo offrire o limitare l’accesso ai dati in base a collaborazioni che riflettano adeguatamente il loro valore.

È un aspetto fondamentale per uno sviluppo che coniughi i benefici con l’equità di accesso preservando il ruolo della sanità pubblica.

Questa strategia non solo tutela gli interessi economici del sistema sanitario ma salvaguardia gli aspetti etici, assicurando che l’utilizzo dei dati sia sempre allineato con gli scopi medici e di ricerca per i quali sono stati raccolti, evitando utilizzi impropri o non autorizzati che potrebbero compromettere la fiducia dei pazienti e la reputazione dell’istituzione.

Privacy Preserving Data Mining: scenari di ricerca e applicazioni

Fin dall’inizio degli anni 2000, sono state sviluppate tecnologie, basate su algoritmi matematici e infrastrutture informatiche di comunicazione, che rendono possibile l’effettuazione di analisi e l’apprendimento di modelli basati sui dati, senza tuttavia perderne il controllo.

Analizzeremo ora le quattro principali direzioni di ricerca che hanno consentito lo sviluppo di tali tecnologie, e gli scenari di uso i cui esse trovano applicazione, focalizzando il caso di un ospedale che ha creato un semplice dataset: una tabella di dati in cui, per ogni paziente, sono riportate alcune variabili cliniche. Ogni azienda potrà trovarsi facilmente in situazioni analoghe, pur trattando dati di un livello di riservatezza inferiore.

Differential Privacy: cos’è e come funziona

Lo scenario di uso tipico è quello di una organizzazione che intende rendere pubbliche delle elaborazioni sui propri dati, senza rischiare che, invertendo il processo, un agente esterno riesca a ricostruire i valori di partenza, che devono restare di esclusiva proprietà dell’azienda. Pensiamo a un caso banale ma significativo. Chiediamo di fornire la media di dieci numeri, e, successivamente, la media di nove di essi. Sarà facile, dal confronto fra i risultati, ricavare il valore esatto del decimo numero. Si intuisce come, attraverso interrogazioni ben organizzate, ma apparentemente innocenti, sia possibile ottenere l’intero dataset.

La differential privacy si basa sulla introduzione di rumore statistico che viene aggiunto al risultato del calcolo (la media, nell’esempio), perturbandolo casualmente, in misura sufficiente a garantire la non ricostruibilità dei valori originari, senza rinunciare in misura eccessiva al valore informativo del risultato. In altre parole, l’utilizzatore esterno si accontenterà di risultati vicini al vero, mentre il proprietario dei dati avrà una ragionevole certezza di aver protetto il proprio dataset. Questo trade-off viene regolato da un apposito parametro dell’algoritmo che gli attori possono scegliere di volta in volta.

Dati e intelligenza artificiale: anonimizzazione e proprietà

Se è vero che i dati rappresentano l’oro nero dei nostri tempi, la loro valorizzazione richiede spesso l’uso di tecniche di Machine Learning, algoritmi che, operando su di essi, producono analisi strutturate, sintesi statistiche, modelli predittivi, fino ad arrivare all’addestramento di intelligenze artificiali capaci di dialogare con l’operatore.

Tale operazione richiede la disponibilità degli archivi dati, e può scontrarsi con due problemi fondamentali: il primo è la normativa sulla privacy, che impedisce la diffusione di dati personali, imponendo l’eliminazione di informazioni direttamente riferibili alla sfera privata, come lo stato di salute, il credo religioso, le scelte politiche, le preferenze sessuali.

Non solo, la normativa attuale prescrive l’assunzione di precauzioni affinché l’identità di un soggetto non possa essere ricostruita da un insieme di informazioni non direttamente definibili riservate (indirizzo, email, numero di telefono, età, altezza, massa corporea, il gruppo sanguigno sono solo alcuni esempi), ma che, combinate insieme, possono essere usate per identificare con precisione un singolo individuo, soprattutto se si sa a priori che le persone rappresentate in quella raccolta dati appartengono ad un gruppo relativamente ristretto, come ad esempio gli impiegati di una data organizzazione, o i pazienti curati in un certo ospedale.

Ma anche quando tale problema venisse risolto, ad esempio mediante opportuni sistemi di anonimizzazione, un secondo ostacolo frena la condivisione dei dataset: la proprietà del dato. È noto, infatti, che la trasmissione a enti esterni alla propria organizzazione di un dataset equivale a perderne il possesso: è facile, per chiunque ne disponga, effettuarne una o più copie, e riutilizzarlo per altri scopi. L’elevato costo aziendale per la raccolta e la manutenzione delle basi dati è un’ottima motivazione per difendere il proprio investimento e impedire che ciò accada. È chiaro che questo secondo ostacolo non riguarda soltanto i dati personali, ma qualunque informazione raccolta nel datawarehouse aziendale.

Figura 1 – Differential Privacy

Federated Learning: uno studio multicentrico dei dati

Gli studi clinici multicentrici permettono di costruire modelli su dataset più estesi rispetto a quanto possibile in un ospedale singolo, il che costituisce un grosso vantaggio, in un’epoca in cui gli algoritmi di machine learning sono sempre più data hungry. Inoltre, nel caso di patologie rare, anche gli ospedali più grandi hanno difficoltà a costruire dataset che arruolino più di qualche nuovo paziente ogni anno: in questo caso, non ci sono alternative ad uno studio multicentrico, per raggiungere un numero significativo di pazienti.

Tradizionalmente, gli studi di questo tipo prevedevano la condivisione dei dataset, opportunamente armonizzati, in un unico luogo, dove veniva effettuato l’addestramento. Già verso la fine degli anni ’90, e ancora di più dopo il 2010, è andata affermandosi una metodologia, nota come Federated Learning, che consente a ogni ospedale di mantenere privati i propri dati, mentre l’algoritmo di apprendimento viene diviso in due parti: una parte viene eseguita localmente, sui dati dell’ospedale, e calcola alcuni parametri del modello che si intende addestrare, per poi inviarli a un centro coordinatore. Qui viene eseguita la seconda parte dell’algoritmo, che consolida i risultati parziali dei singoli centri in un unico modello e decide se l’elaborazione è conclusa, o se è necessaria una ulteriore iterazione di calcolo. Tutti i principali modelli di statistical learning e machine learning sono stati implementati dalla comunità scientifica in modalità federata. Inoltre, è garantito che il risultato finale federato sarà matematicamente identico a quello che si sarebbe ottenuto concentrando i dati in un unico luogo. La soluzione federata, tuttavia, richiede la disponibilità di infrastrutture informatiche adeguate ed expertise sistemistico in ogni ospedale, per installare localmente i moduli software necessari per la partecipazione allo studio, e monitorare l’esecuzione dei calcoli.

Figura 2 – Federated learinig

Homomorphic Encryption: protezione della proprietà intellettuale

Si tratta di una tecnologia utile quando si incontrano due esigenze di protezione della proprietà intellettuale apparentemente inconciliabili: l’azienda A possiede il dataset su cui l’azienda B intende applicare un proprio algoritmo di calcolo. Purtroppo, A non è disposta a cedere i propri dati a B; viceversa, B vuole proteggere il suo algoritmo e non è disposta a installarlo sui computer di A. Si risolve l’impasse consentendo ad A di cifrare i propri dati prima di fornirli a B. Il dataset, così trattato, è totalmente inutile per chi non disponga della chiave di decodifica, gelosamente custodita da A. Come farà B ad applicare il suo algoritmo? L’homomorphic encryption identifica una metodologia di cifratura dei dati che consente a B di eseguire l’algoritmo direttamente sul dataset cifrato, e restituire il risultato (cifrato) ad A, il quale, utilizzando la sua chiave, sarà in grado di decifrarlo, ottenendo esattamente lo stesso risultato a cui si sarebbe giunti operando sui dati in chiaro.

Esistono tre livelli di Homomorphic Encryption:

– Partially Homomorphic Encryption (PHE): supporta un insieme limitato di operazioni sui dati cifrati.

– Somewhat Homomorphic Encryption (SWHE): supporta un numero maggiore di operazioni matematiche, ma per un numero limitato di volte, dopodiché la qualità del risultato risulta degradata e si perde la possibilità di decifrazione. In pratica, consente l’esecuzione di algoritmi di limitata complessità.

– Fully Homomorphic Encryption (FHE): non prevede limiti alle operazioni e alla complessità dell’algoritmo.

Il limite principale dell’homomorphic encryption è la lentezza nella effettuazione dei calcoli, che rende questo metodo non adatto alla esecuzione di compiti in tempo reale. Tale effetto è particolarmente rilevante per la FHE.

È inoltre opportuno osservare che l’homomorphic encryption non si presta alla elaborazione di un modello multicentrico, in quanto i diversi ospedali coinvolti dovrebbero condividere le chiavi di cifratura; quindi, ogni partecipante potrebbe facilmente decifrare tutti i dataset criptati forniti dai partner.

Figura 3 – Homographic Encription

Synthetic Data Generation: la creazione di dataset sintetici

Questa tecnica nasce dall’ipotesi che l’ospedale possa generare un dataset uguale per struttura (stesse variabili), ma diverso per contenuti da quello reale, e che, sottoposto ad analisi o al processo di apprendimento di un modello di machine learning, esso restituisca un risultato molto simile a quello che si sarebbe ottenuto utilizzando i dati reali.

Semplificando, si potrebbe immaginare di generare un dataset in cui ogni colonna di dati ha la stessa distribuzione statistica della omologa colonna nel dataset originario. Tuttavia, questo non sarebbe sufficiente, perché, in assenza di accorgimenti particolari, andrebbero perdute le relazioni fra i valori delle variabili in corrispondenza a ogni paziente. Esistono tuttavia metodi per generare dataset in cui tali relazioni possono essere preservate. Fra di essi le Generative Adversarial Networks, una particolare architettura di reti neurali in cui si crea una competizione fra una prima sottorete che cerca di creare il dataset sintetico più “simile” a quello vero, e una seconda sottorete che esamina quanto prodotto dalla prima e lo classifica come “vero” o “sintetico”. Le due sottoreti gareggiano l’una contro l’altra e diventano sempre più abili nei rispettivi compiti. Addestrando opportunamente una GAN su molti esempi, è possibile ottenere reti in grado di generare dataset sintetici sufficientemente fedeli all’originale, che possono essere poi ceduti all’esterno, in quanto non contengono dati reali. Questi dataset possono essere utilizzati per addestrare algoritmi di machine learning, oltre che per aggiungere pazienti “sintetici” a dataset reali per incrementarne la numerosità (data augmentation).

Figura 4 – Syntetic Data

La tutela della privacy e l’importanza della condivisione dei dati

La necessità di tutelare la privacy dei cittadini, soprattutto quando i dati che li riguardano contengono informazioni estremamente delicate come quelle riguardanti la salute, o le scelte personali, combinata con la volontà delle aziende di ogni tipo di tutelare l’investimento in infrastrutture, risorse, procedure e software di data collection & management, costituiscono spesso un ostacolo alla condivisione dei dati a scopo di ricerca e addestramento di modelli matematico-statistici. Nella quasi totalità degli scenari, sono disponibili tecnologie di Privacy Preserving Data Mining che consentono ugualmente di raggiungere lo scopo, a patto che gli attori conoscano le opzioni disponibili, sappiano scegliere quelle più adatta alle loro esigenze, e dispongano di infrastrutture informatiche e competenze sufficienti per l’implementazione. I quattro approcci presentati possono essere combinati per risolvere problemi di maggiore complessità.

Il futuro della Privacy Preserving Data Mining

È fondamentale, quindi, che le aziende sanitarie adottino strategie volte a mantenere la proprietà dei dati, pur promuovendo la collaborazione e lo scambio di informazioni con l’industria. Tale bilanciamento è vitale non solo per preservare i diritti individuali ma anche per garantire nel futuro la sostenibilità finanziaria e operativa delle aziende del settore sanitario.

La sostenibilità dei sistemi sanitari nel lungo termine dipenderà fortemente dalla capacità delle organizzazioni di implementare soluzioni tecnologiche che garantiscano la privacy dei dati e la loro sicurezza, promuovendo al contempo una gestione dei dati etica e responsabile. Ciò implica una collaborazione trasparente e equa con l’industria, in cui le aziende sanitarie mantengono il controllo sui propri dati, garantendo così un equilibrio tra innovazione e rispetto della privacy, pilastri fondamentali per un futuro sostenibile in cui la tecnologia e la salute pubblica possono evolvere in sinergia.

@RIPRODUZIONE RISERVATA