L’accelerazione che il percorso di digitalizzazione dei processi e servizi sanitari ha avuto negli ultimi anni ha favorito un considerevole aumento della disponibilità di documenti sanitari in formato elettronico, quali cartelle cliniche, referti specialistici, verbali di pronto soccorso e lettere di dimissione ospedaliera.
I documenti che gli organismi sanitari producono quotidianamente contengono una straordinaria quantità di contenuti di natura sia medica che amministrativa, preziosissimi in primo luogo per i cosiddetti usi primari, ossia assistenza sanitaria ed emergenza-urgenza. Infatti, attraverso l’analisi di tali contenuti è possibile incrociare i dati di un paziente (sesso, età, sintomi e altri dati anamnestici) con lo scopo di migliorare significativamente la prevenzione, la diagnosi e la cura delle patologie.
In secondo luogo, la disponibilità di dati inerenti ad un altissimo numero di pazienti distribuiti in diversi territori geografici offre notevoli opportunità per gli usi secondari, miranti sia allo svolgimento di indagini epidemiologiche atte ad identificare i fattori di rischio che contribuiscono all’insorgenza delle malattie attraverso l’individuazione di correlazioni nascoste nei dati, sia al perfezionamento di strategie di programmazione sanitaria mediante la verifica sul campo dei fabbisogni sanitari.
L’analisi dell’ingente patrimonio informativo sanitario è però minata da due principali ostacoli: la grandissima parte dei dati sanitari è prodotta in forma non strutturata, non consentendo quindi un’agevole estrazione di informazioni significative, e i dati personali dei pazienti non possono essere utilizzati per fini statistici né resi pubblici per motivi connessi alla privacy.
I recenti progressi tecnologici nel campo dell’Intelligenza Artificiale, come vedremo, stanno tuttavia offrendo una concreta risposta a questi problemi.
Principi normativi sulla privacy dei dati sanitari
La grande quantità di informazioni sanitarie disponibili e il progredito avanzamento delle tecnologie di analisi dei dati hanno richiesto ai legislatori di tutto il mondo uno sforzo nella regolamentazione delle modalità di protezione dei dati personali.
Particolare attenzione su questo tema è stata posta dall’Unione Europea con il Regolamento n. 2016/679, meglio noto come GDPR (General Data Protection Regulation), che ha avuto lo scopo di uniformare le normative di riferimento sulla privacy tra i Paesi membri. Il GDPR stabilisce in particolare che “categorie particolari di dati personali che meritano una maggiore protezione dovrebbero essere trattate soltanto per finalità connesse alla salute”. L’articolo 5 indica che i dati personali acquisiti per finalità specifiche possono essere ulteriormente trattati “a fini di archiviazione nel pubblico interesse, di ricerca scientifica o storica o a fini statistici” e introduce il principio della minimizzazione dei dati, ossia l’obbligo di utilizzare solo dati personali “adeguati, pertinenti e limitati a quanto necessario rispetto alle finalità”. L’articolo 89 specifica inoltre che il principio di minimizzazione dei dati può essere garantito mediante la predisposizione di specifiche misure di natura sia tecnica che organizzativa, tra le quali la pseudonimizzazione, ossia il processo che sostituisce i dati personali con pseudonimi con l’obiettivo di privare i documenti dei dati identificativi (questo processo è noto come de-identificazione). A differenza dell’anonimizzazione, che causa la cancellazione irreversibile di ogni informazione personale, con la pseudonimizzazione è in generale possibile identificare il soggetto esclusivamente mediante informazioni aggiuntive, le quali devono essere conservate in maniera separata e nel rispetto di misure di sicurezza elevate.
Sul tema della tutela della privacy anche gli Stati Uniti hanno prestato un grande interesse. Già dal 1996 è infatti in vigore l’HIPAA (Health Insurance Portability and Accountability Act), la legge federale che regola il settore delle assicurazioni in campo sanitario. Questa legge fornisce importanti indicazioni sulla protezione dei dati sanitari dei pazienti identificando 18 tipi di informazioni sanitarie protette (PHI, Protected Health Information), che includono nomi propri, identificativi geografici, date correlate all’interessato, recapiti e così via. Tali informazioni non devono essere considerate per scopi differenti da quelli di cura.
I risultati dell’integrazione dei sistemi informativi
Le informazioni sanitarie generate da eventi clinici riguardanti gli assistiti sono tipicamente memorizzate in diverse tipologie di sistemi informativi sanitari, che hanno lo scopo di raccogliere, a vari livelli, le informazioni cliniche in maniera sistematizzata e facilmente accessibile agli attori autorizzati. I sistemi informativi più diffusi nel settore sanitario sono quelli di supporto alla gestione delle attività ospedaliere (cosiddetti HIS, Hospital Information System) e di specifici reparti o centri, quali la radiologia (RIS, Radiology Information System), i laboratori di analisi (LIS, Laboratory Information System), la cardiologia (CIS, Cardiology Information System).
Il notevole sviluppo di soluzioni per l’integrazione di tali sistemi, nonché il positivo stato di avanzamento delle iniziative a supporto della realizzazione di piattaforme tecnologiche di Fascicolo Sanitario Elettronico interoperabili su larga scala[1], ha determinato l’instaurarsi di un circolo virtuoso, che da una parte facilita l’utilizzo delle informazioni prodotte attraverso l’uso di applicazioni informatiche, dall’altra spinge verso l’adozione di azioni volte al miglioramento della qualità del dato.
Tra queste iniziative, si segnala il proficuo lavoro in atto relativo alla definizione di specifiche condivise per la rappresentazione di dati clinici in forma semi-strutturata in conformità agli standard internazionali del settore, con particolare riferimento a HL7 CDA Release 2.0[2]. Tali standard permettono e in generale obbligano comunque il ricorso alla forma testuale, al fine di consentire ai professionisti di descrivere in maniera più efficace possibile le condizioni del paziente.
Nonostante queste iniziative stiano favorendo la produzione nativa di dati sempre più strutturati, in Italia come nel resto del mondo la maggior parte del formato dei contenuti clinici è di tipo narrativo. Questo aspetto pone chiari problemi di de-identificazione dei dati, che oggi è spesso effettuata attraverso un laborioso processo manuale, non permettendo quindi all’intero patrimonio informativo di essere oggetto di usi secondari.
Approcci metodologici per la de-identificazione dei dati
I notevoli progressi raggiunti negli ultimi anni dall’Intelligenza Artificiale, soprattutto nel campo dell’elaborazione del linguaggio naturale (NLP, Natural Language Processing), hanno favorito la proliferazione di sistemi di de-identificazione automatica, i quali sono in grado di permettere ai programmi di comprendere e dedurre conoscenze dall’analisi del testo scritto nel linguaggio utilizzato dagli esseri umani nel rispetto della privacy.
La letteratura scientifica, che annovera numerose proposte di ricerca miranti ad affrontare questo problema, raggruppa tali sistemi in due classi differenti [3]: sistemi basati su regole e sistemi basati sull’apprendimento automatico.
Sistemi basati su regole
La prima classe di sistemi di de-identificazione automatica utilizza insiemi di regole opportunamente formalizzate e dizionari per rimuovere categorie di informazioni sanitarie protette, quali ad esempio nomi propri, codici identificativi, numeri di telefono, indirizzi di residenza o altro. Tali regole, codificate attraverso schemi appropriati, utilizzano sia espressioni regolari per riconoscere stringhe che rispettano specifici pattern (ad esempio le date) sia marcatori noti (come “Sig.”, “Dott.” o “Dr.”) per identificare i nominativi dei pazienti e dei medici o altre entità.
Altri sistemi di questo tipo funzionano in logica inversa: il testo è preliminarmente pre-processato per eliminare parole poco significative (stop words); i termini di dominio medico contenuti nel testo sono riconosciuti attraverso l’uso di vocabolari terminologici (thesauri), come quello estratto da UMLS (Unified Medical Language System); e infine, tutte le entità non riconosciute sono classificate come dati personali. In generale, i sistemi basati su regole hanno un discreto successo in domini chiusi, ossia quando sono applicati in una specifica branca della medicina o su dati prodotti all’interno di uno specifico reparto, in quanto sfruttano le caratteristiche proprie della teoria del sottolinguaggio, definito come una forma specializzata di linguaggio naturale usata per descrivere un argomento limitato, generalmente impiegato da un gruppo di specialisti che si occupano di un particolare argomento.
Questi sistemi non richiedono la disponibilità di dati pre-annotati e sono facilmente implementabili, tuttavia, per loro natura, non riescono ad adattarsi a situazioni “nuove” e sono quindi poco generalizzabili. Per le stesse motivazioni non risultano robusti ai cambiamenti linguistici.
Sistemi basati sull’apprendimento automatico
L’importante produzione di dati sanitari in formato digitale e la continua crescita della potenza computazionale dei calcolatori hanno dato un forte impulso allo sviluppo di sistemi basati su modelli di apprendimento automatico supervisionato e non supervisionato per l’elaborazione del linguaggio naturale. Questi sistemi sono tipicamente utilizzati per la risoluzione di tre categorie principali di problemi:
- assegnare etichette a insiemi di dati (classificazione);
- raggruppare insiemi di dati omogenei (clustering);
- prevedere gli andamenti nel tempo di una data variabile (regressione).
Questi approcci si stanno diffondendo non solo per supportare i professionisti sanitari a formulare diagnosi mediche e terapie più corrette, ma anche per lo sviluppo di processi di de-identificazione automatica.
I più recenti modelli alla base di questi sistemi sono basati su tecniche di apprendimento automatico approfondito, anche note come machine/deep learning. Tali modelli utilizzano solitamente meccanismi automatici di codifica del testo (word embedding), i quali hanno la capacità di estrarre automaticamente le caratteristiche principali garantendo che parole con significato simile abbiano una rappresentazione omogenea. Gli elementi così costruiti vengono processati attraverso reti neurali artificiali, che possono essere addestrate attraverso esempi per risolvere un problema specifico.
Le proprietà descritte rendono questa classe di tecniche estremamente adatta alla gestione di grosse moli di dati, dove è difficile estrarre le caratteristiche più determinanti attraverso processi non automatici. Nel caso in esame, queste reti sono in grado di de-identificare un documento classificando tutte le parole contenute nel testo, determinando quindi se ognuna di esse rappresenta o meno un dato personale da rimuovere o sostituire.
Nuove tendenze
Secondo una ricerca svolta dal Consortium for Healthcare Informatics Research della Veterans Healthcare Administration [4] (il più grande sistema integrato di assistenza sanitaria degli Stati Uniti), i migliori risultati per la de-identificazione dei dati sanitari sono stati raggiunti attraverso approcci ibridi. Questi sistemi permettono infatti di minimizzare gli svantaggi dei sistemi basati su regole, che richiedono un grosso sforzo preliminare di modellazione, e di quelli basati sull’apprendimento automatico, che necessitano di una grande quantità di dati iniziali per l’addestramento. In tali approcci, i dati personali sono tipicamente identificati utilizzando tecniche basate sia su apprendimento automatico sia su regole, ed infine i risultati intermedi sono fusi utilizzando specifici criteri.
In ultima analisi, l’opportunità di sfruttare appieno il potenziale offerto dall’enorme patrimonio informativo dei dati sanitari rispondendo ai vincoli normativi nazionali, europei e internazionali ha stimolato la comunità scientifica a dedicare numerosi sforzi nel tentativo di sviluppare tecniche per la de-identificazione dei dati. Sebbene non esista ancora una soluzione generale al problema, i risultati finora raggiunti sono incoraggianti, lasciando presupporre che la conciliabilità tra l’analisi di grosse moli di dati sanitari e la tutela della privacy diventerà presto realtà.
________________________________________
- Interoperabilità del Fascicolo Sanitario Elettronico, https://www.fascicolosanitario.gov.it/interoperabilità-del-fse
- Standard documentali per il Fascicolo Sanitario Elettronico, https://www.fascicolosanitario.gov.it/Standard-documentali
- F. Dernoncourt, J. Y. Lee, O. Uzuner, P. Szolovits, De-identification of patient notes with recurrent neural networks, Journal of the American Medical Informatics Association, Volume 24, Issue 3, 2017, pp. 596–606
- U.S. VHA CHIR, Automated EHR text de-identification, http://meystrelab.org/automated-ehr-text-de-identification/