La Sanità digitale italiana rischia di rimanere al palo, sul fronte dei sistemi informativi. Mancanza di standard a livello nazionale, diverse regolamentazioni vigenti a livello regionale e locale e differenti esigenze dei professionisti sanitari hanno portato all’adozione di soluzioni e sistemi non pienamente interoperabili. Ma un aiuto arriva dall’Intelligenza artificiale. Gli enormi progressi nel campo dell’elaborazione del linguaggio naturale rendono possibile l’estrazione e la strutturazione automatica di informazioni mirate. Generando documenti che rispettano formati condivisi e interoperabili.
Negli ultimi anni la crescente richiesta di sistemi informativi per l’ambito sanitario e l’adozione di strumenti specifici per la gestione di informazioni cliniche di varia natura (cartelle cliniche elettroniche, referti, prescrizioni, ecc.) hanno favorito il rapido rilascio di diversi prodotti e soluzioni[1]. Ma la mancanza di interoperabiità fra sistemi informativi rende difficoltoso non solo lo scambio di informazioni sanitarie, ma ha limitato anche fortemente la mobilità del paziente, rendendo molto complesse le operazioni di estrazione e analisi di dati globali e aggiornati. Tali criticità hanno causato una minore qualità dell’assistenza e uno spreco di risorse finanziarie.
Sanità digitale, gli ostacoli all’interoperabilità
Di recente, la definizione di regole e strumenti propedeutici allo sviluppo di piattaforme tecnologiche di Fascicolo Sanitario Elettronico (FSE) interoperabili su larga scala e di specifiche condivise per la rappresentazione di dati clinici in forma semi-strutturata ha permesso di individuare gli step da seguire per la risoluzione dei problemi causati dall’incompatibilità dei sistemi e dei formati in ambito sanitario. Nonostante ciò, il ritardo e la parziale adozione degli stessi strumenti e formati e l’enorme quantità di documenti sanitari che non ancora rispettano gli standard di settore rendono necessaria l’adozione di approcci innovativi per il superamento degli attuali limiti.
Una delle maggiori difficoltà che si incontrano nell’analisi automatica di documenti non strutturati appartenenti al dominio sanitario, quali referti, diagnosi, cartelle cliniche, deriva dalla presenza di testo scritto in linguaggio naturale, la cui complessità mal si presta all’elaborazione da parte delle macchine. Gli enormi progressi nel campo dell’intelligenza artificiale applicata all’elaborazione del linguaggio naturale (NLP, Natural Language Processing), attraverso tecniche di Deep Learning, rendono oggi possibile l’adozione delle stesse per supportare l’estrazione di informazioni di interesse e la loro strutturazione automatica, rendendo così possibile la generazione di documenti che rispettano formati condivisi e interoperabili.
Legislazione e standard documentali in ambito sanitario
L’articolo 12 del Decreto-Legge 18 ottobre 2012 n. 179 e ss.mm.ii. definisce il FSE e i principali requisiti da rispettare per la sua realizzazione sul territorio nazionale. In particolare, il FSE è definito come “l’insieme dei dati e documenti digitali di tipo sanitario e sociosanitario generati da eventi clinici presenti e trascorsi, riguardanti l’assistito”. Esso è alimentato in maniera continuativa dai soggetti che prendono in cura l’assistito nell’ambito del Servizio Sanitario Nazionale (SSN) e dei servizi socio-sanitari regionali, nonché, su richiesta del cittadino, con i dati medici in possesso dello stesso. Il FSE è istituito dalle regioni e province autonome, nel rispetto della normativa vigente in materia di protezione dei dati personali, a fini di: a) prevenzione, diagnosi, cura e riabilitazione; b) studio e ricerca scientifica in campo medico, biomedico ed epidemiologico; c) programmazione sanitaria, verifica delle qualità delle cure e valutazione dell’assistenza sanitaria.
In coerenza con i provvedimenti attuativi DPCM 178/2015 e Decreto del 4 agosto 2017 del Ministero dell’Economia e delle Finanze, modificato dal Decreto del 25 ottobre del 2018, sono state formalizzate le specifiche nazionali che descrivono le modalità tecniche da rispettare per l’interscambio di documenti digitali di natura sanitaria tra tutti i sistemi regionali di FSE, al fine di garantirne l’interoperabilità [2]. Con particolare riferimento al formato di tali documenti, è stato stabilito che le informazioni cliniche ivi contenute devono essere formalizzate in conformità a HL7 CDA Rel. 2.0, uno standard internazionale di markup basato sul linguaggio XML che descrive la struttura, la codifica e la semantica di documenti clinici. Sono pertanto stati formalizzati diversi gruppi di lavoro che hanno prodotto le localizzazioni italiane di tale standard per un insieme determinato di tipologie di documenti (quali referto di laboratorio, profilo sanitario sintetico, lettera di dimissione ospedaliera, ecc.) [3].
Sanità digitale, anche il pdf tra i formati dei documenti
Tuttavia, considerata la grande mole di documenti generati quotidianamente in formato non strutturato, le specifiche prevedono la possibilità di formalizzare nativamente tali documenti anche in formato PDF, sebbene occorra in ogni caso produrne una versione strutturata conforme allo standard HL7 CDA Rel. 2.0. La procedura di conversione tra i due formati tale da garantire la coerenza dei dati è un processo complesso ma obbligatorio. In sintesi, attualmente in ambito in ambito sanitario vengono prodotti documenti digitali testuali sia in formati strutturati, che seguono gli standard sopra menzionati, sia documenti testuali non strutturati, principalmente in formato PDF.
Per garantire una piena interoperabilità a livello documentale, uno dei principali limiti da superare è quello di individuare le informazioni di interesse (che possono essere usate per la costruzione di un documento standard interoperabile) all’interno di testi scritto in linguaggio naturale: tale problema affligge non solo i documenti non strutturati, ma anche i documenti strutturati, i quali potrebbero contenere informazioni all’interno di campi, il cui contenuto è a sua volta un testo. Attualmente, le più recenti e avanzate tecniche di intelligenza artificiale per l’elaborazione del linguaggio naturale sono in grado di permettere il superamento di tali limiti, fornendo gli strumenti per la creazione di metodologie atte a ottenere in maniera automatica un formato interoperabile, all’interno del quale tutte le informazioni cliniche estratte da documenti testuali eterogenei e in linguaggio naturale sono facilmente reperibili e disponibili.
Documenti sanitari, le tecniche di Nlp
Per disporre di un documento strutturato interoperabile di dominio biomedicale è necessario individuare, classificare ed estrarre le informazioni di interesse presenti nei testi dei diversi documenti sanitari e, successivamente, inserire tutte le informazioni ottenute all’interno di una struttura finale standardizzata. La complessità e la variabilità del linguaggio naturale, a cui in questo caso si aggiungono anche la specificità e le peculiarità del gergo usato nel dominio biomedico, necessitano di approcci specifici, che non possono solamente basarsi su dizionari, thesauri, ontologie e regole: permettere ad una macchina di “comprendere” il contenuto di un testo non è affatto un problema di semplice soluzione.
Una specifica area di ricerca dell’intelligenza artificiale studia proprio le tecniche per l’elaborazione e la comprensione del linguaggio naturale: il cosiddetto Natural Language Processing. Tra le numerose metodologie sviluppate in tale ambito, quelle che maggiormente possono fornire strumenti per l’estrazione di informazioni da documenti sanitari sono il Named Entity Recognition (NER), il Relation Extraction (RE) e il Text Classification (TC).
Il NER consiste nell’individuare le entità di dominio, ossia quelle singole parole o locuzioni composte da più parole, appartenenti ad un dominio specifico, classificandone eventualmente anche la sottoclasse corrispondente. In campo biomedico il NER viene anche chiamato Biomedical NER (B-NER) e un esempio di entità di dominio medicale presente, ad esempio, nel seguente frammento di testo: “Il paziente è stato ricoverato in medicina interna a causa di forti dolori allo stomaco; somministrato antidolorifico e sono in corso indagini radiologiche”. Le entità di dominio biomedicale nella frase di esempio sono medicina interna (classificabile come reparto medico), forti dolori (classificabile come malattia), stomaco (parte del corpo), antidolorifico (farmaco) e indagini radiologiche (esami clinici). Applicando il NER è quindi possibile individuare i gruppi di parole relativi a concetti e a informazioni principali del dominio di interesse contenute nel testo.
AI, il processo di trasformazione del testo
Tale task, però, non è sufficiente da solo a permettere una completa strutturazione delle informazioni. Difatti, una volta estratte le entità di dominio, per poterle organizzare e strutturare in maniera corretta e funzionale, è necessario anche riconoscere e classificare le eventuali relazioni tra le entità stesse: in ciò consiste il task del RE. Facendo riferimento all’esempio di sopra, tra l’entità forti dolori e l’entità stomaco vi è una relazione di tipo “localizzato in”. Il RE permette quindi di correlare le entità e di classificare il tipo di relazione esistente.
Infine, è anche necessario disporre di strumenti per la classificazione del testo (TC – Text Classification), attraverso i quali in maniera automatica è sia possibile classificare parti di testo, individuandone ad esempio le parti di interesse (la sezione di un referto, la parte relativa alla diagnosi, ecc.), sia per assegnare ad interi documenti codici o indici standard, ad esempio aderenti a ICD9 o MESH.
Le più recenti metodologie per l’intelligenza artificiale, basate su reti neurali di tipo Deep Learning, utilizzano architetture complesse (quali reti ricorrenti, reti convoluzionali, LSTM, ecc.), attraverso cui è possibile anche definire modelli neurali del linguaggio (word embeddings[4], ELMO[5], BERT[6], ecc.). Questi metodi sono oggi in grado di ottenere risultati più che ottimali nei task appena descritti e possono quindi essere sfruttati per la realizzazione di una architettura automatica per l’estrazione e la strutturazione delle informazioni.
Estrazione dati e strutturazione automatica
Combinando in maniera opportuna i modelli neurali per NLP basati su Deep Learning e addestrando le reti neurali su un numero sufficiente di documenti di dominio biomedicale in lingua italiana, è possibile estrarre informazioni di interesse secondo uno schema standard predefinito. Le informazioni estratte, dopo il processo di classificazione, devono essere associate agli elementi di base del formato standard. La strutturazione finale, oltre a garantire l’interoperabilità, può essere utilizzata come base di partenza per analisi statistiche avanzate, utilizzabili dai policy makers per definire migliori politiche di gestione e amministrazione in sanità. Inoltre, la grande quantità di dati estratti può essere sfruttata da sistemi avanzati, quali i Clinical Decision Support Systems, per fornire rapidamente ulteriori informazioni utili al lavoro dei professionisti sanitari.
Un limite all’applicazione delle metodologie di intelligenza artificiale deriva dalla necessità di disporre di un numero adeguato di documenti annotati manualmente da esperti (professionisti ed operatori sanitari), attraverso i quali addestrare con il necessario grado di precisione le reti neurali: nonostante un grande numero di documenti digitali prodotti giornalmente in ambito sanitario, non vi è ancora larga disponibilità di fonti annotate.
BIBLIOGRAFIA
- M. Ciampi, A. Esposito, R. Guarasci, and G. D. Pietro, “Towards interoperability of EHR systems: The case of Italy,” in ICT4AgeingWell 2016. Rome, Italy: SCITEPRESS, 2016, pp. 133–138 Agenzia per l’Italia Digitale, Linee Guida, manuali, documenti tecnici, https://www.fascicolosanitario.gov.it/linee-guida-manuali-documenti-tecnici
- Agenzia per l’Italia Digitale, Standard documentali, https://www.fascicolosanitario.gov.it/Standard-documentali
- T. Mikolov, I. Sutskever, K. Chen, G. S. Corrado, and J. Dean, “Distributed representations of words and phrases and their compositionality,” in NIPS 2013, 2013, pp. 3111–3119
- M. Peters, M. Neumann, M. Iyyer, M. Gardner, C. Clark, K. Lee, and L. Zettlemoyer, “Deep contextualized word representations,” in Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers). ACL, 2018, pp. 2227–2237
- J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “BERT: Pre- training of deep bidirectional transformers for language understanding,” in Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). ACL, 2019, pp. 4171-4186