Svolta big data in Sanità, ecco perché non c'è tempo da perdere

L’uso razionale dell’informatica rappresenta una leva di rilancio per i sistemi sanitari messi alle corde dall’emergenza Covid. Potenziamento delle capacità decisionali ed operative, riduzione di errori e risparmio di risorse i vantaggi chiave. Ma gli ostacoli sono molti. Vediamo le strade da seguire

L’uso razionale dell’informatica per cura e gestione rappresenta un eccezionale strumento di governance e ricerca. In questo senso i big data si stanno rivelando una fonte in continua evoluzione di evidenze con caratteristiche nuove, con potenzialità e limiti. Cogliamo l’occasione dell’emergenza coronavirus per rivoluzionare, in tempi non biblici, il modo di lavorare in Sanità, integrando ogni tracciatura informatica all’interno del sistema, rendendola disponibile e riutilizzabile senza errori e sprechi.

Indice degli argomenti

Big data per la Sanità digitale: se non ora quando

L’emergenza coronavirus, come abbiamo avuto modo di vedere nei mesi scorsi, sta mettendo alla prova i sistemi sanitari. Per questo vanno rapidamente messe in atto, per quanto possibile, tutte le azioni capaci di rendere più efficienti e sostenibili le attività sanitarie. Tra le più importanti l’accelerazione all’implementazione e all’utilizzo estensivo delle tecnologie informatiche. Le strutture e il personale sanitario, per vari motivi “razionalizzato” negli ultimi anni nel nostro paese, si dimostrano pericolosamente messi alla corda dall’emergenza pur essendo tra i migliori del mondo.

“Io sto a casa”: la rarefazione sociale è l’arma più efficace contro questa pandemia. Molte attività che richiedono aggregazione di persone e spostamenti di massa devono essere ridotte. L’uso dell’informazione e delle conoscenze, compresa l’educazione delle masse, sono in generale armi potenzialmente formidabili.

Lo smart working è una modalità di attuazione di produzione di servizi compatibile con questo scenario. Dovrebbe essere perciò privilegiato in questo momento lo sfruttamento di tutti i supporti informatici e tecnologici. Non è solo la produzione in ambiente lavorativo che si può giovare delle tecnologie informatiche, lo è anche l’utilizzo telematico di servizi, innanzitutto sanitari; questo uso dovrebbe essere privilegiato al massimo, sempre, ma soprattutto in questa occasione contingente. Uno degli strumenti di intervento usato in Corea del Sud è stata l’app Corona 100m; questa applicazione, installata sullo smartphone e scaricata 20mila volte l’ora, segnala la presenza di un soggetto positivo a 100 metri.

Sia le energie lavorative sia le esigenze vita quotidiana, rallentate o bloccate dal programma di rarefazione sociale, dovrebbero essere perciò quanto più possibile orientate su attività di questa natura.

I dispositivi di comunicazione mobile, i cloud, i sensori di trasmissione a radiofrequenza, il monitoraggio territoriale con videocamere e molti altri strumenti sono diventati parte della nostra vita quotidiana. Le nuove tecnologie possono essere alla base di azioni di intervento nuove e ne consentono applicazioni rapide ed estensive.

La Cina ci è d’esempio: “i big data in possesso alla Sanità cinese” vengono utilizzati “per identificare potenziali portatori di virus e la tecnologia è stata adottata in oltre 200 città della Repubblica Popolare“, usando l’intelligenza artificiale applicata all’imaging, insieme a dati di genomica. Si sono così rese possibili rapidissime diagnosi di infezione con la messa a punto di nuove applicazioni informatiche ad hoc sviluppate da Alibaba, Baidu e Tencent.

L’evoluzione tecnologica viene fortemente stimolata dalle applicazioni in situazioni estreme come le guerre e le competizioni sportive ed economiche; lo scenario mondiale attuale, per motivi sanitari, è senz’altro in situazione di crisi che può diventare estrema. A queste gravissime criticità dobbiamo reagire cogliendo le occasioni di crescita che possono migliorare il bilancio attuale e futuro dell’emergenza di questo momento.

Sanità future proof, si può fare (anche a basso costo)

Ci sono interventi di importanza basilare, strutturali, complessi, ma c’è anche la possibilità di incidere enormemente sull’evoluzione del sistema con acquisizioni culturali e comportamentali dei singoli attori della scena (sia da parte dei soggetti che usufruiscono di interventi, sia dei fornitori di servizi e dei decisori a vari livelli) mettendo in campo azioni di sostanziale basso impegno e con ridotto uso di risorse.

Una adeguata reingegnerizzazione informatica delle organizzazioni assistenziali sanitarie può rendere più facile ed efficiente il lavoro degli operatori e più sicuro ed efficace il risultato degli interventi. Dopo l’utilizzazione e lo scambio delle informazioni per le quali sono stati prodotti, inoltre, i dati rimangono e si accumulano continuamente costituendo una quantità praticamente infinita. Questa fonte di dati si presta ad elaborazioni capaci di ricavare conoscenze a vario livello ed è concettualmente necessario essere consapevoli di queste potenzialità.

Il monitoraggio degli eventi, l’individuazione delle tendenze, la produzione di evidenze, possono indirizzare le strategie, indicare con tempestività e, se possibile, in anticipo, le esigenze del futuro prima ancora del loro manifestarsi.

Sanità digitale: chiavi di lettura

Le tecnologie informatiche sono una componente fondamentale per il funzionamento della nostra sanità, questo è noto da tempo; vi sono parecchi presupposti tra i quali possiamo ricordarne alcuni:

L’informatizzazione avanzata in ambito sanitario può fare risparmiare: “Secondo uno studio del Politecnico di Milano, utilizzando il digitale in modo sistematico sarebbe possibile risparmiare ogni anno circa 7 miliardi di euro nella sanità e altri 7,6 miliardi di produttività per i cittadini, grazie a un miglior utilizzo del tempo: quasi 15 miliardi all’anno che di fatto stiamo sprecando”.
Tutti conosciamo l’importanza e il valore anche economico dei nuovi farmaci oncologici. L’uso di semplici tecnologie digitali nella comunicazione medico-paziente, i cosiddetti patient reported outcomes (PRO), ha dimostrato il miglioramento della sopravvivenza dei pazienti che hanno utilizzato questi strumenti con un’efficacia terapeutica paragonabile all’attività di un farmaco antineoplastico attivo ( 3).
In ambito economico l’uso dei big data è routinario per effettuare scelte strategiche, tanto che l’industria e gli economisti si dimostrano fortemente interessati e ne sono voraci utilizzatori. I responsabili di politiche sanitarie e gestionali e i ricercatori in campo biomedico hanno iniziato ad usufruire di queste possibilità con meno risorse e, forse, con minore convinzione, ma si tratta solo di tempo. L’uso sistematico delle nuove tecnologie può migliorare la qualità dell’assistenza e la sostenibilità del sistema. Il loro mancato utilizzo configurerebbe uno spreco che non ci possiamo permettere.

Big data alla base di interventi sanitari

Il medico, quando prende in cura un paziente, formula, sulla base della raccolta anamnestica, un’ipotesi basandosi su principi di ragionamento ipotetico-deduttivo che cerca di verificare con l’effettuazione di test diagnostici di conferma. Quando le informazioni acquisite successivamente vengono ritenute sufficienti il processo definisce una diagnosi, una prognosi e sceglie un intervento terapeutico.

L’attuazione dell’intervento prevede poi una serie di azioni a partire dalla prescrizione medica, l’eventuale preparazione farmaceutica e la dispensazione da parte delle farmacie, la somministrazione ed il monitoraggio del paziente con la misurazione di parametri vitali, di laboratorio e di diagnostica strumentale da parte della componente infermieristica.

Ogni passaggio attualmente prevede una tracciatura, generalmente informatica, a fini clinici, operativi e di registrazione amministrativa.

In ambito sanitario privato le prestazioni vengono registrate ai fini del pagamento e fatturate. In ambito pubblico vengono tracciate burocraticamente a fini di gestione.

In ambito di ricerca i dati sanitari vengono accuratamente registrati, elaborati e poi pubblicati con lo scopo di produrre e diffondere conoscenze ed evidenze utili per la pratica. I dati di ricerca a fini accademici o registrativi in sanità vengono organizzati e resi disponibili e fruibili alla comunità scientifica. In ambito industriale la disponibilità dei dati è per lo più legata a fini di promozione e valorizzazione economica e, di conseguenza, è più difficile che vengano concessi liberamente.

I dati a valenza sanitaria dell’amministrazione pubblica dovrebbero essere disponibili per principi di controllo democratico, informazione e trasparenza; purtroppo non sempre la loro leggibilità e disponibilità è facile per problematiche complesse legate alla frammentazione amministrativa centrale e regionale.

La produzione e la comunicazione dei dati costituisce un impegno estremamente rilevante e la spinta alla transizione digitale, alla sanità 4.0 dovrebbe essere efficace, rapida e capace di superare gli ostacoli: in realtà gli ostacoli ci sono e la lentezza della transizione è marcata.

Fonti di dati della Sanità

Si è detto che, nelle attività sanitarie assistenziali quotidiane, la digitalizzazione delle informazioni in modo corretto estensivo e sistematico, può determinare un enorme potenziamento delle capacità decisionali ed operative, una riduzione degli errori, una migliore trasparenza. Come prodotto derivato da questo utilizzo di tracciatura digitale di dati, in campo sanitario (clinico diretto o indiretto come nel campo amministrativo e burocratico) vengono originate sempre maggiori quantità di informazioni diverse.

Negli Stati Uniti Il SEER: Surveillance, Epidemiology, and End Results del National Cancer Institute raccoglie e pubblica dati del 34.6% della popolazione. La fonte principale sono le cartelle cliniche elttroniche. I dati del SEER sono pubblici e utilizzati di frequente per studi pubblicati su riviste peer reviewed.

Oltre ai sistemi e organizzazioni sanitarie e agli apparati della loro gestione, vi sono moltissime altre fonti di dati per lo più ricavabili dal WEB, da applicazioni informatiche condivise in rete e dalle applicazioni dei “social media”. Lo scopo del monitoraggio degli utenti online per organizzazioni, aziende, siti Web, e altro, è di ottenere informazioni sui loro utenti, sul loro comportamento e sulle loro preferenze. Questa conoscenza serve a ottimizzare l’esperienza dell’utente e facilitare l’uso del servizio. Serve anche a fini statistici, per la personalizzazione, per il commercio e la profilazione e per il marketing mirato.

I metodi utilizzati per tracciare gli utenti di Internet e le loro abitudini digitali sono sempre più sofisticati. I cookie, la tecnologia più conosciuta, ne rappresentano uno.

Altri strumenti digitali sono i pixel tag che sono piccolissime immagini, 1 x 1 pixel appunto, che consentono la marcatura dell’utente e dell’azione informatica legata alla visualizzazione della schermata.

Altra tecnologia ancora di tracciatura sono gli ultrasound beacon o U-beacon, che sono suoni non udibili dall’utente i quali permettono al mittente di riconoscere quali dispositivi sono collegati tra di loro: il cellulare, il tablet, etc. Gli emettitori di U-beacon possono essere installati in ambienti fisici come gli spazi commerciali per riconoscere il passaggio degli utenti e profilarli a loro insaputa.

Il riconoscimento facciale nei sistemi di videosorveglianza traccia gli spostamenti e le presenze delle persone e le individua in banche di immagini ed anagrafi fotografiche. Vi è poi l’uso delle impronte digitali del browser per attribuire ad un utente le abitudini di navigazione.

Una fonte più recente sono i dati originati con altri dispositivi di tracciatura, frequentemente indossabili, wearable, ma anche di uso domestico, su totem, in mobilità ed in clinica. Questi dispositivi che raggruppiamo sotto il termine di internet of things effettuano rilevazioni spaziali e biometriche che vengono aggregate tramite il WEB. Si tratta di un campo di grande interesse tanto che Google, già proprietaria tra l’altro di Waze per il carpooling e Google Maps, ha acquisito FITBIT, company all’avanguardia nel mercato dei dispositivi indossabili orientati al benessere e alla salute.

La marcatura fisica di oggetti, persone e le loro variazioni spazio-temporali può avvenire anche con dispositivi disponibili da tempo a relativamente bassa tecnologia che utilizzano la tracciatura a radiofrequenza (RFID), una sorta di “tatuaggio” elettronico.

Dal Patient Support Program al Fascicolo sanitario

In campo medico vi sono programmi specifici di supporto al paziente e programmi indirizzati al benessere e alla salute personali, i Patient Support Program (PSP), i blog e social network dedicati. Molte di queste applicazioni richiedono l’uso di dispositivi generici come smartphone, tablet o PC, eventualmente con sensori o dispositivi dedicati: è lo IoMT (Internet of Medical Things).

In Italia sono poco diffuse le applicazioni per un fascicolo sanitario personale complessivo su dispositivo o su cloud, cosa più utilizzata in paesi anglosassoni, ma sono abbastanza diffusi i diari orientati a parametri per i quali necessiti un monitoraggio (pressione arteriosa, glicemia, passi effettuati etc.). Vedremo più avanti l’argomento del Fascicolo Sanitario Elettronico nazionale, che potrebbe, a regime, originare una enorme quantità di dati.

Attualmente vengono sistematicamente raccolti i dati disponibili connessi alla salute non solo di specifica natura sanitaria, ma anche amministrativi, finanziari, ottenuti da fonti di qualsiasi natura disponibili in rete: commerciali, da acquisti online, da ricerca di siti e di informazioni sul web, da lettura di testi, da visione di notizie, di rappresentazioni e di film e dalle comunicazioni interpersonali. Vengono poi elaborati ed utilizzati in moltissimi i campi: comunicazione, scienza e, soprattutto, in strategie commerciali.

Sfruttandone la enorme numerosità, si possono estrarre informazioni e tendenze di natura diversa da quanto sinora fosse disponibile. La apparente grossolanità e varietà di dati potrebbe far pensare ad una relativa inaffidabilità e natura confusa, in realtà l’enormità numerica elaborata in modo matematicamente complesso può fare emergere tendenze e orientamenti non altrimenti evidenziabili.

Quando i dati diventano “big”

I Big Data sono quei raggruppamenti di informazioni di dimensioni tali (petabyte cioè 1x 10¹⁵byte oppure exabyte 1x 10¹⁸byte) che le normali applicazioni informatiche non sono in grado di processare ed analizzare ma richiedono tecnologie molto avanzate con disponibilità di storage enormi. Il termine è stato usato nel 1997 da Michael Cox e David Ellsworth, scienziati della NASA.

Non è solo un problema di software: sono necessarie macchine ad altissima capacità computazionale per effettuare elaborazioni in tempi sufficientemente brevi.

Attualmente nella lotta al Coronavirus è stato usato il supercomputer Summit di Ibm, il supercalcolatore più potente al mondo, in forza all’Oak Ridge National Lab del Tennessee. Con una potenza computazionale pari a 200 petaflop (1 petaflop è una unità di velocità di calcolo pari a un miliardo di milioni di operazioni in virgola mobile al secondo di picco, equivalenti a 200 milioni di miliardi di calcoli al secondo) ha consentito di effettuare una selezione, su base simulata (cosiddetta selezione “in silico”), di ottomila composti nel giro di pochi giorni per modellare ciò che potrebbe influire sul processo di infezione. Ne sono stati identificati 77 con il potenziale di compromettere la capacità del Covid19 di infettare le cellule ospiti.

In laboratorio, dove i composti reali vengono messi a contatto con il virus per capirne la reazione, questo è un processo troppo lento per essere realizzabile, perché ogni variabile può essere composta da milioni, se non miliardi, di possibilità con, in più, la necessità di condurre simulazioni multiple. Va comunque detto che la potenzialità di elaborazione del supercomputer è stata giudicata paragonabile a circa l’1% di quella del cervello umano.

Ai Big Data si attribuirono inizialmente 3 V: Volume: quantità di dati generati ogni secondo. Varietà: differente tipologia dei dati generati, accumulati ed utilizzati anche non strutturati o semi strutturati (ad esempio un testo con frasi fisse e frasi variabili). Velocità: riferita alla generazione dei dati (che è sempre crescente).

Alle prime 3 V si aggiunsero poi altre 3 V: Veridicità: che può essere maggiore o minore ma si dice: “Bad data is worse than no data”. Con tecniche di verifica della congruità la veridicità può essere migliorata. Valore: i Big Data richiedono tecnologie costose ed è possibile attribuire loro un valore anche commerciale. Le tecnologie di Big data analytics incrementano il valore dei dati trasformandoli in “informazioni”. Variabilità: i dati riferiti ad uno stesso argomento possono avere differenze intrinseche o legate al loro formato o modalità di raccolta, e questo costituisce spesso un limite.

Successivamente si aggiunse una settima ulteriore caratteristica: Complessità: maggiore è la dimensione del dataset, maggiore è la complessità dei dati da gestire.

Big data in Sanità: limiti intrinseci

L’implementazione di strumenti informatici è un processo iniziato da tempo e sempre più esteso. Lo stoccaggio di dati complessi, registrati e utilizzati informaticamente in ambito sanitario, si è diffuso con la sistematica adozione di programmi per diagnostica per immagini, di sistemi più o meno completi e complessi di cartella clinica elettronica, di refertazione e registrazione di attività ambulatoriali, diagnostiche, terapeutiche, burocratiche e di gestione organizzativa e finanziaria.

I dati prodotti in ambiti e situazioni diverse, per essere utili dovrebbero avere una natura il più possibile omogenea. I dati classificabili in modo standard hanno un significato specifico dovuto ad un metadato corrispondente che lo colloca in un ambito ordinato. Non sempre sono disponibili classificazioni standardizzate delle varie categorie ed inoltre, anche quando queste sono disponibili, non sempre vengono utilizzate in modo confrontabile e sufficientemente sistematico.

Le registrazioni di informazioni sanitarie hanno poi altre caratteristiche che possono diminuirne l’effettivo valore per due motivi principali:

La descrizione avviene spesso per “episodi”.
I dati sono centrati sull’erogatore dei servizi sanitari piuttosto che sul paziente.

Questo rende improbabile il riconoscimento di un intero percorso e la descrizione puntuale della storia complessiva di un paziente che può avere molte fasi di malattia e anche patologie differenti, concomitanti e intersecate tra loro, trattate in vari ambiti territoriali, organizzativi e temporali. Caratteristiche così eterogenee vengono tracciate in modi accettabili per motivi contabili grossolani, ma molto spesso, inadeguati alla precisione necessaria per decisioni ed analisi di tipo clinico o scientifico oppure per valutazioni organizzative ed economiche importanti e decisive per efficienza ed efficacia. La qualità e l’omogeneità dei dati in sanità sono spesso discutibili e di conseguenza le interpretazioni possono risultare poco affidabili per incompletezza e difficoltà di verifica.

La mancanza di strutturazione dei dati e l’individuazione degli elementi comuni può essere ovviata con l’uso di protocolli di analisi sintattica, di parsing e di algoritmi di natural language processing (NLP) con l’identificazione di informazioni elencate in formato testuale con processi di riconoscimento come la semantic annotation. All’interno delle masse dei dati gli algoritmi di ricerca riescono ad individuare relazioni e organizzazioni logiche che possono rientrare in ontologie note.

Il limite è rappresentato dal fatto che ai risultati di analisi di questo tipo non sempre è facile associare un significato e soprattutto non sempre a una correlazione può essere attribuita una causalità definita. Vi sono state conclusioni ottenute con Big Data che non sono state confermate da studi prospettici successivi.

Big data ed evidenze in medicina

Dai Big Data possono essere estratte informazioni utili per incrementare le conoscenze per la pratica clinica, di natura diversa rispetto a quelle prodotte nel passato rispetto alle quali non vanno viste come alternative ma come un importante complemento, integrazione e potenziamento.

La generazione della conoscenza di efficacia (efficacy) dei trattamenti, in medicina viene prodotta con i trials clinici, prospettici, per lo più “randomizzati” cioè con il confronto di trattamenti sperimentali con il trattamento considerato più efficace conosciuto. Il confronto può avvenire “in cieco” (senza che medici e pazienti conoscano se il paziente viene sottoposto al trattamento sperimentale e allo standard) o in modo “aperto” e gli obiettivi dello studio vengono definiti prima di iniziare lo studio.

I trials clinici sono costosi, complessi da organizzare, orientati spesso su gruppi di pazienti non rappresentativi di tutta la popolazione reale e orientati a quesiti estremamente specifici, al di fuori dei quali l’ applicabilità non è fattibile.

Con i Big Data viene normalmente analizzato ciò che avviene nel mondo reale in modo non preordinato effettuando analisi sulle informazioni disponibili anche se diverse e raccolte per altri fini; questo può consentire di scegliere domande alle quali cercare poi di rispondere con i trials clinici. Il circolo virtuoso della conoscenza è basato sulla individuazione dei quesiti rilevanti, l’avanzamento delle ipotesi e la loro verifica, ripetuto ciclicamente in un loop indirizzato al miglioramento continuo delle evidenze.

Inoltre l’osservazione del mondo reale (Real World Evidence, che può essere basata su Big Data) consente di valutare il reale effetto dei trattamenti (effectiveness), la diffusione e l’applicazione delle migliori pratiche note.

Medicina personalizzata e scienze “omiche”

Attualmente l’evoluzione della medicina è fortemente indirizzata alla cosiddetta medicina di precisione e alla medicina personalizzata con l’individuazione dei meccanismi biologici alla base delle malattie e la messa a punto di trattamenti orientati ai singoli meccanismi. Per questo motivo è difficile disegnare trials con numerosità tale da garantire una sufficiente potenza statistica.

Con l’uso di grandi banche dati e di sistemi per raccogliere ed uniformare le informazioni dei singoli pazienti si può disporre di popolazioni sufficientemente numerose a scopo di valutazione e ricerca, anche con caratteristiche rare.

Le scienze “omiche” – genomica, trascrittomica, proteomica, metabolomica – producono grandi numeri di dati digitali, relativi a moltissimi pazienti molto diversi tra loro. Le caratteristiche biologiche, ad esempio di pazienti oncologici, definite genomicamente, sono state classificate da un gruppo di lavoro europeo in base al possibile utilizzo delle informazioni genomiche, cioè alla “actionability” con trattamenti da raggruppare in classi:

STANDARD: Variante genomica patologica che caratterizza una situazione per la quale esiste un trattamento disponibile, registrato, che può essere considerato standard
INVESTIGAZIONALE: Variante genomica patologica che caratterizza una situazione per la quale, dai dati disponibili, è indicato un trial clinico od un registro prospettico di utilizzo per verificare l’efficacia di un trattamento
IPOTETICO: Variante genomica patologica che caratterizza una situazione per la quale è disponibile un trattamento con efficacia dimostrata in altre patologie il cui utilizzo potrebbe essere preso in considerazione e discusso con il paziente nell’ambito di un trial clinico
IN SVILUPPO: Variante genomica per la quale devono essere valutate ipotesi di sviluppo di trattamenti in ambito di ricerca clinica

La determinazione delle varianti genetiche porta spesso all’evidenziazione di varianti di significato ignoto od incerto. Tali determinazioni vengono in genere messe in rete in siti dedicati perché siano disponibili alla comunità scientifica.

La descrizione dell’andamento clinico di pazienti con queste varianti ne consente la classificazione futura facendo passare le varianti dal significato ignoto o incerto alla qualificazione come benigne o maligne ed eventualmente alla definizione della “actionability”.

Spesso accade che mentre possono essere in rete i risultati delle determinazioni genomiche dei pazienti, il corrispondente andamento clinico non sia altrettanto disponibile perché anche quando alcune delle informazioni cliniche vengono rese consultabili, ben difficilmente queste vengono poi aggiornate nel tempo con i risultati dei trattamenti, l’insorgenza di stati patologici e così via.

Profilazione genomica in oncologia

In campo oncologico la recente introduzione di trattamenti immunoterapici ha spinto alla ricerca di elementi di predizione di efficacia. Tra questi elementi è emerso un elemento, il Tumor Mutational Burden (TMB) che corrisponde alla quantità di mutazioni rilevabili nel tessuto tumorale, con l’assunto che quanto sono numericamente maggiori le mutazioni, tanto sono più frequenti le differenze con il tessuto normale e quindi i determinanti antigenici.

Alcuni (deboli) indicatori di efficacia sono correntemente utilizzati per selezionare i pazienti che si possono giovare di farmaci immunoterapici come determinazioni dei ligandi e dei recettori PD1 e PDL-1, l’infiltrazione dei T linfociti ma nessuno di questi ha una predittività sufficiente. Per questo il TMB sta entrando in uso clinico. Il TMB viene determinato con sequenziamento genico estensivo che origina una moltitudine di dati di varianza genica, per lo più di significato non conosciuto, la maggior parte delle quali pubblicate in siti aperti alla consultazione.

Le scienze omiche sono tipicamente in evoluzione estremamente rapida e le tecnologie avanzano con una rapidità tale da rendere problematico l’utilizzo in tempi sufficientemente brevi delle conoscenze che potrebbero originare. I database disponibili con dati di profilazione genomica sono molti e carichi di una grande quantità di determinazioni. Questo è tipicamente il caso nel quale la possibilità di collegare la storia clinica dei pazienti studiati con la profilazione genomica potrebbe essere una fonte molto importante di conoscenza; sarebbe assolutamente necessario che fossero collegate a queste informazioni tutte le notizie cliniche relative alle patologie associate, ai trattamenti utilizzati, al loro effetto e così via.

Storia clinica del paziente: il problema numero uno

Come si è appena detto è molto difficile che le informazioni cliniche relative ad un paziente siano rese disponibili con continuità e accessibili in tempo reale, soprattutto a causa della natura “episodica” degli interventi sanitari. La storia clinica del paziente ha tanto più valore quanto più è completa e descritta con precisione ma le norme sulla privacy rendono difficile riattribuire ad un soggetto, fonte di informazioni, le notizie generate in tempi e situazioni successivi. Questo in realtà potrebbe essere tecnologicamente superabile ma sarebbe necessaria una complessità organizzativa sinora scarsamente messa in campo.

La completezza della storia deve risultare dall’elencazione cronologica di tutti gli episodi di comparsa di patologie, anche diverse, dei trattamenti, e degli esiti degli stessi sia in termini di efficacia che di tossicità.

L’affidabilità e l’accessibilità delle informazioni sono poi elementi fondamentali. Nella descrizione degli eventi dovrebbe quindi essere disponibile l’accesso al documento originale con un link dinamico, senza che vengano effettuate trascrizioni fonte di maggior lavoro e possibilità di errore.

Le informazioni dovrebbero essere tra loro confrontabili e classificabili in modo omogeneo. Per alcune tipologie di dati clinici come le immagini, il laboratorio, l’anatomia patologica, le scienze omiche, esistono classificazioni standard. Vi sono anche classificazioni “quasi standard” per giudizi di tipo medico quali complessità, gravità, graduazione di elementi di uso clinico, dolore, tossicità, stato di coscienza.

Per la storia del paziente il problema di standardizzazione è estremamente complesso. A questo fine sono state messe a punto classificazioni delle malattie, ICD (versioni 9 CM o 10 e ICD-O per i tumori) e per le procedure. Nella storia dovrebbero essere utilizzati tutte le classificazioni standard e “quasi standard” riferite alla descrizione diagnostica, alle caratterizzazioni cliniche di gravità o stadio di malattia.

La combinazione delle informazioni cliniche, dell’intera storia dei singoli pazienti con i dati registrati e classificati in altri ambiti (genomica, amministrazione, biobanche, immagini, epidemiologia…) può attibuire ai dati disponibili del paziente una importanza molto maggiore di “informazione”, incrementando in modo marcato il valore intrinseco del dato stesso.

Un intervento sanitario, per essere valutato correttamente, andrebbe collocato temporalmente nell’ambito dell’intera storia clinica del paziente. Spesso i risultati di un trial clinico danno risutati falsati dalla eventualità che gli eventi e gli interventi successivi alla sperimentazione modifichino i risultati. Ad esempio: la sopravvivenza di pazienti trattati in uno studio di confronto con un nuovo farmaco può essere maggiore o minore a seconda che in fasi successive lo stesso farmaco sperimentale possa essere successivamente utilizzato o meno anche dai pazienti non esposti inizialmente ad esso, il cosiddetto fenomeno di ”cross over “.

Utilizzo delle biobanche

I dati sanitari possono essere raccolti in modo da disporre di una sorta di “biobanca” dove le informazioni vengono accumulate senza un preciso obiettivo, in previsione di attività analitiche future la cui necessità viene via via a determinarsi. Questa è la natura più tipica e innovativa che riesce a originare informazioni “nascoste” grazie alle caratteristiche dimensionali e tecnologiche della Big Data analytics. Si cerca di accumulare il maggior numero di dati che poi potranno essere usati per indagini ogni qualvolta si ravvisi l’opportunità di rispondere ad un quesito rilevante.

Quindi: accumuliamo i dati, quali essi siano e con l’ordine che è loro proprio, poi vedremo se sarà utile analizzarli e quando e come fare per questo. Sugli stessi potranno essere fatte analisi diverse e, se necessario quei dati potranno essere dinamicamente aggiornabili in tempo reale.

Oltre a questa impostazione di raccolta agnostica, non prospettica, ve ne possono essere altre. Si possono definire la modalità di deposito di dati in un data warehouse e le relative modalità di accesso, così da poter effettuare delle raccolte anche in modo prospettico sia con finalità di registro, sia come vero e proprio trial clinico. Con queste ultime possibilità più difficilmente si possono originare quantità di dati tipiche dei Big Data ma raccolte diverse possono essere aggregate con quelle di altre fonti più o meno simili fino a raggiungere dimensioni tali da poter essere sufficientemente informative.

I data warehouse sono grossi depositi di dati, raccolti da un ente o una struttura, gestiti da un Database Management System (DMS) che controlla l’organizzazione, memorizzazione e reperimento dei dati per moltissime esigenze diverse e complesse proprie di tutte le attività dell’ente o struttura stessi.

In ambito economico si è provato ad utilizzare organizzazioni informatiche ridotte e semplificate con un obiettivo analitico più orientato e preciso, i Data Smart, che rappresentano un sottoinsieme di un warehouse, logico o, in certi casi, fisico perché ottenuto con una partizione di dati archiviati. In questo modo la disponibilità delle informazioni è più semplice e rapida. Con tecnologie di questo tipo potrebbe essere favorito il disegno di attività di tipo prospettico nell’ambito di sistemi aziendali di grandi dimensioni anche in rete tra loro. Potrebbe essere più semplice avere il monitoraggio in tempo reale delle performance cliniche o gestionali di una o più unità funzionali.

Consenso informato e privacy dei dati

Per l’uso futuro, non precedentemente definito, le informazioni stoccate nel sito di archiviazione, dovrebbero essere gestite, con il rispetto della privacy, con il consenso informato dei soggetti ai quali si riferiscono per quello specifico utilizzo, esattamente come avviene per le biobanche. Tutte le informazioni dovrebbero essere inoltre aggiornabili, complete temporalmente (tutta la storia clinica del paziente), affidabili e dettagliate perché possano rispondere adeguatamente ai quesiti che si origineranno.

Il regolamento europeo GDPR (General data protection regulation n. 2016/679 25 maggio 2018) in materia di privacy detta con sufficiente precisione in quale modo debba essere messa in pratica la tutela dei dati sensibili. Informaticamente il rispetto della normativa non è particolarmente complesso: le informazioni dovrebbero avere una criptazione dell’identità degli originatori e dovrebbero essere aggregate in insiemi tali da impedirne l’attribuzione ai singoli.

Proprietà e valore dei dati

Inoltre l’aggregazione dovrebbe essere tale da proteggere l’identità non solo degli originatori ma anche degli operatori e delle strutture che producono i servizi che potrebbero essere riluttanti ad esporsi a valutazioni, per vari motivi, potenzialmente svantaggiose. Il consenso informato introduce inoltre il principio della proprietà dei dati, sanitari e no, che può essere reso disponibile con finalità diverse. Tipicamente i dati sanitari vengono concessi primariamente da chi li origina, cioè il paziente, al fine di essere curato.

Queste informazioni vengono però spesso raccolte in modo indiretto, come ad esempio da social networks, ad esempio nelle comunicazioni medico paziente o nelle discussioni dei blog dove il consenso, anche se richiesto e concesso, ha regole più sfumate.

I dati di tracciatura hanno un valore informativo che può essere anche economico. La concessione della profilazione è un evento abituale, più o meno conscio, nel mondo telematico attuale. Normalmente lo scambio di valori avviene nell’usufruire di servizi come ad esempio di messaggistica o comunicazione come Whattsapp o Facebook. Questo può fare pensare anche alla possibilità di concedere il permesso di essere profilati con l’ottenimento, in cambio, di servizi utili al miglioramento dell’assistenza oppure come pura donazione a fini di utilità sociale, di ricerca o filantropici.

Intelligenza artificiale e big data analytics

Le attività di raccolta, archiviazione ed elaborazione dati possono essere utilmente affidate all’informatica per l’effettuazione ad esempio di compiti ripetitivi, di complessità non elevata, ma estremamente numerosi e pesanti. In altri casi i compiti affrontabili con soluzioni informatiche possono essere molto complessi.

Si definisce intelligenza artificiale “un insieme eterogeneo di tecniche e metodi volti a costruire sistemi artificiali dotati di capacità cognitive, che siano quindi capaci di riconoscere, classificare, ragionare, diagnosticare e anche agire, o che siano dotati almeno di alcune di queste proprietà”, secondo la Treccani.

Se si dispone di un archivio di dati o di una rete di archivi possono essere esercitate attività di “data mining” cioè l’uso di algoritmi alla ricerca di relazioni non precedentemente conosciute. I principi di machine learning si basano su principi statistici di individuazione di pattern, cioè di sequenze regolari ripetute con il riconoscimento di meccanismi di consequenzialità. L’analisi di moltissimi dati con algoritmi attivi in parallelo può far trovare caratteristiche ordinabili in potenziali nuove classificazioni.

Non si tratta, come si è detto, di alternative alle evidenze prodotte con i trials clinici ma di possibilità di integrare informazioni o di generare ipotesi da verificare successivamente con trials.

Blockchain a tutela dei dati sanitari

Come si è detto i costi dell’organizzazione informatica, a raccolta e analisi di Big Data sono elevati. Gli archivi digitali e l’elaborazione dei dati necessitano di enormi disponibilità di spazio informatico e vanno gestite in cloud di terze parti con garanzie di tutela ed efficienza, che richiedono un pagamento del servizio fornito. Con tecnologie informatiche si possono fare ricerche cliniche di vario tipo, pubblicabili su riviste peer reviewed, ricerche in ambito registrativo di farmaci e dispositivi diagnostici o terapeutici.

Può essere usata la tecnologia blockchain per attribuire un valore ai dati sanitari scambiabili. Il valore può essere formale, teorico, ma anche sostanziale. Può essere richiesto al paziente di “donare” i propri dati rigorosamente anonimizzati e protetti, al fine di finanziare la ricerca biomedica. Le attività di interpretazione di dati e di attuazione di studi possono essere tutelate da parte del ricercatore. La tecnologia delle blockchain consente di tracciare e valorizzare le transazioni in modo paritetico, senza che vi sia nessun ente proprietario o coordinatore. La stessa tecnologia può essere utilizzata per tutelare la privacy, oltre che dei pazienti, anche degli stessi operatori sanitari e ricercatori.

Etica dell’utilizzo di big data

L’utilizzo dei Big Data può associarsi a problematiche morali o bias. “Gli algoritmi potrebbero perseguire obiettivi non etici: ad esempio guidare verso pratiche mediche che soddisfino i obiettivi economici e non la reale qualità della cura; potrebbero usare sistemi di supporto decisionale che determinino l’aumento del consumo di farmaci o presidi diagnostici, senza che gli utenti ed i clinici lo percepiscano. In altri termini, il conflitto etico potrebbe crearsi per la differenza di intenti fra chi finanzia e realizza un algoritmo e chi lo utilizza, per il diverso obiettivo economico o medico”.

Un altro problema etico è che i programmi utilizzati potrebbero contenere “nativamente” elementi di pregiudizio propri dei loro autori.

Potrebbero poi esservi problemi legati alla responsabilità civile connessa al ricorso a sistemi di Intelligenza Artificiale e la conseguente risarcibilità del danno derivante da scelte e condotte autonomamente adottate dai sistemi intelligenti, considerando le inevitabili lacune normative.

Profilazione clinica: gli standard internazionali

Per quanto attiene alla storia clinica del paziente esistono standard internazionali sulla classificazioni descrittiva dei dati clinici. Il più diffuso è HL7.

HL7 prevede tra gli altri una tipologia di documento molto importante: il cosiddetto Patient Summary. Il Patient Summary dovrebbe avere un utilizzo mirato all’eventualità che il paziente necessiti di un accesso in pronto soccorso e deve comprendere tutte le informazioni indispensabili a qualsiasi scelta clinica. Per questo il suo uso potrebbe essere ottimale anche per le altre eventualità come i consulti, le fasi successive di una sequenza coordinata di interventi come quelli dei PDTA, i percorsi diagnostico assistenziali, le valutazioni multidisciplinari. Comprende i dati anagrafici, i recapiti di familiari e di personale sanitario che lo ha in cura, le allergie, le diagnosi di patologia, i problemi clinici e le terapie pregresse ed in corso e dovrebbe contenere anche un collegamento alle disposizioni anticipate di trattamento o testamento biologico.

La legislazione italiana ha previsto per tutti i cittadini italiani la disponibilità del Fascicolo Sanitario Elettronico, che è in corso di attivazione nelle varie Regioni Italiane. All’interno del Fascicolo Sanitario Elettronico è prevista la presenza del Patient Summary a norma dello standard HL7.

Una limitazione è che questa normativa prevede che il documento dovrebbe essere redatto e mantenuto unicamente dal Medico di Medicina Generale. Questo potrebbe originare qualche difficoltà in quanto, spesso, la gestione dei pazienti con patologie complesse o croniche avviene con la collaborazione di più professionisti e specialisti, spesso secondo percorsi predefiniti, i PDTA, complessi, multidisciplinari e multiprofessionali, con informazione ma, a volte con coinvolgimento operativo del medico di famiglia ridotto o non tempestivo.

Il summary puo essere così non aggiornato o incompleto proprio durante le fasi critiche, cioè nel periodo di acuzie. A tale limite (non previsto dallo standard HL7 internazionale) si potrebbe ovviare con la compilazione di documenti multipli costituiti da un nucleo centrale costituito da un Patient Summary integrato da note di aggiornamento che possono essere inglobate dall’estensore all’interno del documento oppure ad esso collegate dinamicamente. Il Patient Summary, nel momento in cui risultasse mancante o non aggiornato per qualsiasi motivo, potrebbe essere eventualmente redatto o completato anche da altri operatori che prendono in carico il paziente.

Alla prima stesura potrebbero poi seguire “versioni” nelle quali le modifiche, l’autore e il momento delle stesse, fossero chiaramente evidenti con principi tipici dei documenti “wiki”. La componente specialistica o episodica non sostanziale dovrebbe preferibilmente essere agganciata al summary.

Un altro limite è che vi è una certa difficoltà ad utilizzare il fascicolo sanitario per attività extra-sistema sanitario nazionale, come le attività ottenute in forma privata, liberoprofessionale, pagate out of pocket (il 30% della spesa sanitaria), e le note ed i diari personali del paziente. La disponibilità di un documento riassuntivo con caratteristiche di standard internazionale consentirebbe un ottimale mantenimento della continuità terapeutica e la corretta e adeguata attuazione di interventi imprevisti anche in caso di migrazione/viaggio dei pazienti in diverse aree linguistiche.

Dati sanitari, aspetti pratici dell’organizzazione

Globalmente la generazione di dati digitali che possano consentire una buona medicina associata alla governance del sistema, alla realizzazione di studi clinici ed analisi economiche ed organizzative, prevede un salto culturale degli operatori e degli amministratori dei servizi sanitari.

Le basi di questa svolta sono la pianificazione innovativa delle attività incluse e documentate nelle Cartelle Cliniche Elettroniche con l’integrazione dei dati indispensabili per la clinica con quelli amministrativi e di ricerca.

Come descritto in un position paper, sull’uso di dati clinici di pazienti oncologici, del 2018 redatta da un gruppo di lavoro in ambito Federsanità ANCI Piemonte “è necessaria la presa di coscienza della presenza di strumenti che, correttamente sfruttati ed integrati tra loro, possono facilitare e potenziare in modo straordinario innanzitutto le attività quotidiane, e contemporaneamente possono fornire evidenze utili alle decisioni a tutti i livelli e alla ricerca… Bisogna comprendere che ad una azione che costituisce un relativo appesantimento ed un costo del lavoro (inserendo dati o organizzando strumenti informatici) corrispondono innumerevoli azioni successive alleggerite e potenziate dal buon uso del dato”.

Secondo il Gruppo di lavoro “le risorse di tempo ed economiche che si devono “spendere” nella introduzione di dati in sistemi informatici e di gestione automatizzata (concetto di “debito” informativo, operazioni che andrebbero fatte una sola volta ONCE ONLY al momento della rilevazione, in modo il più possibile automatizzato), vengono controbilanciate dal servizio che questa azione rende a valle dell’azione di inserimento (“credito” informativo) tutte le volte che questi dati servono ad un nuovo passo dei processi successivi (USE MANY). Quindi: ad un piccolo debito corrispondono molti crediti per cui il “bilancio” è, e deve essere, positivo (pena il fallimento di tutto il sistema)”.

La reingegnerizzazione dell’organizzazione delle strutture sanitarie deve essere supportata da sistemi informativi che garantiscano la funzionalità complessiva del sistema, riducendo le tempistiche e le possibilità di errore nella compilazione della documentazione clinica. Se il sistema di supporto digitale alle attività quotidiane si rivela efficiente e “time sparing”, gli operatori saranno portati ad usarlo e ad inserire dati completi, utili e affidabili. La qualità e la quantità dei dati potranno a questo punto generare conoscenze altrettanto affidabili e capaci di migliorare il livello dell’assistenza. Tali dati costituirebbero poi una base efficiente anche per il governo clinico e finanziario del sistema.

I 6 punti cardine dei big data in Sanità

Le tecnologie della rivoluzione industriale 4.0 sono indispensabili per l’effettuazione degli interventi sanitari per la raccolta di dati diagnostici, di terapia e di monitoraggio completa, precisa, affidabile, con elementi riutilizzabili nei momenti successivi, a disposizione del paziente e degli operatori, degli amministratori e dei ricercatori.
L’utilizzo delle tecnologie consente il risparmio di risorse, la riduzione degli errori, origina in parallelo materiale informativo indispensabile per la gestione ed utile per la produzione di evidenze.
Una accurata progettazione di organizzazioni basate su workflow supportati in modi integrati ed interoperabili, con attenzione alla qualità, alla completezza e all’affidabilità delle tracciature costituisce il presupposto necessario all’efficienza dei sistemi sanitari per la clinica e la ricerca. Tutto questo deve avvenire con la collaborazione stretta tra il mondo scientifico, l’industria della salute e le istituzioni.
La velocità di evoluzione tecnologica e della scienza richiede attenzione continua, visione ampia e globale, grande sensibilità alle evoluzioni tendenziali. La focalizzazione dovrebbe orientarsi particolarmente sui singoli individui e dovrebbe essere sviluppata la massima capacità di superare i limiti delle singole organizzazioni, con flessibilità e attitudine alla interoperabilità informativa.
Il punto nevralgico dell’affidabilità e conseguentemente dell’utilità dei Big Data sanitari è nella ridotta disponibilità di informazioni mediche complete, affidabili e continuative, della storia dei singoli pazienti. Senza questo elemento l’enorme quantità dei dati perde parecchio di utilità e valore. Questa carenza è destinata a migliorare per una doppia motivazione: necessità di rendere più efficienti le organizzazioni sanitarie; capacità dei cittadini di utilizzare soluzioni tecnologiche personali che mettano gli operatori sanitari nelle condizioni migliori di proporre gli interventi più adeguati e che aiutino ad operare scelte consapevoli e supportino una efficace autogestione.
Il valore delle informazioni, la loro proprietà e la loro disponibilità devono essere sempre presenti, governati, protetti e riconosciuti; tale valore dovrebbe essere di per sé un motore trasparente e disponibile per scopi di vantaggio individuale e collettivo.

Bibliografia

– DOI: 10.1200/JCO.2017.35.18_suppl.LBA2 Journal of Clinical Oncology 35, no 18_suppl Published online June 13, 2017

– Liang, H., Tsui, B.Y., Ni, H. et al. Evaluation and accurate diagnoses of pediatric diseases using artificial intelligence. Nat Med 25, 433–438 (2019). https://doi.org/10.1038/s41591-018-0335-9

– Steven Englehardt and Arvind Narayanan. 2016. Online Tracking: A 1-million-site Measurement and Analysis. In Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security (CCS ’16). Association for Computing Machinery, New York, NY, USA, 1388–1401. DOI

– Englehardt, S., & Narayanan, A. (2016). Online Tracking: A 1-million-site Measurement and Analysis. Proceedings of the 2016 ACM SIGSAC Conference on Computer and Communications Security – CCS’16. doi:10.1145/2976749.2978313

– Sfakianaki P, Koumakis L, Sfakianakis S, et al. Semantic biomedical resource discovery: a Natural Language Processing framework. BMC Med Inform Decis Mak. 2015;15:77. Published 2015 Sep 30. doi:10.1186/s12911-015-0200-4)

– Mateo J, Chakravarty D, Dienstmann R, et al. A framework to rank genomic alterations as targets for cancer precision medicine: the ESMO Scale for Clinical Actionability of molecular Targets (ESCAT). Ann Oncol. 2018;29(9):1895–1902. doi:10.1093/annonc/mdy263

– Mc Cord KA, Al-Shahi Salman R, Treweek S, et al. Routinely collected data for randomized trials: promises, barriers, and implications. Trials. 2018;19(1):29. Published 2018 Jan 11. doi:10.1186/s13063-017-2394-5

– Esmaeilzadeh P, Mirzaei T. The Potential of Blockchain Technology for Health Information Exchange: Experimental Study From Patients’ Perspectives. J Med Internet Res. 2019;21(6):e14184. Published 2019 Jun 20. doi:10.2196/14184

– Musacchio N, Guaita G, Ozzello A, Pellegrini MA, Ponzani P, Zilich R, De Micheli A. (Review) Intelligenza artificiale e big data in ambito medico: prospettive, opportunità, criticità. JAMD 2018;21(3):204-18

– Xafis, V., Schaefer, G.O., Labude, M.K. et al. An Ethics Framework for Big Data in Health and Research. ABR 11, 227–254 (2019). https://doi.org/10.1007/s41649-019-00099-x

– Lenzer, J., Big data’s big bias: bringing noise and conflicts to US drug regulation BMJ 2017; 358 doi: https://doi.org/10.1136/bmj.j3275 (Published 18 July 2017)

Svolta big data in Sanità, ecco perché non c’è tempo da perdere