Lo scenario

Welfare data-driven, la vera sfida del PNRR: le priorità per la Sanità post pandemia

Predire la vita di una persona, di un’organizzazione, ma soprattutto di una comunità, è la vera sfida di questi anni ed è anche l’obiettivo di molti degli investimenti del PNRR. In questo scenario, la prima questione su cui riflettere è la nuova architettura di un sistema informativo di Welfare data driven

Pubblicato il 04 Feb 2022

Mauro Moruzzi

Dipartimento Trasformazione Digitale-Presidenza del Consiglio dei Ministri, Scuola di Welfare Achille Ardigò

Sanità digitale: l'importanza dell'anonimizzazione

Il nuovo traguardo per tutto il welfare italiano post-covid è l’organizzazione data-driven. Per la personalizzazione della cura, la presa in carico della persona, la salute di comunità, la governance clinica e assistenziale.

Il percorso assistenziale di un paziente, la gestione clinica di un ospedale e ancor più di un sistema sanitario territoriale e di comunità, richiedono, in era Covid e Post-Covid, parametri informativi non tradizionali. Essi consistono in un utilizzo intensivo e selezionato di un’enorme massa di dati de-materializzati, stratificati nel tempo e nello spazio. Questo è il nuovo livello della dematerializzazione che sta già interessando i processi di personalizzazione dei servizi alla persona.

Mi riferisco ad un uso Deep See dei dati e alla implementazione di piattaforme tecnologiche

Data Lake. Piattaforme ‘orizzontali’, che permettono applicazioni di Intelligenza Artificiale e di Machine Learning su grandi masse di Real World Data: dati ‘reali’, delle persone (individuali), in formato naturale, ‘grezzo’. Vale la pena approfondire l’argomento.

Queste piattaforme non sono più soltanto degli hub di rete che si comportano come semplici repository, contenitori delle informazioni dematerializzate e poli di catalogazione-indicizzazione-trasmissione verso i nodi del grafo. Esse si attivano come organizzatori e ordinatori di dati in funzione di politiche Data-Driven.

Un “datalake” per fare davvero la sanità digitale: la sfida del PNRR

Indice degli argomenti

La Sanità nel PNRR, a che punto siamo?

A questo proposito, e non solo, un interrogativo sorge spontaneo: da un anno non si parla che di PNRR. Ma come sta procedendo il Piano? Si sa che sono stati costituiti una selva di ‘tavoli’. Cabina di Regia, segreterie tecniche, unità di realizzazione e di monitoraggio. Perfino un ‘tavolo di partenariato’ presso il CNEL. Poche settimane fa anche un tavolo delle Regioni presso la Presidenza del Consiglio.

Qualche Ministero è andato in avanscoperta e ha varato i primissimi bandi di gara ai quali dovranno rispondere gli enti territoriali interessati con progetti da attuarsi in primo luogo con azioni di procurement e per ricercare fornitori di mercato. A tutt’oggi il percorso appare però ancora come un labirinto troppo intricato dove non si distinguono con chiarezza i percorsi, i ‘fili di Arianna’ (Linee Guida).

Il 31 marzo 2020 il governo Draghi aveva varato con un decreto le macro-direttive di attuazione del PNRR. Esse prevedevano con esemplare chiarezza quattro grandi campi prioritari di intervento:

il fascicolo sanitario elettronico,
le piattaforme tecnologiche di nuova generazione,
le tecnologie di intelligenza artificiale e machine learning per l’utilizzo dei Big Data,
l’alta connettività.

Siamo ormai a inizio 2022. Cosa è accaduto?

Sul Fascicolo si è già scritto molto e, dopo alcune titubanze, i tre ministeri coinvolti (MDS, MEF e Innovazione) hanno intavolato un buon rapporto con le Regioni sul terreno progettuale di un nuovo FSE veramente interoperabile, esteso a tutti gli italiani. Un coinvolgimento del network Assinter delle società ICT in House delle Regioni – le vere stazioni di ideazione, progettazione e sviluppo del FSE in Italia – potrebbe rappresentare la fase di decollo operativa, progettuale che ancora manca. Una fase da non trascurare.

Diversa è la valutazione dei progetti riferiti alle piattaforme tecnologiche di nuova generazione, alle tecnologie di Intelligenza Artificiale e Machine Learning per l’utilizzo dei Big Data. In assenza di un chiaro quadro informativo prevale l’impressione di una certa sottovalutazione di una priorità che è quanto meno epocale: quello del passaggio dalla informatizzazione-dematerializzazione della PA all’uso intensivo e real time (Deep) della massa di dati prodotte in formato digitale. Una carenza forse più culturale che progettuale.

La considerazioni appena svolta trova spiegazione, forse, nelle dinamiche assai complesse di un nuovo stadio tecnologico che va oltre la dematerializzazione e la possibilità, offerta dalla prima era Internet, di trasferire grandi masse di dati nel tempo e nello spazio.

Un’organizzazione data-driven per il welfare italiano post-Covid

Torniamo ai data lake e all’importanza di una sanità data driven. Curo una persona avendo la possibilità di effettuare carotaggi in tempo reale su milioni di terabyte di dati accumulati e riferiti a quel corpo e a quella mente. Ma la stessa operazione può interessare un’organizzazione o, cosa ancora più interessante in tempo di COVID19, una comunità. Si ‘ammalano’ anche le organizzazioni e soprattutto le comunità.

Soffermiamoci su questi tre aspetti che costituiscono gli attori del nostro welfare nazionale:

persone,
persone che si aggregano e formano una comunità,
organizzazioni di varia natura, pubbliche, private e di Terzo Settore.

Nessuna di queste entità è oggi nella condizione normativa e tecno-organizzativa per utilizzare pienamente la potenzialità di dati dematerializzati di cui dispone in funzione del proprio futuro. Di aggregare questa ‘massa dati’ per realizzare modelli predittivi con l’utilizzo di Intelligenza Artificiale e di Machine Learning.

Predire la vita di una persona, o di un’organizzazione, ma soprattutto di una comunità, è la vera sfida di questi anni ed è anche l’obiettivo a cui sono indirizzati molti degli investimenti del PNRR. È quello che dieci anni fa ci raccontava Kevin Kelly, cofondatore di Wired, con il suo libro “Quello che vuole da noi la tecnologia”.

In questo nuovo scenario, la prima questione su cui è bene riflettere è la nuova architettura di un sistema informativo di Welfare che si avvale di un uso intensivo dei Big Data e che evolve in senso Data Driven. Le coordinate teoriche di questa architettura sono sempre basate sulla triplice distinzione tra dati personali, dati organizzativi e dati personalizzati.

Dati personali di salute: la profonda revisione normativa e culturale in corso

Rispetto ai primi, ai dati personali di salute, è in corso una profonda revisione normativa e culturale a livello della Comunità Europea. Sono ormai attive le direttive che porteranno sempre più verso la proprietà non solo intellettuale ma individuale dei dati personali di salute. Ogni cittadino della Comunità potrà decidere autonomamente dove conservare i suoi dati, non necessariamente nelle strutture sanitarie che li conservano oggi. Forse in qualche cooperativa costituita ad hoc tra più persone: forma già presente in Svizzera per una gestione etica ma anche economica di questo patrimonio informativo individuale.

I dati organizzativi non vanno confusi con quelli personali perché sono espressione di un’entità non riconducibile ai diritti di cittadinanza della persona umana. Mentre i dati personalizzati sono quelli che si generano abbinando informazioni sul funzionamento di un’organizzazione, di un servizio, a dati individuali e di identità personale. Con questi dati particolari è possibile, come è noto, creare ad esempio servizi online.

Nella nuova architettura Data Driven l’accentuazione di questa triplice caratteristica del dato sarà ancora più marcata. I dati di salute, ad esempio, sono sempre più classificabili come dati reali di salute (Real World Data) e dati amministrativi di carattere fiscale, economico e anagrafico.

Non insistiamo su questa distinzione che è stata già oggetto di diverse riflessioni in questa sede e che denota come il sistema informativo della sanità italiana sia tuttora di tipo prevalentemente amministrativo, ovvero basato su dati organizzativi. Ciò non ha permesso di conoscere, con grave danno sociale in periodo Covid, lo stato reale dello stato di salute della popolazione e l’attivazione di un sistema efficiente di sorveglianza epidemiologica.

I diversi tipi di dati di salute

Oltre questa duplice distinzione i dati di salute possono essere suddivisi in dati clinici, dati comportamentali dell’utente, emozionali, dati auto-prodotti dall’assistito e in altre categorie di dati più particolari e complessi come ad esempio quelli genomici. Si parte dalla constatazione che soltanto la persona umana è sorgente di informazioni e che queste nascono prevalentemente da un’espressione emozionale del linguaggio, mentre le macchine sono soltanto strumenti, pur tecnologicamente raffinati, di conservazione ed elaborazione dei dati.

Una suddivisione più articolata dei dati identifica dati gestionali di processo, dati strutturati e non strutturati, immagini, dati epidemiologici e demografici, omici, wearable, Proms (Patient reporter outcome measures), Prems (Patient reporter experiens measures), anche questi ultimi autoprodotti in forma diversa dal paziente.

Non è inoltre secondario classificare le reti che portano questi dati e che come tutte le reti sono un composto di nodi, hub e link, come è ben descritto nello stupendo libro di Barábasi pubblicato un decennio fa (Albert L. Barábasi: Link, la scienza delle reti).

Le reti socio-tecniche nell’era data driven

Le reti che trasportano dati personali e quelle che ospitano dati organizzativi hanno, in ambito Internet, caratteristiche assai diverse tra loro. Riappare di grande attualità la definizione di reti socio-tecniche, già formulata fin dagli anni ottanta dal grande sociologo Achille Ardigò.

Le reti socio-tecniche sono quelle reti di generazione Internet che consentono a una persona non solo di attingere informazioni da un’organizzazione – ed eventualmente anche di ottenere un servizio online, ad esempio da una ASL- ma anche di effettuare un’interazione bi-direzionale (ricevere e fornire dati-informazioni) tra assistito e struttura d’assistenza. Condizione indispensabile per co-progettare servizi personalizzati.

L’era Data Driven ha il suo cuore appunto nella enorme autoproduzione di dati da parte dei cittadini in rete. Nel 2020 cinquantuno milioni di cittadini italiani erano a tutti gli effetti utenti di Internet e di questi quarantun milioni erano attivi sui social (su una popolazione nazionale di sessanta milioni e quattrocentomila persone). Trentasette milioni di persone rilasciavano inoltre, in maniera costante, informazioni su FaceBook e su YouTube.

Il welfare Data Driven è rappresentato da questa immensa condivisione di informazioni tra assistiti, organizzazioni pubbliche e private e professionisti. A questa attività concorrono le piattaforme tecnologiche di nuova generazione.

Finora si è avuta una rappresentazione delle piattaforme come silos verticali per la scuola, la sanità, la cultura, l’ambiente, l’abitare la mobilità, ecc.. Silos di dati stratificati e non comunicanti tra Stato, Regioni, Città e Comuni, ulteriormente stratificati tra il settore pubblico, quello di mercato e il Terzo Settore.

Il PNRR e la sanità one health

Il PNRR parla, ad esempio, di una sanità one health e parte invece dal presupposto che questa duplice stratificazione, verticale e orizzontale, debba diventare una realtà intercomunicante.

L’obiettivo di questa tecnologia sharing è quello, triplice, già evidenziato, della presa in carico dell’utente, della ‘presa in carico della comunità’ e della data governance, ma anche di mettere un nuovo medium al servizio della ricerca e dell’epidemiologia.

La stratificazione della popolazione per patologie è uno dei primi interventi propedeutici per implementare modelli predittivi sulla salute comunitaria basato su dati reali di sanità in una prospettiva one health.

Sono in cantiere in alcune regioni progetti di Date Lake regionali e in grado di effettuare un’integrazione logica e tecnologica dei sistemi informativi degli enti sanitari. L’obiettivo è quello di armonizzare i documenti e i dati provenienti dalla rete di offerta sociale e sanitaria.

La Regione Lombardia ha in fase di studio un progetto con l’implementazione di data analytics per analisi predittive sullo stato di salute globale e un’integrazione di dati per creare valore tramite Date Lake sanitari o sociosanitari. L’obiettivo è sostenere una Connected Care rivolta al paziente ma anche una sanità Data Driven. Il progetto lombardo crea una rete virtuosa che supporta il flusso informativo e connette per davvero persone dati infrastrutture e tecnologie.

Un progetto che ha queste caratteristiche è nato nella stessa regione sul lato delle ricerca, collegato alla piattaforma regionale del Fascicolo Sanitario Elettronico e vede già attivi sul tavolo progettuale alcuni IRCCS pubblici lombardi.

Si tratta di un’attività innovativa prevista dalla missione 6-C2 del PNRR e che riguarda i modelli predittivi e la nuova governance del sistema sanitario nazionale, la stratificazione della popolazione per patologie nell’ambito dei programmi sanitari. Anche in questo contesto sono previsti lo sviluppo di strumenti di analisi avanzata per studiare i fenomeni complessi e gli scenari predittivi.

Già da tempo era stato proposto, in un accordo tra Ministero della Salute e Cineca – società dei Ministeri dell’Istruzione e dell’Università aderente al circuito Assinter Italia – la costituzione di un Data Lake nazionale e di un repository nazionale dei dati clinici. Se l’attività progettuale, che ha visto coinvolte quasi tutte le società ICT in House delle regioni e la struttura scientifica AssinterAcademy, avesse potuto svolgersi nei tempi stabiliti e senza gli assurdi intoppi burocratici ministeriali, forse avremmo già in Italia attivo un primo strumento tecnologico avanzato sul fronte dell’Intelligenza Artificiale per la salute di tutti gli italiani. L’implementazione di quello metereologico ha impiegato tempi minori e ciò è assurdo in era COVID19!

Ovviamente non mancano team e tavoli ministeriali che stanno lavorando su questi temi. Anche qui valgono però le stesse osservazioni fatte per il cantiere PNRR-FSE: procedure eccessivamente top down rischiano di mettere in ombra i team di innovazione presenti nel territorio.

Non vi è dubbio che la stratificazione effettiva della popolazione italiana in termini di salute è una delle prime iniziative di una politica Data Driven. Infatti questa integrazione dei dati consente di calcolare nuovi indicatori, ottenere informazioni dal contesto clinico ma anche sulla mobilità sanitaria, supportare la ricerca scientifica e politiche di prevenzione e infine la costruzione di modelli predittivi.

Big data: un nuovo scenario per le politiche sanitarie post COVID19

Sul lato clinico e dell’assistenza l’utilizzo dei Big Data in funzione della salute di comunità e della presa in carico dei pazienti apre un nuovo scenario per le politiche sanitarie post COVID19. La presa in carico dell’assistito avrà una ‘dote di informazioni’ che fino a tempi recenti non era nemmeno immaginabile.

La carenza di informazioni di salute sul paziente e la sua comunità hanno rappresentato e tuttora rappresentano l’elemento critico di tutte le politiche di presa in carico per patologia e cronicità. In una sanità Data Driven ogni PDTA, ogni percorso diagnostico e terapeutico, potrà essere supportato in tempo reale da tutti i dati rielaborati storicamente in possesso del paziente, a partire dalla sua storia clinica.

Ma la vera innovazione è sul lato comunità: l’estrazione di questi dati ci consente per la prima volta di ‘prendere in carico una comunità’, di conoscere i dati di salute collettiva, per aggregazioni non necessariamente solo territoriali. Conoscere la glicemia o il colesterolo di una città o i dati oncologici di una comunità lavorativa costituisce un’arma formidabile delle nuove politiche sanitarie del periodo post COVID19. Un fattore ‘neghentropico’ degli stati di stati di salute collettivi. Tutto questo è possibile nell’era dei Big Data e delle tecnologie Data Lake.

Big data di salue e Data Lake: cosa sono e i vantaggi

Ma cosa sono i Big Data di salute? Sono una raccolta estesa di Real World Data in termini di volumi, velocità e varietà. Che possono essere analizzati ed estrapolati e messi in relazione a una moli di altri dati eterogenei, strutturati e non strutturati, per l’estrazione di valore e conoscenza sulla salute individuale e collettiva.

E che cos’è un DataLake? È un Data Store, un contenitore informatico, che attraverso l’ingestion memorizza in maniera flessibile, scalabile e a bassi costi, dati grezzi di svariata natura al maggior livello di dettaglio. Questi dati possono quindi essere processati e acquisiti in modalità agile da tutti gli attori della sanità per poter supportare ogni decisione, del cittadino come dei medici curanti o degli operatori sociali. Supportati ovviamente da specialisti che esploreranno le masse dei dati attraverso algoritmi per estrarre insights: ciò che ci permette di vedere la situazione per l’appunto dall’interno e nella prospettiva del singolo attore di salute, del cittadino o del professionista.

Il Data Lake è quindi una nuova tecnologia anche nel campo della salute, una piattaforma-repository che raccoglie grosse moli di dati eterogenei e prevede più livelli di granularità del dato, mettendo a disposizione informazioni sempre più tipizzate e pulite (data sanitization). E’ un approccio che sfrutta la potenza della tecnologia dei Big Data e si sposa con l’agilità di un self-service per gli attori-utenti della comunità.

A differenza dei tradizionali datawarehouse, dove il dato è pulito, preparato e pronto al consumo, il DataLake può essere visto come un bacino in cui confluiscono diversi flussi di dati nel quale gli utenti possono ‘immergersi’ per esaminarli o prenderne dei campioni utili ai propri scopi.

La tecnologia Data Lake e dei Big Data consente livelli scalabili e di efficienza dei costi superiori a quelli possibili con l’infrastruttura di gestione tradizionale. Se il DWH è paragonabile a un negozio di acqua in bottiglie pulite e confezionate e strutturate per un facile consumo, il Data Lake è un ‘lago di dati’ che si riempie da più fonti e dove i vari utenti del ‘lago’ possono ‘immergersi’ e attingere dati. I dati confluiti restano nel loro formato originale (dati naturali, reali o grezzi) e possono essere ‘ripuliti’ in funzione di un utilizzo plurimo dalla comunità degli utenti.

Nella metafora il lago si ingrandisce. Prima era una ‘pozza di dati’ (un Data Puddle), un progetto singolo costruito utilizzando la tecnologia dei big data. Poi diventa uno ‘stagno di dati’, una ‘raccolta di pozzanghere’ di dati con costi tecnologici inferiori, indubbi vantaggi ma che richiede ancora un alto livello di partecipazione tecnologica-informatica. Da qui si passa a un vero e proprio Data Lake che è diverso da uno ‘stagno di dati’ perché supporta il ‘self-service’: gli utenti sono in grado di trovare e utilizzare i set di dati che desiderano senza dover chiedere aiuto ai tecnici. Lo stadio successivo si può chiamare un ‘oceano di dati’: il processo decisionale basato sui dati si espande che si trovano ovunque, indipendentemente dal fatto che siano stati caricati o meno nel Data Lake. Ma questo è già futuro.

Il Data Lake, la tecnologia di cui possiamo disporre ora, è già parte di un processo di data democration: quel progetto che punta a dare la possibilità a tutte le figure di un sistema (sistema sanitario), anche a quelle meno tecniche, di poter recuperare e analizzare i dati senza la necessità di dover dipendere dagli informatici.

Ciò significa abbattere le barriere tecnologiche di conoscenza che possano impedire a tanti attori – e in primis ai cittadini e ai medici e ai ricercatori – di beneficiare del proprio patrimonio informativo e basare le loro azioni future in maniera consapevole.

Conclusioni

La tecnologia Data Lake è la camera di accesso agli strumenti di Machine Learning e AI in sanità. Il Machine Learning è il campo di studio che dà al computer la possibilità di imparare senza essere esplicitamente programmato. A differenza di un processo tradizionale, che porta il computer, attraverso un input e dei programmi a generare un output, con il Data Learning, conoscendo l’output e dando un input, si possono ottenere dei programmi utilizzando degli algoritmi.

La tecnologia non è un campo neutrale nel vasto mondo della salute. Prima l’informatica sanitaria poi l’eHealth di Internet hanno prodotto un cambio di medium nell’ecosistema della salute. Oggi i Big Data, l’Intelligenza Artificiale e il Machine Learning, abbinata alla tecnologia Data Lake, possono farci raggiungere mete straordinarie affinché un individuo o una comunità siano assistiti con tutte le informazioni disponibili.

L’Italia non è soltanto un territorio immerso nel mare, ma anche un paese che possiede un mare di dati, il nostro tesoro più prezioso per la salute futura degli italiani.