Nuova conoscenza in sanità col data mining: come andare oltre “ciò che non è evidente”

In una sanità moderna, caratterizzata dalla crescita esponenziale di dati disponibili, l’adozione di nuove modalità di trattamento e valorizzazione può rendere possibile la valutazione non solo di “ciò che è evidente” ma anche di “ciò che non è evidente” e come tale portatore di nuova conoscenza

Su agendadigitale dello scorso martedì 20 aprile, è stato pubblicato un breve articolo di Domenico Marino, dell’Università degli Studi Mediterranea di Reggio Calabria, dal titolo “Big data e AI per una Sanità efficiente: la svolta digitale che serve“.

Big data e AI per una Sanità efficiente: la svolta digitale che serve

Su alcune delle affermazioni contenute ritengo di non essere d’accordo (io sono un sostenitore del decentramento e di una buona autonomia dei livelli decisionali periferici), ma mi paiono stimolanti e interessanti alcune affermazioni relative al superamento della EBM (“un cambiamento copernicano di mentalità per superare quell’idea di Evidence-Based Medicine che ancora oggi costituisce il mainstream di tutta una generazione di medici”), a favore di nuove forme di conoscenza – come riportato nel paragrafo “Big data e AI: la medicina basata su ciò che non è evidente” – oggi disponibili o in via di maturazione (“La possibilità di utilizzare i big data e l’intelligenza artificiale stravolge questo assunto epistemologico della pratica clinica contemporanea. Infatti, con l’’utilizzo dei big data e dell’intelligenza artificiale nasce la medicina basata su ciò che non è evidente per il singolo medico umano, ma può diventare evidente con l’utilizzo dei big data e delle tecniche di deep learning in quanto in grado di considerare e processare molte più informazioni di quanto sia possibile ad un essere umano”).

Senza entrare nel merito degli eventuali aspetti discutibili dell’EBM e della sua evoluzione, su cui un ampio confronto è aperto da anni (si veda ad esempio Evidence based medicine: a movement in crisis?), mi sembra di una qualche utilità riportare alcuni elementi, derivanti dalla scienza dell’informazione, sul rapporto fra informazione, incertezza e conoscenza che possono arricchire e fornire un nuovo punto di vista rispetto alle argomentazioni su questo tema.

Indice degli argomenti

La misura della quantità di informazione

A partire dal lavoro di Claude Shannon, proposto nel testo A Mathematical Theory of Communication apparso nel 1948, la misura del contenuto di informazione è stata formalizzata attraverso il concetto di entropia. Nella teoria dell’informazione, l’entropia rappresenta il livello di informazione, incertezza o addirittura sorpresa contenuto in un messaggio. Tanto maggiore è il contenuto di sorpresa o imprevedibilità presente in una proposizione, tanto maggiore è il suo valore informativo e quindi la misura della relativa entropia. Quando il messaggio contiene un’informazione ovvia, banale o facilmente prevedibile, non genera alcuna sorpresa, si dimostra solitamente di scarso interesse e non genera nuova conoscenza; al contrario, se il messaggio fa riferimento ad un evento singolare e imprevisto, risulta di conseguenza molto più informativo.

Quindi il contenuto informativo di un evento diminuisce al crescere della prevedibilità dell’evento stesso, fino a diventare nullo in presenza di eventi certi; al contrario, il contenuto informativo di un evento estremamente raro contiene un più alto valore informativo.

Parziali obiezioni a questa definizione di valore informativo possono venir poste in quanto la formulazione di Shannon non tiene conto in modo diretto del contesto in cui si opera; in termini semplicistici l’informazione “domani pioverà” risulta ben poco informativa (in quanto quasi banale) in giornate invernali nell’area del Nord Europa, mentre contiene un più alto valore informativo (prevede un evento raro) se si fa riferimento ad aree geografiche con precipitosità quasi nulla. Anche in questi casi, peraltro, il ricorso al concetto di entropia risulta utile, purché opportunamente modulato in base alle condizioni esterne di riferimento; in sostanza l’entropia di un messaggio può essere giustamente considerata variabile in funzione non solo del contenuto esplicito del messaggio ma anche del contesto e del ricevente il messaggio informativo stesso.

Shannon definisce quindi l’entropia I di una proposizione X associandola all’inverso della probabilità p(X) del suo verificarsi; minore è la probabilità di un evento, maggiore risulta la conoscenza (informazione) trasmessa e comunicata.

In termini formali, l’entropia di un evento I(X) viene rappresentata come il logaritmo dell’inverso della probabilità del suo verificarsi e costituisce la misura della quantità di informazione contenuta:

I(X) = log (1/p(X)) = -log (p(X))

Quando il logaritmo è espresso in base 2, l’entropia rappresenta il numero di cifre binarie (binary digit o bit) necessarie per rappresentare l’informazione contenuta; ad esempio, se la probabilità del verificarsi di un evento è del 10%, la quantità di informazione ad esso associata risulta log₂(10) = 3.32 (è cioè necessaria una stringa di 4 digiti binari per poterlo comunicare); per trasmettere un’informazione meno complessa (quale il risultato del lancio di una moneta), con probabilità di verificarsi del 50%, otteniamo che log₂(2) = 1 (è cioè sufficiente un singolo bit per trasmettere l’informazione); infine, quando rappresentiamo un’informazione certa, con probabilità di verificarsi del 100%, otteniamo log₂(1) = 0 (non è necessario alcun bit per trasmettere l’informazione), essendo in presenza di una proposizione con entropia nulla.

Entropia, disordine e informazione

In termodinamica, il concetto di “entropia” rappresenta il “grado di disordine” di un sistema; un aumento del “disordine” è associato a un aumento di entropia, mentre una sua diminuzione è associata a una conseguente diminuzione di entropia.

L’aumento di entropia è un fenomeno spontaneo che avviene in natura, mentre la diminuzione di entropia può avvenire soltanto a seguito di interventi ed azioni esterne al sistema. Le configurazioni “disordinate” sono le più probabili, come espresso dal secondo principio della termodinamica. Ad esempio, a partire da un contenitore diviso in due parti separate contenenti lo stesso liquido a differenti temperature (stato completamente ordinato), a seguito della rimozione della separazione, si osserva in breve tempo la formazione di una miscela uniforme a temperatura intermedia (stato completamente disordinato); questo processo avviene spontaneamente, mentre il processo inverso, ovvero ripristinare la separazione dei liquidi a diversa temperatura, richiede energia esterna (o almeno un qualche intervento dal di fuori del sistema isolato).

Il disordine del sistema aumenta in modo spontaneo e con esso la sua misura, definita anche in termodinamica con il termine entropia. In un sistema isolato l’entropia del sistema non diminuisce mai e, durante gli ordinari processi di tipo irreversibile, aumenta.

La formalizzazione dell’entropia termodinamica risulta:

S = -k p(i) log (p(i))

dove p(i) è la probabilità del verificarsi di ogni microstato e k è una costante.

Pur senza addentrarsi in formalismi matematici complessi, si osserva che le definizioni di entropia in termodinamica e nella scienza dell’informazione sono fra loro correlate.

L’entropia nella scienza dell’informazione è espressa dalla relazione:

I = – log₂ P

mentre in termodinamica può essere espressa anche nella forma

S = log₂ P

permettendo di esprimere l’entropia termodinamica nella stessa unità di misura dell’informazione; è quindi facile osservare che

I = -S

che si può enunciare come “a un aumento di entropia corrisponde una perdita di informazione su un dato sistema, e viceversa”. In un sistema isolato e senza interventi e azioni esterne, l’entropia termodinamica aumenta sempre e quindi l’informazione misurata diminuisce sempre. Infatti, in base al secondo principio della termodinamica, l’evoluzione spontanea procede sempre in modo da far aumentare l’indifferenziazione e quindi far crescere l’entropia termodinamica. L’informazione invece opera sempre in modo da ridurre il disordine, creando entropia negativa; dall’azione combinata e dall’equilibrio tra questi due opposti principi possono nascere e svilupparsi sistemi (come gli organismi biologici che evolvono verso stati di organizzazione crescenti) in cui la crescita dell’ordine è spiegabile con una prevalenza, almeno temporanea, dell’informazione sulla degradazione termodinamica.

Equiparando il grado di ignoranza al disordine, l’informazione consente al ricevente di passare da uno stato di incertezza ad uno stato di ordine (o di minor incertezza); le definizioni di entropia in termodinamica e nella scienza dell’informazione vengono ad essere le due facce di una medesima medaglia, fra loro correlate: la somma dell’entropia in termodinamica (misura del disordine) e nella scienza dell’informazione (misura del contenuto informativo) è costante per un sistema isolato.

Il data mining per l’estrazione di relazioni e conoscenze nascoste

Il processo di estrazione e individuazione di relazioni, ricorrenze e anomalie all’interno di dati di grande dimensione ed elevata complessità è definito con il termine data mining; questo processo costituisce un campo dell’informatica e si pone l’obiettivo di estrarre conoscenze e di arricchirle di relazioni all’interno di una struttura comprensibile.

La principale differenza fra data analysis e data mining riguarda il fatto che la data analysis viene utilizzata per testare e verificare ipotesi su un insieme di dati mentre il processo di Data Mining si pone l’obiettivo di scoprire e descrivere strutture e modelli nascosti presenti nei dati disponibili.

Fino al termine degli anni ’80 al termine data mining veniva associata una valenza parzialmente negativa, in quanto la pratica di analizzare i dati senza un’ipotesi a priori veniva criticata; a partire dagli anni ’90, questo termine, spesso utilizzato in rapporto anche a data archaeology, information harvesting, information discovery e knowledge extraction, viene al contrario connotato con accezioni positive, anche a seguito della necessità di dotarsi di nuovi metodi e paradigmi utili per governare e padroneggiare la crescente disponibilità di dati; attualmente i termini data mining e knowledge discovery sono utilizzati con significato quasi equivalente. La prima conferenza internazionale su Data Mining e Knowledge Discovery si è svolta a Montreal nel 1995.

Attraverso fasi di trattamento dati di tipo automatico o semiautomatico, il data mining utilizza tecniche di raggruppamento, individuazione di anomalie e di associazioni per individuare modelli, schemi e relazioni nascoste e precedentemente sconosciute da data set di grandi dimensioni; naturalmente anche le tecniche di Data Mining possono talvolta individuare relazioni e connessioni banali o non plausibili.

Di particolare interesse e successo risultano i metodi di data mining quando applicati a fonti dati di tipo non strutturato (testi, immagini, suoni, dati da devices, …) che rappresentano attualmente la maggioranza delle informazioni prodotte e memorizzate e per le quali altre tecniche tradizionali di analisi e trattamento sovente si rivelano non adeguate; inoltre, di nuovo a differenza di altri metodi, tanto maggiore è la complessità dei dati raccolti, tanto più i metodi di Data Mining risultano potenzialmente applicabili con successo.

In un contesto nel quale la disponibilità di dati sta aumentando esponenzialmente (con gran parte di questi di fatto non utilizzata e trattata), l’adozione di metodi e tecniche di estrazione di conoscenza contenuta in modo implicito o nascosto risulta di grande attualità e presenta interessanti prospettive di sviluppo; in un contesto sempre più data driven, la transizione verso metodi e strumenti di trattamento automatico dell’informazione appare inoltre quasi obbligata, non essendo altri strumenti di trattamento adeguati e sufficienti.

Conclusioni

In base alle argomentazioni brevemente riportate nei tre paragrafi precedenti, le affermazioni di Domenico Marino riportate nelle prime righe di questo contributo appaiono convincenti e ben articolati: “… con l’utilizzo dei big data e dell’intelligenza artificiale nasce la medicina basata su ciò che non è evidente per il singolo medico umano, ma può diventare evidente con l’utilizzo dei big data e delle tecniche di deep learning …”.

Il trattamento con adeguati metodi delle informazioni disponibili può consentire infatti non solo di verificare e testare la validità di ipotesi formulate a priori ma può permettere di individuare relazioni, connessioni, modelli e anomalie non evidenti, permettendo di sviluppare la conoscenza su nuovi fenomeni complessi; ad esempio, considerando un aspetto dell’ambito sanitario, l’utilizzo di tecniche di network analysis applicate al trattamento della sequenza di cause che conduce al decesso, accanto alla conferma della forte interconnessione fra alcune patologie, evidenzia la presenza di relazioni non evidenziate attraverso altre tecniche.

In conclusione, sembra corretto affermare che un utilizzo corretto e consapevole di alcuni metodi di data mining possa condurre all’individuazione e all’estrazione di nuova conoscenza non ottenibile tramite altri metodi, a partire dalla corretta considerazione anche di “ciò che non è evidente” e come tale portatore di nuova e non banale informazione e sapere.