Big data e prevenzione

Sistemi digitali di monitoraggio pandemico: a che punto siamo

Le raccomandazioni OMS e il nuovo centro di intelligence epidemica in arrivo in Germania: la big data analytics per gli early warning system potrebbe essere un valido aiuto per evitare un’altra pandemia. I risultati più recenti degli studi internazionali sui sistemi digitali di monitoraggio pandemico

Pubblicato il 20 Lug 2021

Milena Lopreite

Università della Calabria

Pietro Panzarasa

Queen Mary University

Valentina Pieroni

IMT School for Advanced Studies, Lucca

Michelangelo Puliga

IMT School for Advanced Studies, Lucca

Massimo Riccaboni

IMT School for Advanced Studies, Lucca

Sanità digitale: l'importanza dell'anonimizzazione

Un sistema digitale di monitoraggio internazionale in grado di assicurare una risposta pronta e coordinata agli eventi di natura epidemica: è quanto auspicato in un recente rapporto [1] prodotto da esperti indipendenti selezionati dall’OMS, l’Organizzazione Mondiale della Sanità. Il documento, pubblicato a maggio 2021, ripercorre le fasi della crisi SARS-CoV-2 analizzando gli effetti delle azioni intraprese per contrastare la pandemia con alcune raccomandazioni per prevenire e affrontare future emergenze. Ma quali sono i più recenti contributi in tema di sistemi digitali di monitoraggio pandemico?

Un piano pandemico con l’intelligenza artificiale: così faremo meglio alla prossima pandemia

Dalla ricostruzione OMS emerge un sostanziale ritardo da parte delle autorità nazionali e internazionali nel cogliere i primi segnali di un’imminente pandemia. In passato, episodi analoghi come l’epidemia di SARS nel 2003, la pandemia di influenza H1N1 nel 2009 e la diffusione di Ebola in Africa occidentale (2014-2016) hanno sollecitato misure volte al rafforzamento della sicurezza sanitaria dei cittadini, che tuttavia non sono mai state attuate. Il rischio è stato sottostimato e gli interventi preventivi sottofinanziati.

Tra le azioni promosse dal panel di esperti vi è la progettazione e implementazione a livello regionale, nazionale e globale di sistemi di monitoraggio pandemico e di prima allerta in grado di cogliere segnali di potenziali fenomeni attraverso modelli innovativi di data analytics. In tale contesto, piattaforme, social media e strumenti digitali ricoprono un ruolo di fondamentale importanza per la raccolta, analisi e condivisione di dati e informazioni in tempo reale, consentendo di monitorare globalmente la diffusione di patogeni ad elevata trasmissibilità trascendendo i confini di natura geopolitica. L’enfasi è posta sulla tempestività e immediatezza richiesta ai sistemi di monitoraggio sanitario di “prima allerta”, e in particolare su un’efficace azione di “nowcasting” di eventi pre-pandemici in rapida evoluzione^{^[1]}.

Il tema ha suscitato vivo interesse nella comunità scientifica, e le criticità degli attuali sistemi di monitoraggio pandemico e pronta risposta hanno costituito oggetto di ampio dibattito.

Indice degli argomenti

Sistemi digitali di monitoraggio pandemico: il ruolo di Twitter

L’attenzione nei confronti dei sistemi di sorveglianza epidemica basata su dati e strumenti digitali è emersa in ambito accademico ben prima della pandemia da COVID-19. Lo sviluppo di sistemi di monitoraggio attraverso i social media come fonti di possibili “alert” di imminenti epidemie di influenza era già stato proposto in passato ed indagato a livello metodologico [2], nel quadro di una più ampia analisi comparativa dei vari strumenti alternativi a disposizione [3].

Il monitoraggio digitale ha ricevuto una rinnovata attenzione durante l’emergenza sanitaria provocata dalla diffusione del virus SARS-CoV-2. Un recente studio [4] pubblicato sulla rivista Scientific Reports mostra come Twitter possa essere efficacemente usato come parte di un sistema di prima allerta pandemica. In particolare, lo studio dei messaggi postati su Twitter prima dell’inizio ufficiale della pandemia ha mostrato come l’interazione e le discussioni su piattaforme social possano rivelarsi efficaci nel segnalare imminenti fenomeni epidemici sulla base delle segnalazioni effettuate dagli utenti.

L’analisi è stata effettuata su un campione di post Twitter pubblicati tra Dicembre 2014 e Marzo 2020 da utenti localizzati in sette diversi Paesi europei (Regno Unito, Germania, Francia, Italia, Spagna, Polonia e Olanda). Partendo da un ampio data set (circa 900.000 messaggi postati durante le stagioni invernali 2019-2020 e 2018-2019), gli autori hanno selezionato i tweet contenenti il termine “polmonite” (nelle diverse lingue), utilizzato come parola chiave per cogliere possibili segnali di una prima diffusione del coronavirus SARS-CoV-2 tra la popolazione prima della data ufficiale di inizio della pandemia. La polmonite rappresenta, infatti, il sintomo più grave indotto da COVID-19. Al fine di non sovrastimare il numero di tweet aventi ad oggetto casi di polmonite, gli autori hanno filtrato ulteriormente il campione, escludendo dall’analisi messaggi contenenti menzioni alla pandemia cinese, link a quotidiani online, riferimenti alla stampa in generale o semplici retweet.

A supporto del ruolo svolto dai social media come potenziali sistemi di monitoraggio pandemico, lo studio ha evidenziato un’inaspettata crescita dell’interesse manifestato dagli utenti di Twitter nei confronti di casi di polmoniti già nelle prime settimane del 2020, cioè prima ancora che venissero accertati e comunicati ufficialmente i primi casi di COVID-19 (in Italia il primo focolaio locale di infezioni da SARS-CoV-2 risale al 20 Febbraio 2020). A fronte di una stagione influenzale 2019-2020 meno severa delle precedenti, il riscontro di un inusuale attenzione per tale sintomatologia è apparsa ancora più inattesa. L’anomala eccedenza di messaggi su polmoniti registrata tra Dicembre 2019 e Gennaio 2020 rispetto alla stagione invernale precedente (Dicembre 2018 e Gennaio 2019) è risultata statisticamente significativa in tutti i Paesi oggetto di analisi ad eccezione della Germania. Inoltre, nella maggior parte dei casi il periodo in cui sono state rilevate citazioni significative di polmonite ha preceduto il periodo in cui tale sintomatologia è stata pubblicamente ricondotta al COVID-19.

La geo-localizzazione degli autori dei tweet (dato spontaneamente dichiarato dagli utenti) ha poi permesso di rilevare la distribuzione geografica dei tweet nelle diverse regioni europee offrendo un’altra importante evidenza: il maggior numero di utenti Twitter menzionanti casi di polmoniti era localizzato proprio nelle aree dove successivamente sono emersi i primi focolai pandemici.

La stessa analisi è stata ripetuta su un campione di tweet contenenti la parola chiave “tosse secca”, altro sintomo notoriamente associato al COVID-19. I risultati confermano quanto rilevato per le polmoniti: gli autori hanno osservato un anomalo incremento dei messaggi menzionanti casi di tosse secca ben prima dell’accertamento e comunicazione ufficiale dei primi casi di infezione da SARS-CoV-2 tra i locali, e ancora una volta hanno rilevato come la discussione dei sintomi da coronavirus si concentrasse proprio nelle aree dei primi focolai.

I risultati dello studio evidenziano dunque il potenziale contributo derivante dall’analisi dei dati provenienti dai social media per individuare e geolocalizzare contagi anomali e monitorarne lo sviluppo.

Tra i possibili benefici di un simile approccio vi è la possibilità di cogliere tempestivamente latenti fenomeni pre-pandemici o anticipare successive ondate di epidemie in corso. Consapevole di tali potenzialità, il Centro europeo per la prevenzione e il controllo delle malattie (ECDC – European Centre for Disease Prevention and Control), agenzia dell’Unione Europea deputata al rafforzamento dei sistemi di protezione dei Paesi membri contro le malattie infettive^{^[2]}, ha rilasciato a ottobre 2020 “Epitweetr”, un software open-source per l’elaborazione automatica dei dati Twitter finalizzato a cogliere i segnali di potenziali minacce per la salute pubblica [5]. Rilevando anomalie nell’attività degli utenti di Twitter, lo strumento offre supporto nel monitorare eventi epidemici.

Sistemi digitali di monitoraggio pandemico: da quali fonti costruire il dataset

Ulteriore evidenza dell’importanza dei sistemi di rilevazione digitale di segnali epidemici è stata offerta dallo studio [6]. La ricerca rivela come fonti diverse e complementari ai sistemi di sorveglianza tradizionali possano fornire input digitali in grado di cogliere l’evoluzione e la diffusione di patologie infettive. Oltre ai messaggi Twitter, gli autori hanno esaminato trend di ricerca registrati da Google Trends così come pattern di ricerca su UpToDate, una banca dati ad accesso privato utilizzata per rispondere a quesiti specificamente clinici. Lo studio ha utilizzato queries contenenti parole chiave associate al COVID-19, tra cui “febbre”, “tosse”, e “quarantena”. In aggiunta, per lo studio della trasmissione di malattie infettive sono stati utilizzati dati su spostamenti (opportunamente aggregati e anonimizzati) forniti dai sistemi di localizzazione su smartphone, rilevazioni della temperatura corporea dal database Kinsa e predizioni del modello GLEAM (global epidemic and mobility model). I dati raccolti hanno avuto la funzione di ‘segnalatori’: gli autori hanno verificato se comportamenti anomali delle variabili selezionate (nello specifico una crescita esponenziale) potessero segnalare l’imminente verificarsi di eventi epidemici associabili alla diffusione del COVID-19. A tal fine sono state utilizzate metriche tradizionali come il numero di casi accertati e morti da SARS-CoV-2. L’analisi è stata condotta su un campione di stati U.S., nell’intervallo temporale tra marzo e settembre 2020.

Nel periodo tra marzo e maggio sono stati proprio il numero di messaggi su Twitter e le ricerche Google contenenti il termine “febbre” (“fever”) tra le prime variabili a manifestare una crescita inusuale anticipando di 2-3 settimane l’incremento dei casi accertati, mentre nei mesi successivi le ricerche web menzionanti il termine “covid” hanno esibito per prime un trend anomalo anticipando la crescita delle morti per COVID-19.

Combinando le diverse fonti di dati digitali in una metrica sintetica, è stato inoltre possibile ottenere una misura dotata di maggiore accuratezza nell’anticipare fenomeni di natura epidemica se paragonata alla performance delle singole variabili utilizzate separatamente. Gli autori hanno rilevato come l’utilizzo di un indicatore sintetico abbia permesso di anticipare di circa 19.5 giorni (valore mediano) la crescita di casi accertati e di 29 giorni (valore mediano) le morti da COVID-19. Un simile approccio si dimostra, dunque, potenzialmente efficace per l’attuazione di interventi preventivi e l’emanazione di misure contenitive da parte dei governi nazionali, confermando così le potenzialità fornite da un sistema di condivisione e impiego dei dati digitali per il monitoraggio delle pandemie.

Sistemi digitali di monitoraggio pandemico: arriva il centro di intelligence OMS

I metodi proposti dalla letteratura scientifica per sviluppare sistemi di monitoraggio pandemico si pongono in sostanziale continuità con le raccomandazioni presentate dall’OMS [1]. Tra i punti cardine presentati dal pool di esperti OMS vi è la centralità di un sistema di monitoraggio e di prima allerta coordinato a livello internazionale, basato su strumenti digitali in grado di analizzare e sfruttare informazioni di rilievo. Si richiede inoltre una revisione dell’approccio attualmente adottato, ritenuto inadeguato nel contrastare la diffusione di patologie respiratorie ad elevata trasmissibilità, in favore di interventi di natura preventiva da attuarsi prima che se ne manifesti la necessità. Condivisione, coordinamento su scala internazionale, prevenzione e tempestività costituiscono le caratteristiche fondamentali del sistema proposto.

A testimonianza dell’impegno finora profuso in questa direzione, l’OMS ha annunciato l’imminente costituzione di un centro di intelligence pandemica ed epidemica (WHO Hub for Pandemic and Epidemic Intelligence) localizzato in Germania^{^[3]}, da realizzare nell’ambito del Programma per le Emergenze Sanitarie dell’OMS (WHO’s Health Emergencies Programme). L’hub nascerà dalla collaborazione tra Paesi e partner internazionali che si impegnano a costituire una rete di dati condivisa da gestire impiegando tecniche di data analytics e algoritmi di machine learning al fine di individuare potenziali minacce per la salute pubblica e anticipare il verificarsi di eventi critici. Integrando una base di dati multisettoriali si prevede l’adozione di un approccio multidisciplinare nello sviluppo di modelli analitici per la valutazione del rischio e nella costruzione e monitoraggio di indicatori chiave, così da sfruttare la capacità predittiva di sistemi di machine learning. Il centro fornirà consulenza a esperti in materia sanitaria e a policy-maker, facilitando l’attuazione di soluzioni per la tutela della salute pubblica. In occasione dell’ultimo G7, tenutosi nel mese di giugno 2021 a Carbis Bay (Regno Unito), i leader mondiali hanno ulteriormente ribadito l’impegno a collaborare per prevenire crisi sanitarie ed economiche al pari di quella attuale e per rafforzare la capacità di risposta a eventuali nuove emergenze^{^[4]}. Tra le azioni finalizzate al raggiungimento di questi obiettivi è stata proposta l’istituzione di una rete internazionale di sorveglianza pandemica in parte supportata dalle risorse del sopracitato centro di intelligence pandemica ed epidemica dell’OMS.

La creazione di un dataset integrato, accessibile e costantemente aggiornato è il primo passo verso la realizzazione di un sistema di sorveglianza pandemica efficace ed efficiente. Ad alimentarlo non saranno solo dati provenienti da piattaforme digitali, in quanto molteplici sorgenti potranno essere sfruttate per costruire una banca dati multisettoriale. Si pensi al dato di natura biologica: in una recente intervista a The Harvard Gazette^{^[5]}, Michael Mina, professore di epidemiologia presso la Harvard T.H. Chan School of Public Health, ha proposto la raccolta sistematica di campioni ematici dalla popolazione da analizzare periodicamente per consentire la rapida identificazione di nuove minacce o monitorare l’evoluzione di patologie preesistenti. Tra i possibili input rientrano anche i dati di origine ambientale (composizione delle acque reflue per citare un esempio), che opportunamente analizzati potranno fornire informazioni utili a prevenire l’insorgere di nuovi patogeni.

Note

Bibliografia

[1] The Independent Panel for Pandemic Preparedness and Response, COVID-19: make it the last pandemic, May 2021,

https://theindependentpanel.org/wp-content/uploads/2021/05/COVID-19-Make-it-the-Last-Pandemic_final.pdf

[2] Ginsberg, J., Mohebbi, M. H., Patel, R. S., Brammer, L., Smolinski, M. S., & Brilliant, L. (2009). “Detecting influenza epidemics using search engine query data”, Nature, 457(7232), 1012-1014.

[3] Kandula, S., & Shaman, J. (2019). “Reappraising the utility of Google flu trends”, PLoS Computational Biology, 15(8), e1007258.

[4] Lopreite, M., Panzarasa, P., Puliga, M., & Riccaboni, M. (2021). “Early warnings of COVID-19 outbreaks across Europe from social media”. Scientific Reports, 11(1), 1-7.

[5] Espinosa, Laura and Wijermans, Ariana and Orchard, Francisco and Höhle, Michael and Czernichow, Thomas and Coletti, Pietro and Hermans, Lisa and Faes, Christel and Kissling, Esther and Mollet, Thomas, Epitweetr: Early Warning of Public Health Threats Using Twitter Data (3/22/2021). Available at SSRN: https://ssrn.com/abstract=3811673 or http://dx.doi.org/10.2139/ssrn.3811673

[6] Kogan, N. E., Clemente, L., Liautaud, P., Kaashoek, J., Link, N. B., Nguyen, A. T., … & Santillana, M. (2021). “An early warning approach to monitor COVID-19 activity with multiple digital traces in near real time”, Science Advances, 7(10), eabd6989.