Lockdown di precisione, ecco il "simulatore contagi" a disposizione dei decisori

L’Istituto per le Applicazioni del Calcolo del CNR al lavoro su un software che bypassa i limiti dei modelli su larga scala. Adattandosi a specifici contesti come parchi, strutture ospedaliere, scuole. Vediamo come funziona a partire dallo studio pilota applicato alle aree verdi di Firenze

Modelli per descrivere l’evoluzione delle epidemie sono stati proposti ben prima della comparsa del Covid-19. In genere si basano su equazioni differenziali relativamente semplici che possono essere risolte analiticamente (in parole povere, con carta e penna) oppure numericamente al computer (può bastare un buon laptop). I risultati che producono sono ragionevoli da un punto di vista qualitativo, ma dal punto di vista quantitativo sono quasi sempre poco precisi. Ma è un problema superabile: ecco come.

Indice degli argomenti

Il nodo dei dati “inaffidabili”

Ad esempio, i modelli basati su equazioni differenziali sono in grado di riprodurre l’andamento del numero di decessi, con una crescita che all’inizio è quasi esponenziale, rallenta successivamente diventando quasi lineare, fino a raggiungere un livello stabile dove la crescita praticamente si arresta. Purtroppo è difficile, però, che tali modelli riescano a prevedere il valore al quale si arriverà (cioè il numero totale di decessi). Anzitutto, per giungere ad una formulazione analitica è spesso necessario assumere un elevato grado di omogeneità della popolazione, sacrificando quindi in parte l’aderenza del modello alla realtà.

Come evidenziato in un precedente intervento, spesso il motivo della scarsa precisione non va cercato tanto nella bontà del modello, quanto nella scarsa precisione dei dati forniti in input (il punto di partenza della simulazione, quello che gli americani chiamano effetto GIGO: Garbage In, Garbage Out). D’altro canto, avere dati precisi su grande scala, ad esempio quelli relativi ad un intero paese di circa 60 milioni di persone come l’Italia, non è sicuramente semplice, anche perché i dati diventano rapidamente obsoleti.

Se si considera una scala più limitata (ad esempio una singola città), il problema dei dati rimane, ma si semplifica, soprattutto se si possono sfruttare fonti già disponibili, controllate e costantemente aggiornate (magari per scopi completamente diversi). Inoltre una scala ridotta permette di porre domande più precise e fornire risposte più dettagliate, che sono poi quelle che interessano coloro che sono chiamati a prendere decisioni in caso di epidemie o altre situazioni critiche, tipicamente le autorità sul territorio.

Teoria dei grafi per contesti specifici

In questa prospettiva va visto il lavoro che sta svolgendo l’Istituto per le Applicazioni del Calcolo del Consiglio Nazionale delle Ricerche, per realizzare un simulatore del contagio (non necessariamente del Covid-19) adattabile a specifici contesti, ad esempio i parchi, le strutture ospedaliere, le scuole, per i quali si vuole simulare l’impatto di possibili misure di contenimento oppure capire in dettaglio, magari retrospettivamente, perché si sono verificate certe situazioni, in modo da prevenire il ripetersi di quelle più critiche (si pensi al caso delle RSA).

Il simulatore sviluppato implementa un modello per la generazione di reti che descrivono, su base probabilistica, le relazioni sociali e le interazioni tra gli individui di una popolazione di medie dimensioni (fino a qualche centinaia di migliaia di persone). Tali reti sono descritte tramite quello che, tecnicamente, si definisce un grafo: una serie di relazioni (archi) pesate tra individui (nodi) di una popolazione.

Il primo grafo permette di modellare la “socialità di base” (SB) del territorio considerato, ovvero l’insieme di rapporti personali utili a tarare comportamenti e schemi di interazione (e.g., simulare interazioni con familiari, amici o conoscenti), che dipendono anche dalla geolocalizzazione degli individui. La distribuzione geografica degli individui e i loro rapporti familiari sono ricostruiti a partire da dati pubblici sulla densità di popolazione e sulla conformazione dei nuclei familiari.

Le relazioni di amicizia sono invece stimate a partire da studi sociali precedenti, con correzioni volte a quantificare l’influenza di due principali parametri: la categoria di appartenenza degli individui (in prima approssimazione gli individui sono separati in quattro fasce di età: bambini, adolescenti, adulti, anziani) e la loro distanza.

Parco delle Cascine sotto la lente dei grafi

Oltre al grafo sociale SB, vengono definiti uno o più grafi di interazione su cui effettivamente simulare la diffusione del contagio. Al fine di isolare i diversi fattori che determinano i meccanismi di interazione tra le persone – e, quindi, il progredire dell’epidemia – è utile da una parte introdurre il concetto di “socialità aggregata” (SA), per condensare in un’unica rete tutte le interazioni difficilmente misurabili in maniera diretta, e dall’altra misurare l’impatto di singoli “contesti sociali” (CS) rispetto alla SA. A livello pratico, la SA è rappresentata da un grafo in cui l’esistenza di un arco tra due individui dipende unicamente dalla loro distanza nel grafo SB, mentre ogni CS è un grafo in cui ciascun arco corrisponde ad un’interazione sociale che tiene conto dei vincoli e delle caratteristiche di uno specifico luogo di aggregazione. Il software associa, sulla base di regole modificabili a seconda dei vari casi che si vogliono studiare, singoli individui, o gruppi, ai luoghi che definiscono il contesto sociale.

Per illustrare l’idea, possiamo considerare l’esempio di un parco pubblico. Nel nostro modello ogni individuo si recherà ad un parco con una probabilità che dipende dalla sua fascia d’età (o, più in generale, dalla sua categoria) e dalla sua distanza da uno specifico parco; se due individui sono entrambi al parco, la probabilità che tra loro vi sia un’interazione capace di trasmettere il contagio dipende da se e quanto i due individui si conoscono (ovvero in maniera proporzionale alla loro distanza calcolata sulla rete SB), dalla densità di individui in quel momento nel parco e da un coefficiente di pericolosità specifico dei vari luoghi di aggregazione all’interno del parco (e.g., una panchina è più pericolosa di un’area per praticare sport).

Se immaginiamo di simulare la diffusione del virus all’interno del parco in una data giornata possiamo per esempio calcolare cosa succede al variare del numero di contagiati che entrano nel parco. Oppure, possiamo effettuare diverse simulazioni di interazione sociale variando solo la densità di persone nel parco e capire come questa influenzi la diffusione del virus, o ancora contare quante (e quali) delle persone che sono andate al parco sono state contagiate alla fine di una giornata. Alternativamente possiamo simulare l’imposizione di misure di protezione individuale e/o di distanziamento sociale e vedere come cambia la diffusione, possiamo differenziare tali misure per fasce di età o cercare di isolare specifici gruppi. Più in generale, oltre a simulare la diffusione all’interno dei parchi, possiamo caratterizzare la diffusione su tutta la popolazione del modello facendo evolvere il virus anche nella rete SA: aprire o chiudere uno o più parchi porterà a scenari diversi di diffusione.

I dati utilizzati: le fonti

Abbiamo utilizzato l’esempio del parco perché lo studio pilota che è in corso utilizza dati molto dettagliati sui parchi e le aree di verde pubblico del Comune di Firenze. In particolare abbiamo a disposizione tutte le informazioni sui luoghi di aggregazione come aree giochi per bambini, aree per praticare lo sport, panchine, luoghi di ristoro, etc. che permettono di definire dei contesti sociali con grande precisione.

È inoltre possibile avere informazioni, anche se indirette, sull’effettiva frequentazione di un parco, almeno per alcune categorie di persone, utilizzando i log degli accessi alle reti WiFi pubbliche presenti nelle varie aree verdi (questi dati, è importante sottolinearlo, sono anonimizzati, così che sia assolutamente impossibile risalire all’identità di una specifica persona).

Il software sviluppato ed attualmente in fase avanzata di testing verrà reso disponibile gratuitamente ed in forma open-source in modo che possa essere non solo utilizzato ma anche attentamente controllato e, se possibile, esteso e migliorato da altri sviluppatori e ricercatori. Sarà inoltre resa disponibile un’interfaccia che permetterà di definire il contesto che si vuole simulare attraverso un comune browser, caricando gli elementi specifici relativi a quel contesto. È importante sottolineare che il software permette di mantenere una chiara distinzione, per ogni specifico contesto, tra quelle che sono ipotesi e quelli che sono invece dati reali (non ipotetici) utilizzati per la generazione dei risultati della simulazione.

I dati utilizzati sono molto variegati: oltre a quelli già citati che descrivono i contesti sociali (includendo, tra l’altro, la geolocalizzazione dei singoli luoghi), sono utilizzati i dati Istat sulle zone censuarie, ma anche quelli sulla densità di popolazione resi disponibili da Facebook (è evidente come questi ultimi vadano considerati con attenzione, perché potrebbero non rappresentare fedelmente tutte le fasce di età) o da progetti open come WorldPop.

Per quanto riguarda la parte epidemiologica, il software permetterà di personalizzare il modello utilizzato. Nella prima fase di test abbiamo considerato uno dei modelli classici del settore – il cosiddetto modello SIR – con una piccola modifica volta a distinguere gli individui guariti da quelli deceduti. In tale modello, ogni individuo si trova in una delle seguenti possibili condizioni:

suscettibile;
infetto;
guarito;

Come funzionano “nodi” e “archi”

Le transizioni di stato avvengono in una sola “direzione”: un nodo suscettibile può essere contagiato da un nodo infetto (se interagisce con esso) e diventare infetto a sua volta; un nodo infetto può, col tempo, guarire o morire con determinate probabilità. Le varie probabilità di transizione sono parametri liberamente controllabili dall’utente, che può anche aggiungere ulteriori stati e regole di transizione, ad esempio al fine di considerare casi più o meno gravi di contagio.

A titolo di esempio, consideriamo un insieme di simulazioni ottenute assumendo che:

al giorno 0 siano presenti 10 individui infetti nella popolazione di Firenze;
la probabilità di trasmissione del contagio in ogni interazione tra un individuo infetto e uno suscettibile sia 0,1 (ovvero, il 10%);
la malattia abbia una durata minima di 7 giorni, trascorsi i quali un individuo infetto può ogni giorno guarire o, al contrario, morire con una probabilità fissata dipendente dalla sua fascia d’età (per la guarigione, 50% per i bambini, 30% per gli adolescenti, 15% per gli adulti, 5% per gli anziani; per la morte, rispettivamente 0.001%, 0.01%, 0.1%, 1%);
il Parco delle Cascine sia fruibile in tre fasce orarie distinte, mattina, pomeriggio e sera, con numero di accessi variabile e pari, in media, a 500 persone al mattino, 1000 al pomeriggio, 200 alla sera.

Parco aperto, parco chiuso: effetti sui contagi

Nelle simulazioni confrontiamo due scenari:

Nel primo caso (linee piene nelle figure seguenti) ogni giorno generiamo un grafo SA che descrive l’insieme delle interazioni avvenute in città e facciamo evolvere l’epidemia su tale grafo.
Nel secondo caso (linee tratteggiate), al grafo SA del punto precedente “sommiamo” un grafo CS che descrive le interazioni aggiuntive che avvengono all’interno del Parco delle Cascine.

In altre parole, confrontiamo cosa avviene tenendo chiuso o aperto il Parco delle Cascine.

Nella Figura 1 assumiamo che ogni individuo abbia, in media, 5 interazioni al giorno al di fuori del parco. In questo caso vediamo che l’epidemia raggiunge il picco di contagi, pari all’80% della popolazione contemporaneamente infetta, al giorno 12. La percentuale di contagiati inizia quindi a decrescere, raggiungendo circa il 12% al giorno 30. Dopo 30 giorni circa il 2% della popolazione è deceduta, mentre circa l’85% è guarita dopo essere stata infetta. In questo regime, con 363060 individui che generano circa 900mila interazioni, l’impatto del Parco risulta trascurabile.

Nella Figura 2 assumiamo invece che ogni individuo abbia, in media, 1 sola interazione al giorno al di fuori del parco. Possiamo immaginare che questo scenario corrisponda all’imposizione di un regime di “lockdown”, seppur parziale. In questo caso vediamo che il picco di contagi è pari “solo” al 23% circa della popolazione e viene raggiunto al giorno 24, raddoppiando quindi il tempo trascorso dall’inizio dell’epidemia al picco. Al giorno 30 la percentuale di deceduti è inferiore all’1%, mentre più del 25% della popolazione è già guarita. Anche in questo regime, con circa 180mila interazioni, l’impatto del Parco è trascurabile.

Infine, ci concentriamo su una popolazione ridotta, composta dai 4mila nuclei familiari (circa 10mila individui) che risiedono più vicino al parco e che, quindi, si può assumere lo frequentino più spesso. In Figura 3 assumiamo sempre 5 interazioni medie al giorno a persona, generando un totale di circa 25mila interazioni giornaliere per il grafo SA. In Figura 4 riduciamo invece le interazioni medie giornaliere a persona ad 1, generando un totale di circa cinquemila interazioni giornaliere per il grafo SA. Dal confronto tra la Figura 3 e la 1 e tra la Figura 4 e la 2 deduciamo che l’andamento dell’epidemia dipende principalmente da quante interazioni ha ogni individuo ogni giorno e solo marginalmente dalla dimensione della popolazione. Dalla Figura 4, infine, deduciamo che in condizioni di lockdown piuttosto rigido, l’apertura o chiusura del Parco delle Cascine ha un impatto non trascurabile sulla popolazione che lo frequenta più spesso, con il picco dei contagi tra questa sotto-popolazione che aumenta di circa il 3%.

Uno strumento a disposizione dei decisori

Chiaramente, i risultati ottenuti sono puramente indicativi. Molti dei parametri considerati, tanto quelli che caratterizzano il virus quanto quelli che determinano le interazioni tra individui, richiedono studi più approfonditi (che sono attualmente in corso). Tuttavia, il piccolo esempio appena mostrato permette di avere un riscontro concreto sull’effetto di una politica di lockdown o sulle condizioni che rendono rilevante l’apertura o chiusura di un singolo luogo di aggregazione. Rendere pubblicamente disponibile un software di questo tipo significa fornire alla comunità uno strumento estremamente flessibile per simulare scenari concreti, testare ipotesi e guidare decisioni delicate.

Il software è sviluppato da: Stefano Guarino, Alessandro Celestini, Marco Cianfriglia, Enrico Mastrostefano, Davide Torre, Lena Zastrow e Massimo Bernaschi. Per maggiori informazioni è possibile contattare Stefano Guarino: s.guarino@iac.cnr.it

Fig. 1: intera popolazione di Firenze, 5 interazioni giornaliere a persona