L’AI per analizzare l'andamento contagi: lo studio italiano

È possibile capire quali fattori Influenzano l’andamento della variazione dei contagi da covid-19 nelle varie regioni? Uno studio ha utilizzato il machine learning per esaminare le correlazioni

Modelli di machine learning possono essere utilizzati per capire quali fattori sembrano influenzare l’andamento della variazione dei contagi nelle varie regioni.

Uno studio ha analizzato come il significativo aumento del quotidiano tasso di variazione del numero di nuovi casi Covid-19 nelle regioni Marche, Lazio e Sicilia fosse correlato con l’andamento dei tassi di variazione giornaliera del numero di nuovi Covid-19 delle altre regioni.

Intelligenza artificiale contro l’Alzheimer, tutti gli strumenti in campo

Indice degli argomenti

La genesi della pandemia: prime manifestazioni, fase 1 e fase 2

La pandemia 2020 di Covid-19 in Italia ha avuto le sue prime manifestazioni epidemiche il 31 gennaio 2020, quando due turisti provenienti dalla Cina sono risultati positivi al virus Covid-19 a Roma [1]. Il 21 febbraio 2020 è stato successivamente rilevato un focolaio di infezioni da Covid-19, a partire da 16 casi confermati in Lombardia, a Codogno in provincia di Lodi, bilancio salito a 60 il giorno successivo [2] con i primi decessi riportati negli stessi giorni.

Il 16 maggio 2020 sono stati registrati 224760 casi positivi, di cui 122810 guariti e 31763 morti a fronte di 2944859 tamponi effettuati.

L’Italia è risultata in quel periodo il sesto Paese al mondo per numero di casi totali registrati, dopo gli Stati Uniti d’America, la Russia, la Spagna, il Regno Unito ed il Brasile e è risultata anche il terzo paese al mondo per numero di morti [3, 4].

Per quanto riguarda le misure per contenere il contagio, l’Italia è stato il primo Paese europeo a sospendere tutti i voli diretti da e per la Cina, con una delle misure più drastiche nell’UE [4]. Una delle prime misure adottate è stata la quarantena di 11 comuni del nord Italia (in Lombardia e Veneto). Il 23 febbraio è stato emanato nella cosiddetta “fase 1” il decreto-legge n. 6, che ha sancito la chiusura totale dei comuni con focolai attivi e sospensione di manifestazioni ed eventi nei comuni stessi.

Nei giorni successivi il presidente del Consiglio dei ministri italiano Giuseppe Conte ha emesso una serie di decreti in cui le misure di restrizione sono diventate progressivamente più rigorose, estendendole gradualmente a tutto il territorio nazionale. Con il DPCM del 16 maggio 2020 è stata avviata la “fase 2”. Molte attività di vendita al dettaglio hanno ripreso ad esercitare in questa fase, inclusi bar, ristoranti e parrucchieri e alcune restrizioni sono state revocate, come il divieto di praticare sport all’aria aperta. In questa fase le autocertificazioni sugli spostamenti da presentare alle autorità competenti sono state momentaneamente sospese. Lo spostamento interregionale è stato concesso dal 3 giugno 2020 con ulteriore allentamento delle restrizioni [5].

Nel periodo che va da aprile 2020 a maggio 2020 abbiamo deciso di analizzare i tassi di variazione giornaliera di nuovi casi di Covid-19 nelle regioni italiane calcolati a partire dai dati sui nuovi contagi resi disponibili dal Ministero della Salute [5] per evidenziare eventuali correlazioni tra questi e i periodi in cui sono entrate in vigore la “fase 1” e la “fase 2”. Tale attività di analisi ha permesso di ricavare utili indicazioni su come le misure restrittive messe in atto nella “fase 1” e nella “fase2” abbiano impattato sull’andamento dei contagi nelle varie regioni italiane.

In particolare, si è cercato di capire come il significativo aumento del quotidiano tasso di variazione del numero di nuovi casi Covid-19 nelle regioni Marche, Lazio e Sicilia fosse correlato con l’andamento dei tassi di variazione giornaliera del numero di nuovi COVID-19 delle altre regioni italiane durante la “fase 1” e la “fase 2”.

I modelli di intelligenza artificiale e machine learning

A partire dai dati relativi a contagi, guarigioni e decessi messi a disposizione da varie organizzazioni che operano nel settore sanitario come la John Hopkins University [3] o il Centro di Protezione Civile Italiano [5] molti ricercatori hanno provato a stimare il progresso della pandemia attraverso l’uso di modelli predittivi o tecniche di analisi statistica.

Questi metodi si basano sia su modelli di intelligenza artificiale e machine learning [6-10] che su modelli statistici e modelli di analisi epidemiologica [11-14]. Nel primo caso, l’ostacolo principale da affrontare per arrivare ad un buon modello predittivo è dato dalla scarsità e dall’incompletezza dei dati disponibili [11]. Per quanto riguarda i modelli epidemiologici, quelli maggiormente utilizzati per fare previsioni utili sul numero di infetti, deceduti e recuperati sono il modello Susceptible, Infectious or Recovered (SIR) [12, 15-17] e il modello Susceptible Exposed Infected Recovered (SEIR) [13, 18, 19]. Anche in questo caso la mancanza di dati utili per la corretta definizione del modello, come quello sulla durata dell’incubazione o sulla durata dell’infezione, non permette di ottenere soddisfacenti risultati, soprattutto nel breve periodo [17].

Altri ricercatori hanno invece affrontato il problema di analizzare i dati disponibili al fine di fornire informazioni utili per identificare la migliore strategia di intervento per ridurre il numero di infezioni a livello nazionale. Il modello di Yanez et al. [20] basato su un modello di apprendimento per rinforzo, consente ad esempio di identificare gli interventi più efficaci (es. allontanamento sociale, chiusura scolastica, vaccinazioni, ecc.) per contrastare la diffusione dell’epidemia.

Anche il modello di Bonancini et al. [21] permette di valutare gli effetti delle misure prese durante il blocco in Italia.

Pluchino et al. [22] propongono invece un approccio basato sui dati per valutare il rischio epidemico a priori di alcune aree geografiche. Questo metodo si basa su tre principali variabili di studio date dal livello di pericolo, corrispondenti nel caso del Covid-19 al grado di diffusione del virus tra i vari Regioni italiane, al livello di esposizione della popolazione, ovvero la percentuale di popolazione che potrebbe essere stata infettata dal virus, ed al livello di vulnerabilità della popolazione.

Infine, altri studi che mirano a fornire informazioni utili su come arginare la diffusione dell’epidemia si basano sull’analisi dei social network utilizzando i dati forniti da dispositivi mobili utilizzati dalle persone [22, 23].

I dati a disposizione

I dati riportati nelle tabelle messe inizialmente a disposizione dal numero del Ministero della Salute italiano riportavano il numero di nuovi casi di Covid-19 per ciascuna regione, oltre al numero totale di pazienti ricoverati con sintomi, al numero totale di pazienti in terapia intensiva, al numero totale di coloro che sono stati sottoposti a isolamento domiciliare, al totale dei dimessi, dei deceduti, dei tamponi effettuati e dei casi esaminati.

Tali dati non consentivano di valutare parametri fondamentali per la definizione di modelli epidemiologici come il tempo medio di esposizione, l’incubazione media periodo e il periodo medio di recupero. Inoltre, i dati non erano sufficienti per produrre validi modelli predittivi a lungo termine tramite algoritmi di apprendimento automatico.

Per questo motivo, con questi primi dati disponibili, abbiamo deciso di mettere a punto un modello predittivo a breve termine che consentisse anche di identificare alcuni dei fattori correlati all’incremento nel numero di contagi nelle regioni Marche, Lazio e Sicilia.

I dati presi in considerazione sono quelli delle tabelle denominate “Situazione Italia” dall’8 aprile 2020 al 13 maggio 2020. In particolare, è stata considerata la colonna “Aumento casi totali rispetto al giorno precedente” per calcolare il tasso di variazione dei casi totali rispetto al giorno precedente attraverso il rapporto tra l’incremento dei casi totali giornalieri e l’incremento dei casi totali del giorno precedente.

Il valore di questo indice per ciascuna regione è stato approssimato a un numero intero e è stato associato alle seguenti tre classi:

R0: corrispondente al caso in cui il valore del tasso era uguale a 0, ovvero quando c’è stata una diminuzione del numero di nuovi casi;

R1: corrispondente al caso in cui il valore del tasso era uguale a 1, ovvero quando il numero di nuovi casi identificati rimaneva costante;

R2: corrispondente al caso in cui il valore del tasso era uguale a 2, ovvero quando c’era un raddoppio dei nuovi casi accertati;

R3: corrispondente al caso in cui il valore del tasso era uguale a 3, ovvero quando il numero di nuovi casi riscontrati si triplicava;

R4 +: corrispondente al caso in cui il valore del tasso era uguale a 4 o superiore, ovvero quando il numero di nuovi casi trovati aumentava di un fattore 4 o superiore;

Chiaramente R2, R3 e R4 + indicavano la presenza di nuovi focolai di entità diverse nelle regioni considerate.

Il tasso giornaliero di variazione del numero di nuove infezioni non deve essere confuso con l’indice di trasmissione R0 (numero di riproduzione di base) [24] che presuppone la preparazione di un modello di diffusione del virus (SIR o SEIR), ma questo è solo un indice di aumento del numero di persone infette. Nella tabella dei tassi di variazione di incremento del totale dei casi rispetto al giorno precedente, è stata aggiunta un’ulteriore nuova colonna relativa alla fase associata al giorno preso in considerazione (la “fase 1” la “fase 2” introdotte in precedenza).

L’analisi

I tassi di incremento giornalieri della regione Marche, della regione Lazio e della regione Sicilia sono stati scelti come attributi di classe su cui effettuare le previsioni, poiché lo studio effettuato intendeva rispondere a due domande fondamentali:

Quanto è correlata la variazione nell’aumento giornaliero delle infezioni in altre regioni con il significativo aumento dei contagi nelle tre regioni prese in considerazione?
Quanto è correlato il significativo aumento dei contagi nelle tre regioni prese in considerazione con il passaggio dalla “fase 1” alla “fase 2”?

Successivamente, è stato scelto un algoritmo di apprendimento di cluster non supervisionato come modello previsionale da addestrare per le tre regioni di studio. In particolare, è stato utilizzato il modello Growing Neural Gas [25]. Questo modello è in grado identificare con precisione la topologia dello spazio di ingresso, ovvero è in grado di identificare quali sono le variabili da prendere in considerazione per operare efficacemente la previsione di un attributo di classe. Nel caso di questo set di dati, una volta addestrato, questo modello è in grado di identificare, ad esempio, quali tassi di variazione regionali dei nuovi casi di Covid-19 devono essere presi in considerazione al fine di formulare una previsione sull’andamento dei contagi nelle tre regioni considerate.

Una volta che il modello GNG è stato addestrato, è stato possibile non solo usarlo per fare previsioni accurate nel breve periodo, ma è anche stato possibile identificare gli attributi non di classe maggiormente correlati a valori particolari dell’attributo di classe selezionato.

Utilizzando l’algoritmo di Girvan-Newman [26] sono state identificate comunità di nodi all’interno del modello addestrato di rete neurale auto-organizzante associato ad un livello R2 o superiore dei tassi delle tre regioni considerate.

L’algoritmo di Girvan-Newman identifica le comunità di nodi eliminando quei collegamenti caratterizzati dal maggior numero di percorsi più brevi che collegano ciascuno coppia di nodi.

Successivamente, attraverso l’utilizzo di una funzione tf-idf [27] sono stati individuati gli attributi più significativi all’interno delle comunità estratte di nodi. In questo modo sono stati individuati tutti gli attributi non di classe associati a un livello R2 o superiore del tasso di variazione giornaliero del numero di nuovi casi di Covid-19 nelle regioni Marche, Lazio e Sicilia.

Dall’analisi effettuata è risultato che i valori R0 e R1 del tasso di variazione di aumento dei casi totali rispetto al giorno precedente della regione Lombardia durante la fase 1 sembravano essere fortemente associati al valore R2 o superiore del tasso di variazione di aumento dei casi totali della regione Marche.

In effetti, come si può vedere dalla Fig. 1, si nota che quando il tasso di variazione dell’aumento dei casi totali della regione Lombardia si attestava attorno allo zero o all’unità, i livelli della regione Marche risultavano maggiori o uguali a 2. Il tasso della regione Marche in questi giorni sembrava discostarsi notevolmente dal valore della media nazionale.

Sia per la regione Lazio che per la regione Sicilia, la variabile “fase” non è stata invece presa in considerazione dal modello GNG nel fare le previsioni sull’andamento delle infezioni. Il valore R0 del tasso della regione Marche, il valore R2 del tasso della regione Emilia Romagna e il valore R1 del tasso della regione Piemonte risultavano per il modello previsionale addestrato essere correlati con valori R2 o superiori della regione Lazio. Valori R2 o superiori della regione Sicilia sembravano invece correlati al valore R2 della regione Toscana e al valore R3 della regione Abruzzo.

Figura 1 – Confronto tra i tassi di incremento giornaliero delle regioni Marche e Lombardia

In questi casi, però, si è rilevato che i tassi delle regioni Marche, Emilia-Romagna, Piemonte, Toscana e Abruzzo non sembravano discostarsi molto dalla media nazionale.

Ciò sembrava indicare che questi tassi erano sì fortemente correlati tra loro, ma non direttamente. L’alta correlazione potrebbe essere collegata in questo caso ad un fattore esterno che non è stato considerato nel presente studio.

Conclusioni

Questo studio preliminare sembra confermare l’ottima scelta del modello classificatore per effettuare la previsione dell’andamento dei contagi nelle diverse regioni italiane. Come già anticipato, tuttavia, tali modelli di machine learning, in presenza di scarsi dati disponibili per le varie regioni italiane, non possono certamente essere utilizzati per fare previsioni a lungo termine. Tuttavia, possono essere utilizzati per capire quali fattori sembrano influenzare l’andamento della variazione dei contagi nelle varie regioni.

L’identificazione delle correlazioni inoltre dovrebbe essere sempre accompagnata da uno studio statistico o epidemiologico che aiuti a fare luce sulle corrispondenze individuate.

Bibliografia

1. Anzolin e, E., Amante, A.: First italian dies of coronavirus as outbreak flares in north , in Reuters, february 21st 2020. https://web.archive.org/web/20200221225322/https://www. reuters.com/article/us-china-health-italy/coronavirus-outbreak-grows-in-northern-italy-16-cases-reported-in-one-day-idUSKBN20F0UI. Consultato il 18 maggio 2020

2. Ravizza, S.: Coronavirus: primi casi a Milano. Cosa sappiamo dei nuovi contagi in Lombardia, Veneto e Piemonte, in Corriere della Sera, february 22nd 2020. https://web.archive.org/web/ 20200222225105/https://www.corriere.it/cronache/20_febbraio_22/coronavirusitalia-nuovi-contagi-lombardia-veneto-245e72d4-5540-11ea-8418-2150c9ca483e.shtml. Consultato il 18 maggio 2020

3. Johns Hopkins CSSE, Coronavirus COVID-19 Global Cases, su arcgis.com. consultato il 25 febbraio 2020

4. Sciorilli Borrelli, S.: Politics goes viral as Italy struggles with outbreak, su POLITICO, february

25th 2020. https://www.politico.eu/article/politics-goes-viral-as-italy-struggles-with-outbreak/. Consultato il 18 maggio 2020

5. Covid-19 – Situazione in Italia. https://www.salute.gov.it/portale/nuovocoronavirus/ dettaglioContenutiNuovoCoronavirus.jsp?lingua=italiano&id=5351&area=nuovoCoronavirus&menu=vuoto. Consultato il 18 maggio 2020

6. Kumar, P., Kalita, H., Patairiya, S., Sharma, Y.D., Nanda, C., Rani, M., Rahmani, J., Bhagavathula, A.S.: Forecasting the dynamics of Covid-19 pandemic in top 15 countries in april 2020: ARIMA model with machine learning approach (2020)

7. Fong, S.J., Li, G., Dey, N., Crespo, R.G., Herrera-Viedma, E.: Finding an accurate early forecasting model from small dataset: a case of 2019-ncov novel coronavirus outbreak. Int. J. Interact. Multimedia Artif. Intell. 6, 51–61 (2020)

8. Santosh, K.: Ai-driven tools for coronavirus outbreak: need of active learning and crosspopulation train/test models on multitudinal/ multimodal data. J. Med. Syst. 44(5), 1–5 (2020)

9. Al-qaness, M.A., Ewees, A.A., Fan,H., Abd El Aziz, M.:Optimizationmethod for forecasting confirmed cases of covid-19 in china. J. Clin.Med. 9(3), 674 (2020). https://doi.org/10.3390/ jcm9030674

10. Punn, N.S., Sonbhadra, S.K.,Agarwal, S.: Covid-19 epidemic analysis usingmachine learning

and deep learning algorithms, medRxiv preprint doi: https://doi.org/10.1101/2020.04.08.200 57679. Accessed 11 Apr 2020

11. Pal, R., Sekh, A.A., Kar, S., Prasad, D.K.: Neural network based country wise risk prediction on COVID-19. arXiv:2004.00959v1 [q-bio.PE] (2020)

12. Ndiaye, B.M., Tendeng, L., Seck, D.: Comparative prediction of confirmed cases with COVID-19 pandemic by machine learning, deterministic and stochastic SIR models. arXIv:2004.13489v1 [q-bio.PE] (2020)

13. Tan, S.X.D., Chen, L.: Real-time differential epidemic analysis and prediction for COVID-19

pademic. arXiv:2004.06888v2 [q-bio.PE] (2020)

14. Kumar, P., Singh, R.K., Nanda, C., Kalita, H., Patairiya, S., Sharma, Y.D., Rani, M., Bhagavathula, A.S.: Forecasting COVID-19 impact in India using pandemic waves Nonlinear Growth Models, medRxiv preprint doi: https://doi.org/10.1101/2020.03.30.20047803. Accessed 8 Apr 2020

15. Das, S.: Prediction of COVID-19 Disease Progression in India Under the Effect on National Lockdown, arXiv:2004.03147v1 [q-bio.PE] (2020)

16. Freitas, A.S., Lacrose Sandes, S.S., Silva, L.S., New, S.I.R.: Model used in the projection of COVID 19 cases in Brazil, medRxiv preprint doi: https://doi.org/10.1101/2020.04.26.200 80218. Accessed 1 May 2020

17. Paggi, M.: Simulation of Covid-19 epidemic evolution: are compartmental models really predictive ? arXiv:2004.08207 [q-bio.PE] (2020)

18. Gupta, R., Pandey, G., Chaudhary, P., Pal, S.: SEIR and Regression Model based COVID-19 outbreak predictions in India, 2020 doi: https://doi.org/10.1101/2020.04.01.20049825. medRxiv preprint posted (2020)

19. Distante, C., Pereira, I.G., Gonçalves, L.M.G., Piscitelli, P., Miani, A.: Forecasting Covid-19 outbreak progression in Italian regions: a model based on neural network training from Chinese data. medRxiv preprint doi: https://doi.org/10.1101/2020.04.09.20059055. Accessed 14 Apr 2020

20. Yanez, A., Hayes, C., Glavin, F.: Towards the control of epidemic spread: designing reinforcement learning environments. ceur-ws.org/Vol-2563/aics_19.pdf

21. Bonancini, L., Gallo, G., Patriarca, F.: Drawing policy suggestions to fight Covid-19 from hardly reliable data. A machine-learning contribution on lockdowns analysis. https://hdl.handle.net/10419/216773

22. Rao, A.S.S., Vazquez, J.A.: Identification of covid-19 can be quicker through artificial intelligence framework using a mobile phonebased survey in the populations when cities/towns are under quarantine. Infection Control & Hospital Epidemiology, p. 18 (2020)

23. Torky, M., Hassanien, A.E.: COVID-19 blockchain framework: innovative approach. arXiv:2004.06081 [cs.CR]

24. Milligan, G.N., Barrett, A.D.T.: Vaccinology: An Essential Guide. Chichester, West Sussex: Wiley Blackwell. p. 310 (2015). ISBN 978–1–118–63652–7. OCLC 881386962

25. Fritzke, B.: A growing neural gas network learns topologies. In: Part of: Advances in Neural Information Processing Systems 7, NIPS (1994)

26. Girvan, M., Newman, M.E.J.: Community structure in social and biological networks. Proc. Natl. Acad. Sci. USA 99, 7821–7826 (2002)

27. Baeza Yates, R.: Modern Information Retrieval. Addison-Wesley Longman Publishing Co. (1999). ISBN 0–201–39829-X