Come ti "mappo" le fake news sul Covid: i dati dell’osservatorio infodemico

L’Osservatorio Infodemico per il Covid ha fornito una mappatura mondiale della potenziale esposizione alla sovrabbondanza di disinformazione legata alla pandemia, disinformazione riguardo al Covid-19 raccogliendo e archiviando milioni di tweet al giorno. Ecco perché si tratta di uno strumento importante anche per i decisori

Con l’obiettivo di permettere a tutti i cittadini di essere il più consapevoli possibile riguardo la quantità di notizie potenzialmente inaffidabili in circolazione ogni giorno in un dato paese, l’unità di ricerca CoMuNe Lab, del Centro di Digital Society della Fondazione Bruno Kessler, ha voluto creare l’Osservatorio Infodemico per il Covid-19[8].

Online dal 10 marzo 2020, è stato migliorato nel corso di tutto il 2020 grazie al supporto e al confronto con l’Organizzazione Mondiale della Sanità col fine di fornire una mappatura mondiale della potenziale esposizione alla disinformazione riguardo al Covid-19 in circolazione attraverso la popolare piattaforma di micro-blogging Twitter.

Ecco di cosa si tratta e perché è stato necessario realizzarlo.

Le fake news sul vaccino diventano un business internazionale: i casi

Indice degli argomenti

Vivere in uno stato di infodemia

L’emergenza sanitaria associata all’epidemia di Covid-19 ha reso necessario, in tutto il mondo, che miliardi di cittadini venissero rapidamente informati ed educati riguardo ai comportamenti da seguire per evitare la diffusione del virus. Questo non è un compito facile in quanto, nei primi mesi dell’epidemia riguardo alle misure precauzionali, ma anche in questi ultimi mesi riguardo al tema delle vaccinazioni, le informazioni scientificamente supportate fornite dalle autorità sanitarie non sono state le uniche in circolazione.

Il tema del Coronavirus, di come prevenirlo e curarlo, è infatti diventato subito qualcosa di cui tutti parlavamo, sicuramente la notizia più importante in circolazione nei molti giorni di lockdown, durante il quale sui social media si parlava quasi solo di Covid e delle sue conseguenze sanitarie, sociali ed economiche. Quando allo stesso tempo si ha una grande abbondanza di informazioni riguardo a un argomento, e una parte di questa informazione non è corretta oppure è fabbricata appositamente per deviare l’opinione pubblica, allora si ha uno stato di infodemia [1].

L’infodemia è la sovrabbondanza di (dis)informazione che corre attraverso la nostra rete di contatti perché non sappiamo distinguere le informazioni affidabili da quelle inaffidabili. Questa diffusione è ulteriormente facilitata da una serie di fenomeni psicosociali: le fake news sono infatti caratterizzate da marcati contenuti emozionali [5] che ne facilitano la diffusione, così come spesso sono ri-postate, ri-twittate perché “qualora fossero vere, sarebbero interessanti” [2].

Le persone che trasmettono la disinformazione lo fanno spesso in maniera più istintiva che razionale [3] e il fatto di bersagliare ripetutamente con la stessa notizia rende più probabile che questa venga recepita come vera [4]. Infine, tutto il processo di diffusione su social media è esacerbato dagli algoritmi proprietari delle social media platform, che massimizzano l’engagement filtrando contenuti emozionalmente rilevanti [7], ma anche dall’architettura di reti di bot sociali [6] in grado di aumentare la diffusione dei contenuti più estremi e polarizzanti.

Come costruire un osservatorio infodemico per il Covid-19

Il sito web dell’osservatorio [8] è soltanto la punta di un iceberg costituito da molteplici processi automatici che vengono eseguiti quotidianamente. Ogni giorno, infatti, tramite le API pubbliche di Twitter e utilizzando una metodologia compatibile col regolamento europeo per la protezione dei dati personali, raccogliamo e archiviamo circa 4,5 milioni di tweet filtrati tramite parole chiave che identificano il discorso attorno alla circolazione del Covid-19 da un punto di vista medico (sars-cov-2, covid19, coronavirus, …).

Per mappare l’infodemia, questi messaggi vanno classificati in base sia alla provenienza geografica che al contenuto informativo. Circa il 50% dei messaggi sono associati con successo a una nazione di origine sulla base dell’origine geografica autodichiarata dall’utente nel suo profilo. Il contenuto dei messaggi è poi esaminato in cerca di link a pagine web di informazione giornalistica, o di notizie in generale. I domini di questi link sono confrontati con un database da noi costruito raccogliendo un grande numero di fonti diverse disponibili online [9] e classificati come affidabili (se proveniente da siti scientifici o di informazione giornalistica mainstream) o non affidabili (se proveniente da siti noti per diffondere fake news, contenuti cospirativi, clickbait, satira, o da siti di informazione giornalistica fortemente associati a una particolare corrente politica).

Grazie a questi processi automatici, diventa fattibile il duro compito di stimare il rischio infodemico nazionale, aggiornato giornalmente e su scala mondiale. La valutazione del rischio avviene sulla base di una stima di quanto gli utenti di un dato paese possano essere esposti a contenuti non affidabili. Il rischio è catturato da una singola quantità, che puo andare tra zero (rischio nullo) e uno (rischio massimo), che abbiamo chiamato IRI (Indice di Rischio Infodemico). L’IRI si calcola in base a quanti follower possono essere stati raggiunti da tweet, retweet o citazioni di messaggi non affidabili. Il rischio è calcolato dividendo l’audience massima stimata per le notizie inaffidabili per l’audience raggiunta da tutte le notizie, affidabili o inaffidabili, in circolazione. Se un contenuto non affidabile è condiviso da un influencer con un gran numero di follower, causa un importante aumento dell’IRI.

La nostra elaborazione necessita di due giorni, quindi ogni giorno forniamo su nostro sito [8] le mappe riguardo alla disinformazione in circolazione due giorni prima. L’informazione è presentata in forma di mappe e infografiche interattive, in un sito disegnato e realizzato utilizzando D3js dal nostro collaboratore Nicola Castaldo[10].

Grazie a un importante usability testing effettuato insieme ai nostri partners dell’OMS, il sito è stato modificato con numerose migliorie con l’obiettivo di ottimizzarne la leggibilità. È stato arricchito di una serie di informazioni supplementari aggiunte con lo scopo di orientare i policy makers nell’uso della piattaforma e nell’interpretazione dei dati visualizzati. Dati che sono anche disponibili per download tramite API [8] e tramite un repository pubblico [11].

Buone notizie

L’osservatorio infodemico, oltre a essere un utile strumento per i cittadini e i policy makers, si è rivelato per noi ricercatori della Fondazione Bruno Kessler una importante fonte di dati che ci hanno permesso e stanno permettendo di capire di più sulle dinamiche infodemiche. Uno dei risultati più di spicco deriva dall’analisi dell’andamento dell’IRI nel mondo nel corso dei primi due mesi della pandemia (22 gennaio -10 marzo 2020), e si tratta di una buona notizia.

In generale, quello che abbiamo osservato incrociando i dati di oltre 150 nazioni è che, quando il numero di casi giornalieri di Covid-19 è diventato importante nelle varie nazioni, il rischio infodemico è invece calato. Ovviamente alcune nazioni fanno eccezione rispetto a questo trend, come ad esempio il Brasile dove nel corso del 2020 il rischio infodemico è stato in costante ascesa. L’Italia invece è un esempio paradigmatico di paese dove il rischio infodemico è crollato dopo che i primi casi di trasmissione locale hanno portato l’attenzione pubblica maggiormente sull’argomento.

In principio, questo calo nel rischio infodemico a seguito della diffusione locale del virus potrebbe essere associato a diversi fattori.
Per il caso dell’Italia, abbiamo osservato in particolare:

Un generale aumento della consapevolezza critica, con conseguente spostamento di attenzione degli utenti che inizialmente condividevano fonti inaffidabili anziché fonti ufficiali;
L’entrata nella conversazione online di utenti, in precedenza non coinvolti nel tema, che diffondono informazione affidabile.

Più nel dettaglio, dopo i primi casi locali nel nord Italia (21 febbraio 2020), si è avuto un incremento di contenuti affidabili provenienti da utenti verificati che, grazie a un ampio seguito, sono stati in grado di dirigere il discorso condividendo informazione affidabile. Allo stesso tempo, anche gli utenti comuni si sono attivati alla ricerca di fonti più affidabili, fenomeno che è stato possibile tracciare osservando un incremento nelle ricerche su Google Trends dei nomi dei più popolari virologi italiani, Roberto Burioni e Ilaria Capua.