Covid-19

Studi scientifici sul coronavirus, troppi errori: un aiuto dall’intelligenza artificiale

Da gennaio 2020 sono state pubblicate più di 10.000 opere accademiche sul Covid-19, di cui 3.500 preprint. La rapida condivisione di dati ha accelerato la corsa a vaccini, antivirali e test più efficienti, ma ha anche seminato confusione. L’IA può dare una mano a separare il grano dal loglio: l’esempio di SciFact

Pubblicato il 16 Giu 2020

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza

Thanks to Markus Spiske for sharing their work on Unsplash.

L’Intelligenza Artificiale – che permette ai computer di svolgere compiti e “ragionamenti” tipici dell’essere umano – giunge in soccorso del mondo della ricerca scientifica con degli strumenti e delle applicazioni che possono rivelarsi determinanti nel separare “il grano dal loglio”, ossia la verità dalle “fake news”, in un periodo cruciale monopolizzato dal Covid-19.

Indice degli argomenti

Lo strumento SciFact

Vagliare l’enorme quantità di letteratura scientifica che è stata prodotta in questi mesi sul Covid-19, per verificare se gli studi emergenti seguissero o meno il consenso scientifico – ossia la posizione della comunità scientifica in un particolare campo della scienza ed in un particolare momento storico – non è un compito facile. Dall’inizio della pandemia di Covid-19, vi è stata una marea di carte e documenti rilevanti, prodotti da persone con diversi gradi di competenza e controllati attraverso vari gradi di “peer review”, ossia attraverso una procedura di selezione di articoli, proposti da membri della comunità scientifica ed eseguita da specialisti nell’ambito in questione che ne valutano il contenuto circa l’idoneità alla pubblicazione^[1].

Questo ha reso il lavoro impegnativo per i ricercatori che mirano a far progredire la loro comprensione del Covid-19 e separare i fatti scientifici dalle notizie non veritiere. Lo strumento sperimentale in esame è denominato “SciFact”, sviluppato dall’Allen Institute for Artificial Intelligence (AI2), un istituto di ricerca senza scopo di lucro con sede a Seattle (USA). Tale strumento permette al ricercatore di digitare un’affermazione scientifica nella barra di ricerca, come ad esempio: “l’ipertensione è una comorbilità per il Covid-19” (l’ipertensione può causare complicazioni per i pazienti affetti da Covid-19). Con tale ricerca SciFact “popolerà” un feed (file di testo che permette di reperire nuovi contenuti pubblicati su un sito web) con documenti pertinenti, etichettati come supporto ovvero confutazione dell’affermazione. Lo strumento in esame mostra anche gli abstract (sintesi) di ogni documento e mette in evidenza le frasi specifiche al loro interno, le quali forniscono le prove più rilevanti per la valutazione dell’asserzione.

Scifact è costruito su una rete neurale artificiale chiamata VeriSci, formato su un dataset di fact-checking (verifica delle fonti) già esistente – compilato da Wikipedia – e messo a punto su un nuovo dataset di fact-checking scientifico contenente 1.409 affermazioni scientifiche, accompagnato da 5.183 abstract. I ricercatori di AI2 hanno curato quest’ultimo dataset utilizzando Semantic Scholar, un database di documenti scientifici disponibile al pubblico, che il mondo del no-profit ha lanciato nel 2015. I ricercatori hanno selezionato a caso un campione di articoli da alcune dozzine di riviste di biologia e medicina molto famose, tra cui Cell, Nature e JAMA. Hanno poi estratto le frasi degli articoli che includevano citazioni e hanno chiesto agli esperti di riscriverle in affermazioni scientifiche che potessero essere corroborate o contraddette dalla letteratura. Per ogni affermazione, sono stati analizzati gli abstracts delle citazioni corrispondenti e sono state identificate le frasi che contenevano prove a sostegno ovvero prove a confutazione.

Quando i ricercatori hanno testato la rete neurale artificiale VeriSci sulle affermazioni scientifiche relative al Covid-19, hanno scoperto che tale rete ha recuperato i documenti rilevanti e li ha accuratamente etichettati 23 volte su 36. Nonostante questa performance imperfetta, il risultato supera comunque la stessa rete neurale “addestrata” su altri database di fact-checking esistenti e serve come prima prova di concetto^[2] conosciuta di come un sistema basato sull’Intelligenza Artificiale per il fact-checking scientifico. In futuro, alcuni errori dello strumento potrebbero essere ridotti in parte grazie all’uso di ulteriori training data, che permettono “l’addestramento” del sistema. Altri errori invece avranno bisogno di ulteriori progressi nella comprensione del linguaggio naturale “umano”.

SciFact ha lo scopo di aiutare gli scienziati che fanno ricerca sul Covid-19 a verificare rapidamente le loro ipotesi o le “rivendicazioni emergenti” rispetto alla letteratura scientifica esistente. Tale sistema non ha lo scopo di dissipare il tipo di disinformazione o di teorie cospirative che circolano sui social media (ad esempio, che il Covid-19 sia un’arma biologica) o dichiarazioni basate sull’opinione (ad esempio, che il governo dovrebbe richiedere alle persone di stare a un metro e mezzo di distanza per rallentare la diffusione del virus). Data la natura sperimentale dello strumento, gli esperti dovrebbero comunque essere sicuri di leggere gli abstract piuttosto che affidarsi esclusivamente alle etichette di “supporto” e “confutazione”. I ricercatori hanno notato anche che Scifact non controlla la legittimità dei documenti recuperati, quindi gli esperti dovrebbero sempre esercitare il loro giudizio.^[3]

Un esempio di ricerca errata

Lo scorso aprile 2020 un gruppo di ricercatori della University of Stanford (USA) pubblicò un importante studio sulle infezioni da Covid-19 nella contea di Santa Clara, in California, le quali – stimarono i ricercatori – potevano essere 85 volte superiori alle stime ufficiali. Mentre il tasso di mortalità per il Covid-19 avrebbe dovuto essere dello 0,12%, mortale al pari dell’influenza stagionale.

Nel giro di poche ore, il documento fu sfruttato da commentatori e attivisti conservatori sui social media, foraggiando le proteste contro l’isolamento e gli altri sforzi di mitigazione sociale destinati a contenere il Covid-19 e ridurre al minimo i decessi (che negli USA hanno raggiunto cifre enormi). Non appena lo studio della University of Stanford andò online, iniziò subito a suscitare intense critiche da parte di altri esperti universitari. Dalla Columbia University, ad esempio, alcuni accademici suggerirono ai ricercatori della Stanford di fare un passo indietro. Si assistette al cosiddetto fenomeno editoriale del “preprint” (prestampa) – che emerge quando gli articoli vengono pubblicati molto prima della tradizionale forma di controllo di qualità accademica, la già esaminata peer review. I preprint non sono una novità per il mondo accademico, ma in questo periodo sono rifioriti con più vigore.

I preprint hanno lo scopo di aiutare gli scienziati a trovare e discutere nuove scoperte in tempo reale, il che è particolarmente importante durante una pandemia come questa. In genere esse recano una sorta di avvertimento: “Questa ricerca non è ancora stata sottoposta ad una peer review”. Per uno scienziato, questo significa che è una conoscenza provvisoria – forse vera, forse no, “forse grano”, “forse loglio”.

Da gennaio 2020 sono state pubblicate più di 10.000 opere accademiche sul Covid-19, di cui 3.500 preprint. La condivisione istantanea di dati preziosi ha accelerato la corsa ai vaccini, agli antivirali e ai test più efficienti. Ma questa marea di informazioni, in gran parte contrastanti, ha anche seminato confusione e discordanza con un pubblico non abituato all’alto livello di incertezza insito nella scienza.

Un epidemiologo di Harvard affermò che una corretta peer review avrebbe richiesto agli autori dello studio della University of Stanford di apportare importanti modifiche prima della pubblicazione. A Santa Clara i ricercatori aggravarono l’entità dei loro errori facendo arrivare le loro scoperte direttamente ai media. Errore cruciale. Ci furono almeno 480 commenti pubblicati sulla prima versione dello studio che andò online. La prima sollevò dubbi sulla metodologia dei ricercatori. Quella che seguì fu una escalation che colpì direttamente i ricercatori della University of Stanford, con i critici che sollevarono problemi anche sul metodo di reclutamento dei ricercatori (offerte di lavoro su Facebook), nonché sui difetti nei metodi statistici e persino sui test utilizzati, di derivazione cinese e non importabili negli USA.

I test sono noti per generare falsi positivi. Dato che lo studio della University of Stanford aveva originariamente identificato l’1,5% dei partecipanti come portatori degli anticorpi Covid-19, i critici sottolinearono che, in teoria, ognuno di essi avrebbe potuto essere un falso positivo. Inoltre, i test non furono approvati dalla Food and Drug Administration (agenzia federale USA che si occupa della regolamentazione dei prodotti alimentari e farmaceutici), tanto da spingere la U.S. House of Representatives (camera bassa del parlamento USA) ad aprire un’indagine su quattro fornitori di test anticorpali, tra cui la Premier Biotech, produttore dei test utilizzati nello studio della University of Stanford.

Quello che si è visto alla University of Stanford è quello che succede quando un risultato davvero importante di uno studio altrettanto importante viene messo sotto la lente di ingrandimento di un’intera comunità. Il tutto condito dal fatto che i mass media contrari alle misure di contenimento cavalcarono l’onda, a partire da Twitter. In pochi giorni erano già in voga hashtag come #ReopenAmerica, #FactsNotFear, #endthelockdown e #BackToWork. Con l’indirizzo web del preprint ritwittato più di 18.000 volte.

I pre-print e la scienza come propaganda

Ciò che questa “cascata di condivisioni” rivela riguarda da un lato la scienza, sfruttata come propaganda; da un altro lato riguarda il tipo di discussione e di dibattito tra il mondo accademico e la democrazia USA.

La condivisione delle informazioni da parte di una parte politica della popolazione statunitense dipende soprattutto dalla condivisione di “poche voci” da parte di molti seguaci. In un caso, un commentatore di Fox News prende per vero uno “studio” sul tasso di mortalità del Covid-19, tasso molto più basso di quello che il rinomato Anthony Fauci (immunologo e consulente del presidente Trump) aveva ipotizzato; oppure, in un altro caso, uno studio che dimostrava come il virus non potesse essere trasmesso all’esterno. Questo genere di informazioni è il pane quotidiano dei media tradizionali USA, ma aggira in maniera drastica le forme tradizionali di controllo come la peer review o il semplice fact-checking.

Tra i ricercatori e gli accademici USA i preprint sono stati condivisi e discussi all’interno di molti gruppi, ai quali fanno capo un minor numero di persone. Questo è il risultato ideale della pubblicazione di studi in preprint. In questo caso i preprint – come gli studi sull’efficacia dei farmaci antimalarici o gli studi clinici con i pazienti affetti da Covid-19 – sono di solito presi in considerazione dagli scienziati che discutono i loro meriti e risultati in tempo reale, diffondendoli via Twitter mentre inviano i documenti ai loro colleghi per una discussione.

I preprint non andranno via a breve e, in ogni caso, saranno più difficili da “sradicare” una volta passata la pandemia per i mass media. Tuttavia, è possibile che, a lungo termine, verrà corretto il modo in cui la scienza ha operato finora, ossia con studi nascosti pubblicati su costose riviste, permettendo di prendere alcune misure molto tempo dopo “il passaggio” delle pandemie. È possibile affermare che i preprint aprono un accesso alla scienza. Tuttavia, la scienza è “disordinata”. E in questo momento la gente vuole certezze: certezze che, tuttavia, la scienza non può dare… nel breve periodo.^[4]

Studi scientifici sul coronavirus, troppi errori: un aiuto dall’intelligenza artificiale

Lo strumento SciFact

Un esempio di ricerca errata

I pre-print e la scienza come propaganda

Articoli correlati

Codice Rss

Codice Rss