I supercomputer, i big data e l’intelligenza artificiale si stanno rivelando strumenti fondamentali nella lotta contro la pandemia da Coronavirus. In tutto il mondo, ricercatori, aziende e governi stanno dedicando le più potenti risorse di supercalcolo nella corsa contro il diffondersi della pandemia.
Il panorama mondiale
Negli Stati Uniti, l’Oak Ridge National Laboratory (ORNL) sta dedicando Summit, il supercomputer più potente al mondo con oltre 148 petaflop (milioni di miliardi di operazioni al secondo) di capacità di elaborazione, per simulare la proteina “spike” del Coronavirus, che si ritiene possa essere la chiave della capacità di contagio del virus. Testando come vari composti interagiscono con la proteina spike, i ricercatori stanno cercando di trovare un modo per disabilitarne la replicazione.
Anche il sistema Stampede2, installato presso il Texas Advanced Computing Center (TACC), uno tra i primi 20 supercomputer più potenti del mondo, è in uso a supporto della ricerca nei confronti del COVID-19. Nei giorni scorsi sono stati annunciati i risultati di una ricerca condotta da un gruppo di ricercatori dell’Università di Boston, dell’Università della California di San Diego e dell’Università del Wisconsin-Madison, che hanno usato il supercalcolatore texano per studiare le interazioni tra il virus e le membrane delle cellule che lo ospitano a seguito dell’invasione.
In Cina, Tianhe-1, il primo supercalcolatore a raggiungere il livello petascale, è usato a pieno ritmo con due scopi principali. Un team di ricercatori ha addestrato un modello basato su tecniche di Intelligenza Artificiale che permette di distinguere nelle scansioni TAC la polmonite causata da COVID-19 da quella non-COVID-19. I ricercatori hanno riferito che il modello addestrato ha superato in accuratezza sia i tamponi di test che i medici radiologi. Un secondo team di ricercatori ha invece sviluppato un software che sfrutta la potenza di Tianhe-1 per prevedere l’andamento della diffusione del virus e di valutare l’effetto delle azioni di prevenzione e di controllo.
Utilizzando tecnologie come l’analisi dei big data, il sistema può prevedere rapidamente l’andamento dell’epidemia in aree geografiche chiave, in base alla situazione in tempo reale, fornendo avvisi tempestivi alle agenzie governative competenti.
Anche l’enorme piattaforma di calcolo denominata Folding@home si sta concentrando sull’analisi delle proteine del COVID-19 e sulle sue simulazioni di dinamica molecolare. Folding@home è un progetto che utilizza la capacità di elaborazione inutilizzata di oltre 100.000 macchine distribuite sull’intero pianeta di proprietà di volontari che mettono a disposizione il proprio computer per eseguire il software progettato per supportare la ricerca. La potenza di calcolo della piattaforma distribuita Folding@home, che si stima possa raggiungere fino a 100 petaflop, viene usata in questi giorni dai ricercatori per capire come si comporta la proteina del Coronavirus e come sia possibile riuscire a fermarlo.
Il panorama italiano e europeo
In Italia, Marconi, il supercomputer più potente del CINECA, sta elaborando continuativamente da oltre un mese al ritmo di 50 petaflop, ovvero 50 milioni di miliardi di operazioni al secondo, le simulazioni delle interazioni tra le proteine del Coronavirus e le molecole dei potenziali farmaci. Il supercomputer Marconi è in prima linea nella corsa contro il tempo per identificare una terapia efficace per combattere il Coronavirus. Attraverso lo screening virtuale di 10000 farmaci già approvati per l’uso nell’uomo (anche se impiegati per diverse indicazioni terapeutiche) e pronti per nuovi studi clinici permetteranno una risposta rapida all’emergenza generata dalla pandemia. Lo strumento utilizzato per lo screening virtuale è la piattaforma Exscalate, di proprietà di Dompé e sviluppata insieme al Politecnico di Milano e al CINECA.
Le attività, avviate oltre un mese fa, possono ora contare su 3 milioni di euro di fondi di ricerca assegnati al consorzio Exscalate4CoV (E4C), tra i vincitori del bando emesso dalla Commissione Europea per rispondere all’emergenza Coronavirus.
Il consorzio E4C è a trazione italiana, coordinato da Dompé Farmaceutici e aggrega 18 istituzioni e centri di ricerca da 7 paesi in Europa: Politecnico di Milano, CINECA (Supercomputing Innovation and Applications), Università degli Studi di Milano, Katholieke Universiteit Leuven, Istituto Internazionale di Biologia Molecolare e Cellulare in Varsavia (LIMCB), Elettra-Sincrotrone Trieste, Fraunhofer Institute for Molecular Biology and Applied Ecology, BSC Supercomputing Center, Forschungszentrum Jülich, Università Federico II di Napoli, Università degli Studi di Cagliari, SIB Swiss Institute of Bioinformatics, KTH Royal Institute of Technology, Associazione BigData, Istituto Nazionale di Fisica Nucleare (INFN), Istituto Nazionale per le Malattie Infettive Lazzaro Spallanzani e Chelonia Applied Science.
Il progetto E4C si propone di individuare, sfruttando la potenza di calcolo dei maggiori supercomputer europei, i farmaci più sicuri e promettenti per il trattamento immediato della popolazione già infetta a cui seguirà l’individuazione di molecole capaci di inibire la patogenesi del Coronavirus per contrastare i contagi futuri. Nel lungo termine, il progetto Exscalate4CoV ha come obiettivo stabilire uno standard scientifico sostenibile per dare risposte veloci a qualsiasi scenario futuro di pandemia.
La piattaforma Exscalate fronte virtuale contro il Coronavirus
Come riconosciuto anche dalla Commissione europea, che ha deciso di finanziare il progetto, la piattaforma Exscalate rappresenta un potente strumento per accelerare la fase iniziale di sviluppo di nuove terapie, chiamata “screening virtuale”. Attualmente Exscalate (EXaSCale smArt pLatform Against paThogEns) è la piattaforma di supercalcolo per la scoperta di nuovi farmaci più performante al mondo grazie alla sua “biblioteca virtuale” di 500 miliardi di molecole (attualmente la più grande biblioteca disponibile) in grado di valutare più di tre milioni di molecole al secondo. Quando si trattano numeri di molecole da analizzare così grandi, lo screening virtuale rappresenta per forza di cose la prima mossa. Si parte dalle strutture delle proteine del virus da sconfiggere e, usando tecniche computazionali intelligenti, queste proteine sono combinate virtualmente con le molecole dei potenziali farmaci.
Nel progetto E4C la ricerca è stata pianificata su due fasi. Una prima focalizzata su un database di dimensioni ridotte composto da 10.000 farmaci già disponibili per uso umano: se alcuni di essi si dimostrassero potenzialmente efficaci durante lo screening virtuale, lo sviluppo di terapie risulterebbe molto rapido. Nella seconda fase, lo screening virtuale sarà invece esteso a tutti i 500 miliardi di composti “tangibili” (cioè facili da sintetizzare) presenti nel database di Exscalate. Le interazioni più promettenti saranno quindi studiate e validate nelle fasi successive del processo di scoperta dei farmaci, che nel caso del Coronavirus dovranno essere accelerate il più possibile, data l’emergenza globale dovuta alla pandemia.
In passato il potenziale della piattaforma Exscalate è stato già testato per identificare rapidamente i farmaci contro possibili epidemie virali nell’ambito del progetto europeo Antarex, coordinato dal Politecnico di Milano. A gennaio 2019, durante il progetto Antarex, è stato simulato sul supercomputer Marconi al CINECA un caso di “urgent computing” per identificare possibili molecole candidate per il trattamento del virus Zika, che nel 2016 ha minacciato le Olimpiadi di Rio de Janeiro. È stato il più grande esperimento di screening virtuale mai simulato ed eseguito su un massimo di 1 milione di thread paralleli eseguiti con una potenza di calcolo di 10 petaflop. L’esperimento, a guida Dompé Farmaceutici, è riuscito a identificare molecole potenzialmente in grado di inibire cinque delle sette proteine virali del virus. Al momento queste molecole sono in fase di valutazione clinica in un laboratorio brasiliano, la fase preparatoria al rilascio della terapia.
Il progetto Antarex può essere definito un precursore di Exscalate4Cov e ha permesso di valutare procedure e accumulare esperienze molto utili sia per la ricerca su COVID-19, sia per ottimizzare i processi computazionali. Oggi il supercomputer Marconi, tra i 20 più potenti al mondo, sta già lavorando con una velocità 5 volte maggiore rispetto a quella disponibile solo un anno fa. Grazie ai recenti investimenti decisi dall’Italia e dall’Europa, il prossimo anno verrà affiancato da un nuovo supercomputer, Leonardo, che dovrebbe raggiungere i 150 petaflop di potenza di calcolo e collocarsi tra i 5 supercomputer più potenti al mondo. In queste evoluzioni tecnologiche, la continua collaborazione per lo sviluppo della piattaforma Exscalate di Dompé Farmaceutici da parte del Politecnico di Milano e di CINECA sembra essere la strategia vincente per accelerare il processo computazionale e massimizzarne l’efficienza sui supercalcolatori di nuova generazione.