In questi giorni di tensione sentiamo spesso dire che la battaglia in corso contro il coronavirus non si combatte solo nelle corsie ospedaliere e nei laboratori, ma anche nei centri internazionali di super-calcolo.
Cerchiamo allora di spiegare ai non addetti ai lavori come le tecniche di Intelligenza Artificiale applicate alla bioinformatica possono aiutare a combattere l’epidemia. Partiamo dal fatto che la comunità scientifica cinese ha condiviso tempestivamente la sequenza genica del virus con il mondo intero. L’analisi completa del genoma del Covid-19, oggi disponibile in letteratura, rivela che questo virus condivide l’88% di sequenza identitaria con due coronavirus che infettano i pipistrelli[1].
L’Intelligenza Artificiale, e in particolare la computer vision, stanno già dando un contributo alla diagnosi, aumentando l’accuratezza delle diagnosi di Covid-19 formulate attraverso la tradizionale radiografia toracica, un risultato che ha diminuito la richiesta di test molecolari nella prima fase dell’epidemia.
Vediamo un esempio di applicazione dell’Intelligenza Artificiale alla ricerca sul coronavirus, con qualche semplificazione introdotta per motivi di spazio, e qual è il contributo dell’informatica italiana a questa battaglia determinante.
Trovare una cura per il coronavirus con l’Intelligenza Artificiale
Con l’esposizione mediatica di questi giorni, l’aspetto del coronavirus è ormai familiare a tutti: si tratta di un acido ribonucleico a singolo filamento, con un aspetto simile a una corona solare a causa delle punte superficiali lunghe 9-12 nanometri. Il genoma del coronavirus contiene le istruzioni per la sintesi delle principali proteine strutturali che sono presenti sull’involucro del virus stesso. Una di queste è la cosiddetta “proteina spike” (S) che costituisce la “punta di lancia” con cui il virus entra nella cellula ospite. I virologi ci insegnano che la produzione di queste proteine strutturali avviene in due passi: il genoma del virus contiene le istruzioni per produrre dei semilavorati (detti poli-proteine) che vengono poi “tagliati” in più pezzi per ottenere le singole proteine mature.
Il sezionamento viene eseguito da enzimi detti proteasi virali che spezzano le poli-proteine in alcuni punti di taglio predefiniti, costituiti da legami peptidici. Questi punti dove la poli-proteina è chimicamente più sottile, detti cleavage sites, sono fondamentali per la replicazione del coronavirus: se ad esempio l’operazione di taglio non avviene correttamente per la proteina spike, il virus rimane senza punta e non può perforare l’involucro delle cellule dell’ospite.
Molti ricercatori impegnati a combattere il coronavirus sono alla ricerca di farmaci che, disponendosi sui punti di taglio della proteina S, ne inibiscano la produzione. Non si tratta di un compito facile: il farmaco ideale deve aderire fortemente alla poli-proteina a monte e a valle del punto di taglio, e deve poi disporsi sul cleavage site neutralizzando l’azione della proteasi. In più, la struttura del farmaco non può essere arbitraria, perché il tempo stringe ed occorre evitare il lungo percorso dalla sperimentazione del farmaco in vitro a quella su modello animale e infine all’uomo. Per questo occorre in primo luogo verificare il comportamento di composti già sperimentati e registrati come farmaci (il cosiddetto repurposing).
Verificare in laboratorio che un farmaco abbia le proprietà desiderate è molto costoso, anche in termini di tempo e va fatto solo quando ci sono ragionevoli motivi di speranza. Anche la simulazione su computer è critica, perché richiede la definizione e la valutazione, per ogni possibile sovrapposizione tra farmaco e poli-proteina, di una sofisticata funzione di matching (detta affinità) che valuta l’interazione tra il farmaco e il bersaglio tenendo conto contemporaneamente dell’adesività ai margini e del corretto posizionamento tridimensionale alla giunzione. Per fortuna, il problema può essere riformulato in termini di elaborazione del linguaggio naturale (Natural Language Processing, NLP), ad esempio come il problema di stimare l’importanza di una parola in una frase quando siano note le parole che la precedono e la seguono (i contesti).
Per applicare l’Intelligenza artificiale a questi problemi NLP sono disponibili strumenti come BERT, rilasciato come open source da Google l’anno scorso. BERT usa un approccio basato su trasformazioni pre-calcolate per fare in modo che il contributo di una parola ad una funzione calcolata sulla frase che la contiene dipenda dai contesti che la affiancano. Per usare una variante dell’esempio proposto da Google stessa al momento del rilascio di BERT, se cerchiamo su Google la frase “2020 EU travelers to USA need a clearance,” la preposizione “to” è importante per il significato complessivo della frase (sono i viaggiatori verso gli USA a richiedere il nulla osta e non quelli dagli USA), mentre non lo sarebbe nella ricerca “Walmart gives free candies to children”. Invece di cercare di determinare il contributo di una parola al momento del calcolo della funzione di matching complessiva, con il rischio di scoprirla bassa (e di aver sprecato tempo di calcolo) BERT permette di pre-calcolarla, e rende quindi la verifica molto più veloce.
In termini della valutazione dell’affinità farmaco-bersaglio, oggi disponiamo di trasformazioni pre-calcolate per i “linguaggi molecolari” ricavati da decenni di dati, come SMILES, formato da circa 109 diversi composti.
È importante a questo punto specificare che la stessa funzione complessiva di affinità farmaco-bersaglio non è nota a priori, tramite una formula chiusa, ma viene approssimata da un modello neuronale, il cui addestramento può essere eseguito usando sequenze trasformate pre-calcolate come quelle di BERT. Si tratta comunque di un compito che richiede un’enorme potenza di calcolo per poter essere eseguito nel tempo ristretto che l’emergenza ci concede.
Il contributo dell’informatica italiana
L’esempio precedente dovrebbe aver messo in luce l’importanza del cosiddetto “urgent computing”: poter usare i supercalcolatori per supportare la ricerca quando il tempo è strettissimo. I supercalcolatori disponibili in Italia come Marconi, del consorzio inter-universitario italiano CINECA, hanno immense potenze di calcolo, e possono eseguire milioni di miliardi di operazioni al secondo.
In questa prima fase, super-computer come Marconi stanno simulando il comportamento delle proteine codificate dal genoma del Covid-19, e in particolare di quelle che gli permettono di replicarsi (come la proteina S) in modo da poter poi testare virtualmente le molecole farmaceutiche più efficaci a inibire il virus, e passare alla fase di validazione in laboratorio accelerando la produzione di farmaci efficaci.
Secondo i dati del Cineca, ciascuna proteina richiede almeno una settimana di simulazione continua sui 16 nodi del supercomputer. I risultati delle simulazioni saranno poi analizzati tramite la piattaforma Exscalate, nata da una collaborazione tra Cineca, la casa farmaceutica Dompè e i colleghi del Politecnico di Milano.
Exscalate è stata sviluppata nel contesto del progetto Antarex, finanziato dalla Commissione europea. Rispetto ai sistemi precedenti, Exscalate può contare su un “linguaggio chimico” di 500 miliardi di molecole a cui i ricercatori possono attingere per simulare l’affinità farmaco-bersaglio, ed è in grado di valutare di più di tre milioni di molecole al secondo.
Anche se Exascale permette l’urgent computing farmacologico, va sottolineato che una piattaforma così non si improvvisa: il progetto è nato nel contesto di uno studio avviato più di 15 anni fa. Recentemente, la Comunità europea ha lanciato una richiesta di manifestazioni di interesse per progetti di ricerca finalizzati a garantire una risposta efficace e coordinata all’emergenza, a cui le strutture di super-computing del Cineca di Bologna e quella catalana di Barcellona, che hanno all’attivo specifiche competenze nell’ambito delle scienze della vita, si sono rese disponibili a collaborare. Anche i gruppi di lavoro dei Consorzi Interuniversitari di Ricerca, come quello su High Perfomance Computing del CINI, sono pronti a fare la loro parte.
______________________________________________________________________
- Sulla base dei dati in letteratura, sembra che COVID-19 sia stato inizialmente ospitato da pipistrelli e trasmesso all’uomo tramite pangolini o altri animali selvatici venduti al mercato ittico di Huanan, con successiva diffusione mediante trasmissione da uomo a uomo. ↑