Nuovi strumenti di intelligenza artificiale applicati alla biologia possono aiutare i ricercatori a scoprire proteine precedentemente sconosciute e a progettarne persino di nuove. Potenzialmente, l’utilizzo dell’Intelligenza Artificiale nello sviluppo di proteine potrebbe contribuire a sbloccare lo sviluppo futuro di vaccini più efficienti, accelerare la ricerca di una cura contro il cancro e portare all’implementazione di nuove proteine fondamentali per l’uomo.
Il deep learning e le proteine
Ma facciamo prima un “passo indietro” di un biennio. Lo scorso 2020 la pioniera britannica del campo dell’intelligenza artificiale “DeepMind” (di proprietà di Google), ha colto di sorpresa un po’ tutti annunciando al mondo il suo “AlphaFold 2”, uno strumento di Intelligenza Artificiale che utilizza l’apprendimento profondo (cosiddetto “Deep Learning”, che si basa su reti neurali artificiali) per risolvere una delle grandi sfide della biologia, ossia prevedere con precisione la forma delle proteine. Peraltro, le proteine sono fondamentali per la vita degli esseri viventi (ed in primis per gli esseri umani); per cui la comprensione della loro forma è vitale per iniziare a “lavorarci su”. Secondo DeepMind il suo AlphaFold è ora in grado di prevedere le forme di tutte le proteine conosciute dall’uomo.
Ma se AlphaFold “vede e prevede” proteine esistenti, il nuovo strumento messo a punto dai ricercatori della University of Washington, “ProteinMPNN”, può addirittura progettarle da zero[1]. E stiamo solo parlando dell’ultimo esempio di come il Deep Learning stia rivoluzionando la progettazione delle proteine fornendo agli scienziati nuovi strumenti di ricerca. Tradizionalmente, i ricercatori “ingegnerizzano” le proteine modificando quelle già presenti in natura; ma ProteinMPNN, progettandole ex novo, potrà potenzialmente aprire un immenso varco in un universo sconosciuto per l’intera umanità.
AlphaFold, come l’intelligenza artificiale rivoluziona la biologia
In natura, le proteine risolvono praticamente tutti i problemi della vita, dalla raccolta di energia dalla luce solare alla creazione di molecole. Si può ben affermare che tutto in biologia avviene grazie a loro. Le proteine si sono evolute nel corso della storia per risolvere i problemi che gli organismi hanno dovuto affrontare durante l’evoluzione. Se potessimo progettare proteine che siano altrettanto brave a risolvere i nuovi problemi (ad esempio, nella lotta contro futuri virus) quanto quelle che si sono evolute nel corso dell’evoluzione lo sono a risolvere i vecchi problemi, sarebbe davvero eccezionale. Le proteine sono costituite da centinaia o migliaia di amminoacidi collegati in lunghe “catene”, che poi si ripiegano in forme tridimensionali. E mentre AlphaFold aiuta i ricercatori a prevederne la struttura, offrendo indicazioni sul comportamento delle proteine, ProteinMPNN aiuterà i ricercatori a risolvere il “problema inverso”. Se tali ricercatori avranno già in mente una struttura proteica esatta, il sistema li aiuterà a trovare la sequenza di amminoacidi che si ripiega in quella forma. ProteinMPNN utilizza una rete neurale addestrata su un numero molto elevato di esempi di sequenze di aminoacidi che si ripiegano in strutture tridimensionali.
Una proteina completamente nuova: le ricerche in corso su “constrained hallucination” e “in painting”
Ma i ricercatori devono risolvere anche un altro problema. Per progettare proteine utili per le applicazioni del mondo reale, come, ad esempio, un nuovo enzima che possa digerire la plastica, devono prima capire quale “catena dorsale” proteica potrebbe avere quella funzione. Per farlo, i ricercatori della University of Washington utilizzano due metodi di apprendimento automatico (Machine Learning), chiamati “constrained hallucination” ed “in painting”. “Constrained hallucination” consente agli utenti di effettuare una ricerca casuale tra tutte le possibili sequenze proteiche e di favorire le sequenze con determinate funzioni. Questa “allucinazione” permette di esplorare lo spazio di tutte le possibili strutture proteiche, grazie alla capacità dell’apprendimento automatico di “sminuzzare” vasti dataset. Esistono venti amminoacidi che possono essere combinati in un numero enorme di sequenze possibili. L’opzione “in painting”, invece, funziona come un “completamento automatico di Word” ad hoc per le strutture e le sequenze proteiche. Utilizzando questi metodi, i ricercatori possono creare una proteina completamente nuova che non è mai stata vista in natura, come una struttura gigante simile a un anello. Il team della University of Washington sta sperimentando se queste strutture ad anello possano essere utilizzate come componenti di piccole macchine che operano su scala nanometrica. In futuro, queste nano-macchine potrebbero essere utilizzate, ad esempio, per pulire le arterie (si pensi all’aterosclerosi). L’apprendimento automatico renderà l’intero processo molto più rapido e semplice e consentirà ai ricercatori di creare proteine e strutture completamente nuove su scala molto più ampia. Stiamo parlando di una tecnologia duecento volte più veloce del miglior strumento ad oggi a disposizione, che richiede un input minimo da parte dell’utente ed agevola notevolmente i ricercatori nella progettazione di proteine.
Conclusioni
Se due anni fa AlphaFold ha “lanciato” la biologia in una nuova era, risolvendo il problema della previsione della struttura proteica e dimostrando il ruolo trasformativo che l’Intelligenza Artificiale può svolgere in biologia, ProteinMPNN segue nel cambiamento dei precedenti paradigmi con la progettazione da zero di proteine finalizzate alla realizzazione di compiti specifici. Ora la vera sfida è: che cosa progettare di nuovo?[2]
Note
- ProteinMPNN excels at creating new proteins. Institute for Protein Design, University of Washington. https://www.ipd.uw.edu/2022/09/proteinmpnn-excels-at-creating-new-proteins/ ↑
- An AI that can design new proteins could help unlock new cures and materials. MIT Technology Review. technologyreview.com/2022/09/15/1059550/an-ai-that-can-design-new-proteins-could-help-unlock-new-cures-and-materials/ ↑