Alphafold 2, l’ultimo sistema di intelligenza artificiale sviluppato da DeepMind, di proprietà di Google, ha compiuto un balzo enorme nel risolvere una delle più grandi sfide della biologia: determinare la forma 3D di una proteina dalla sua sequenza di amminoacidi.
Il sistema potrebbe essere in grado di fornire almeno per una grande classe di proteine la struttura tridimensionale con una precisione abbastanza elevata per essere in grado di aprire il campo della biologia strutturale di diversi ordini di grandezza.
La previsione del folding proteico significa infatti predire anche la funzione di nuove proteine e capire il malfunzionamento di altre che sono alla base di diverse malattie come nella malattia neurologiche (Alzheimer, Huntington e Parkinson) e in molti tipi di tumore.
Vediamo come nasce il progetto Alphafold 2 e perché è importante.
Il folding delle proteine, perché è importante
Le proteine rappresentano gli elementi costitutivi di base della vita poiché sono ciò che permette alla cellula di funzionare. Una proteina è essenzialmente una catena di aminoacidi. Ogni aminoacido, ne sono stati classificati 20, ha una determinata struttura. Sappiamo che le proteine possono essere costituite da decine di migliaia di questi aminoacidi disposti in catena. Quello che succede una volta che si è costituita questa catena di amminoacidi (struttura primaria) è che si ripiega creando delle curve la quali fanno assumere una peculiare forma nello spazio (struttura secondaria). Il modo in cui si ripiega può formare delle torsioni detta ad alfa elica oppure foglietti beta ripiegato mediante la formazione di legami intramolecolari. Questo meccanismo di ripiegamento tradotto inglese viene definito “folding”. Il folding non è solo un ripiegamento della proteina, ma ne determina anche la funzione. Da qui nasce l’enorme interesse nel conoscere come gli amminoacidi si dispongono in una struttura spaziale.
Le prime strutture complete di proteine furono determinate, a partire dagli anni ’50, utilizzando una tecnica in cui i fasci di raggi X vengono sparati su proteine cristallizzate e la luce diffratta tradotta nelle coordinate atomiche di una proteina REF.
La cristallografia a raggi X
La cristallografia a raggi X ha prodotto la maggior parte delle strutture proteiche che conosciamo oggi, presenta però diversi limiti nella sua applicazione. È molto costosa e prevede tempi molti lunghi: si parla di circa un anno per identificare il folding di una proteina. È per questo motivo che ad ora si conoscono solo 170.000 strutture nella forma tridimensionale. Negli ultimi anni, anche la microscopia crioelettronica è diventata uno strumento utile per molti laboratori di biologia strutturale perché in grado anche di studiare il folding proteico REF ma il suo contributo rimane ancora nella fase iniziale. Nuove strategie sono state pensate per migliorare la capacità di investigare la forma delle proteine nello spazio mediante tecniche di valutazione in silico.
I primi tentativi risalgono agli anni ’80 e ’90, ma la capacità computazionale di quel periodo non ha permesso di ottenere grossi risultati. Questo non ha fermato la ricerca che ha rinnovato la sua sfida negli ultimi anni impegnando notevolmente gli studiosi, perché capire come la struttura della proteina è ripiegata rimane un’importante risultato con un enorme significato in ambito biologico.
I contest internazionali e gli algoritmi applicati da Alphafold 2
Da qui l’iniziativa di proporre dei contest internazionali per confrontare le capacità computazionali di diversi gruppi di cui il più famoso è il Critical Assessment of Protein Structure Prediction (CASP) che mette a confronto attraverso una sfida a punteggio il miglior avanzamento nel campo della predizione delle strutture 3D delle proteine. Ed è in questa sfida internazionale che si è distinto l’approccio computazionale di Alphafold2 sviluppato dalla Deepmind Fig. 1, un team di scienziati, ingegneri, esperti di machine learning supportati da Google, che lavorano insieme per far progredire l’AI in diversi ambiti.
FIG.1 CASP contest negli anni
Gli algoritmi applicati da Alphafold 2 per predire il ripiegamento delle proteine hanno risolto le strutture proteiche con una velocita ed una precisione prima inimmaginabili. In alcuni casi, le previsioni della struttura di AlphaFold2 erano indistinguibili da quelle determinate utilizzando metodi sperimentali di riferimento come la cristallografia a raggi X.
Alphafold 2, come ci siamo arrivati
Questa storia inizia però qualche anno prima con la versione iniziale di Alphafold 1 presentata nel CASP del 2018, dove ha ottenuto la massima precisione nella predizione tra i partecipanti. Successivamente, il risultato con le specifiche della strategia è stato pubblicato sulla prestigiosa rivista Nature, ispirando altri lavori e implementazioni open source.
La strategia applicata per Alphafold 1 è possibile riassumerla attraverso due stadi in cui opera l’algoritmo. La prima parte è in sostanza definibile come un processo di machine learning (Fig.2), ed è la parte più importante per far predire all’algoritmo alcune caratteristiche fondamentali della sequenza amminoacidica come la probabile distanza tra gli amminoacidi attraverso metodiche di convolution neuronal networks.
FIG.2 ALPHAFOLD 1 primo stadio di valutazione
Per arrivare a questo risultato il sistema sottocampiona di volta in volta una ristretta sequenza di amminoacidi valutando da database delle proteine disponibili quali potenziali interazioni sono più probabili data la sequenza primaria, per poi ottenere una matrice completa di interazione tra gli amminoacidi sull’intera proteina.
Il secondo stadio prevede la modellazione mediante parametrizzazione con gli angoli di torsione predetti nel primo stadio (Fig.3), da qui è possibile ottenere la struttura nello spazio della proteina.
FIG.3 ALPHAFOLD 1 secondo stadio di valutazione
Per riassumere in parole più semplici, si parte da una sequenza lineare di amminoacidi per definire una probabile distanza di interazione degli aminoacidi applicando passaggi successivi in cui vengono valutati potenziali angoli di torsione, dopo aver imparato da migliaia di combinazioni possibile già conosciute per altre proteine, per arrivare a predire e modellare il folding della proteina dall’esperienza acquisita del sistema computazionale in esame.
Come è stato “addestrato” Alphafold 2
Invece dell’ultima versione di Alphafold 2 presentata all’ultimo contest del 2020 non si conoscono i dettagli che verranno a breve pubblicati. Quello che è stato riferito dal gruppo di Deepmind è lo sviluppo di un sistema di rete neurale basato su uno schema di lavoro mostrato in Fig.4.
FIG.4 ALPHAFOLD2 flusso di lavoro
Il sistema è stato addestrato con dati disponibili pubblicamente costituiti da circa 170.000 strutture proteiche da database di sequenze proteiche a cui è state aggiunta una valutazione di sequenze evolutivamente correlate della proteina analizzate attraverso un allineamento di sequenze multiple (MSA), partendo dal presupposto che gli amminoacidi fondamentali nel folding e nella funzione sono preservati nelle diverse specie e risultano essere più rilevanti. Per fare questo il sistema utilizza circa 16 TPUv3 processori di AI di Google (approssimativamente equivalenti a ~ 100-200 GPU). Ripetendo in continuo questo processo, il sistema è stato in grado di predire strutture altamente accurate nel giro di pochi giorni.
Conclusioni
Alphafold 2 permetterà di indentificare funzioni sconosciute di geni che le hanno codificate. Sarà possibile anche disegnare proteine in grado di ricostituire la funzione fisiologica di proteine compromesse oppure proporre meccanismi di rigenerazione tissutale mediante proteine preassemblate. L’interpretazione del folding proteico può avere quindi un enorme vantaggio per le scienze della vita e la medicina accelerando notevolmente gli sforzi per comprendere gli elementi costitutivi delle cellule, e consentire la scoperta di nuove funzioni e terapie in tempi più rapidi.