Scienze omiche

Big data e Sanità 5.0: i progetti sulla genomica dell’Istituto Italiano di Tecnologia

L’Istituto Italiano di Tecnologia è oggi in grado di sequenziare tra i 90 e i 100 genomi alla settimana, che significano nuovi dati da analizzare: le prospettive, il progetto 5000 genomi in Valle d’Aosta, come vincere le sfide della Sanità 5.0 in Italia

Pubblicato il 25 Ago 2022

Andrea Cavalli

Vicedirettore scientifico Istituto Italiano di Tecnologia

dna-leak

Oggi viviamo nella datasphere, un ambiente virtuale in cui i dati vengono prodotti e stoccati. Sembra già un fenomeno vecchio, ma abbiamo iniziato a parlarne solo dal 2010. Dai pochi dati a disposizione a livello mondiale, si è sviluppata una produzione esponenziale fino alla previsione, nel 2025, di un triliardo di dati generati ogni anno, 175 zbite per la precisione.

Davanti a questi numeri, dobbiamo riconoscere che il dato sta permeando la nostra quotidianità in maniera massiccia e questo riguarda anche l’ambito sanitario, seppur con alcune difficoltà.

Sanità 4.0 con AI e big data: ecco cosa ne frena davvero lo sviluppo in Italia

La rivoluzione dei big data in sanità

I big data sono set di dati complessi e non convenzionali, che richiedono strumenti avanzati per essere analizzati. Tutti i dati di cui disponiamo nel mondo sono stati creati negli ultimi 3-5 anni: oggi ci sono molti più device che esseri umani. Nei prossimi anni, è previsto l’arrivo di miliardi di device, in grado di produrre dati in tempo reale, ufficializzando la comprensione concreta di quello che può essere il valore dei dati soprattutto in alcuni ambiti come medicina e sanità.

In ambito sanitario, l’introduzione dei dati può essere riconosciuta come la più grande rivoluzione dopo l’avvento della medicina molecolare, che possiamo datare dopo la fine dell’800. In gergo si parla di sanità 4.0, che ormai ha lasciato il passo a quella 5.0, per indicare un contesto all’interno del quale convergono un certo numero di dati: pensiamo soprattutto ai dati genomici o a tutto il materiale contenuto nelle cartelle dei pazienti, che sono ancora lontane dall’essere analizzate con semplicità e velocità.

Sette anni fa, sulla rivista Plos Biology, è uscito un articolo che poneva a confronto la mole di dati prodotti in ambito scientifico con quella prodotta dai social, Google e Internet in generale. I risultati parlavano chiaro: l’ammontare di dati derivanti dall’ambito scientifico supera di gran lunga quello prodotto da Internet, che comunque rappresenta buona parte dei dati in circolazione, con particolare focus sull’ambito omico e genomico, con il sequenziamento dei genomi come fonte principale.

L’evoluzione della genomica

La possibilità di sequenziare il genoma umano ai fini di ricavare informazioni precise sul nostro DNA ed eventuale familiarità, ereditarietà con specifiche malattie, ha segnato uno dei principali cambiamenti in termini di produzione di dati.

Non più lontano di sette anni fa uno fra i più noti istituti di analisi genomiche del mondo, il Beijing Genomics Institute – BGI di Pechino, aveva analizzato in un anno 166 sequenze genomiche, mentre la somma di tutte le sequenze genomiche analizzate dai principali centri di ricerca genomica del mondo era di 576.

Il primo genoma sequenziato risale a 20 anni fa, con un investimento complessivo di 100 milioni di dollari, e fu pubblicato contemporaneamente sia dalla rivista scientifica Nature che da Science. Oggi il più grande progetto di genotipizzazione della popolazione è stato concluso a fine 2021 con il progetto “Genomics England”, in cui sono stati sequenziati 100.000 genomi in un anno contro i 576 di 7 anni prima. L’Inghilterra prevede di monitorare 5 milioni di genomi di inglesi entro il 2023, con una spesa che è scesa a meno di 1000 dollari per genoma, più verosimilmente 700 dollari a genoma.

Numeri che evidenziano l’accelerazione tecnologica incredibilmente veloce, che in pochi anni ha spinto ulteriormente anche la produzione di dati. Ogni singolo genoma conta 3 miliardi di coppie di basi, ogni genoma cuba 150 -200 gigabite: man mano che la genomica aumenterà le performance, anche l’efficienza di produzione di questi dati aumenterà.

Oggi all’Istituto Italiano di Tecnologia siamo in grado di sequenziare tra i 90 e i 100 genomi alla settimana, che significano nuovi dati da analizzare.

Ma la genomica rappresenta solo una delle scienze omiche che comprendono anche la lipidomica, la metabolomica, la proteomica, trascrittomica, metagenomica. Qualsiasi laboratorio di bio analitica di un ospedale possiede oggi delle strumentazioni che, dal singolo prelievo di sangue di un singolo paziente, in poco più di 20-40 minuti possono produrre dati corrispondenti ad un centinaio di lipidi, 200 metaboliti e oltre 1000 proteine.

Gli esami del sangue di routine prevedono solitamente una quindicina di parametri: immaginate questi dati come il moltiplicatore di quello che già da oggi sarebbe possibile per ogni paziente.

Le priorità per la gestione dei big data

Quindi ci troviamo di fronte ad una vera e propria rivoluzione del big data, non ancora colta perché ci sono dei problemi infrastrutturali piuttosto importanti, legati soprattutto alla gestione e all’analisi di questi dati.

Un ambito che incide ulteriormente sulla produzione dei dati è l’imaging: pensiamo ad analisi ospedaliere come le PET, le TAC, i raggi X che producono rispettivamente dati dell’ordine dei gigabyte e dei megabyte.

Di conseguenza, la sanità 4.0 si porta dietro la necessità di un’importante rivoluzione in ambito informatico: se però pensiamo all’informatica oggi associata alla medicina, è praticamente assente.

Invece bisognerà procedere a raggiungere al più presto sistemi di storage ad alta capacità e performance, strategie di backup e disaster recovery, far fronte ad un’urgente necessità di cybersecurity e necessità di utilizzare, acquistare e saper far funzionare macchine ad alte prestazioni, il cosiddetto high performing computer.

In IIT, a questo proposito, quando siamo partiti con le scienze omiche nel 2020, abbiamo installato immediatamente uno storage ad alta capacità, in questo caso 5 petabytes, con una macchina in grado di analizzare i dati in tempo reale.

Entro il 2023, raddoppieremo la potenza di storage e di calcolo e con il data transfer dai 40 gigabyte in su scenderemo da 4 ore necessarie per l’analisi di un genoma a 22 minuti. È necessario un impegno complessivo del nostro Paese in questa direzione, perché senza la crescita di infrastrutture adeguate non potremo parlare di Sanità 4.0 o 5.0 in Italia.

La gestione dell’Electronic Medical Records

L’altro grosso limite nell’implementazione della sanità di nuova generazione nel nostro Paese è la gestione non omogenea dell’Electronic Medical Records, cioè di dati molto importanti che possono permettere analisi longitudinali per ogni singolo paziente, ma che per ragioni di privacy spesso sono soggetti a regole molto stringenti che ne rallentano la diffusione. Il problema in realtà è a livello europeo.

Quattro anni fa fu fatta un’analisi degli Helmutz Center, parte dell’Associazione Helmholtz, la più grande organizzazione scientifica in Germania, che conta circa 30.000 dipendenti: uno dei pochi limiti identificati dai revisori di questa realtà super performante era proprio legato alla difficoltà di fare un buon uso dei dati ricavati dai pazienti per creare nuovi strumenti di diagnostica. Il problema è trasversale in tutta Europa.

Il progetto 5000 genomi in Valle d’Aosta

L’altro grosso scoglio che va superato è la costruzione dei processi. Noi circa due anni fa abbiamo dato il via al “Progetto 5000 genomi” in Valle d’Aosta in cui ambiamo a sequenziare il genoma di 5000 valdostani con focus su tre ambiti terapeutici: oncologia, malattie del neurosviluppo (autismo) e malattie neurodegenerative (Parkinson e Alzheimer).

La più grande complessità nel mettere in piedi un progetto di Sanità 4.0 basato sui dati, è stata quella della costruzione del processo. Ad esempio, in ambito oncologico abbiamo dovuto reclutare ricercatori che avessero l’autorizzazione da parte della sanità locale e dei chirurghi di entrare in sala operatoria per mantenere una piccola parte di tessuto tumorale o presunto tumorale in condizioni specifiche durante una biopsia o un prelievo.

Infatti, il campione per le analisi omiche è diverso rispetto al campione che viene mandato ad anatomia patologica: tessuto fresco, conservato in azoto liquido, su cui si procede a fare il genoma completo del tessuto tumorale per l’identificazione di varianti strutturali di tipo oncologico.

Dopo di che, il tessuto viene spedito in un laboratorio genomico costruito ex novo in Valle d’Aosta per poter fare l’analisi dei dati omici di tipo bioinformatico, basata su high computer performing e big data storage. Quindi, il dato finale viene riportato all’oncologo per una diagnosi accurata e un trattamento farmacologico personalizzato. Da qui possiamo affermare che l’AI in medicina è l’anticamera della medicina di precisione.

Abbiamo costruito anche un database di electronic medical records in collaborazione con la Regione Valle D’Aosta e il partner tecnologico del progetto, l’azienda Engineering D.HUB: abbiamo ricostruito un fascicolo sanitario elettronico in modo che i dati potessero essere estratti insieme ai dati genomici per fare una correlazione genotipo – fenotipo e indirizzare ancora più verticalmente l’analisi terapeutica. Il backup viene fatto a centinaia di chilometri di distanza, a Vicenza, perché così deve essere.

Conclusioni

Fino ad alcuni anni fa, l’analisi era limitata a pochissime sequenze che si sapeva potessero avere impatto su malattie oncologiche e neurodegenerative: oggi si parla dell’intero genoma, ma ancora siamo alla punta dell’iceberg che riguarda l’intera omica, che ha un impatto notevole sull’implementazione dei dati raccolti e sull’evoluzione concreta della medicina di precisione.

In conclusione, l’AI ha un enorme potenziale nella sanità 4.0 e auspichiamo di poter andare avanti a sondare nuove strade, supportati da leggi più all’avanguardia e tecnologie di ultima generazione per la salute di tutti e tutte.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Analisi
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati