Quali sono gli strumenti più utili per poter difendere i dati genetici delle persone fisiche? Ma, soprattutto, perché è importante farlo? A livello teorico si tratta di approcci ben noti, ma è bene approfondire in maniera specifica i più importanti.
Perché “difendere” il dato genetico
Il dato genetico, stando all’articolo 34 del GDPR, è il dato inerente “alle caratteristiche genetiche, ereditarie o acquisite, di una persona fisica, che risultino dall’analisi di un campione biologico della persona fisica in questione, in particolare dall’analisi dei cromosomi, dell’acido desossiribonucleico (DNA) o dell’acido ribonucleico (RNA), ovvero dall’analisi di un altro elemento che consenta di ottenere informazioni equivalenti”.
L’articolo appena menzionato ha rappresentato un grosso passo avanti, sia formale che sostanziale, nell’ambito del campo di applicazione e protezione dei dati delle persone fisiche. L’elenco dei dati particolari – prima noti come sensibili e sensibilissimi – enunciato dall’articolo 9 del Regolamento UE 2016/679 è il primo ad inserire espressamente il dato genetico, sancendo una differenziazione netta rispetto ad altre tipologie di dato fino ad allora utilizzate per raccogliere anche l’informazione genetica. Tale differenziazione non è questione solo “scientifica” o di manierismo, ma inficia notevolmente la capacità della normativa di difendere il dato genetico dalle enormi ingerenze che un suo utilizzo non autorizzato o sovrabbondante potrebbe comportare nei confronti dell’interessato.
Spesso, infatti, il dato genetico viene associato, per semplificazione, al dato inerente alla tutela della salute o a quello biometrico. Fermo restando che l’elenco dell’art. 9 del Regolamento è da considerare tassativo (e quindi non soggetto ad applicazioni analogiche), bisogna sottolineare che le informazioni genetiche vanno ben oltre lo stato di salute o i valori biometrici di un soggetto, potendo infatti essere utilizzati per estrapolare informazioni di molteplice natura (informazioni sui parenti che condividono il corredo genetico, informazioni sull’aspetto, informazioni a potenziale discriminatorio, ecc.).
L’importanza del dato genetico per la ricerca
Contemporaneamente, come noto, il dato genetico si inserisce all’interno di vari settori di importanza strategica sia per l’avanzamento della ricerca, sia per il mercato dei test genomici e delle analisi commerciali. Ad aiutare questa crescita, anche banalmente in termini economici, è stato l’enorme progresso compiuto per quel che riguarda la mappatura del genoma umano e la relativa riduzione dei costi inerenti ai test ed agli esami.
Risulta quindi necessario compiere uno sforzo, non soltanto normativo ma anche tecnico-pratico, al fine di tutelare nella maniera più soddisfacente possibile le persone fisiche rispetto alle ingerenze che questo crescente mercato potrebbe causare nell’ambito dei dati genetici. Il GDPR rappresenta un primo risultato, fondamentale ma anche insufficiente per una protezione efficace delle informazioni genetiche, non senza integrazioni più pragmatiche.
Valutazione del rischio e tecniche di accesso
Prima ancora di implementare mezzi di protezione del dato (quali anonimizzazione e pseudonimizzazione) è di fondamentale importanza per i Titolari, i responsabili e gli operatori del trattamento, adeguare i propri standard di elaborazione ed analisi dei dati genetici alle best practices suggerite dalle diverse Autorità Garanti.
Creare accessi precisi, trasparenti e tassativi ai dati
Un primo passo è quindi quello di creare accessi precisi, trasparenti e tassativi ai dati genetici, facendo in modo che solo alcuni operatori entrino in contatto per gli stessi e con motivazioni precise e stabilite in partenza. Tale approccio modulare potrebbe comportare difficoltà soprattutto nel campo della ricerca, ma rimane essenziale portare al minimo indispensabile le interazioni umane con il dato.
Creare un log e dei files di registro
Altra prassi da adottare è quella di creare un log e dei files di registro capaci di memorizzare analiticamente chi, quando e come vengono adoperati i dati inseriti nel repository del trattamento.
Usare la blockchain
Infine, c’è un sistema ancora non adeguatamente adottato ma di indubbio fascino, ossia quello dell’utilizzo della blockchain per il controllo e la diffusione (consapevole) dei dati genetici. Senza addentrarsi all’interno delle disquisizioni sulle DLT, è evidente che uno dei grandi problemi inerenti alla ricerca genetica risiede da un lato nelle potenzialità lesive delle ingerenze di aziende e ricercatori sui dati degli interessati, dall’altro sull’estrema lentezza e difficoltà di reperimento delle informazioni qualora si decidesse di adottare modalità di controllo dei consensi capillari (e spesso comunque inefficaci). La blockchain rappresenta uno strumento utile per decentralizzare il dato, rendere lo stesso univoco, protetto ma allo stesso tempo condivisibile e monitorabile all’interno della panoramica di trattamento. Sussistono dubbi etici, sia in merito alla sua eventuale monetizzazione, sia alla difficoltà tecnica di inserire in blockchain dati che possono arrivare a pesare fino ad un teraflop. La strada, però, sembra quantomeno tracciata.
Anonimizzazione del dato genetico
L’anonimizzazione è lo strumento per eccellenza nell’ambito del trattamento del dato, il quale viene per l’appunto “liberato” dal suo collegamento con l’interessato, scemando fortemente la capacità lesiva di eventuali leak ed al tempo stesso garantendone l’efficacia per il trattamento adottato dal Titolare o dal Responsabile. Questa panoramica, però, è molto meno scontata quando si parla di dati genetici.
Gli ostacoli
Un primo ostacolo è quello relativo all’utilità del dato genetico efficacemente anonimizzato. Nel campo della ricerca, soprattutto delle biobanche, si lavora sovente con analisi dei dati genetici corredati dalle cosiddette informazioni di follow-up, ossia lo stato clinico (storico e attuale) della persona fisica. Una correlazione sostanzialmente incompatibile con l’eventuale anonimizzazione. Ancora, a prescindere dalle modalità tecniche di anonimizzazione, il dato genetico risulta (in maniera forse lapalissiana per gli operatori scientifici, ma meno per gli esperti di privacy) estremamente “resiliente” a tali tecniche. Già nel 2018 uno studio sulla capacità di analisi dei dataset genetici anonimi aveva dimostrato la possibilità per i ricercatori di risalire con buona approssimazione al 60% della popolazione statunitense di origine europea, partendo da un pool di 1,28 milioni di campioni appunto anonimi.
Pseudonimizzazione
Sebbene l’anonimizzazione sia la tecnica di gran lunga preferibile, la pseudonimizzazione può offrire un contributo validissimo nell’implementazione di strumenti efficaci sia in termini di protezione del dato genetico, sia di capacità del dato di essere elaborato con efficacia da chi opera il trattamento.
Come noto, la pseudonimizzazione consiste nella trasformazione di un identificatore diretto in uno o più identificatori indiretti, con lo scopo di rendere il dato quasi impossibile da collegare alla persona fisica interessata.
I sistemi di RNG
Nell’ambito del dato genetico sono stati sperimentati, con risultati positivi anche se molto sensibili al contesto di utilizzo, i sistemi di RNG (Random Number Generator), Cryptographic Hash Function, Message Authentication Code e Counter. La tecnica del Counter – sostituzione dell’identificatore con numeri selezionati da un contatore monotono – è difficilmente applicabile nei dataset di grandi dimensioni, portando quindi ad un suo scarso utilizzo nell’ambito di attività di ricerca e trattamento su larga scala (che, però, sono frequentissime nel campo genetico).
La funzione crittografica di hash
La funzione crittografica di hash è un algoritmo matematico che mappa dei dati di lunghezza arbitraria (messaggio) in una stringa binaria di dimensione fissa chiamata valore di hash. Tale funzione di hash è progettata per essere unidirezionale (one-way), ovvero una funzione difficile da invertire. Purtroppo, però, la funzione non è impossibile da invertire: con degli attacchi brute force si può risalire alla funzione e sostanzialmente decrittare il dato. Come si può facilmente intuire, nel caso di banche dati genetiche il rischio di subire un attacco di forza bruta, vista la grande monetizzabilità del dato, non è da sottovalutare. La tecnica RNG, nota soprattutto per il suo utilizzo nei sistemi di gioco online, pur se più sicura della CHF presenta una percentuale di collisioni (ossia di duplici identificatori indiretti associati ad un unico pseudonimo) non trascurabile. In questo caso il suo utilizzo è preferibile per studi e trattamenti che non abbiano bisogno di precisione statistica.
La tecnica MAC
Infine la tecnica MAC, forse la preferibile, combina la funzione di hash ad una chiave segreta che rende di fatto impossibile la mappatura di identificativi e pseudonimi (a patto ovviamente di non conoscere la chiave).
Esistono ovviamente numerose altre tecniche di pseudonimizzazione, ma il fulcro di questa breve rassegna è quello di sottolineare come tutte quante, pur se utili e necessarie alla protezione del dato genetico, non sono da sole sufficienti. Ognuna di esse presenta pro e contro ed ognuna di esse si presta a determinate condizioni di grandezza della banca dati, scalabilità e necessità di operatività interdisciplinare.
Conclusioni
Il dato genetico, si è sottolineato durante la trattazione delle tecniche di anonimizzazione, presenta un’enorme capacità di essere comunque associato alla persona di fisica di riferimento, oltreché ai soggetti che condividano parte del suo corredo genetico. Parallelamente a questa capacità, il dato genetico risulta particolarmente “appetibile” in termini di monetizzazione ed egualmente sensibile a violazioni e leak comportanti forti ripercussioni su l’interessato danneggiato.
Rimane, quindi, necessario continuare a sviluppare tecniche di protezione del dato genetico capaci di ridurre al minimo le ingerenze e le violazioni di questa tipologia di informazioni, tenendo però a mente due punti fondamentali, che scaturiscono dalla fisiologica fallibilità degli strumenti di protezione in quanto tali.
Il primo punto è che nessun dato potrà mai essere davvero sicuro senza una policy adeguata e attenta al fattore umano operante sull’informazione: la tracciabilità delle operazioni, la limitazione degli accessi e la responsabilizzazione rimangono il primo caposaldo nella struttura di compliance privacy di un Titolare che tratti il dato genetico. Il secondo punto è l’intervento, anche di soft law, del legislatore nazionale ed europeo, in maniera da rendere più omogeneo l’intervento tecnico e umano sul trattamento del dato genetico, stabilendo criteri condivisibili e sinergici con quanto utile a difendere i diritti degli interessati.