il fenomeno

Banche dati del DNA: utili alla polizia, pericolose per la privacy: ecco perché

I casi GEDmatch, Veritas Genetics e MyHeritage indicano chiaramente come la tendenza alla condivisione dei dati del DNA online possa creare rischi per la privacy di tutti, anche di chi non sceglie di condividere le proprie informazioni. Facciamo una panoramica sulle principali violazioni e sulla normativa di settore

Pubblicato il 26 Nov 2019

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza

Le banche dati di Dna sono un fenomeno crescente, negli Stati Uniti. Da una parte, stanno dando nuovi strumenti alle forze dell’ordine per trovare criminali, con indagini di genetica forense, come confermato anche da eventi recenti.

Dall’altra queste banche espongono però a numerosi rischi privacy riguardanti i nostri dati genetici, investendo i diritti e le libertà degli interessati. Ossia per coloro che sono i “proprietari” del DNA e del patrimonio informativo annesso e connesso.

Diversi sono stati, come vedremo, i casi di violazione dei database oltreoceano. Occupandoci della parte meramente normativa, esaminiamo quindi quali sono i “risvolti pratici” più recenti che hanno interessato il mondo delle banche dati dei DNA, e quali sono le principali normative che regolano il settore

Indice degli argomenti

Cos’è il DNA

Ma per capire quanto sia delicato il tema, dobbiamo ricordare la centralità del Dna. Il Dna – acronimo di “acido desossiribonucleico” – è una macromolecola composta da nucleotidi (molecole organiche che compongono gli acidi nucleici) cui è affidato il trasporto del codice genetico; esso costituisce la sostanza fondamentale del gene ed è responsabile della trasmissione dei caratteri ereditari di una persona.

L’utilizzo del DNA è da molti decenni diffuso in diversi campi: analisi di malattie genetiche, criminologia e genealogia genetica, per citarne alcuni. Quando una moltitudine di “profili di DNA”, appartenenti ad altrettante persone fisiche, è strutturato a mo’ di archivio, si parla di “Database” o di “Banca Dati” del DNA. Per citarne alcuni, sono diffusi sia Banche Dati in ambito medico, utili a scoprire le interazioni tra l’ambiente genetico e l’insorgenza di alcune malattie (come le malattie cardiovascolari o il cancro), e quindi trovare nuovi farmaci o trattamenti efficaci nel controllo di queste malattie; sia in ambito forense a livello nazionale, banche dati finalizzate a produrre corrispondenze tra le persone sospettate di reati e i marcatori biologici presenti sulla scena del crimine, per poi fornire prove a supporto delle indagini penali ed identificare i potenziali sospetti.

Caratteristiche e utilizzo del DNA

Con l’avanzata della tecnologia, le prove del DNA vengono utilizzate in un numero sempre maggiore di procedimenti penali rispetto al passato. Ma l’idea di prendere le prove del DNA e utilizzarle per risolvere i crimini ha portato a controversie in diverse nazioni, ed ha sollevato un dibattito interessante tra i politici, l’opinione pubblica ed organizzazioni per le libertà civili. Il DNA esiste in tutte le nostre cellule viventi, è unico per quasi ogni persona e contiene tutte le informazioni biologiche di cui il nostro corpo ha bisogno per svilupparsi e funzionare. Poiché quasi ogni profilo di DNA è unico, le forze dell’ordine possono utilizzare queste informazioni per determinare la presenza di una persona sulla scena del crimine e quale azione possa aver compiuto sulla medesima.

Tuttavia, le prove del DNA non sono del tutto accurate e possono certamente verificarsi errori relativi all’identificazione dell’individuo, compresa la contaminazione dei campioni, un’errata attribuzione oppure un’etichettatura erronea. In giudizio, ad esempio, potrebbe esserci un’interpretazione non corretta di una corrispondenza di DNA ad un dato imputato, supponendo ad esempio, che se ci fosse una probabilità su diecimila che il profilo corrisponda ad un’altra persona, significa che è altamente improbabile che potrebbe essere stato qualcun altro il sospettato del reato. Inoltre, vi sono stati diversi casi in cui la componente etnica ha giocato un ruolo chiave nell’erronea identificazione di un individuo tramite DNA.

Quando è conservato in banche dati nazionali, il DNA può essere utilizzato dalle forze dell’ordine per accedere ad un numero elevato di informazioni relative ai reati commessi, caso per caso (inteso anche come caso giudiziario). In molte parti del mondo, principalmente in casi gravi ed efferati, quando una persona viene condannata per un reato viene prelevato un campione di DNA; in molti casi le forze dell’ordine possono anche chiedere di prelevare il DNA da persone sospettate di aver commesso un reato nell’ambito del processo investigativo, con o senza il consenso dell’interessato. Tuttavia, in ogni nazione vi sono leggi severe (e meno severe) che regolano quando e come le forze dell’ordine sono autorizzate ad ottenere i campioni di DNA, e come utilizzeranno le informazioni acquisite.

I rischi per la protezione dei dati: il caso GEDmatch

Il New York Times ha recentemente scoperto che un detective americano operante in Florida ha ricevuto un mandato che – al fine di dirimere un caso giudiziario – gli ha permesso di accedere ed analizzare informazioni genetiche di quasi un milione di persone presenti sul sito web della società GEDmatch, proprietaria di un database di genomica per privati. Ciò che colpisce è che i clienti della società – che, in parole povere, viene “retribuita” dagli utenti per altri scopi – non hanno mai espresso un consenso a comparire nei risultati delle ricerche delle forze dell’ordine. Il mandato, regolarmente redatto e firmato da un giudice di un tribunale della Florida, ha generato nuove piste per il caso seguito dal detective, ma non ha prodotto alcun arresto. Il mandato ha di fatto reso obbligatorio per l’azienda ottemperare a quanto ordinato dal giudice, andando contro quelle che erano le policy di riservatezza e sicurezza da essa – per di più – pubblicizzate. Tuttavia GEDmatch – che è utilizzata dagli utenti al fine di caricare le proprie informazioni genetiche per trovare legami parentali – è un’azienda di piccole proporzioni comparata ai “grandi colossi” americani del calibro di Ancestry.com e 23andMe, che da sempre fanno della privacy il loro cavallo di battaglia.

Gedmatch, il punto di vista del MIT

Secondo la rivista del MIT – Massachusetts Institute of Technology – il caso GEDmatch è tutt’altro che una situazione da prendere alla leggera, in quanto una banca dati DNA privata di milioni di persone, quand’anche venisse usata per fini d’indagine, è comunque un rischio per la sicurezza nazionale, poiché l’entità del danno a seguito di un furto di dati sarebbe incalcolabile per gli Stati Uniti. Inoltre, eventuali lacune nella sicurezza di GEDmatch, non solo rischiano di esporre le informazioni genetiche delle persone, ma potrebbero permettere a “nazioni interessate” come la Cina o la Russia di creare un potente database biometrico utile per identificare quasi tutti gli americani a partire da campioni di DNA.

GEDmatch mostra come una tendenza alla condivisione dei dati del DNA online possa creare rischi per la privacy di tutti, anche di chi non sceglie di condividere le proprie informazioni. “È possibile sostituire il numero della carta di credito, ma non è possibile sostituire il genoma”, afferma Peter Ney dell’Università di Washington. Ney, insieme ad altri ricercatori, ha descritto – in un rapporto pubblicato online – come hanno sviluppato e testato un nuovo attacco “etico” utilizzando i dati del DNA presenti su GEDmatch. Utilizzando profili di DNA appositamente progettati, i ricercatori di Washington sono stati in grado di eseguire ricerche che hanno permesso loro di individuare più del 90% dei dati connessi al DNA di altri utenti. Curtis Rogers, fondatore di GEDmatch, ha confermato che i ricercatori lo avvertirono della minaccia durante l’estate, dichiarando tuttavia che “non importa cosa si fa, ci sarà sempre qualche potenziale invasione della privacy quando si “fa” genealogia. La genealogia è una procedura in cui vuoi confrontare le tue informazioni con quelle altrui, per cui ci sarebbe sempre un rischio connesso alla tutela dei dati.

Razib Khan è un ricercatore di genomica della società Insitome, che aiuta le persone ad “analizzare” il proprio DNA combinando le più recenti tecnologie di analisi genetica con quanto dichiarato dall’utente. Khan ha definito la ricerca di Ney una dimostrazione su larga scala di debolezze già note agli appassionati. Khan dice di essere stato a conoscenza degli sforzi per colpire GEDmatch (o raccogliere più dati del solito), e ritiene che un attacco più grande potrebbe già essersi verificato.

GEDmatch ha iniziato ad operare come “servizio di genealogia” in modo di aiutare le persone a localizzare i loro parenti partendo dall’upload dei risultati dei test del DNA. Man mano che il sito è cresciuto, ha attirato l’attenzione degli investigatori della polizia USA. Nel 2017, la polizia della California ha annunciato di aver utilizzato il database, ad insaputa di GEDmatch (e quindi prima del “caso Florida”), per aiutare ad identificare un assassino conosciuto come “Golden State Killer”. La polizia lo avrebbe fatto caricando i dati del DNA estratti dalle prove della scena del crimine e confrontandoli con i dati degli utenti per identificare alcuni dei suoi parenti. A del MIT sarebbero stati identificati decine di assassini e stupratori utilizzando GEDmatch. Tuttavia il dibattito sulla privacy è sempre aperto: in parte perché la polizia aveva cercato il DNA degli utenti a loro insaputa; in parte poiché vi è la preoccupazione che se un database del DNA è abbastanza grande, praticamente tutti possono essere rintracciati attraverso i loro parenti, anche se non hanno mai fatto un test del DNA.

I test effettuati verso GEDmatch, probabilmente non funzionerebbero su altri siti di “genealogia”, come ad esempio 23eMe, perché non consentono il caricamento dei dati da parte degli utenti. Altri, come MyHeritage, permettono il caricamento ma non forniscono agli utenti tante informazioni sulle loro corrispondenze. Il problema di GEDmatch risiede nel fatto che le ricerche sono virtualmente infinite e molto “profonde”, permettendone a chiunque un facile utilizzo. Secondo alcuni ricercatori il problema GEDmatch ha implicazioni di sicurezza nazionale. Se un’agenzia di controspionaggio straniera accedesse ad un milione di profili di DNA di cittadini americani, quel paese potrebbe utilizzare le informazioni genetiche acquisite per identificare la vera identità di spie o diplomatici americani, localizzare i loro parenti o scoprire altri dettagli potenzialmente lesivi per gli USA. Poiché altri paesi non dispongono di tali banche dati, il rischio non sarebbe simmetrico a livello di contromisure e rappresaglie. Secondo i ricercatori, in questo campo qualsiasi persona potrebbe avere capacità migliori di quella del FBI ed utilizzarle per i più diversi scopi, come ad esempio trovare algoritmi migliori, fare sorveglianza genetica, creare falsi account, fingersi parenti ecc.

Il caso Veritas Genetics: un data breach avvolto dal mistero

Recentemente l’azienda Veritas Genetics ha subito un Data Breach che ha coinvolto informazioni relative ai suoi clienti. Quest’azienda, che offre il sequenziamento dell’intero genoma per 599 dollari, ha comunicato di essere venuta a conoscenza del fatto che un “portale del cliente” è stato “recentemente” reso accessibile da un utente non autorizzato. L’azienda ha riferito che il portale non contiene dati genetici, risultati di test del DNA o altre informazioni sanitarie e genetiche.

Veritas Genetics si propone come una delle aziende più sofisticate dal punto di vista scientifico tra quelle che negli ultimi anni forniscono servizi sul DNA ai consumatori. A differenza di Ancestry.com 23andMe ed altri che analizzano solo una piccola frazione del DNA di una persona, Veritas Genetics opera un intero sequenziamento del DNA, permettendo – a suo dire – di fornire informazioni su centinaia di malattie e rischi genetici che potrebbero essere geneticamente trasmissibili.

Al di là del lato “pubblicitario”, a seguito del Data Breach l’azienda ha rifiutato di fornire dettagli circa le informazioni rese accessibili a seguito della violazione, dichiarando il solo coinvolgimento di clienti potenzialmente interessati. Veritas Genetics ha affermato di aver risolto il problema ed avviato un’indagine, contattando esperti di sicurezza informatica per fare il punto della situazione. L’azienda non ha nemmeno dichiarato quando fosse venuta a conoscenza della violazione o per quanto tempo il sistema ne fosse stato esposto.

Il caso myheritage

Nel 2018 il servizio di test del DNA MyHeritage fu colpito da una violazione che riguardò 92 milioni di account. Anche se gli hacker ebbero accesso solo ad e-mail e password criptate – per cui non arrivarono mai ai dati genetici veri e propri – tale evento fu rilevante in termini di “pericolo scampato”, quanto meno per domandarsi il perché di tali azioni. Spesso la ragione è semplicemente pecuniaria: minacciando una perdita dei dati particolari, od una loro diffusione online, se non venisse pagato un riscatto. Oppure potrebbero essere venduti a basso costo alle compagnie di assicurazione, con danni incalcolabili per gli interessati. Si immagini a cosa potrebbe accadere se l’interessato chiedesse un prestito od un mutuo e questo venisse rifiutato per una predisposizione genetica all’Alzheimer che – probabilmente – non permetterebbe la restituzione del prestito vita natural durante.

Le normative di settore

Essendo un settore di particolare delicatezza, sono diverse le normative – a livello nazionale e sovranazionale – che ne disciplinano i limiti e le misure di sicurezza. Per lo scopo dell’articolo si analizzeranno il GDPR, il HIPAA, il GINA e il CalGINA.

Il GDPR

Il GDPR – Regolamento UE 2016/679 – rappresenta un importante baluardo per la protezione dei dati genetici.

L’Art. 9.1 GDPR elenca quelli che sono i dati particolari (“più meritevoli di tutela”, tra i quali prevalentemente “già sensibili” ai sensi del “vecchio” Codice Privacy): dati personali che rivelino l’origine razziale o etnica, le opinioni politiche, le convinzioni religiose o filosofiche, o l’appartenenza sindacale, nonché trattare dati genetici, dati biometrici intesi a identificare in modo univoco una persona fisica, dati relativi alla salute o alla vita sessuale o all’orientamento sessuale della persona.

L’Art. 4 n. 13) GDPR scende nel dettaglio, definendo i dati genetici come i dati personali relativi alle caratteristiche genetiche ereditarie o acquisite di una persona fisica che forniscono informazioni univoche sulla fisiologia o sulla salute di detta persona fisica, e che risultano in particolare dall’analisi di un campione biologico della persona fisica in questione;

Infine il Considerando 34 GDPR specifica che “è opportuno che per dati genetici si intendano i dati personali relativi alle caratteristiche genetiche, ereditarie o acquisite, di una persona fisica, che risultino dall’analisi di un campione biologico della persona fisica in questione, in particolare dall’analisi dei cromosomi, dell’acido desossiribonucleico (DNA) o dell’acido ribonucleico (RNA), ovvero dall’analisi di un altro elemento che consenta di ottenere informazioni equivalenti.”

Per trattare i dati genetici a norma del GDPR è necessario prestare attenzione per via della particolare pericolosità connesso al dato genetico, considerato “super sensibile”. Analizziamo quella che è la base giuridica più utilizzata nel trattamento dei dati genetici, a norma dell’Art. 9.2 lett. a) GDPR: il consenso esplicito dell’interessato.

Il consenso esplicito è richiesto in talune circostanze – come il trattamento di dati genetici – nelle quali emergono gravi rischi per la protezione dei dati e in cui si ritiene quindi appropriato un livello elevato di controllo individuale sui dati personali. In base al GDPR, prerequisito per l’ottenimento di un consenso “conforme” è una “dichiarazione o un’azione positiva inequivocabile”. Il termine esplicito si riferisce al modo in cui il consenso è espresso dall’interessato e significa che l’interessato deve fornire una dichiarazione esplicita di consenso. Un modo ovvio per assicurarsi che il consenso sia esplicito consisterebbe nel confermare espressamente il consenso in una dichiarazione scritta. Se del caso, il titolare del trattamento potrebbe assicurarsi che la dichiarazione scritta sia firmata dall’interessato, al fine di dissipare tutti i possibili dubbi e la potenziale mancanza di prove in futuro. Secondo l’Art. 7 GDPR la richiesta di consenso, se prestata nel contesto di una dichiarazione scritta che riguarda anche altre questioni, è presentata in modo chiaramente distinguibile dalle altre materie, in forma comprensibile e facilmente accessibile, utilizzando un linguaggio semplice e chiaro. L’interessato ha il diritto di revocare il proprio consenso in qualsiasi momento. La revoca del consenso non pregiudica la liceità del trattamento basata sul consenso prima della revoca. Prima di esprimere il proprio consenso, l’interessato è informato di ciò ed il consenso è revocato con la stessa facilità con cui è accordato.

Fondamentale è la Valutazione di Impatto (DPIA) prevista dagli artt. 35 e 36 GDPR, “vitale” per identificare e ridurre al minimo il rischio per i dati personali nell’ambito del trattamento di dati genetici. La DPIA si configura come un’autonoma valutazione che il Titolare del trattamento pone in essere per analizzare la necessità, la proporzionalità e i rischi di un determinato trattamento dati per i diritti e le libertà delle persone fisiche. È richiesta obbligatoriamente in tre casi:

quando si procede ad una valutazione sistematica e globale di aspetti personali relativi a persone fisiche, basata su un trattamento automatizzato, compresa la profilazione, e sulla quale si fondano decisioni che hanno effetti giuridici o incidono in modo analogo significativamente su dette persone fisiche;
quando si è in presenza di un trattamento, su larga scala, di categorie particolari di dati personali di cui all’art. 9.1 GDPR (dati particolari), ovvero di dati relativi a condanne penali e a reati di cui all’art. 10 GDPR;
la sorveglianza sistematica su larga scala di una zona accessibile al pubblico.

Secondo le Linee Guida WP248 per determinare se un trattamento è svolto su larga scala si deve far riferimento al numero degli interessati, al volume di dati e/o tipologie di dati, alla durata dell’attività di trattamento e all’ambito geografico dell’attività di trattamento. La DPIA deve contenere:

una descrizione sistematica dei trattamenti previsti e delle finalità del trattamento, compreso, ove applicabile, l’interesse legittimo perseguito dal Titolare del trattamento;
una valutazione della necessità e proporzionalità dei trattamenti in relazione alle finalità;
una valutazione dei rischi per i diritti e le libertà degli interessati: nonché le misure previste per affrontare i rischi, includendo le garanzie, le misure di sicurezza e i meccanismi per garantire la protezione dei dati personali e dimostrare la conformità al GDPR, tenuto conto dei diritti e degli interessi legittimi degli interessati e delle altre persone in questione.

Il GDPR richiede l’implementazione di “misure tecniche e organizzative adeguate per garantire un livello di sicurezza adeguato al rischio” (Art. 32 GDPR). A maggior ragione con il trattamento di dati “super sensibili” come quelli genetici. Tra le misure di sicurezza che “suggerisce” il GDPR vi sono: la pseudonimizzazione e la cifratura dei dati personali; la capacità di assicurare su base permanente la riservatezza, l’integrità, la disponibilità e la resilienza dei sistemi e dei servizi di trattamento; la capacità di ripristinare tempestivamente la disponibilità e l’accesso dei dati personali in caso di incidente fisico o tecnico; la presenza di una procedura per testare, verificare e valutare regolarmente l’efficacia delle misure tecniche e organizzative al fine di garantire la sicurezza del trattamento. Inoltre, nel valutare l’adeguato livello di sicurezza previsto dal GDPR, è necessario tener conto in special modo dei rischi presentati dalla distruzione, dalla perdita, dalla modifica, dalla divulgazione non autorizzata o dall’accesso, in modo accidentale o illegale, a dati personali trasmessi, conservati o comunque trattati.

GINA, CalGINA ED HIPAA

Le leggi federali che si occupano di “informazione genetica” sono il GINA (the Genetic Information Nondiscrimination Act of 2008) e lo HIPAA (The Health Insurance Portability and Accountability Act of 1996). Il GINA è essenzialmente una legge anti discriminazione che “non ha nulla a che fare con la privacy”. Essa impedisce l’utilizzo di talune informazioni genetiche in ambito assicurativo, prevalentemente per evitare abusi in tale settore.

Il GINA vieta l’utilizzo di informazioni genetiche per discriminare il lavoratore in caso di assunzione, licenziamento e promozione. Inoltre impedisce ai datori di lavoro di chiedere od acquisire informazioni genetiche preordinate agli scopi di cui prima. Il GINA non si applica ad aziende con meno di 15 dipendenti. Un Executive Order “allegato” al GINA vieta alle agenzie governative federali di ottenere informazioni genetiche da dipendenti o candidati e di utilizzarle nelle decisioni di assunzione e promozione. La Equal Employment Opportunity Commission (EEOC), una commissione federale statunitense, indaga e fa rispettare i disposti contenuti del GINA. Una causa del 2013 vide la EEOC in prima linea contro un’azienda che violò il GINA richiedendo ai candidati di indicare se avessero o meno una storia medica familiare particolare, ovvero se fossero portatori di una serie di malattie e disturbi particolari, il tutto nell’ambito della visita medica pre-assuntiva; la sanzione fu di 50.000 dollari. Una settimana dopo l’EEOC ha intentato una causa simile contro un centro di cura di Corning, New York. Solo nel 2013 furono circa 170 le richieste di risarcimento presentate da lavoratori ed ex dipendenti ad aziende che hanno chiesto loro (illegalmente) informazioni genetiche.

Dal 2013 il HIPAA include le informazioni genetiche tra le “Informazioni Sanitarie Protette” (PHI – Protected Health Information). Il HIPAA impedisce l’uso dei dati genetici nella sottoscrizione di tutti i tipi di piani di assicurazione sanitaria, esclusi i piani per l’assicurazione sulla vita, per l’invalidità o l’assistenza per le cure a lungo termine. L’esclusione dell’assicurazione per le cure a lungo termine garantisce a chiunque abbia una predisposizione genetica testata – ad esempio – per il morbo di Alzheimer, non sarà assicurabile. Per informazioni genetiche pienamente utilizzabili sono compresi i test genetici dell’interessato, quelli di un membro della famiglia, del feto o dell’embrione di un membro della famiglia.

Infine è interessante un breve focus sul CalGINA (California Genetic Information Nondiscrimination Act of 2011), la più ampia legge californiana contro la discriminazione genetica. Tale legge non solo vieta la discriminazione genetica in ambito lavorativo (settore “proprio” del GINA), ma anche nella ricerca di alloggi, nella fornitura di servizi di emergenza, nell’istruzione, nella concessione di prestiti ed ipoteche, nonché in ambito elettorale. La CalGINA inserisce le informazioni genetiche nell’elenco dei diritti civili dei californiani.