Siamo sicuri che anomizzare un dato sia garanzia di privacy? Ci sono crescenti dubbi a riguardo: sembra che sia possibile infatti risalire alle identità delle persone a cui quei dati fanno riferimento. De-anonimizzarli, insomma. Con l’intelligenza artificiale.
Un recente studio condotto dai ricercatori delle Università di Londra e di Lovanio (Belgio) ha dimostrato proprio questo: la possibile ed agevole re-identificazione di dati anonimizzati mediante “modelli generativi”nell’alveo del Machine Learning.
Un ossimoro nella nozione stessa di “anonimizzazione” e che può determinare seri rischi per i diritti e le libertà degli interessati.
L’anonimizzazione: cenni
Prima di addentrarci nello studio è quantomeno necessario riprendere il concetto di anonimizzazione, che conduce qualsiasi dato personale alla perdita definitiva dell’elemento identificativo.
L’ultima parte del Considerando 26 del GDPR afferma che “i principi di protezione dei dati non dovrebbero […] applicarsi a informazioni anonime, vale a dire informazioni che non si riferiscono a una persona fisica identificata o identificabile o a dati personali resi sufficientemente anonimi da impedire o da non consentire più l’identificazione dell’interessato […]”. Il “non consentire più” si riferisce all’irreversibilità del processo di anonimizzazione, punctum dolens dello Studio di ricerca in oggetto. Inoltre il dato anonimo non rientra nel campo di applicazione del GDPR, proprio perché manca degli elementi identificativi o potenzialmente identificativi proprio del dato personale.
Re-identificare gli utenti dai dati anonimizzati
Secondo lo studio pubblicato sulla rivista Nature Communications, il procedimento di de-identificazione – ossia il processo che separa le informazioni identificative dal dato – prima della loro condivisione, è (stato) il principale strumento utilizzato nell’ambito della ricerca scientifica, nonché in altri ambiti, per condividere i dati preservando al contempo la riservatezza delle persone interessate. Come affermato dai ricercatori, i dati anonimi, non essendo dati personali, sono liberamente utilizzabili, condivisibili ed aperti “alla compravendita”. Le riviste accademiche, ad esempio, richiedono sempre più spesso agli autori di mettere i dati anonimi in loro possesso a disposizione della comunità (ad es. quella scientifica).
Tuttavia, se la teoria è meravigliosa, la pratica lo è radicalmente meno.
Secondo lo studio in oggetto negli ultimi anni numerosi dataset apparentemente anonimi sono stati re-identificati. Nel 2016, alcuni giornalisti sono riusciti a re-identificare alcuni politici e giuristi analizzando la cronologia Web “anonima” di 3 milioni di cittadini tedeschi, svelando dati relativi alla salute nonché relativi a determinate preferenze sessuali.
Pochi mesi prima, il Dipartimento della Salute australiano – nell’ambito di una ricerca scientifica[7] – rilasciò pubblicamente le cartelle cliniche de-identificate – e, quindi, “anonimizzate” – del 10% della popolazione australiana, per poi procedere a successiva re-identificazione sei settimane dopo. Tuttavia alcuni studi dimostrarono che i dati de-identificati relativi alla dimissione ospedaliera[8] potevano essere re-identificati utilizzando gli attributi demografici di base, i codici diagnostici, l’anno di nascita, il sesso e l’etnia: diversi attributi che portano alla re-identificazione dei pazienti “de-identificati”.
Infine, uscendo dall’ambito sanitario-scientifico, alcuni ricercatori sono stati in grado di identificare in modo univoco chiunque percorresse “anonimamente” le strade di New York in taxi e chiunque usufruisse “anonimamente” dei servizi di bike sharing a Londra; inoltre sono riusciti a “fare breccia” nei dataset “anonimi” della metropolitana di Riga (Lettonia), nonché nei dataset di smartphone e carte di credito di diversi ignari utilizzatori.
Tuttavia, si afferma nello studio in oggetto, tali processi re-identificativi potrebbero essere “corrotti” in partenza.
Infatti è ben possibile che i dataset, dove giornalisti e ricercatori attingono, siano incompleti: in pratica, non è possibile essere sicuri al 100% di aver re-identificato la persona giusta, anche se vi sono alcune corrispondenze. Alcuni ricercatori sostengono che in presenza di dataset incompleti – e con il difetto della mancanza di certezza – l’anonimizzazione raggiunge il suo obiettivo “anche secondo il GDPR”. A detta di questi ricercatori i dataset de-identificati possono essere intrinsecamente incompleti, ad esempio, perché gli stessi dataset contengono dati di pazienti di una delle reti ospedaliere di un paese o perché sono stati semplicemente campionati come parte di un processo de-identificativo.
A sostegno della tesi un esempio più “corposo”.
Si immagini una compagnia di assicurazione sanitaria statunitense che decide di indire un contest per la prevenzione del cancro al seno. Per procedere, pubblica un dataset di 1000 persone, l’1% dei 100.000 assicurati in California. Il dataset comprende la data di nascita, il sesso, il codice di avviamento postale e la diagnosi in merito al cancro al seno. Il datore di lavoro di “X” scarica il dataset e trova un solo record che corrisponde alle informazioni di “X”: un maschio che vive a Berkeley, CA (94720), nato il 2 gennaio 1968, e con diagnosi di cancro al seno (divulgato dallo stesso “X”).
Si può immaginare che questo record contenga anche i dettagli dei recenti (e falliti) trattamenti di stadio IV a cui si è sottoposto “X”. Tuttavia, quando viene contattata, la compagnia di assicurazione sostiene che le corrispondenze non permettono la re-identificazione: infatti, il record potrebbe appartenere ad 1 delle 99.000 altre persone assicurate in California. Infine, il datore di lavoro non può sapere se “X” è assicurato con questa compagnia di assicurazione, ovvero con un’altra tra le più disparate ivi presenti.
I ricercatori delle Università di Londra e Lovanio, analizzando e studiando 210 dataset contenenti dati demografici e statistici, hanno dimostrato che anche le più piccole frazioni di campionamento (rapporto tra la dimensione del campione e la dimensione della popolazione) non sono sufficienti ad impedire la potenziale re-identificazione dei dati “anonimi”. Secondo i ricercatori, è stato possibile re-identificare correttamente il 99,98% degli statunitensi – mediante dataset anonimi – utilizzando solo 15 attributi, tra cui l’età, il sesso e lo stato civile.
I ricercatori hanno dimostrato – in un test basato sull’inserimento di tre attributi casuali (sesso, data di nascita, codice di avviamento postale) – la possibilità di re-identificare un individuo al 54%. La possibilità di re-identificazione è salita al 95% con l’inserimento di un solo attributo in più (lo stato civile). Ciò fa comprendere che è possibile re-identificare un individuo con molti meno di 15 attributi.
La regola empirica (e lapalissiana) è che più attributi vi sono, più è probabile che una corrispondenza sia corretta – e, quindi, sarà meno probabile trovarsi dinanzi a dati anonimizzati.
Lo studio in oggetto sottolinea quanto sia difficile per qualsiasi dataset soddisfare lo standard della “vera” anonimizzazione – dato che il rischio di re-identificazione aumenta in modo dimostrabile anche solo con pochi attributi disponibili.
Alcune soluzioni
Vi sono diverse tecniche di anonimizzazione che presentano gradi variabili di affidabilità tali da poter risolvere le problematiche emerse nello Studio in oggetto. Il valido Parere 5/2014 del WP29 individua due macrocategorie: la randomizzazione, che modifica il grado di verità del dato al fine di eliminare la correlazione che esiste tra lo stesso e la persona; e la generalizzazione che consiste nel diluire gli attributi delle persone interessate modificandone la rispettiva scala o il rispettivo ordine di grandezza.
La randomizzazione
Fanno parte della randomizzazione:
- L’aggiunta di rumore statistico. Tecnica utile soprattutto nel caso in cui gli attributi possano avere un effetto avverso importante sulle persone. Consiste nel modificare gli attributi contenuti nell’insieme di dati in modo tale da renderli meno accurati, mantenendo nel contempo la distribuzione generale. All’atto di trattare un insieme di dati, un osservatore parte dal presupposto che i valori siano accurati, ma ciò corrisponde solo limitatamente al vero. Ad esempio, se l’altezza di una persona è stata originariamente misurata approssimandola al centimetro più vicino, l’insieme di dati anonimizzati potrebbe contenere un’altezza accurata solo con un’approssimazione di +/-10cm. Se la tecnica viene applicata in maniera efficace, eventuali terzi non riusciranno a identificare una persona né potranno riparare i dati o altrimenti desumere in che modo gli stessi siano stati modificati.
- La permutazione. Tecnica che consiste nel mescolare i valori degli attributi all’interno di una tabella in modo tale che alcuni di essi risultino artificialmente collegati a diverse persone interessate: è utile quando è importante mantenere l’esatta distribuzione di ciascun attributo all’interno di un insieme di dati. La permutazione può essere considerata una forma speciale di aggiunta di rumore statistico. Nella tecnica classica di aggiunta del rumore, gli attributi vengono modificati mediante valori randomizzati. La generazione di rumore statistico coerente può rappresentare un’operazione difficile da effettuare, mentre modificare solo marginalmente i valori degli attributi potrebbe non tutelare adeguatamente la sfera privata. In alternativa, le tecniche di permutazione modificano i valori contenuti nell’insieme di dati semplicemente permutandoli da un dato all’altro. Tali scambi garantiscono che gamma e distribuzione dei valori rimangano invariate, a differenza delle correlazioni tra valori e persone. Se tra due o più attributi sussiste un legame logico o una correlazione statistica e gli stessi vengono permutati in maniera indipendente, tale legame verrà meno. Può pertanto essere importante permutare un insieme di attributi correlati in modo da non spezzare il legame logico, altrimenti un intruso potrebbe individuare gli attributi permutati e invertire la permutazione.
- La differential privacy. Appartiene alla famiglia delle tecniche di randomizzazione, ma adotta un approccio diverso: mentre l’inserimento del rumore statistico interviene prima, al momento dell’eventuale pubblicazione dell’insieme di dati, la differential privacy può essere utilizzata quando il titolare del trattamento genera opinioni anonimizzate di un insieme di dati e conserva al contempo una copia dei dati originali. Le opinioni anonimizzate sono solitamente generate attraverso un sottogruppo di interrogazioni per terzi specifici. Il sottogruppo presenta una certa dose di rumore statistico casuale aggiunto appositamente a posteriori. La differential privacy suggerisce al titolare del trattamento la quantità e la forma di rumore statistico che va aggiunto per ottenere le garanzie di tutela della sfera privata richieste. In tale contesto, è particolarmente importante continuare a controllare (almeno per ogni nuova interrogazione) che non sussista la possibilità di identificare una persona nell’insieme dei risultati dell’interrogazione. Occorre tuttavia chiarire che tale tecnica non modifica i dati originari e pertanto, finché questi permangono, il titolare del trattamento è in grado di identificare le persone all’interno dei risultati delle interrogazioni di differential privacy, tenendo conto dell’insieme dei mezzi che possono essere ragionevolmente utilizzati. Tali risultati vanno trattati alla stregua di dati personali.
La generalizzazione
Fanno parte della generalizzazione le tecniche di aggregazione e di “k-anonymity”. Esse sono volte a impedire l’individuazione di persone interessate mediante il loro raggruppamento con almeno “k” altre persone.
A tale scopo, i valori degli attributi sono sottoposti a una generalizzazione tale da attribuire a ciascuna persona il medesimo valore. Ad esempio, riducendo il grado di dettaglio di una località da città a Stato, si include un numero più elevato di persone interessate. Le date di nascita individuali possono essere generalizzate in una serie di date o raggruppate per mese o anno. Altri attributi numerici (ad esempio, retribuzioni, peso, altezza o il dosaggio di un farmaco) possono essere generalizzati mediante il ricorso a intervalli di valori (ad esempio, retribuzione 20.000€ – 30.000 euro).