Con un recente provvedimento, l’Autorità francese per la protezione dei dati personali ha sanzionato una società informatica operante nel settore sanitario per aver non aver reso integralmente anonimi i dati sanitari di pazienti.
Quando la pseudonimizzazione può essere considerata accettabile e quali sono le tecniche di anonimizzazione che rendono la misura adeguata ai sensi del Regolamento?
Il provvedimento della CNIL
La Commission nationale de l’informatique et des libertés (CNIL), autorità garante per la protezione dei dati personali francese, ha sanzionato una società specializzata nello sviluppo e vendita di software gestionali per medici e centri sanitari, per aver illecitamente trattato dati sanitari non anonimi, inviati ai clienti della società per la realizzazione di studi e statistiche sulla salute.
In particolare, la CNIL ha rilevato che la società raccoglieva una grande quantità di dati sulle persone interessate, quali: anno di nascita, sesso, categorie socio-professionali, allergie, anamnesi, altezza, peso, diagnosi, prescrizioni mediche e risultati delle analisi. Questi dati sono stati collegati a un identificativo univoco per ogni paziente dello stesso medico, consentendo di collegare i dati trasmessi e di ricostruire così il suo percorso di cura. Alla luce di questi fattori, l’autorità ha ritenuto che sia possibile isolare un individuo all’interno della banca dati della società e che quest’ultima disponga di una grande quantità di informazioni particolarmente ricche relative a tale individuo, il che comporta un rischio di re-identificazione.
Per tali motivi, la CNIL ha ritenuto che la misura applicata dalla società, quale, come sopra anticipato, l’attribuzione di un identificatore univoco, non consentisse una reale anonimizzazione dei dati, trattandosi, piuttosto, di pseudonimizzazione.
Per le violazioni commesse dalla società, la CNIL ha sanzionato la società per 800.000 euro .[1]
I dati pseudonimizzati
Il Gruppo di Lavoro per la Protezione dei dati ex art. 29 (WP29), emanò nel 2014 un parere sulle tecniche di anonimizzazione.[2]
Cosa sono i dati pseudonimizzati
Stando alla definizione di pseudonimizzazione riportata all’interno del documento, questa “consiste nel sostituire un attributo (solitamente un attributo univoco) di un dato con un altro. La persona fisica potrebbe pertanto essere ancora identificata in maniera indiretta; di conseguenza, la pseudonimizzazione, se utilizzata da sola, non consente di ottenere un insieme di dati anonimo”.
Di conseguenza, la differenza principale tra dato personale e dato pseudonimizzato risiede nel fatto che, mentre il dato personale permette un’identificazione- in via diretta o indiretta, come previsto anche dall’art. 4, n.1 del Regolamento europeo sulla Protezione dei Dati Personali n. 679/2016 (“GDPR”)- , il dato pseudonimizzato è un dato che viene raccolto “in chiaro”, ma sottoposto a tecniche volte a rendere meno agevole l’identificazione dell’interessato.
Occorre, tuttavia, precisare che, spesso, nell’impresa di anonimizzare un dato (come meglio si vedrà più avanti), molti titolari del trattamento applicano delle misure che portano come risultato ad una pseudonimizzazione, rendendo, pertanto, nulli gli effetti e conseguenze di una anonimizzazione.
Infatti, il trattamento di dati pseudonimizzati non esula dall’applicazione delle disposizioni del GDPR e della normativa rilevante sulla protezione dei dati personali.
Alcuni provvedimenti dell’Autorità Garante[3] italiana, hanno riconosciuto alcune tecniche, come l’utilizzo di iniziali o di un codice- quale può essere un numero di matricola- inefficaci rispetto all’impossibilità di risalire ad un soggetto determinato, permettendo l’identificazione di quest’ultimo tramite associazione con ulteriori informazioni rese disponibili e configurando tali casi, pertanto, come casi di pseudonimizzazione con un alto grado di possibilità di identificazione dei soggetti interessati.
D’altronde, anche il noto provvedimento che ha portato alla dismissione delle soluzioni di Google Universal Analytics[4], ha avuto come tema centrale quello della pseudonimizzazione: la soluzione del cookie analitico fornito dal colosso avrebbe previsto una anonimizzazione dell’indirizzo IP, che, di fatto, a detta del Garante, era fallace. Infatti, anche se l’ultimo ottetto dell’indirizzo IP risultava troncato, Google avrebbe potuto in ogni caso re-identificare l’utente, grazie alle informazioni complessive possedute riguardo gli utenti del web. Inoltre, se l’utente avesse effettuato l’accesso al proprio profilo Google, quest’ultima avrebbe potuto associare l’indirizzo IP ad altre informazioni già in suo possesso, come quelle contenute nell’account utente. Di conseguenza, essendo possibile tale reindirizzamento, il Garante escluse che potesse trattarsi di anonimizzazione, bensì di pseudonimizzazione.
Inoltre, anche in tema di dati sanitari, così come la CNIL, anche la nostra autorità si era pronunciata nel luglio 2023[5] rispetto ad un trattamento illecito di dati sanitari non propriamente anonimizzati, concentrandosi sulle definizioni di dati anonimizzati e pseudonimizzati.
Gli usi dei dati pseudonimizzati
Una volta inteso il concetto di dato pseudonimizzato, è facilmente intuibile come gli usi siano finalizzati ad un (impropriamente detto) mascheramento del dato in taluni contesti.
Certamente, applicata al settore sanitario, permetterebbe di poter effettuare delle analisi statistiche, nonché attività di ricerca, si badi bene, purché il set di dati non venga utilizzato per scopi ulteriori rispetto alla loro raccolta.
Così come per il settore del marketing, delle statistiche e reportistiche, questa tecnica è utile ad aiutare i titolari del trattamento ad effettuare analisi, purché eventuali informazioni aggiuntive rispetto ai dati e/o alle persone fisiche (che ne permetterebbero, dunque, una identificazione) siano conservate separatamente e vengano adottate misure tecniche e organizzative adeguate, intese a garantire che i dati pseudonimizzati non permettano un’identificazione degli interessati.
A tal fine, sono identificate varie tecniche di pseduonimizzazione. Tra queste, alcune delle principali sono:
- Crittografia: la tecnica forse più utilizzata, prevede l’impiego di algoritmi crittografici per trasformare i dati in un formato illeggibile senza una chiave di decrittazione.
- Tokenizzazione: prevede la sostituzione dei dati personali con un token, un valore surrogato che può essere utilizzato per recuperare i dati originali solo con l’accesso a una chiave di decodifica.
- Hashing: tale tecnica consiste nel trasformare dati di qualsiasi dimensione in una stringa di lunghezza fissa, chiamata “hash” o “valore hash”, generato mediante un algoritmo. Questa funzione può essere combinata con quella della crittografia.
I dati anonimi
Un dato è definito anonimo quando viene già raccolto in forma anonima e non è in alcun modo riconducibile ad un interessato. Il dato non è, pertanto, considerato quale dato personale e, di conseguenza, non trova applicazione la normativa in materia di protezione dei dati personali.
Cosa sono i dati anonimi
Esempi di dati anonimi sono, ad esempio, un indirizzo e-mail contente informazioni generiche, come, ad esempio, info@società.com, il numero di iscrizione al registro di imprese di una società, oppure i dati resi anonimi, ossia, i dati anonimizzati.
I dati anonimizzati
Un dato è considerabile anonimizzato quando, partendo da un dato personale, vengono applicate delle tecniche che eliminano la riconducibilità ad un soggetto interessato.
Tecniche di anonimizzazione
Ma quali sono le tecniche che garantiscono un’appropriata anonimizzazione?
Abbiamo visto come frequentemente l’applicazione di alcune tecniche non porta ad un’efficace eliminazione dell’identificabilità di una persona fisica, risultando quindi in pseudonimizzazione.
Ciò premesso, qui di seguito enucleiamo le principali tecniche.
- Randomizzazione: consiste nell’alterazione dei dati originali per spezzare il legame con qualsiasi tipo di informazione che potrebbe collegare l’individuo con i dati stessi. Questo può includere l’aggiunta di rumore statistico o la permutazione dei valori.
Il rumore statistico, o privacy differenziale, si attua introducendo un livello controllato di rumore nei risultati delle ricerche sui dati.
La permutazione dei valori, invece, consiste nel mescolare i valori all’interno di una tabella in modo tale che alcuni di essi risultino artificialmente collegati a diverse persone interessate. Tale tecnica non deve essere fraintesa con quelle della crittografia o della codifica mediante chiavi. Quest’ultime perseguono finalità radicalmente diverse: “la crittografia come pratica di sicurezza si propone di garantire la riservatezza di un canale di comunicazione tra parti identificate (esseri umani, dispositivi o parti di software/hardware) per evitare intercettazioni o divulgazione non intenzionale.
La codifica tramite chiave corrisponde a una traduzione semantica dei dati che dipende da una chiave segreta. D’altro canto, l’obiettivo dell’anonimizzazione consiste nell’impedire l’identificazione delle persone evitando collegamenti nascosti tra attributi e persone”[6].
Né la crittografia né la codifica tramite chiave permettono il rischio di identificabilità di una persona interessata, in quanto i dati originari sono ancora disponibili o deducibili da parte del titolare del trattamento.
- Anonimizzazione per generalizzazione: questa tecnica consiste nel ridurre la precisione dei dati, sostituendo valori specifici con valori più generici, rendendo più difficile identificare una determinata persona. Ad esempio, dati specifici, come può essere quello dell’età, possono essere sostituti con dati per fasce o intervalli (es. >40 anni), così come specifiche località potrebbero essere sostituite con una città o regione, purché la probabilità di identificazione sia scongiurata.
Per questa tecnica possono essere impiegati taluni processi, quali il k-anonimato o la l-diversità.[7]
Usi
Come facilmente intuibile, gli usi dei dati anonimizzati sono molteplici. Primo fra tanti, è quello alternativo alla cancellazione dei dati: una volta raggiunta la finalità per cui sono stati raccolti ed una volta esaurito il periodo di conservazione, questi devono essere cancellati o possono essere resi anonimi. Allo stesso modo, in caso di richiesta di cancellazione da parte di un interessato, il titolare deve procedere alla cancellazione dei dati personali che lo riguardano: tale attività può essere sostituita dall’anonimizzazione del dato.
Così facendo, i dati anonimizzati possono essere utilizzati per finalità ulteriori rispetto a quelle per le quali i dati sono stati raccolti. Quelle più diffuse sono quelle statistiche. Naturalmente, il titolare dovrà informare l’interessato di tale attività in sede di raccolta del dato.
Ambito di ampio ulteriore utilizzo è quello della sanità: i dati sanitari, in quanto dati particolari ex art. 9 GDPR, soggetti a tutele maggiori da parte dell’ordinamento, costituiscono il principale motore del settore clinico. Nel caso di strutture ospedaliere o cliniche, ad esempio, il dato personale a carattere particolare originariamente raccolto, verrà utilizzato per le finalità di cura. Tuttavia, una volta esaurite tali finalità, sarebbe di preziosa importanza, per tali enti, o ulteriori enti ad essi collegati, effettuare degli studi su tali dati, per poter consentire sviluppi alla ricerca medica: a tal fine, vengono anonimizzati e analizzati.
D’altro canto, non sempre questo processo avviene in maniera lineare o nel rispetto della normativa in materia di protezione dei dati personali: come anticipato, sia a causa della complessità delle procedure di anonimizzazione irreversibile, sia a causa di un impiego improprio di tecniche, può accadere che i dati utilizzati possano essere, di fatto, riconducibili ad un determinato soggetto, comportando un trattamento illecito di dati (proprio perché sui dati sono state effettuate delle operazioni di trattamento ulteriori rispetto a quelle previste per le finalità originarie per cui sono stati raccolti).
Ed è proprio questo il caso oggetto del provvedimento della CNIL: la società che trattava dati sanitari avrebbe dovuto trattarli in maniera anonimizzata, ma le tecniche utilizzate sono risultate fallaci, risultando in una mera pseudonimizzazione e consentendo, pertanto, un’identificabilità dei soggetti coinvolti.
Tra i casi di applicazione in ambito statistico, ma fallimentari è opportuno menzionare quello che riguardò una nota piattaforma di streaming in abbonamento, che aveva pubblicato una classifica di 10 milioni di film, con recensioni da parte di 500.000 clienti, come parte di una sfida rivolta agli sviluppatori e agli appassionati di machine learning di trovare sistemi di raccomandazione migliori rispetto a quelli in uso all’epoca. Per questa sfida, aveva fornito un set di dati con variabili anonimizzate, rimuovendo i dati personali e sostituendo i nomi con numeri casuali, applicando quindi del rumore statistico.
Alcuni ricercatori dell’Università del Texas dimostrarono che, eliminando i 100 film più popolari, ovvero i risultati più comuni, i restanti comportamenti individuali online formavano un’impronta digitale (fingerprint) spesso facilmente riconoscibile, mediante un raffronto con un’altra banca dati contenente recensioni sui film, individuando così gli utenti che avevano espresso un giudizio sugli stessi film nei medesimi intervalli di tempo[8].
Ulteriori evoluzioni
Come visto, le possibilità di fallimento, o le difficoltà nell’ applicazione delle tecniche di anonimizzazione, rendono molte incognite in termini di affidabilità.
L’evoluzione tecnologica, d’altro canto, sta offrendo delle soluzioni potenzialmente valide in termini di utilizzo di dati e abbassamento dei rischi in materia di protezione dei dati personali.
Quali esempio in tal senso, possiamo menzionare i dati sintetici, ossia dati artificiali, generati utilizzando tecniche di machine learning generative a partire da un set di dati originario: partendo dall’addestramento di un modello generativo sui dati di input per catturare la distribuzione di probabilità dei dati originali (training), si passa alla generazione, da parte del modello, di nuovi dati, che saranno in grado di replicare gli schemi statistici dei dati originali, ma senza includere informazioni che portino all’identificazione di un individuo.
Benché tali categorie di dati non siano espressamente contemplate all’interno del GDPR, il nuovo Regolamento sull’Intelligenza Artificiale (AI-Act) esclude i dati sintetici dai dati personali e li accomuna (per esempio, all’art. 59) ai dati anonimizzati, considerandoli, pertanto, quali dati non personali.
Conclusioni
Quanto visto finora, a partire dalla sanzione del garante francese (simile a molte altre di altrettante autorità, tra cui quella italiana), fino ad arrivare alle casistiche di pseudonimizzazione e ai requisiti per l’anonimizzazione, offre alcuni spunti di riflessione.
Possiamo chiederci: quale è il confine tra l’adempimento agli obblighi normativi- al netto delle migliori possibilità di un’azienda– e il trattamento illecito di dati personali, soprattutto quando l’accountability è il principio chiave per la normativa applicabile in tema di protezione dei dati personali? Abbiamo visto, seppur in maniera sintetica, quanto sia facile cadere in errore, o meglio in defaillance, quando si parla di anonimizzazione. L’onerosità dei processi di attuazione di questa tecnica può far desistere, o cogliere impreparate, molte aziende, siano esse di piccole o grandi dimensioni.
Come visto, un’adeguata anonimizzazione comporta dei costi, in termini di impiego di risorse, per i titolari del trattamento, trattandosi di un processo, o meglio, un ventaglio di processi, alquanto complessi.
Ecco perché le migliori prassi, gli errori, nonché l’evoluzione tecnologica e (seppur più lentamente) normativa, offrono numerose ancore di salvataggio e alternative per potersi meglio districare nello spinoso territorio della tutela dei dati personali.
[1]Données de santé : sanction de 800 000 euros à l’encontre de la société CEGEDIM SANTÉ | CNIL
[2] Parere del Gruppo di Lavoro art. 29 (WP29) n. 05/2014 sulle tecniche di anonimizzazione, adottato il 10 aprile 2014- WP216
[3]Cfr., fra gli altri: Ordinanza ingiunzione del Garante Italiano per la Protezione dei dati personali del 15 settembre 2022- docweb n. 9815665; Autorità Garante per la Protezione dei dati personali, Provvedimento n. 118 del 2 luglio 2020
[4] Garante Italiano per la Protezione dei Dati Personali, Provvedimento del 9 giugno 2022
[5] Il Provvedimento del Garante Italiano per la Protezione dei dati personali n. 226 del 1 giugno 2023 non è più disponibile per ordinanza del 4 dicembre 2023 del Tribunale di Milano, che ha sospeso, tra l’altro, l’efficacia esecutiva dei capi del Provvedimento del Garante concernenti la pubblicazione del medesimo provvedimento sul sito web dell’autorità
[6] Parere del Gruppo di Lavoro art. 29 (WP29) n. 05/2014 sulle tecniche di anonimizzazione, adottato il 10 aprile 2014- WP216
[7] Parere del Gruppo di Lavoro art. 29 (WP29) n. 05/2014 sulle tecniche di anonimizzazione, adottato il 10 aprile 2014- WP216
[8] Arvind Narayanan, Vitaly Shmatikov: Robust De-anonymization of Large Sparse Datasets. Simposio dell’IEEE sulla sicurezza e la sfera privata 2008: 111-125