Lo sviluppo tecnologico ha reso evidente che la rigida dicotomia tra dato personale e non personale non rappresenta più la realtà e rischia inoltre di diventare un disincentivo per le aziende che vogliono sperimentare nuove tecniche per attuare a pieno i principi di privacy by design e by default.
La pseudonimizzazione può essere uno strumento utile per rompere questo schema e abilitare quei progetti delle aziende che il rispetto delle prescrizioni in materia di privacy non avrebbe reso possibile realizzare utilizzando soltanto dati in chiaro.
È però necessario che il legislatore prenda atto di questa situazione riformulando la stessa concezione di dato personale, ormai divenuta anacronistica, per stimolare gli investimenti delle aziende in sicurezza. È, ad esempio, il caso del pay as you drive che, grazie alla pseudonimizzazione e alla governance dei ruoli privacy definite dall’EDPB nelle linee guida sui connected vehicles, diventa un servizio che le assicurazioni possono offrire ai propri clienti nel pieno rispetto del principi di privacy by design e by default.
Questo è l’approccio innovativo che il legislatore deve facilitare rendendo disponibili standard tecnici per garantire la sicurezza e definendo una concezione più flessibile di dato che abbandoni la bipartizione rigida tra dato personale e non personale, rendendo così pienamente applicabile l’approccio secondo cui non sia più soltanto necessario “difendere” la persona dal trattamento dei dati che la riguardano, ma si possano integrare le tutele nel trattamento stesso.
Il contesto attuale
L’art. 32 del GDPR impone al titolare del trattamento di “mettere in atto misure tecniche e organizzative adeguate a garantire un livello di sicurezza adeguato al rischio”. Il legislatore ha voluto distaccarsi dal dall’impostazione del passato che apriva alla definizione di vere e proprie liste di misure di sicurezza che le aziende dovevano rispettare per adeguarsi alla normativa in materia di protezione dei dati personali (basti pensare al famoso Allegato B), lasciando proprio alle aziende la libertà di definire le misure “più adeguate”.
Questa scelta, più in linea con la velocità dello sviluppo tecnologico, ha però aperto molti dubbi su quali tecniche scegliere e sul come attuarle per essere compliant. Oltre alle tecniche più comuni per ridurre o eliminare del tutto il potenziale reidentificativo del dato, come pseudonimizzazione e anonimizzazione, se ne stanno sviluppando altre come, ad esempio, la secure multiparty computation, che si occupa della protezione dei dati di più soggetti in comunicazione tra loro, assicurandosi che nessuno abbia accesso a informazioni aggiuntive. Nell’utilizzo delle tecniche classiche e nella sperimentazione di quelle più recenti, tuttavia, le aziende trovano raramente un quadro legale e degli standard tecnici definiti. Questa incertezza, accompagnata dai pochi sgravi in termini di compliance per chi riduce (pur non eliminando) il potenziale identificativo dei dati, disincetiva gli investimenti nel campo della sicurezza.
Dopo aver delineato, dunque, brevemente cosa è l’anonimizzazione e i punti critici che si possono osservare dalla sua applicazione, si prenderà in considerazione la pseudominizzazione fornendo spunti pratici per le aziende.
Cos’è l’anonimizzazione
L’anonimizzazione è la tecnica che priva il dato personale di qualsiasi elemento identificativo. Il Considerando 26 del GDPR afferma che “i principi di protezione dei dati non dovrebbero […] applicarsi a informazioni anonime, vale a dire informazioni che non si riferiscono a una persona fisica identificata o identificabile o a dati personali resi sufficientemente anonimi da impedire o da non consentire più l’identificazione dell’interessato […]”. Da qui l’utilità dell’anonimizzazione: se il titolare tratta dati anonimi, dunque non personali, fuoriesce dal campo di applicazione della normativa in materia di privacy e non è tenuto ad implementarne i relativi adempimenti.
La non appartenenza dei dati anonimizzati alla categoria dei dati personali è un vantaggio per le aziende, in quanto consente il trattamento di dati garantendo sia la privacy degli utenti sia la possibilità di impiegarli per ricerche e analisi statistiche a beneficio del business dell’azienda o della collettività. Nel settore dell’automotive, ad esempio, la quasi totalità dei test relativi alla manutenzione del veicolo possono essere effettuati tramite dataset anonimi. Lo stesso può valere per la creazione di banche dati pubbliche per progetti di ricerca volti al perseguimento di un pubblico interesse.
Le tecniche per effettuare l’anonimizzazione possono essere di varia tipologia corrispondente a differenti gradi di affidabilità, come delineato nel Parere 5/2014 del Data Protection Working Party: la randomizzazione, che si basa sull’assunto per cui più il dato è incerto, più è scarsamente riconducibili a una persona fisica, in quanto ne viene intaccata la veridicità per diminuire la possibilità di correlazione; la generalizzazione, che consiste nel togliere specificità all’attributo del dato, modificandone la sua scala od ordine di grandezza (ad esempio, attraverso l’utilizzo di dati aggregati).
I fattori di criticità dell’anonimizzazione
L’anonimizzazione presenta però una serie di criticità che la rendono oggi difficilmente praticabile. In primo luogo, è molto complesso garantire che sia irreversibile. Recenti studi hanno infatti dimostrato che set di dati resi apparentemente anonimi attraverso le tecniche normalmente utilizzate, sono in realtà re-identificabili (su tutti, si vedano i casi Netflix nel 2006 e Dipartimento della Salute australiano nel 2016). Tecniche che in un passato non troppo lontano potevano apparire come utili o addirittura idonee a eliminare il rischio di re-identificazione, oggi non lo sono più. Michael Dose, manager specializzato in digitalizzazione e innovazione della Federazione delle Industrie Tedesche, un gruppo con sede a Berlino che rappresenta più di 100.000 imprese in differenti settori del commercio, durante un suo recente intervento, ha richiamato l’attenzione sulla necessità di maggiore chiarezza sugli standard tecnici da seguire per anonimizzare i dati nel rispetto del GDPR.
Questa incertezza da parte degli operatori è emersa in modo evidente nel provvedimento con cui l’Autorità danese ha sanzionato un servizio di trasporto automobilistico privato per un data breach verificatosi nel 2018. L’azienda si era difesa sostenendo che i dati oggetto dell’incidente erano anonimi anche se, come ha successivamente dimostrato l’autorità, la cancellazione del nome utente non era idonea a eliminare la possibilità di identificare le vittime. Infine, la stessa anonimizzazione è un trattamento di dati personali e richiede di regola una base giuridica che, nella maggior parte dei casi, è il consenso dell’interessato.
Il risultato imposto dalle norme per arrivare all’anonimizzazione, dunque la non possibilità di ricondurre (a meno di sforzi sproporzionati) il dato a uno specifico soggetto interessato, insieme alla mancanza di standard tecnici sul come attuarla, comportano incertezza e costi così elevati che le aziende molto spesso non prendono nemmeno in considerazione la possibilità di attuare questa tecnica.
Esistono delle alternative per ridurre i rischi per la sicurezza dei dati?
La pseudominizzazione
La pseudonimizzazione è il trattamento volto a far sì che i dati personali non possano più essere attribuiti a un interessato specifico senza l’utilizzo di informazioni aggiuntive, a condizione che tali informazioni siano conservate separatamente e soggette a misure tecniche e organizzative adeguate.
Dunque, se per determinate finalità del trattamento, non è necessario che la persona fisica, cui i dati raccolti afferiscono, sia de-identificata in modo permanente e viene accettata la possibilità della reversibilità, allora si parla di pseudominizzazione. È questa la sostanziale differenza con l’anonimizzazione.
Sono diverse le modalità con cui può essere effettuata la pseudonimizzazione di un dato. Una delle più elementari consiste nella sostituzione di un dato personale (ad esempio nome e cognome) con un codice o un numero. Una tecnica che, come è chiaro, ha delle sue difficoltà operative in quanto molto lenta e costosa se applicata a grandi quantità di dati. Uno dei punti di criticità è rintracciabile nella necessità di avere due database comunicati: in uno si inseriscono i dati originali e nell’altro i dati pseudominizzati.
La pseudonimizzazione è una delle principali misure indicate dagli articoli 25 e 32 del GDPR per attuare a pieno i principi privacy by design e di sicurezza del trattamento.
Il legislatore, dunque, sollecita l’adozione di tale tecnica, trattando però nello stesso modo, in termini di normativa privacy, il dato pseudonimizzato e quello in chiaro. Si sta però sviluppando sempre di più, anche grazie all’intervento dello European Data Protection Board, una concezione fluida del dato, che tenga conto delle differenti misure di sicurezza applicate e dei relativi rischi che ne risultano: banalmente, un dato pseudonimizzato garantirà un livello di sicurezza superiore per gli utenti in caso di data breach rispetto a uno in chiaro. Uno use case da prendere come riferimento è quello dei servizi assicurativi legati al pay as you drive.
Il caso del Pay as you Drive
Il pay as you drive è un contratto che permette di praticare uno sconto sul premio assicurativo a fronte di un buon comportamento di guida. Il contratto prevede l’installazione di una scatola nera sul veicolo e gli sconti vengono calcolati grazie al monitoraggio delle abitudini di guida del conducente.
La complessità dal punto di vista privacy sta nel bilanciare le due esigenze che entrano in gioco: da un lato, abilitare la fruizione di un servizio che, grazie all’utilizzo della black box, garantisce all’utente una serie di benefici (sconti, rintracciamento del veicolo in caso di furto, chiamata automatica dell’ambulanza in caso di incidente etc.) dall’altro, impedire che l’interessato sia costantemente monitorato dall’assicurazione e che venga annullato del tutto il cosiddetto “rischio assicurativo” insito nella natura del contratto aleatorio.
La soluzione proposta dall’EDPB applica il principio di privacy by design ed è particolarmente ingegnosa:
per evitare che il conducente sia costantemente monitorato, l’assicurazione, non deve ricevere i dati relativi allo stile di guida (es. frenate, accelerazioni, pressione esercitata sui pedali, numero di km percorsi etc.). In caso contrario, infatti, potrebbe facilmente associare il nome dell’assicurato ai dati puntuali dello stile di guida, compiendo un monitoraggio continuativo e illecito dal punto di vista della privacy. Come ovviare a questa empasse? L’EDPB suggerisce di coinvolgere un fornitore di servizi terzo che riceverà, direttamente dalla black box, i dati relativi allo stile di guida del conducente e restituirà all’assicurazione uno score, dunque un dato aggregato, che servirà a quest’ultima per determinare se si tratti di un “buono o cattivo guidatore”. In questo modo, il fornitore terzo non viene a conoscenza del nome del guidatore, mentre l’assicurazione, che ne conosce l’identità, non ha visibilità sui dati puntuali relativi alla guida e non può, neanche volendo, porre in essere un monitoraggio continuativo dell’interessato.
Dal punto di vista tecnico, questo schema non annulla ovviamente tutti i rischi privacy o di cyber security, ma permette di ridurli significativamente grazie all’applicazione del principio di privacy by design e delle tecniche di anonimizzazione e pseudonimizzazione. Il dato generato, lo score, non è né un dato in chiaro, né pienamente anonimo, ma è un ibrido, che garantisce più sicurezza del primo e un po’ meno del secondo, ma che preserva allo stesso tempo l’utilità per l’analisi da parte dell’assicurazione. Questo concetto di dato ibrido, a metà strada tra quello in chiaro e anonimo, permette la fornitura di servizi che altrimenti non sarebbero leciti dal punto di vista della normativa sulla protezione dei dati personali.
Conclusioni
La dicotomia tra dati personali e dati non personali, così come riportata dalle norme vigenti, appare eccessivamente rigida se osservata in comparazione con l’attuale contesto variegato di dati. Questi possono essere oggetto delle tecniche più disparate, tra cui minimizzazione, sintetizzazione, randomizzazione e le esaminate pseudominizzazione e anonimizzazione, ognuna con fattori di rischio differenti. Nonostante questa enorme varietà, le regole distinguono in modo tranchant il dato personale, oggetto dell’applicazione dell’intero corpo di norme a tutela della privacy, da quello non personale, che gode di una sostanziale de-regolamentazione
Il legislatore, sulla scia di un processo già avviato tramite norme di soft law, deve definire standard certi per l’applicazione delle tecniche per garantire la sicurezza dei dati personali e ripensare la rigida bipartizione tra dato personale e non personale.