La crescente diffusione di banche dati in formato aperto e ad elevata granularità (microdati) ha dischiuso negli ultimi anni un ventaglio di applicazioni che hanno migliorato trasparenza e qualità dei servizi della PA e favorito nuove iniziative industriali. I benefici di questo importante volano per l’innovazione guidata dai dati si accompagnano però con le legittime preoccupazioni che la pubblicazione di dati personali possa ledere i diritti e le libertà dei cittadini. Ecco perché si discute dell’opportunità che la PA adotti una visione esplicitamente orientata alla misurazione di benefici e di rischi associati alla pubblicazione dei microdati, per cercare di conciliare in modo pragmatico questi aspetti contrastanti.
Nel 2011 il portale dati.gov.it iniziava a pubblicare banche dati della PA in formato aperto. In questo periodo, la PA ha sviluppato una serie di iniziative che hanno consentito fra l’altro di raccogliere migliaia di banche dati, di standardizzare la metadatazione e di promuovere l’uso sistematico dei formati del Web semantico, cominciando anche a fornire agli utilizzatori strumenti avanzati di visualizzazione e analisi delle banche dati aperte (Data & Analytics Framework).
Capire chi utilizza quali banche dati e per ottenere cosa
Questi progressi hanno evidenziato che oggi siamo in una situazione in cui probabilmente bisogna andare oltre l’aspetto tecnologico e adottare una visione più di mercato. Ormai è chiaro che non è più tanto importante il numero di banche dati aperte, quanto le loro potenzialità di riutilizzazione e generazione di valore. In altre parole, bisogna cercare di capire meglio il lato della domanda: chi utilizza quali banche dati e per ottenere cosa. Questi interrogativi sono stati al centro di alcuni studi recenti, soprattutto negli Stati Uniti [1], e stanno ispirando indagini analoghe anche in Italia. I primi risultati indicano che i riutilizzatori principali sono i singoli cittadini con un background tecnico, seguiti dalla P.A. e dalle aziende tecnologiche, mentre per quanto riguarda i settori d’impiego vale in estrema sintesi la regola delle tre B:
- buses (trasporti),
- budgets (spese della P.A.),
- bullets (reati).
Poiché il processo di condivisione delle banche dati richiede uno sforzo, è importante impiegare le risorse nella direzione che è più suscettibile di generare ricadute positive. Al contempo, occorre valutare accuratamente la possibilità che la condivisione possa condurre all’identificazione dei soggetti ai quali i dati si riferiscono, e se questo possa tramutarsi in una violazione della loro privacy. Quest’ultima esigenza è diventata più stringente in seguito alla recente adozione del Regolamento Europeo per la Protezione dei Dati Personali (GDPR), che prevede esplicitamente una valutazione dei rischi potenziali per la privacy e richiama la necessità di predisporre misure tecniche adeguate, ad esempio di pseudonimizzazione.
Il rischio di violazione della privacy
Bisogna essere consapevoli del fatto che la valutazione dei rischi è un processo complesso. Le violazioni delle privacy sono avvenute spesso in maniera imprevista e imprevedibile dopo che la pubblicazione dei dati aveva avuto luogo, e nonostante le precauzioni che spesso sono state adottate per evitare la divulgazione di informazioni personali. Fortunatamente, l’esperienza ci può mettere in guardia dal ripetere gli stessi errori. I ricercatori hanno condotto e continuano a condurre esperimenti di reidentificazione che hanno consentito di costruire un repertorio di casi di scuola.
In uno dei primi e più noti esperimenti, condotto nel 1997, Latanya Sweeney riuscì a reidentificare l’allora governatore del Massachusetts incrociando una banca dati medica con una elettorale, entrambe pubbliche, che avevano in comune una serie di attributi. In particolare, gli attributi comuni riguardavano tre tipi di informazioni – codice postale, data di nascita e sesso – le quali congiuntamente consentono di individuare in modo univoco l’87% della popolazione degli Stati Uniti [2]. Dati di questo tipo sono considerati dei quasi-identificatori, ovvero dati che possono identificare parzialmente un individuo in una banca dati. Questo studio ha messo in evidenza i pericoli derivanti dall’incrocio di banche dati.
Nel 2006 emerse poi il caso America Online, collegato alla pubblicazione della banca dati contenente le interrogazioni testuali inviate al motore di ricerca da circa 500 mila utenti in un periodo di tre mesi. Nonostante le informazioni tecniche collegate ai singoli utenti fossero state rimosse, un giornalista del New York Times riuscì ad identificare uno di loro sfruttando i nomi di luoghi e persone contenuti nelle sue interrogazioni. Anche in questo caso, la reidentificazione consentiva di associare al nome di una persona una serie di informazioni sensibili con grave nocumento della sua privacy. La banca dati fu rimossa e da allora nessun motore di ricerca ha più pubblicato questo tipo di dati. Più in generale, è emerso chiaramente che i dati testuali sono molto più difficili da gestire, perché potenzialmente ogni parola può essere utilizzata come quasi-identificatore.
Un terzo filone di esperimenti si è concentrato recentemente sui dati spazio temporali, ad esempio quelli generati dai dispositivi mobili o dai mezzi di pagamento come le carte di credito [3]. Considerando che oggi è relativamente facile associare la posizione di una persona ad un determinato luogo, è stato verificato che è sufficiente conoscere quattro coordinate relativamente a una persona (si trovava in un certo posto in un dato giorno), anche in un arco temporale di mesi e in un’area geografica estesa, per identificare univocamente la singola traccia fra quelle lasciate da una popolazione di milioni di utenti e ricostruire così tutti gli spostamenti di quella persona in modo sistematico.
Verso un approccio benefici-rischi
Alla luce delle considerazioni precedenti, emerge l’opportunità di valutare esplicitamente sia i benefici sia i rischi connessi alla condivisione di una banca dati o di una tipologia di banca dati. Per entrambi gli aspetti si può ricorrere a una modellazione mutuata dalle ricerche sulla sicurezza informatica, dove si assume che una determinata proprietà dei dati (valore o vulnerabilità) venga sfruttata da un agente per causare un evento (vantaggioso o minaccioso) che può verificarsi con una certa probabilità e tradursi in un risultato (beneficio o rischio) caratterizzato da un impatto che dipende dal numero di persone coinvolte e dall’intensità dell’evento per le singole persone.
Nello schema delineato, è particolarmente importante soffermarsi su due delle variabili in gioco, e cioè vulnerabilità e minacce, mettendo a frutto le conoscenze accumulate negli anni. Per quanto riguarda le vulnerabilità, bisogna accertarsi se nella banca dati sono presenti identificatori diretti (nome, codice fiscale, indirizzo IP) o indiretti (data di nascita, codice postale, sesso), metadati (ad esempio quelli relativi ai campi dei messaggi di posta elettronica diversi dal contenuto), coordinate geografiche multiple riferite ad una stessa persona (ad esempio quelle acquisite attraverso il cellulare) o servizio (ad esempio quelli di bike sharing e taxi), campi testuali, sottoinsiemi sensibili della popolazione. Per quanto riguarda le minacce principali, bisogna considerare la possibilità di reidentificare le persone alle quali i singoli record si riferiscono, oppure di profilare il loro comportamento nel tempo o infine di utilizzare un motore di ricerca per accedere alle informazioni contenute nella banca dati condivisa.
Per esemplificare il processo descritto, si consideri la pubblicazione di una banca dati contenente informazioni su reati sessuali, a livello aggregato o di microdato. I benefici riguardano la possibilità che hacker civici, giornalisti e ricercatori la utilizzino per studiare meglio il fenomeno e proporre contromisure, con un impatto non trascurabile. D’altro canto però, la stessa banca dati potrebbe essere utilizzata da una platea di soggetti ancora più ampia per cercare di reidentificare le vittime, danneggiando così gravemente la privacy degli individui coinvolti e scoraggiando le future vittime dallo sporgere denuncia. Altri esempi d’interesse, come pure una spiegazione più dettagliata dell’approccio benefici-rischi inclusi strumenti operativi di supporto, si possono trovare nella pubblicazione Open Data Privacy del Berkman Klein Center for Internet & Society Research Publication [4].
Politiche di mitigazione del rischio
Quando i benefici della condivisione sono chiari ma i rischi elevati, come nel caso dei reati sessuali, si possono adottare politiche di mitigazione del rischio prima di procedere alla pubblicazione. In sostanza si tratta di modificare i dati agendo direttamente sulle vulnerabilità, attraverso la cancellazione o l’offuscamento di quelle informazioni che sono più suscettibili di tradursi in una violazione della privacy. Le tecniche più comuni, oltre alla creazione di pseudo-identificatori (sostituendo gli identificatori con codici generati casualmente), sono la rimozione di attributi o di sottoinsiemi di record, l’aggregazione e la generalizzazione dei valori, in modo da aumentare la granularità dei dati (ad esempio, sostituendo l’indirizzo con il CAP, o il giorno con il mese), l‘aggiunta di rumore (ad esempio, cambiando i valori o modificando le loro frequenze), e infine l’adozione di modelli globali di privacy, quali ad esempio k-anonomizzazione [5] e privacy differenziale [6].
Nell’esempio dei reati sessuali, la mitigazione del rischio potrebbe consistere nell’agire sull’attributo che specifica dove si è consumato il reato, o aumentando la granularità dei suoi valori oppure eliminando completamente l’attributo. Questi due tipi di azioni sono quelli che ci consentono di gestire la maggior parte delle situazioni d’interesse. In effetti, è possibile stilare una sorta di “checklist” che dovrebbe essere rispettata sempre nel momento in cui si decide di pubblicare una banca dati. Se nei dati sono presenti identificatori o quasi identificatori individuali, oppure indirizzi o coordinate geografiche associate a comportamenti ripetuti, oppure informazioni relative a persone presenti anche in altre banche dati o di tipo testuale, allora è opportuno ridurre la precisione di questi campi o rimuoverli del tutto.
Bisogna considerare però che, se le politiche di mitigazione del rischio vengono adottate in modo assoluto, si può incorrere in una drastica diminuzione del valore dei dati pubblicati, con conseguente diminuzione dei benefici. Privacy e utilità sono fenomeni inversamente collegati che è necessario bilanciare. I due estremi sono la pubblicazione della banca dati nella sua forma originale, che massimizza l’utilità ma ignora la privacy, e la decisione di non pubblicare niente, che azzera l’utilità ma elimina i rischi di violazione della privacy associati alla pubblicazione. La ricerca su “data privacy”, attiva da molti anni, ha messo a punto dei metodi di anonimizzazione che consentono di proteggere in modo sostanziale le informazioni personali a prezzo di una riduzione contenuta dell’utilità dei dati anonimizzati. Questo obiettivo può essere raggiunto diminuendo parzialmente le garanzie di protezione associate con un certo metodo di anonimizzazione.
La k-anonimizzazione applicata a dati testuali
Consideriamo a scopo illustrativo la k-anonimizzazione applicata a dati testuali, in particolare ai log delle interrogazioni inviate ad un motore di ricerca. Il modello base di k-anonimizzazione prevede di rimuovere le interrogazioni infrequenti (che sono potenzialmente più rivelatrici dell’identità della persona che le ha fatte), fino a quando ciascuna delle interrogazioni superstiti non sia stata inviata da almeno k utenti distinti. In questo modo, la probabilità di reidentificazione collegata alle singole interrogazioni si riduce di un fattore = 1/k. Tuttavia, si è scoperto che, anche se ci limitiamo a scegliere k=2 (riducendo così il rischio della metà) si perderebbe il 90 percento delle interrogazioni. Per cercare di aumentare la percentuale di dati pubblicati, sono state proposte delle varianti della k-anonimizzazione nelle quali la maggior parte delle interrogazioni rare non viene eliminata ma generalizzata, utilizzando le gerarchie di concetti delle basi di conoscenza, in particolare WordNet [7]. Un’altra strategia [8] consiste nel conservare le interrogazioni rare che sono riconducibili ad altre interrogazioni frequenti “sicure” delle quali esse costituiscono dei raffinamenti infrequenti. Con queste modifiche, è possibile conservare le garanzie del modello di k-anonimizzazione senza degradare l’utilità dei dati anonimizzati.
Conclusioni
In questo articolo sono state esaminate alcune criticità che il movimento degli open data si trova ad affrontare, soprattutto per quanto concerne il rispetto della protezione dei dati personali. Condivisione dei dati e privacy possono coesistere se si adotta un approccio pragmatico, che promuova la pubblicazione di banche dati di valore avendo adottato misure adeguate per la difesa della privacy. Le linee guida principali che è opportuno seguire per favorire tale approccio sono riassumibili nel seguente modo.
- Integrare la valutazione esplicita dei benefici socioeconomici e dei rischi di divulgazione di informazioni personali nel processo di condivisione delle banche dati.
- Impiegare politiche attive di mitigazione del rischio basate sulle tecniche di data privacy.
- Sviluppare strumenti operativi per supportare le politiche di rilascio delle banche dati e la protezione delle informazioni personali ivi contenute.
__________________________________________________________
Riferimenti bibliografici
[1] Karen Okamoto (2016). What is being done with open government data? An exploratory analysis of public uses of New York City open data. Webology Vol. 13, no. 1.
[2] Latanya Sweeney (2000). Simple Demographics Often Identify People Uniquely. Carnegie Mellon University, Data Privacy Working Paper 3. Pittsburgh.
[3] Yves-Alexandre de Montjoye, Laura Radaelli, Vivek Kumar Singh, Alex “Sandy” Pentland (2015). Unique in the shopping mall: on the reidentifiability of credit card metadata. Science, Vol. 347, no 6221, pp. 536-539.
[4] Ben Green, Gabe Cunningham, Ariel Ekblaw, Paul Kominers, Andrew Linzer, and Susan Crawford (2017). Open Data Privacy. Berkman Klein Center for Internet & Society Research Publication.
[5] Latanya Sweeney (2002). k-anonymity: A Model for Protecting Privacy. International Journal on Uncertainty, Fuzziness and Knowledge-based Systems, Vol. 10, no. 5, pp. 557–570.
[6] Cynthia Dwork (2008). Differential Privacy: A Survey of Results. Proceedings of the International Conference on Theory and Applications of Models of Computation (TAMC 2008), pp. 1-19.
[7] Yeye He and Jeffrey F. Naughton (2009). Anonymization of set valued data via top down, local generalization. Proceedings of the 35th International Conference on Very Large Data Bases (VLDB 2009), pp. 934–945.
[8] Claudio Carpineto and Giovanni Romano (2015). KΘ-affinity privacy: Releasing infrequent query refinements safely. Information Processing & Management, Vol. 51, no. 2, pp. 74-88.