La persona al centro: le nuove tecniche di privacy by design nei trattamenti dati

Molte delle tecniche per dare piena attuazione alla privacy by design, scoperte diversi anni fa, si sono rivelate troppo inefficienti e poco pratiche. Con l’implementazione del Machine Learning (ML), tuttavia, se ne è reso possibile un impiego efficace ed efficiente. Vediamo quali sono e come funzionano

In un periodo in cui si parla tanto di sovranità dei dati e di capitalismo della sorveglianza ^{^[1]} è fondamentale, necessario e indispensabile mettere al centro di ogni sistema tecnologico l’individuo, come soggetto a tutto tondo capace anche di autodeterminarsi pienamente nella sua ormai imprescindibile dimensione digitale.

E a tal proposito viene in soccorso il concetto di privacy by design, disciplinato dal primo paragrafo dell’articolo 25 del GDPR, secondo il quale la persona fisica, i cui dati vengono trattati, deve essere al centro del sistema di tutela, e il titolare deve dimostrare un impegno effettivo e non solo formale.

Privacy by design e Gdpr: un’etica per l’Intelligenza artificiale

La visione statica della protezione dei dati che conoscevamo si è ormai evoluta “in forme dinamiche, liquide, accelerate di protezione dei dati: l’art. 25 ha introdotto la privacy by design che bene si attaglia alla idea generale di una responsabilizzazione ex ante e tendenzialmente in movimento del trattamento, della conservazione e dell’utilizzo dei dati” ^{^[2]}.

Indice degli argomenti

La privacy by design nel GDPR

La nozione di privacy by design prevede, come noto, che, fin dalla fase di progettazione di nuovi prodotti, servizi o di qualsiasi iniziativa di business, progetti o tecnologie, il Titolare del trattamento dei dati debba:

individuare i dati personali che saranno oggetto di trattamento per mezzo del prodotto, servizio, iniziativa o tecnologia realizzati;
determinare, sin dall’origine, il periodo di conservazione dei dati;
individuare i soggetti che, nelle rispettive aree, avranno accesso ai dati personali;
implementare specifici presidi, in ottemperanza ai requisiti per la protezione dei dati personali, che possano mitigare eventi di violazione in seguito ad attacchi informatici esterni o comportamenti illeciti interni;
individuare quei trattamenti che, presentando rischi elevati per i diritti degli interessati, in quanto trattano una categoria di dato o presentano un rischio residuo di trattamento elevato, sono soggetti alla valutazione d’impatto.

Per fare ciò il Titolare deve tenere conto dello stato dell’arte e dei costi di attuazione, della natura, dell’ambito di applicazione, del contesto e delle finalità del trattamento, come anche dei rischi aventi probabilità e gravità diverse per i diritti e le libertà delle persone fisiche costituiti dal trattamento. Il regolamento suggerisce alcune misure tecniche e organizzative adeguate, la pseudonimizzazione, la minimizzazione, e l’integrazione nel trattamento delle necessarie garanzie al fine di soddisfare i requisiti del regolamento e tutelare i diritti degli interessati.

Questioni problematiche: il costante rischio di re-identificazione

Con la prima misura (la pseudonimizzazione) alcuni identificatori vengono sostituiti con pseudonimi, cioè dati realistici, ma non veritieri. I dati originali, come vedremo al par. III, vengono conservati in un database e le tabelle delle corrispondenze tra dati originali e gli pseudonimi utilizzati dovrebbero essere conservate in un luogo separato e adeguatamente protetto. Tale sistema, tuttavia, permette di re-identificare le persone fisiche, in quanto il titolare, o il responsabile del trattamento, possiede le “informazioni aggiuntive” che consentono in modo reversibile di risalire all’identità degli interessati.

Per quanto i dati pseudonimizzati non possano essere attribuiti ad un individuo senza utilizzare le predette “informazioni aggiuntive”, la presenza di tali informazioni non garantisce di per sé che gli interessati non possano essere identificati.

Esistono, diversi metodi per generare pseudonimi, tra i quali:

l’utilizzo delle funzioni di hash, che calcolano, a partire da un insieme di caratteri di lunghezza arbitraria, una stringa alfanumerica di lunghezza determinata;
la crittografia: si tratta di una misura tecnica di sicurezza che, attraverso un apposito algoritmo matematico, rende illeggibili i dati personali a chiunque non abbia l’autorizzazione a visionarli, proteggendo i dati da trattamenti non autorizzati o illegali. Per accedere ai dati personali crittografati è necessario essere in possesso di una chiave di decriptazione. Tuttavia, il possesso di una chiave rende la crittografia un’operazione reversibile. Infatti, chi conosce la chiave può facilmente risalire all’identificazione di ogni persona interessata decrittando l’insieme di dati, in quanto i dati personali sono ancora contenuti all’interno dell’insieme di dati, pur se in forma crittografata.

Da quanto sopra emerge che, mentre nella pseudonimizzazione i dati sono potenzialmente visionabili da chiunque, in quanto vengono resi disponibili per determinate finalità come la ricerca, e dunque oscurati solo in parte, la crittografia ha lo scopo di oscurare completamente i dati in modo che solo specifici soggetti autorizzati possano visionarli;

la anonimizzazione. Per anonimizzazione del dato personale si intende quella tecnica con cui le persone fisiche interessate non possano più essere identificate in nessun modo, determinando una de-identificazione irreversibile. Se l’anonimizzazione è stata eseguita correttamente, i dati oggetto dell’operazione non sono più classificati come dati personali e quindi non rientrano nella dimensione applicativa del GDPR. Peraltro, i dati anonimizzati sono compresi fra gli esempi specifici di “dati non personali”, così come definito nel Considerando 9 del regolamento. I rischi essenziali connessi alla tecnica della anonimizzazione sono: l’individuazione, che corrisponde alla possibilità di isolare alcuni o tutti i dati che identificano una persona all’interno dell’insieme di dati; la correlabilità, ossia la possibilità di correlare almeno due dati concernenti la medesima persona interessata, o un gruppo di persone interessate, nella medesima banca dati o in due diverse banche dati ; infine, la deduzione, vale a dire la possibilità di desumere, con un alto grado di probabilità, il valore di un attributo dai valori di un insieme di altri attributi ^{^[3]}.

Diverse sono le tecniche di anonimizzazione che presentano diversi gradi di affidabilità, come emerge dal Parere n. 5/2014 del WP29. Nello specifico si dividono in due macrocategorie: da un lato la randomizzazione, che modifica il grado di verità del dato al fine di eliminare la correlazione che esiste tra lo stesso e la persona; dall’altro la generalizzazione, che consiste nel diluire gli attributi delle persone interessate modificandone la rispettiva scala o il rispettivo ordine di grandezza.

Tecniche di privacy by design

Come sopra già illustrato, la diffusione delle Information Comunication Technology (ICT) ha portato ad una produzione di dati sempre più rilevante. Di conseguenza, l’organizzazione e la gestione di tali informazioni sono divenute un asset fondamentale per gli enti, pubblici o privati, nonché un’importante fonte di responsabilità per i medesimi. Questi ultimi, per poter assicurare standard di efficienza adeguati, sono pertanto tenuti ad adottare delle misure che garantiscano un trattamento “sicuro” delle informazioni, secondo le disposizioni individuate sin dall’adozione del GDPR e, in particolare, dagli articoli 25 e 32.

Con riguardo a tali misure, ci si riferisce alle sopra indicate categorie di anonimizzazione e della pseudonimizzazione, basate sui principi di integrità e riservatezza del dato, nonché di generalizzazione e della randomizzazione, basate sul principio di minimizzazione.

Volendo porre un focus sulla pseudonimizzazione, occorre evidenziare che la sua particolarità rispetto all’anonimizzazione consiste nella possibilità di poter accedere a delle informazioni aggiuntive, conservate separatamente e non consultabili da parte di terzi, con le quali è permesso re-identificare la persona a cui i dati pseudonimizzati si riferivano, con la duplice conclusione che:

a) i dati speudonimizzati continuano a rientrare nella categoria dei dati personali e, di conseguenza, a dover essere trattati nel rispetto del GDPR;

b) tali dati restano esposti a possibili data breach. Di conseguenza, le tecniche di pseudonimizzazione – il cui utilizzo ad oggi è particolarmente diffuso – necessitano delle dovute strategie per poter limitare al massimo i rischi legati alle fasi del trattamento.

Secure multy party computation

Nello specifico, la prassi ha conosciuto diverse tecniche per dare piena attuazione alla privacy by design. In particolare, ve ne sono alcune particolarmente promettenti come la secure multy party computation (MPC) e la homomorphic encryption. Tali tecniche sono state scoperte diversi anni fa. Tuttavia, al tempo esse si sono rivelate troppo inefficienti e poco pratiche. Fortunatamente, i recenti progressi algoritmici e, nello specifico, l’implementazione del Machine Learning (ML), hanno reso possibile un impiego efficace ed efficiente di tali tecniche, rendendole dei tool versatili ed in grado di eseguire analisi su set di dati molto più ampi ^{^[4]}.

Con riguardo alla MPC, tale tecnica si rivela particolarmente utile nelle operazioni di trasferimento di dati tra soggetti diversi e, a volte, in competizione tra loro (c.d. adversaries). Essa assicura la c.d. privacy in ingresso (input privacy), poiché le informazioni fornite da ogni interessato al trattamento – ossia ogni parte – non vengono divulgate ai restanti partecipanti. L’unico dato condiviso tra tutti riguarda l’output del trattamento, ossia il risultato dell’elaborazione, le cui fasi restano inaccessibili. Volendo fare un’esemplificazione, se Alfa, Alfa 1, Alfa 2 […], Alfa n, forniscono i propri dati x, y, z […], l’unico dato visibile ai partecipanti sarà il risultato della funzione f (x, y, z).

Tra i rischi, la MPC comporta il pericolo di re-identificazione partendo dall’output. Tuttavia, eventuali attacchi possono essere sviati grazie all’applicazione di ulteriori tecniche, quali la k-anonimity, t- closeness e la differential privacy.^{^[5]}

Homomorphic encryption

Diverso è il funzionamento della homomorphic encryption. Nello specifico, mentre nella MPC le informazioni restano segrete durante il trattamento, tale tecnica permette di elaborare dei dati già crittografati in precedenza. In tal modo, la homomorphic encryption consente di tutelare le informazioni non solo durante la conservazione delle stesse, ma anche durante le fasi di elaborazione. Un importante vantaggio di tale tecnica consiste nell’aumentare la resilienza dei sistemi di elaborazione dati, evitando (o per lo meno diminuendo) ipotesi di data breach da parte dei processor, oltre a rendere ancor più complessa la realizzazione di eventuali cyber attacchi dall’esterno. La homomorphic encryption può essere di due tipi: semi omomorfica e completamente omomorfica. Nel primo caso, essa potrà svolgere le operazioni più semplici, come la somma e la moltiplicazione; nel secondo, invece, essa potrà anche elaborare calcoli più complessi, come le operazioni aritmetiche e le funzioni boleane ^{^[6]}.

Blockchain

Una terza tecnica volta a garantire una piena attuazione della privacy by design e che potrebbe avere dei grandi sviluppi nel prossimo futuro sfrutta la tecnologia blockchain. Quest’ultima, grazie al modello decentrato che la caratterizza, permette di realizzare transazioni con un alto tasso di sicurezza per le informazioni oggetto di trattamento.

Infatti, grazie anche all’apporto del ML, tali modelli possono sfruttare le tecnologie blockchain che utilizzano anche strumenti crittografici per fornire un’archiviazione sicura dei dati. Allo stesso tempo, la combinazione tra ML e blockchain potrebbe ridurre al minimo i rischi per la privacy e la sicurezza legati all’elaborazione di dati non crittografati.

Un esempio è offerto da Kairos, un tool di riconoscimento facciale che ha incorporato le tecnologie blockchain. Esso combina la biometria facciale e la tecnologia blockchain per consentire agli utenti di proteggere meglio la propria privacy. Un algoritmo confronta l’immagine di una persona con i punti di riferimento (o identificatori) facciali in primo piano fino a creare una corrispondenza univoca. Questa corrispondenza viene quindi convertita in una stringa di numeri univoca e casuale, dopodiché l’immagine originale può essere scartata, non essendo più necessario conservarla. In tal modo, questa “blockchain biometrica” permette alle aziende o i governi di identificare l’interessato, senza dover effettivamente conoscere il volto dello stesso ^{^[7]}.

Occorre evidenziare che le tecniche fin qui elencate, che prendono il nome di software based solutions, possono essere accompagnate da altre misure c.d. hardware based solutions – ossia delle misure di tipo fisico – comunque necessarie ad attuare il più generale principio di privacy by design. Tra queste, è possibile menzionare la decriptazione in un trusted execution environment, ossia uno spazio chiuso, a prova di manomissione dall’esterno.^{^[8]}

Smart cities e servizi a prova di privacy: nuove opportunità per i cittadini

Riuscire nell’impresa di applicare in concreto le tecniche di tutela della privacy by design vuol dire, secondo l’indicazione suggerita dal filosofo Luciano Floridi, creare una società matura dell’informazione.^{^[9]} Tale modello è finalizzato ad offrire nuove opportunità per i cittadini, permettendo ai medesimi di accedervi e poterne godere a pieno.

È questo il piano che anche in Italia ha iniziato a prendere piede, sulla scorta di numerosi esempi dall’estero, in cui la tecnologia ha innervato le realtà urbane, diventando un tutt’uno con le stesse. È il caso delle città di Treviso, località in cui un team di studiosi appartenenti a diversi settori ha deciso di rendere la città veneta smart^{^[10]}.

Questa transizione eco-tecnologica permetterà in piccolo, oggi, e in grande, domani, di affrontare le questioni legate all’inquinamento, che viene prodotto in gran parte dalle realtà urbane, nonché di creare un ambiente più vivibile per tutta la comunità urbana, il cui numero è destinato a crescere nei prossimi anni.

Orbene, per rendere concreta tale ambizione, sarà necessario delineare delle coordinate da seguire, insieme ad alcune indicazioni pratiche.

Un primo aspetto da chiarire sono le modalità con cui garantire i servizi di una smart city rendendo la tecnologia accessibile a tutti gli smart citzens, ponendo sempre la persona al centro. Un interessante spunto è offerto dalla proposta di Regolamento europeo sull’IA. Già da tale bozza, si nota l’attenzione posta dal Legislatore europeo sull’esigenza di garantire il corretto bilanciamento tra tale tecnologia, necessaria per una corretta implementazione anche delle tecniche di protezione dati – come evidenziato nel precedente paragrafo – e la privacy.

Nello specifico, si evidenzia come l’IA potrebbe essere utilizzata in modo abusivo, dando spazio a vere e proprio pratiche di controllo sociale su larga scala ^{^[11]}. Si pensi al caso in cui, in seguito ad un’elaborazione automatizzata basata su dati poco corretti, non aggiornati, o affetti da bias legati all’etnia, alla religione o all’orientamento politico, le singole persone – se non intere fasce di popolazione – venissero escluse dalla possibilità di godere di un determinato servizio.

Sebbene – già con la bozza di Regolamento – siano state prese le distanze da tali tipi di strumenti, i quali contraddicono i valori stessi dell’Unione, ciò potrebbe non bastare a scongiurare il pericolo di “misuse” da parte dei processor. Ed invero, è impossibile escludere totalmente il rischio di nocumento per i cittadini, i quali resterebbero totalmente esposti ad eventuali disservizi e, nei casi più gravi, vere e proprie discriminazioni, lesive della dignità e della libertà.

Altri tipi di settori in cui è necessario porre particolare cura nella protezione dei dati personali, evitando anche un loro potenziale “riuso” dannoso, sono quelli inerenti alla modalità di selezione del personale, di accesso alle cure mediche – e, in generale, ai servizi erogati dalla PA che richiedono l’identificazione biometrica dell’interessato –, nonché la prevenzione dai sinistri stradali.

Con riguardo al primo, esso è un tema che abbraccia tanto il settore pubblico quanto quello privato e che ha richiesto una seria rivisitazione, soprattutto alla luce delle continue evoluzioni del mercato. Infatti, l’esigenza di voler garantire l’incrocio della domanda con l’offerta di lavoro si è dovuto confrontare con un numero sempre più elevato di candidati, con la difficoltà di poter valorizzare adeguatamente la figura professionale di ognuno ^{^[12]}. Per tali ragioni sono stati sviluppati dei procedimenti automatizzati volti a rendere più efficiente il procedimento di selezione dei candidati. Nel far questo, tuttavia sono state riscontrate delle problematiche legate ai criteri di scelta utilizzati, a volte rivelatasi discriminatori o arbitrari. È in questo senso che tanto la giurisprudenza, prima, quanto la legislazione europea, poi, hanno individuato tale settore quale uno di quelli più ad alto rischio e, pertanto, bisognosi di implementazione di tecniche volte ad assicurare una selezione seria e non violativa delle privacy dei candidati, la quale si sarebbe tradotta in violazione della propria dignità personale. Si pensi, in tal senso, alle discriminazioni sul lavoro nei confronti delle donne, sia in termini di assunzione che di effettiva retribuzione, ad oggi ancora impari in Italia, come in altri Stati dell’UE.^{^[13]}

Con riguardo all’accesso ai servizi offerti dalla PA e, in generale, a tutte le ipotesi in cui l’interessato debba essere identificato accedere ad un determinato servizio, il problema concerne il trattamento dei dati biometrici disciplinati dall’art. 9 GDPR. Questi ultimi, come anche auspicato dallo stesso Regolamento, andrebbero utilizzati con estrema cautela e, soprattutto, qualora essenziali per il conseguimento dello scopo perseguito, nel pieno rispetto del principio di minimizzazione e di limitazione nella finalità. Certamente, poter essere identificati per godere di un servizio, anche direttamente dal proprio domicilio, è un enorme vantaggio in termini logistici. Tuttavia, la gestione di grandi quantità di dati sensibili potrebbe comportare un grande rischio per gli interessati, soprattutto in caso di cyberattacchi. Pertanto, una soluzione utile in grado di bilanciare la versatilità dell’utilizzo dei dati biometrici con l’esigenza di garantire la sicurezza del dato, potrebbe essere quello di gestire tali dati non in modo accentrato, bensì distribuito, secondo il modello offerto dalla tecnologia blockchain, di cui si è fatto sopra menzione.

Infine, l’ultimo settore di centrale importanza all’interno di una smart city è quello legato alla sicurezza della mobilità urbana ^{^[14]}. Su tale argomento si è sviluppato un grande interesse, soprattutto rispetto a tutto ciò che concerne l’Internet of Things (IoT), e la capacità di oggetti diversi (semafori intelligenti, veicoli automatici, sensori, videocamere etc.) di poter “comunicare” tra loro, in modo interoperabile e fluido. Forse questo aspetto è quello che rende di più l’idea di digital environment, ossia un luogo in cui i singoli oggetti, quasi dialogando tra loro, siano in grado di garantire un miglior servizio ai cittadini. Infatti, limitando l’intervento umano in modo adeguato, si potrà garantire un numero inferiore di incidenti ed una maggiore efficienza del servizio di trasporto pubblico.

Conclusioni

Ma queste soluzioni da sole non bastano.

Nel sistema digitale, infatti, il dato diviene “un cardine della leva di produzione”, la sua condivisione oltre che inserirsi in un insieme economicamente apprezzabile diventa un elemento di cessione di parti sempre più diffuse della propria personalità, quasi come se fossero atti dispositivi del proprio corpo ^{^[15]} .

È pertanto necessario e assolutamente imprescindibile che vi sia piena consapevolezza da parte del soggetto interessato che alla accettazione di determinati dispositivi conseguirà fisiologicamente una perdita di alcune sue libertà o almeno una loro “dequotazione”.

Il cittadino deve quindi vantare il diritto ad una piena e libera informazione, non coartata mediante sistemi di profiling e di data mining: il servizio offerto può certamente fare utilizzo per fini promozionali dei dati legittimamente raccolti, ma deve sempre offrire una informazione che renda possibile per il singolo il non aderire e il non usufruire del servizio stesso e soprattutto che gli permetta di sapere, il quanto e il se del trattamento dei dati. L’informazione deve quindi essere garantita ex ante dalla piena conoscibilità dei pattern logici di strutturazione del servizio, le condizioni di utilizzo devono essere chiare e semplici.

Ed è per questo che appare opportuna l’approvazione di un piano generale di utilizzo e di governo dei dati, quello che viene definito “un autentico piano regolatore ombra da sovrapporre alle modifiche urbanistiche innervate di dispositivi tecnologici” ^{^[16]}.

Note e bibliografia

Su questi argomenti si veda in particolare Shoshana Zuboff, Il capitalismo della sorveglianza, Il futuro dell’umanità nell’era dei nuovi poteri, Luiss Press, 2019 e Colpo di stato del capitalismo della sorveglianza, Internazionale, 9 aprile 2021; Luca Bolognini, Non lasciamo all’intelligenza artificiale il compito di prevenire i crimini, editoriale domani.it. ↑
Andrea Venanzoni, Smart cities e capitalismo di sorveglianza: una prospettiva costituzionale, Forum di quaderni costituzionali, 20 ottobre 2019. ↑
Ramona Cavalli, Anonimizzazione del dato: le tecniche possibili, iusinitinere.it/anonimizzazione-del-dato-le-tecniche-possibili-26388 March 30, 2020. ↑
Sul punto si rimanda a OECD (2019), Artificial Intelligence in Society, OECD Publishing, Paris, pp. 103 e ss. ↑
In particolare, con riguardo alla differential privacy, si rimanda a De Cristofaro E., An Overview of Privacy in Machine Learning, UCL & Alan Turing Institute, 2020, pp. 9 ss. ↑
Per approfondire si rimanda a Scheibner J. e altri, Data protection and ethics requirements for multisite research with health data: a comparative examination of legislative governance frameworks and the role of data protection technologies, in Journal of Law and the Biosciences, 1-30, pp. 27 e ss. ↑
Artificial Intelligence in Society, cit. ↑
Data protection and ethics requirements, cit. ↑
Floridi L., Il verde e il blu, idee ingenue per cambiare la politica, pp. 93 ss. ↑
Una smartcity, della quale sono state offerte plurime definizioni, può essere qui intesa come quel luogo in cui la dimensione tecnologica, umana ed istituzionale si commistionano, formando un grande sistema organico unitario. In argomento, si rimanda a Nam T. e Pardo T.A., Conceptualizing Smart City with Dimensions of Technology, People, and Institutions, June 2011, disponibile al seguente link https://www.researchgate.net/publication/221585167. ↑
Sul punto vi sono stati numerosi precedenti, sui quali si è espressa la Corte EDU, anche di recente. Per un’analisi approfondita si rimanda a Pollicino O. e Paolucci F., Big Brother (cannot) Watch: the Grand Chamber ruled against surveillance in the Snowden revelation’s aftermath, in EU Law Live, Maggio 2021, disponibile al seguente link: https://eulawlive.com/op-ed-big-brother-cannot-watch-the-grand-chamber-ruled-against-surveillance-in-the-snowden-revelations-aftermath-by-oreste-pollicino-and-federica-paolucci/. ↑
Sul punto si rimanda al Considerando 36 della proposta di Regolamento sull’IA. ↑
In tal senso, il considerando 36 della proposta di Regolamento sull’IA posto il focus sull’esigenza di tutela per i cittadini spesso sottoposti a condotte discriminatorie. ↑
Sul punto si rimanda a Salami E., Autonomous transport vehicles versus the principles of data protection law: is compatibility really an impossibility? in International Data Privacy Law, 2020, Vol. 00, No. 0. ↑
ANDREA VENANZONI, Smart cities cit. ↑
ANDREA VENANZONI, Smart cities cit ↑