L’annuncio di Apple di supportare la privacy differenziale all’interno dei suoi dispositivi è sicuramente molto interessante, perché considera la possibilità di “ricostruire” l’identità di un singolo a partire da un insieme di dati statistici, e quindi, teoricamente, anonimi.
L’intento di Apple pare essere, naturalmente, quello di rafforzare la propria immagine di azienda interessata a proteggere la privacy dei propri clienti. È difficile naturalmente stimare il reale impatto di nuova impostazione e capire fino a che punto verrà utilizzata all’interno dei dispositivi: intanto perché l’annuncio, com’è spesso nello stile Apple, è abbastanza criptico; ma anche perché la tecnologia che serve per realizzarla è stata descritta in alcuni articoli di ricerca, pubblicati a partire dal 2006, ma finora è stata utilizzata assai poco, ed è poco nota anche agli “addetti ai lavori”. Per chi volesse saperne di più, Mattia Monga dell’Università di Milano e membro del Consiglio Direttivo del Clusit, consiglia un articolo divulgativo (in inglese).
L’unica altra azienda che dice di avere adottato la differential privacy è Google, che l’ha implementata all’interno di alcuni dei suoi servizi (in particolare RAPPOR, il sistema di raccolta delle statistiche d’uso di Chrome). Google inoltre ha pubblicato il codice sorgente che dice di utilizzare, dando modo così agli esperti del settore di verificare che effettivamente l’implementazione sia robusta (a quanto pare, il consenso è che lo sia).
Apple per ora ha solo annunciato il supporto senza dare ulteriori dettagli ufficiali.
Ma di cosa si parla, in effetti? Il tema, come si diceva, è quello della “anonimizzazione” dei dati statistici; in altre parole, i timori di quanti temono – legittimamente – di poter essere “profilati” dai grandi marchi di Internet, anche quando i dati raccolti vengano usati in modo statistico.
Alcuni ricercatori hanno infatti dimostrato matematicamente che è possibile identificare con una certa precisione le persone anche se i dati all’interno del database sono stati anonimizzati o aggregati, purché naturalmente si possa fare qualche ipotesi sulla struttura dei dati stessi. Se possiamo interrogare il database tutte le volte che vogliamo, possiamo via via scoprire sempre più caratteristiche dell’individuo, fino ad arrivare ad un punto dove di fatto c’è una persona sola che corrisponde a tutti i criteri, anche se in nessuna delle singole risposte c’è esattamente l’identificazione della persona.
Questa conclusione è preoccupante, perché rende molto più difficile garantire una reale protezione ai dati personali in un’era dove esiste il Big Data.
Come fa quindi la privacy differenziale a risolvere il problema? Chiedendo scusa fin d’ora per una grossolana semplificazione, un’idea può essere ad esempio quella di introdurre del “rumore” nelle risposte della base dati, ovvero una certa imprecisione nelle risposte.
Ciò limita fortemente la possibilità di usare anche query ripetute per identificare le persone, tuttavia si può intuire come gli sia quasi subito un trade-off tra protezione dei dati e l’utilità della base dati stessa: se si introduce molto rumore, l’identificazione delle persone sarà molto difficile, ma saranno anche poco utili le risposte del database; e viceversa con poco rumore le query saranno più precise, ma sarà anche più facile identificare le persone.
Questo introduce il concetto di “privacy budget”, e quindi la consapevolezza che non si può spingere all’infinito né da una parte né dall’altra.
Esiste anche una maniera di evitare alla radice questo tipo di problemi, evitando in pratica di raccogliere i dati sin dall’inizio e facendo in modo che non siano “anonimizzati” ma siano raccolti in forma anonima fin dall’inizio.
È stato dimostrato da altre ricerche scientifiche che ciò è possibile mantenendo al contempo la rilevanza statistica dei dati, utilizzando ad esempio delle funzioni di hash sui dati identificativi nel momento in cui li si va a raccogliere (ancora una volta questa è una forte semplificazione).
Google ha fatto così nel codice che ha pubblicato, e sembra che anche Apple abbia fatto lo stesso, visto che in alcuni post di persone di Apple ci sono cenni all’uso di funzioni di hash. Non è naturalmente ancora possibile avere alcun dettaglio tuttavia l’ipotesi sembra ragionevole e verosimile.
Alla conclusione di questo primissimo esame, le conclusioni non possono che essere ancora molto incerte. Si sa davvero troppo poco di come Apple sta comportandosi per fare commenti definitivi su questa nuova funzionalità.
Tuttavia, ed è forse la conclusione più importante, risulta significativo il fatto che Apple abbia pubblicamente deciso di investire per incrementare la privacy dei propri clienti; e, a volte, anche solo l’effetto-annuncio è quello che conta di più.
Nella nuova società digitale in cui viviamo questi temi sono importanti e, come intuiamo, significativi, anche se facciamo ancora fatica a percepire quanto. Infatti, naturalmente non abbiamo ancora l’esperienza sufficiente per immaginare tutte le conseguenze possibili di una perdita di privacy avvenuta in questo modo, né di quali contromisure potremmo dotarci. È verosimile che ci vorranno vari anni di tentativi ed errori per arrivare ad una buona soluzione.
Insomma, abbiamo ancora molto da imparare; ma perlomeno questo sembra un passo nella direzione giusta.