Il linguaggio utilizzato nei documenti che descrivono il trattamento dei dati personali (le privacy policies) è spesso oscuro e incomprensibile per la maggior parte di noi. Sappiamo tutti che si tratta di documenti legali in cui un’azienda si impegna con i propri clienti a gestire le loro informazioni secondo determinate condizioni, ma nella maggior parte dei casi ci risulta impossibile comprendere fino in fondo il contenuto di questi contratti.
Sono lunghi e poco chiari: o così vaghi da lasciare spazio a mille interpretazioni oppure pieni di termini tecnici e gergo legale. Uno studio di qualche anno fa (McDonald & Cranor 2008) ha stimato che se i cittadini americani decidessero di leggere (cercando di comprenderne il significato, ovviamente) tutte le privacy policies che sono di fatto obbligati a sottoscrivere quando visitano un sito web o usufruiscono di un servizio online, il costo opportunità annuale a livello nazionale (tempo medio impiegato pagato a salario medio) ammonterebbe a circa 360 miliardi di dollari. Già: miliardi. Forse uno studio aggiornato mostrerebbe che le cose sono un po’ migliorate, ma non ci illudiamo di vedere differenze a 9 zeri.
Privacy vs protezione dati personali: attenti alla differenza, ne va della nostra identità
Come rendere le privacy policy più comprensibili per gli utenti: le prime proposte
Suggerimenti per come rendere le privacy policies più comprensibili per gli utenti risalgono persino a due decenni fa. Ad esempio, il Consorzio per il World Wide Web (o W3C) aveva creato già nel 2002 un formato standard in cui le aziende potevano pubblicare le loro privacy policies in modo facilmente leggibile da una macchina: il formato P3P, o Platform for Privacy Preferences (W3C 2002). Con un software dedicato, l’utente poteva poi leggere le policies suddivise per categoria: quali dati vengono raccolti, come vengono utilizzati e/o condivisi e con chi. P3P non ha però portato grandi miglioramenti: da un lato non tutte le aziende hanno aderito allo standard, dall’altro le policies di quelle che lo hanno fatto non sono risultate gran che più comprensibili o piacevoli da leggere per l’utente (Reeder et al. 2008).
Un’alternativa migliore è stata proposta nel 2009, quando alcuni ricercatori, ispirandosi alle etichette che riportano le informazioni nutrizionali dei prodotti alimentari, hanno introdotto le etichette di privacy, ovvero una visualizzazione semplificata ed intuitiva delle privacy policies (Kelley et al. 2009). Ci sono voluti più di 10 anni affinché l’idea venisse effettivamente implementata: l’ha fatto Apple nel Dicembre 2020 per il suo app store, imponendo agli sviluppatori una rappresentazione “stile etichetta” delle loro policies. Tuttavia, gli sviluppatori di app su altri dispositivi non sono tenuti a fare altrettanto, e la quota di mercato di Apple per gli smartphone si aggira appena intorno al 13-15%. Ciò significa che la maggior parte degli utenti di smartphone incontra ancora notevoli difficoltà nel comprendere come vengono trattati i propri dati.
Capire le privacy policy: le proposte più recenti con le reti neurali
Le proposte più recenti per semplificare la comprensione delle privacy policies utilizzano vari sistemi di lettura ed interpretazione automatizzate di testi (note nel mondo anglosassone come tecniche di Natural Language Processing, o NLP) che consentono di estrarne caratteristiche non solo grammatico-sintattiche ma anche semantiche, vale a dire di comprensione del contenuto. Metodologie avanzate di questo tipo, che sfruttano complesse infrastrutture di reti neurali, possono essere oggi utilizzate non solo per sollevare gli utenti dal peso di dover leggere lunghi e difficili documenti legali come le privacy policies, ma anche per creare degli assistenti “intelligenti” (ad esempio, Liu et al. 2016) in grado di apprendere le preferenze dell’utente ed intuirne le richieste, così da implementarle automaticamente quando egli interagisce con fornitori di prodotti e servizi tramite Internet.
Un esempio pratico
Facciamo un esempio pratico per chiarire come tecniche di NLP possono assistere un consumatore – chiamiamolo Mario – che stia navigando su Internet. Mario è un utente che tiene parecchio ai propri dati personali e solitamente blocca cookies di terze parti e pubblicità personalizzate. Il suo assistente intelligente, ovvero un programma installato sul suo computer, “prende nota” di queste scelte e nel tempo impara a conoscere, e quindi prevedere, cosa Mario preferisce fare quando visita un sito per la prima volta. Dopo, ad esempio, una settimana di utilizzo del software, Mario visita per la prima volta il sito xyz.it per acquistare un prodotto ed il suo assistente privacy legge automaticamente ed in una frazione di secondo la privacy policy di quel sito. Nota, ad esempio, che xyz.it piazza sul computer dei visitatori dei cookies di terze parti e, poiché ha notato che in passato Mario li ha nella maggior parte dei casi bloccati, provvede a bloccare anche questi automaticamente, senza che Mario venga interpellato o debba intervenire. L’assistente identifica anche una sezione della privacy policy che descrive strani scripts (ovvero piccoli programmi che il sito cerca di lanciare per estrarre informazioni dal computer di Mario, come il tipo di sistema operativo o le applicazioni installate) mai incontrati in precedenza su altri siti, ma effettua una deduzione basandosi su quanto conosce delle preferenze di Mario sulla privacy e blocca autonomamente anche quegli scripts. Se Mario, accorgendosi che la pagina Internet non risponde come dovrebbe (alcune funzionalità sono disabilitate o parte del contenuto non viene visualizzato propriamente), decide di abilitarli manualmente, l’assistente imparerà che quel tipo di scripts non sono fonte di preoccupazione per Mario, e la prossima volta non li bloccherà – magari farà apparire una notifica di conferma e lascerà che Mario scelga direttamente.
Le prime versioni di algoritmi di NLP applicati alla lettura automatizzata di privacy policies (ad esempio, Zimmeck & Bellovin 2014) avevano ovviamente delle limitazioni, come la necessità di annotare manualmente quante più policies possibile così da creare un database da cui l’algoritmo potesse “apprendere” a quali categorie una determinata porzione di testo appartenesse, o un errore relativamente alto nella classificazione di una porzione di testo in una determinata categoria (ad esempio, confondendo cookies piazzati direttamente dal sito che si sta visitando con cookies di terze parti). Capacità computazionali sempre maggiori e nuove tecniche di apprendimento automatico (o machine learning) come il cosiddetto deep learning, che consente all’algoritmo di apprendere autonomamente senza aver necessariamente ricevuto specifiche istruzioni, hanno non solo risolto queste problematiche iniziali e reso la lettura automatizzata di policies altamente efficiente e quindi applicabile a crescenti quantità di documenti, ma lo hanno fatto in modo tale da rendere le classificazioni automatiche dell’algoritmo intellegibili all’utente: non una classificazione effettuata in basi a criteri oscuri, ma una scelta facilmente interpretabile e comprensibile anche per l’utente.
Conclusioni
Quest’ultima proprietà è particolarmente importante perché per i cittadini residenti in Europa nel maggio 2018 è arrivato il GDPR, che impone, tra numerose altre regolamentazioni della privacy, norme di trasparenza e chiarezza che devono applicarsi sia alle privacy policies sia ad eventuali algoritmi utilizzati per analizzarle. Il nostro team di ricerca sta lavorando ad una nuova metodologia di deep learning che consente di valutare, in maniera automatizzata e comprensibile all’utente, come le privacy policies siano cambiate dopo l’introduzione del GDPR. I primi risultati sono incoraggianti, e ci hanno consentito di individuare già diversi casi in cui le modifiche apportate a delle policies le abbiano rese meno (!) invece che più trasparenti. La nostra metodologia aiuta quindi le aziende a prevedere eventuali violazioni della regolamentazione vigente, aiuta le autorità ad individuare aziende che non rispettano le regole, o ne rispettano solo la forma e non la sostanza, e aiuta gli utenti perché consente loro di capire quali sono le aziende con politiche di trattamento dei dati più rispettose della privacy. Vi terremo aggiornati sui prossimi sviluppi!
Bibliografia
Kelley, P. G., Bresee, J., Cranor, L. F., & Reeder, R. W. (2009, July). A “nutrition label” for privacy. In Proceedings of the 5th Symposium on Usable Privacy and Security (pp. 1-12).
Liu, B., Andersen, M.S., Schaub, F., Almuhimedi, H., Zhang, S., Sadeh, N.M., Agarwal, Y., & Acquisti, A. (2016). Follow My Recommendations: A Personalized Privacy Assistant for Mobile App Permissions. In Proceedings of the 12th Symposium on Usable Privacy and Security (pp. 27-41).
McDonald, A. M., & Cranor, L. F. (2008). The cost of reading privacy policies. I/S Journal of Law and Policy for the Information Society, 4(3), 543-568.
Reeder, R., Cranor, L., Kelley, P., and McDonald, A (2008). A User Study of the Expandable Grid Applied to P3P Privacy Policy Visualization. Workshop on Privacy in the Electronic Society (WPES).
W3C (2002). The Platform for Privacy Preferences 1.0 (P3P1.0) Specification. http://www.w3.org/TR/P3P/.
Zimmeck, S., & Bellovin, S. M. (2014). Privee: An architecture for automatically analyzing web privacy policies. In 23rd {USENIX} Security Symposium (pp. 1-16).