Privacy

Privacy, Google Analytics 4 è fumo negli occhi: ecco perché non risolve il problema

Anche Google Analytics 4 trasferisce verso Google i dati personali degli utenti e non è, quindi, Gdpr compliant. Restano tutti i problemi segnalati da MonitoraPA e evidenziati dai Garanti Ue. Tutto quello che Google sa di noi e come influisce sui nostri comportamenti grazie ai dati raccolti coi suoi servizi

Pubblicato il 04 Lug 2022

Pietro Biase

Informatico, attivista Monitora PA

Google Analytics 4 non può essere GDPR compliant perché, al pari del suo predecessore Universal Analytics, trasferisce verso Google i dati personali degli utenti, semplicemente attuando un cambiamento della modalità operativa.

Si tratta dunque di una diversa modalità di eseguire il trasferimento dei dati personali, utilizzando una tecnologia che non garantisce comunque una efficace anonimizzazione degli stessi e non impedisce a Google di risalire all’identità del visitatore della pagina web attraverso l’enorme quantità di dati in suo possesso.

La nuova versione di Google Analytics non sarebbe dunque immune dai problemi sollevati dalle Autorità Garanti austriache, francesi e per ultimo anche da quella italiana.

Google Analytics, Scorza: “Basta annunci politici, sul trasferimento dati serve accordo giuridico”

Indice degli argomenti

Cos’è Google Analytics e perché viola il GDPR

Grazie al lavoro di una piccola comunità di hacker, Monitora PA, culminato nella segnalazione di 3230 PA che utilizzano Google Analytics, questo servizio è da qualche mese sulla bocca di tutti: Pubblica Amministrazione, Data Protection Officer e professionisti del digital marketing. Finalmente, dopo anni di silenzio quasi omertoso, il tema della privacy e dello strapotere delle grandi multinazionali a stelle e strisce (Google, Amazon, Facebook, Apple, Microsoft, ecc.) è tornato ad animare il dibattito pubblico.

Google Analytics è un servizio di analisi fornito da Google LLC (Google) che traccia le attività dei visitatori di un sito web fornendo ai gestori del sito stesso statistiche aggregate rispetto a innumerevoli dimensioni: demografiche, tecniche, economiche e comportamentali.

Tramite questo software gli amministratori di un sito web possono effettuare sofisticate analisi sui dati, sulle visite e sulle azioni degli utenti, senza però possedere la capacità di accesso ai dati grezzi, che sono effettivamente registrati da Google a fronte di ogni singola azione effettuata dall’utente.

Come avviene la tracciatura del comportamento dei visitatori sul sito web

Tecnicamente, l’attività di tracciatura del comportamento dei visitatori sul sito web viene eseguita tramite un frammento di codice fornito da Google e che diventa parte integrante del sito stesso. Quando un utente visita il sito web, il codice di Google Analytics viene richiamato e dunque trasferito ed eseguito all’interno del browser. All’interno del frammento è sempre presente un identificativo di tracciamento univoco per il sito web (chiamato Tracking ID o Measurement ID, a seconda della versione del software) attribuito da Google stessa.

La tecnologia con cui il codice di Google Analytics viene incorporato nel sito web è cambiata nel tempo: nella versione Universal Analytics si trattava di codice Javascript richiamato all’interno dell’HTML; a partire da Google Analytics 4 (GA4) questa modalità è stata sostituita da una nuova tecnologia chiamata Google Tag Manager. In entrambi i casi, nel momento in cui il l’utente visita una pagina dotata di codice di tracciamento Google Analytics, viene automaticamente eseguita una parte di codice che trasferisce, tramite protocolli TCP/IP e HTTP, un certo numero di informazioni sui server di Google sufficienti ad identificare il visitatore nella maggior parte dei casi. Le principali informazioni inviate automaticamente ai server di Google sono:

indirizzo IP in chiaro, indipendentemente se l’anonimizzazione (“anonymize_ip” per gli sviluppatori) è stata impostata, da cui è possibile derivare con molta approssimazione il luogo geografico;
data, ora e fuso orario della navigazione sul sito;
stringa identificativa del browser (User Agent);
referrer, ovvero l’indirizzo della pagina web in cui si trovava l’utente prima di visitare il sito web oggetto di monitoraggio;
eventuali cookie precedentemente impostati.

Oltre a raccogliere i dati necessari all’identificazione del visitatore, il codice JavaScript di Google Analytics può analizzare i vari eventi registrati dal browser a valle di ogni azione dell’utente: ogni click, ogni selezione del testo, ogni zoom, ogni tasto premuto, ogni scroll della pagina potrà essere utilizzato per arricchire il profilo comportamentale dell’utente, e potenzialmente anche per de-anonimizzarlo.

Ciascuno di questi eventi registrati da Google Analytics include inoltre informazioni tecniche (dispositivo, sistema operativo, versione del browser, dimensione dello schermo e molte altre), identificativi (advertising_id, user_id, user_pseudo_id), coordinate geografiche e informazioni storico-comportamentali del visitatore. Infine, ai dati personali derivati dalle micro-interazioni dell’utente si possono aggiungere quelli deducibili dai contenuti che visualizza, tutti accessibili al JavaScript di Google Analytics, inclusi quelli presenti nelle eventuali pagine di profilo dell’utente.

Google Analytics, possiamo usarlo ancora: ecco come, nel rispetto della privacy

Tutte le informazioni raccolte da Google Analytics

Ogni qualvolta l’utente utilizzi in contemporanea al sito web su cui è installato Google Analytics anche uno dei servizi o delle App gratuite offerte da Google che prevedono l’autenticazione, sarà sufficiente confrontare l’IP o il cookie identificativo inviati alla prima richiesta con quelli degli utenti correntemente autenticati per stabilirne precisamente l’identità. La straordinaria quantità di informazioni raccolte su milioni di applicazioni mobili e siti web rende estremamente facile, per Google, l’utilizzo di un qualsiasi insieme di dati personali anche non identificativi, con funzione di “identificativi di fatto“, de-anonimizzando i dati ad essi associati per svelare l’identità del soggetto da cui sono stati emessi e perfezionarne la profilazione.

La diretta conseguenza è che per Google è sempre possibile identificare i cittadini europei e tracciarne l’attività, le opinioni e gli interessi su tutti i siti web (e tutte le App) che utilizzino Google Analytics, per ricondurne poi le registrazioni all’identità personale. In altri termini, anche in totale assenza dell’IP, tutti i dati raccolti attraverso Google Analytics rimangono potenzialmente riconducibili all’interessato, nella forma di dati personali soggetti al GDPR.

Google Analytics, in tutte le sue versioni, è senza ombra di dubbio un ottimo software dal punto di vista tecnico. Se fosse open source (non necessariamente gratis), sviluppato da una comunità indipendente ed installato in Europa su server controllati fisicamente ed amministrativamente dal Titolare del trattamento, sarebbe certamente uno dei migliori software di analisi statistica della navigazione web. Oltre a tutto questo, se non rendesse in alcun modo accessibili in chiaro i dati raccolti a società soggette al diritto statunitense (come Google LLC o le sue controllate), sarebbe anche GDPR compliant.

Ma se l’IP è (pseudo)anonimizzato, come fa Google ad eseguire il tracciamento?

Google Universal Analytics fornisce da tempo la possibilità per gli amministratori dei siti web di abilitare la cosiddetta IP Anonymization (“anonymize_ip” per gli sviluppatori).

Si tratta sostanzialmente di una configurazione a fronte della quale Google promette contrattualmente (qui la fonte) di scartare “appena tecnicamente possibile” gli ultimi 8 bit dell’indirizzo IP del visitatore (costituito, nella versione 4 del protocollo IP, da una sequenza totale di 32 bit).

Nella versione 4 di Google Analytics, secondo la FAQ pubblicata da Google, l’anonimizzazione degli indirizzi IP non è necessaria perché questi indirizzi non vengono registrati né archiviati. Nulla però viene dichiarato ufficialmente sul fatto che l’indirizzo IP sia comunque ricevuto da Google e possa tecnicamente essere reso accessibile dagli USA.

La rimozione dell’indirizzo IP è insufficiente

La rimozione dell’indirizzo IP risulta però del tutto insufficiente a costituire un’efficace misura tecnica supplementare a protezione dei dati personali dell’utente, perché in tutte le versioni:

è Google stessa a scartare tali dati e dopo averli ricevuti. Subito prima di scartarli, potrebbe essere costretta a inviarli (all’insaputa del Titolare del trattamento), verso agenzie governative USA nei termini previsti dalle norme statunitensi applicabili;
il numero di bit di entropia forniti dall’IP del visitatore a cui Google promette contrattualmente di rinunciare è nettamente inferiore al numero di bit di entropia forniti, in media, dal runtime di esecuzione del browser;
anche se con GA4 Google promette di non archiviare l’intero indirizzo IP, l’azienda nel suo complesso è in possesso di dati ampiamente ridondanti con cui può identificare, tracciare e profilare l’utente.

Il reverse proxying non risolve il problema

In astratto, una delle possibili misure tecniche supplementari che i Titolari del Trattamento potrebbero adottare per proteggere i dati personali dei visitatori pur continuando a utilizzare Google Analytics, consiste nel mediare l’invio di dati verso i server di Google tramite un reverse proxy specificatamente programmato.

Tale proxy dovrebbe intercettare tutte le comunicazioni fra il browser del visitatore e i server di Google; controllare i messaggi e rimuovere qualsiasi dato personale che possa permettere a Google di identificare il visitatore o arricchirne la profilazione, prima di inoltrare tali messaggi ridotti ai server di Google.

Teoricamente, attraverso una simile intermediazione, il Titolare del trattamento potrebbe efficacemente nascondere a Google l’IP del visitatore, le sue coordinate satellitari, l’identificativo dello User Agent, la data e l’ora delle richieste (conservando per un tempo variabile i dati raccolti prima di inviarli) e tutti i parametri del runtime in cui il codice JavaScript di Google Analytics verrebbe eseguito.

Nella pratica, questa soluzione soffre di gravi problemi tecnici che, oltre a renderla estremamente costosa, ne minano l’efficacia e l’affidabilità nel lungo periodo:

l’efficacia della rimozione dei dati personali dipende dalla specifica versione di Google Analytics in esecuzione: il filtro operato dal reverse proxy dovrebbe essere continuamente aggiornato da un’organizzazione indipendente e dovrebbe impedire il transito a qualsiasi dato non specificatamente ed esplicitamente autorizzato a priori dal Titolare del trattamento;
ciò comporterebbe un degrado inevitabile della qualità delle statistiche a fronte di ogni minimo aggiornamento del sistema;
l’introduzione e il continuo monitoraggio di tale intermediazione obbligherebbero alla messa in opera di datacenter dedicati sotto il controllo di terze parti indipendenti. Ciò comporterebbe costi fissi e ricorrenti molto difficili da stimare a priori, ma nettamente superiori alle soluzioni alternative già disponibili e che operano secondo l’attuale regolamento GDPR.

L’efficacia teorica di tale misura tecnica supplementare si scontra inoltre con la già menzionata possibilità, da parte di Google, di utilizzare dati personali descrittivi non trasferiti a fini di identificazione con funzione di identificativi di fatto, per de-anonimizzare efficacemente l’intera sessione applicativa del visitatore.

L’ecosistema Google registra ed acquisisce enormi quantità di dati personali da innumerevoli fonti

Per chi ha un account Google ed è abituato a navigare sul web restando collegato al proprio utente ci sono rischi aggiuntivi in termini di privacy e gestione dei dati personali.

Non molti sanno, ad esempio, che Google riceve una notifica per ogni chiamata o sms che inviamo con i suoi software, notifica che gli permette di identificare chi chiamiamo e per quanto tempo, a chi scriviamo un SMS e in alcuni casi poter persino determinare il contenuto degli SMS più brevi e frequenti. Quando scriviamo a qualcuno (o quando qualcuno ci scrive) “Buona notte!”, “Ti voglio bene”, “Come va?” su un cellulare Android, Google ne viene immediatamente informato.

Google Analytics, PA fuori legge? Niente panico: ecco cosa sta succedendo

Grazie a GMail, Google sa cosa scriviamo nelle nostre e-mail, a chi le mandiamo e può accedere al contenuto delle e-mail che riceviamo. Sa quali e-mail leggiamo e per quanto tempo. Registra quali e-mail vengono cestinate perché non ci interessano e quali e-mail destano invece la nostra attenzione.

Grazie a Google Maps, Google sa dove andiamo, che si tratti di un bar, di una chiesa, di un negozio o di un terapista.

Grazie ai servizi YouTube, Google News, Google Search, Google Fonts, Google AMP e Google Cloud, sa cosa leggiamo, cosa vediamo, cosa cerchiamo… e ovviamente decide cosa ci interessa e cosa non ci deve interessare. Attraverso questi servizi, Google non si limita ad una sorveglianza capillare della popolazione italiana ed europea, ma esercita una straordinaria influenza, indebita ed invisibile, sull’economia, sulla politica e sulla cultura dei nostri Paesi.

Tutti questi servizi soffrono degli stessi problemi di compatibilità con il GDPR evidenziati per Google Analytics, in quanto la loro adozione comporta inevitabilmente il trasferimento di dati personali a Google di cui è responsabile il Titolare del trattamento.

Perché il trasferimento di dati personali in USA è un problema giuridico?

Nel luglio 2020, con la sentenza Schrems II, la Corte di Giustizia Europea ha riconosciuto l’invalidità del Privacy Shield, rivelando l’assenza di qualsiasi legittimazione giuridica per i trasferimenti di dati dei cittadini europei verso aziende statunitensi.

Infatti, le leggi statunitensi FISA 702 (Foreign Intelligence Surveillance Act, section 702) e E.O. 12333 (Executive Order 12333, United States Intelligence Activities), in combinato disposto con PPD-28 (Presidential Policy Directive 28), introdotte per legalizzare le pratiche dell’intelligence americana rivelate da Edward Snowden, permettono alle agenzie governative USA di ottenere da aziende come Google, Microsoft, Amazon, Facebook e Apple, l’accesso a qualsiasi dato in loro possesso, relativamente a qualsiasi cittadino europeo, senza alcuna tutela per molti dei diritti fondamentali (privacy, protezione dei dati personali, diritto a un rimedio effettivo e al giusto processo) indipendentemente dal luogo fisico in cui tale dato sia presente. Google potrebbe essere costretta a inviare presso i suoi datacenter europei un aggiornamento software in grado di prelevare dati personali (di un singolo o di un gruppo più o meno esteso di persone) su richiesta di una agenzia governativa USA e di eliminare ogni evidenza del data-breach prima del riavvio dei servizi, il tutto senza informare il Titolare che non potrebbe in alcun modo evitarlo.

Google Analytics 4: il solito fumo negli occhi

Il successo di Monitora PA, che in poche settimane ha convinto migliaia di scuole, ospedali e comuni a rimuovere Google Analytics dai propri siti istituzionali, non è un caso isolato ma si integra in un più vasto movimento europeo che, pur con mezzi diversi, si batte per la protezione dell’autonomia e della libertà dei cittadini. Capostipite di questa lotta per la legalità è stata notoriamente l’associazione NOYB fondata dall’avvocato Maximilian Schrems a cui si devono le sentenze che hanno riconosciuto l’invalidità degli accordi Safe Harbor prima e Privacy Shield poi. Nel 2020, all’indomani della sentenza Schrems II NOYB presentò 101 reclami relative ad aziende europee in palese violazione del GDPR.

L’azienda di Mountain View reagì ai primi successi di NOYB sostenendo, attraverso i suoi innumerevoli lobbisti e partner commerciali, che la nuova versione di Google Analytics 4 sarebbe stata immune dai problemi sollevati dalle Autorità Garanti austriache e francesi che, rispondendo ai reclami di NOYB, avevano chiarito come un approccio basato sul rischio non sia applicabile in presenza di trasferimenti transfrontalieri, ovvero laddove i dati dei cittadini europei diventino accessibili ad aziende di Paesi privi di una protezione effettivamente equivalente a quella garantita dalla normativa europea.

Il recente provvedimento dell’Autorità Garante della Protezione dei Dati Personali ha intensificato notevolmente questa campagna commerciale e politica, con articoli su innumerevoli riviste a cui si sono affiancati attacchi più o meno espliciti al Garante italiano, alcuni pubblicati su testate giornalistiche a tiratura nazionale.

Come spesso accade basterebbe guardare alla storia degli ultimi anni per qualificare la credibilità di queste affermazioni. Tuttavia, vista l’enorme influenza che Google esercita sulla società cibernetica contemporanea, la posizione dell’azienda produttrice del software necessita di una chiara (e semplice) smentita.

Esistono innumerevoli alternative open source a Google Analytics (Matomo, Piwik Pro, Plausible, Open Web Analytics e molte altre) perfettamente compatibili con i diritti riconosciuti dal GDPR: l’adozione di uno di questi strumenti permetterebbe ai Titolari del trattamento di continuare a godere delle preziose informazioni sui visitatori dei loro siti web, ma senza violare i diritti dei cittadini riducendone l’autonomia che la privacy protegge e danneggiando la democrazia del proprio Paese.