Per mandato istituzionale, l’Istat gestisce ingenti moli di dati, dominandone la complessità, restituendo un’informazione sintetica, numerica, descrittiva di fenomeni sociali, economici, ambientali, amministrativi, reali e virtuali, fenomeni per loro natura sfaccettati e non lineari. A ciò si aggiunga che le tradizionali sorgenti di dati, rilevati tramite indagini o acquisiti da fonti amministrative, rappresentano oggi una minima parte dei dati globali disponibili.
Che cos’è la datificazione
Infatti, a partire dall’avvento di Internet e del World Wide Web, fino all’impatto pervasivo dei social network, all’uso massivo di smart device e all’imporsi della cosidetta Internet of Things, ogni aspetto sociale, economico, di interazione tra individui, organizzazioni o oggetti è digitalizzato.
Assieme alla digitalizzazione si assiste al processo di datificazione: ogni evento o stato, nel mondo fisico o virtuale, è prontamente trasformato in dato. I dati, a loro volta, sono raccolti, scambiati, registrati, analizzati, trasformati, venduti. Tra gli altri, la disponibilità di fonti di tipo big data fa parte di quei cambiamenti globali che hanno impatti significativi anche sulla statistica ufficiale.
I nuovi modelli della statistica
I processi tradizionali per produrre statistica ufficiale basati su questionari, interviste e, più in generale, su interazioni strutturate, definite nel tempo, tra “umani”, ricercatori e rispondenti stanno cedendo il passo a nuovi modelli.
La mutata gestione del proprio tempo e la consapevolezza di vivere in sistemi interconnessi hanno impatti significativi sull’aspettativa del rispondente, che si chiede quale senso abbia essere intervistato se i dati possono essere facilmente reperiti da molte fonti e se si hanno diversi strumenti, anche automatizzati, per poter rispondere.
Così, da un lato, il cosiddetto burden statistico può essere molto ridotto, dall’altro i dati acquisiti attraverso domande dirette possono essere combinati con altri dati “passivi” generati automaticamente da sensori installati sugli smartphone, GPS, dispositivi di domotica e simili. Infine, l’intervistatore umano stesso potrebbe essere sostituito da un assistente dotato di intelligenza artificiale (IA).
Dati pubblici aperti, verso standard comuni: i passi avanti dell’Italia
L’indagine Istat sull’Uso del Tempo
Per chiarire meglio questi aspetti, possiamo utilizzare come esempio l’indagine Istat sull’Uso del Tempo regolata dalla legge 53 del 2000, collocata nel sistema di indagini multiscopo sulle famiglie.
La principale peculiarità di tale rilevazione sta nel fatto che attraverso la compilazione di un diario è possibile conoscere il modo in cui ciascun rispondente ripartisce 24 ore (suddivise in intervalli di 10 minuti) tra le varie attività giornaliere, gli spostamenti, i luoghi frequentati e le persone con cui le ha trascorse.
Inoltre sono rilevati aspetti quali la percezione dei tempi di vita, la soddisfazione su alcuni aspetti della vita quotidiana, il benessere legato al momento della giornata.
Se a rispondere è uno smart device
Rispetto a quanto fin qui accennato, è semplice intuire come almeno le caratteristiche “spostamenti” e ”luoghi frequentati” possano essere acquisiti, in modo passivo, direttamente da uno smart device. Ciò introduce il concetto di Smart Survey, ovvero una statistica determinata con l’ausilio di uno smart device.
Come evidenziato nell’esempio, mentre alcune variabili possono essere rilevate automaticamente (esempio: gli spostamenti), altre no (esempio: soddisfazione, percezione, benessere). Ne consegue che l’integrazione tra diverse tecniche di indagine, attive e passive, porta ad un risultato statistico di maggiore reale utilità.
Così possono cambiare le interviste
Inoltre, la combinazione di questi elementi offre uno scenario di prossimo futuro molto diverso da quello attuale: gli uffici di statistica avrebbero la possibilità di stabilire un dialogo continuo con i rispondenti, chiedendo non più elementi quali “Dove si trova in questo momento?” ma concentrandosi su questioni più intangibili “In questo momento si sente soddisfatto di quello che sta facendo?”.
Sarebbe inoltre possibile sensibilizzare le persone rispetto all’importanza della statistica ufficiale, attraverso un rapporto più interattivo e, presumibilmente, più efficace.
Non si tratta qui di usare solo le nuove tecnologie digitali, ma di fare leva su nuovi comportamenti e nuove abitudini, integrando diversi strumenti per produrre risultati a beneficio della collettività, nel pubblico interesse, per ciò che oggi significa.
Gli Istituti di statistica hanno l’opportunità di essere pionieri di un nuovo modello di uso dei dati basato sui principi di trasparenza, indipendenza, correttezza mostrando alle altre istituzioni e al settore privato come la collettività si possa riappropriare del controllo democratico dei propri dati.
Come evitare i rischi della smart survey
Naturalmente, analogamente a quanto avviene per la statistica tradizionale, resta necessario mantenere un approccio critico rispetto a possibili conseguenze negative: rischi di distorsione nella scelta del campione di persone da intervistare o altri effetti poco prevedibili a priori. L’obiettivo è quello di disegnare nuovi modelli di statistiche massimizzando i potenziali benefici (esattezza dei dati raccolti, corretta analisi di attitudini e comportamenti) e minimizzando analogamente i rischi.
Dal punto di vista della protezione dei dati personali, il modello di smart survey è anche molto più intrusivo nella vita delle persone rispetto a modelli tradizionali. La crescente consapevolezza degli individui dei rischi derivanti da scenari distopici di sorveglianza collettiva rende questo modello difficile da accettare. E’ quindi essenziale investire nel rapporto tra istituzioni e collettività sulla base di principi di trasparenza, leale collaborazione e fiducia, al fine di mitigare i rischi.
Informare in modo chiaro e trasparente
Rafforzare un circolo virtuoso di fiducia è una delle maggiori sfide per gli istituti di statistica oggi e può essere avviato in primo luogo attraverso un’informazione chiara e trasparente, aggiungendo alle tradizionali garanzie ulteriori meccanismi di sicurezza in senso ampio, che investono i settori statistico-metodologico, informatico e organizzativo.
Questo percorso ci porta da un modello di smart survey ad uno di trusted smart survey, in cui un ruolo chiave è giocato dalla combinazione coerente degli elementi appena citati, tecnologici e non.
Il regolamento UE per i Big data nella statistica
A partire dal 2013, il Parlamento Europeo si è posto formalmente la questione dell’uso di fonti non tradizionali a beneficio della produzione statistica ufficiale. In particolare, il Memorandum di Scheveningen si riferisce all’uso dei big data nell’ambito della statistica ufficiale, incentivandone lo studio dei metodi per produrre statistiche tempestive e affidabili a fronte della crescente domanda in tal senso.
Una ulteriore evoluzione è avvenuta nel 2018 con il Memorandum di Bucarest Official Statistics in a Datafied Society (Trusted Smart Statistics) che, richiamando, tra gli altri, il Memorandum di Scheveningen e i risultati delle sperimentazioni sull’uso di big data, il Codice delle Statistiche europee, il Regolamento UE 2016/679, introduce il concetto di Trusted Smart Statistics, quale produzione di statistica ufficiale che utilizza l’uso sia di fonti di tipo big data sia il modello delle trusted smart survey. In altre parole, vengono estese fonti e modelli attraverso cui produrre statistica ufficiale.
Le Trusted Smart Statistics possono essere considerate come un servizio fornito da sistemi intelligenti, che incorporano cicli di vita dei dati verificabili e trasparenti, garantendo la validità e l’accuratezza dei risultati, rispettando la privacy degli interessati e proteggendone la riservatezza.
Dopo l’adozione del Regolamento UE 2016/679, l’Europa sta continuando ad incidere sul governo dei dati in modo significativo. Pur non essendo presente uno specifico riferimento alle Trusted Smart Statistics, esse possono considerarsi “naturalmente” incluse quando vengono trattati temi inerenti i dati.
Ue, regole armonizzate per AI, Privacy e Big Data
Per questa ragione ha senso tener conto di almeno alcuni dei diversi riferimenti normativi in materia, quale cornice di riferimento. In particolare, il Data Governance Act (DGA), il Regolamento sulla cybersicurezza, la Direttiva sull’apertura dei dati, la proposta di Regolamento del Parlamento europeo e del Consiglio che stabilisce regole armonizzate sull’intelligenza artificiale, il Digital Services Act, il Digital Markets Act, nonché la giurisprudenza della Corte di giustizia sul trasferimento dei dati nei paesi extra UE.
Volendo restare sui principi e sullo “spirito” che anima queste norme, si possono evidenziare alcuni aspetti, sui quali è necessario trovare elementi di convergenza. Il DGA non fornisce una definizione di governance dei dati, tuttavia possiamo intendere con questa formula il complesso di regole e mezzi che disciplinano l’uso dei dati, mediante procedimenti di condivisione, accordi e standard tecnici, fino all’istituzione di strutture e processi per la condivisione dei dati in modo sicuro, anche attraverso soggetti terzi.
Come trattare in modo sicuro i dati della PA
In tal senso, è da salutare con favore l’interesse dei pubblici poteri per la programmazione strategica delle policy data driven e della valorizzazione dei dati detenuti dalle pubbliche amministrazioni. Questi ultimi potrebbero essere riutilizzati in modo sicuro, tra gli altri, a fini statistici, di ricerca e di innovazione garantendone, attraverso le più avanzate tecniche di pseudonimizzazione o di privacy differenziale il rafforzamento della protezione dei dati personali.
Un trattamento sicuro di questi dati sembra, perciò, “possibile solo in un ambiente di trattamento sicuro predisposto e controllato dal settore pubblico”, secondo quanto “è già stato sperimentato a livello dell’Unione ai fini della ricerca su microdati statistici, sulla base del regolamento (UE) n. 557/2013 della Commissione.
Piattaforma Digitale Nazionale Dati, missione “once-only” per la PA: come aderire e gli obiettivi
Pur essendo ancora lontani dalla realizzazione di Trusted Smart Survey in senso stretto, Istat, come altri istituti di statistica, ha condotto lavori statistici utilizzando fonti di tipo big data, in particolare: (a) per confrontare i risultati sul fenomeno del pendolarismo utilizzando tecniche tradizionali e dati di telefonia mobile e (b) per restituire un indice di positività o negatività del fenomeno della violenza di genere e la presenza di stereotipi utilizzando i messaggi veicolati dai social Twitter, Facebook, Instagram e Rassegna stampa Web, attraverso un’analisi di tipo opinion mining.
Bilanciare gli interessi per tutelare il singolo e la collettività
Su entrambi i lavori l’Autorità Garante per la Protezione dei Dati Personali (GPDP) si è espressa attraverso il provvedimento n. 235 del 9 giugno 2022. Come si può evincere dal provvedimento, è nel bilanciamento di diversi interessi, nella profonda applicazione del principio di accountability, attraverso l’analisi del rischio per i diritti e le libertà degli interessanti, nella messa in campo di fattori tecnici (ad esempio la cifratura) e organizzativi per mitigare tali rischi, nell’adozione concreta del principio di minimizzazione, che si trovano, tra gli altri, le leve per tutelare i diritti del singolo e l’interesse della collettività.
Conclusioni
Volendo solo guardare alla statistica ufficiale, e restringendo ancora il campo al punto di vista metodologico di produzione, l’attuale tendenza è quella del rafforzamento di tecniche di integrazione tra diverse fonti di dati (tradizionali e non) e tra modelli truth-based e trusted-based.
L’uso sistematico di algoritmi e automatismi per prendere decisioni, anche per la statistica ufficiale, è un fatto che dovrebbe essere osservato con equilibrio, evitando posizioni estreme quali il cieco affidamento o la demonizzazione.
A tal proposito giova ricordare che qualsiasi macchina, e suo algoritmo di funzionamento, più o meno intelligente, è il frutto di informazioni e configurazioni impostate dall’uomo e i bias che a volte troviamo nelle macchine sono il riflesso di quelli umani. Mentre correggere i bias delle macchine è difficile ma possibile, superare i pregiudizi umani risulta molto più faticoso.
Equilibrio, bilanciamento di diversi interessi, considerazione di aspetti etici dovrebbero essere il faro nell’uso più o meno avanzato di strumenti automatizzati. E questi elementi non sono appannaggio di una categoria di soggetti, ma di giuristi, filosofi, matematici, psicologi che, cooperando, possano rispondere ad una delle più significative sfide dei nostri tempi.