Negli ultimi tempi stiamo assistendo ad un crescente interesse da parte di regolatori e pubbliche amministrazioni verso l’uso dei big data nell’esercizio delle loro funzioni. Questa innovazione rappresenta, solo a prima vista, una evoluzione delle politiche di open government e di open data, per il fatto che si fa uso di dati (anche) pubblici; ma ha in realtà qualcosa di più e di inesplorato su cui vale la pena aprire una riflessione.
I big data non sono infatti semplici banche dati molto grandi, ma hanno capacità analitiche e predittive, in quanto basati su algoritmi, in grado di estrarre informazione rilevante con gran velocità da enormi quantità di dati di diversa origine e natura. E ciò è possibile grazie a tecniche di machine-learning che consentono di individuare correlazioni e modelli (o patterns), che permettono altresì di “predire” comportamenti, fatti e processi. Si parla di “determinismo dei dati” (Crawford 2013) per indicare il passaggio da un paradigma scientifico basato su ipotesi da dimostrare mediante casi, ad uno in cui gli algoritmi, attraverso un processo di allenamento noto come “deep learning”, imparano ad affinare le proprie classificazioni (Di Porto 2016). Questo tipo di informazione, che non aspira a creare scienza, genera tuttavia conoscenza, in quanto consente l’individuazione di profili comportamentali, di testare la robustezza di ipotesi di rischio e, entro certi limiti, di fare previsioni.
Gli impieghi privati del big data analytics sono già innumerevoli: dal riconoscimento vocale degli smartphone, alle proposte di acquisto dei libri su Amazon, ai prezzi differenziati di alcune compagnie di viaggio, ai filtri antispam, alla pagina delle notizie dei principali social network. Si tratta di servizi personalizzati sulla base dei dati raccolti durante la navigazione in internet o nel nostro contrassegnare la posta elettronica ricevuta come spam, o dei “mi piace” messi ad un “post”, e così via. All’aumentare delle nostre “tracce digitali” e di quelle raccolte attraverso i numerosi device dell’Internet delle cose (dai frigoriferi alle automobili intelligenti, alle scatole nere ivi installate), aumenta la capacità di profilatura dell’algoritmo (o granularità).
Più recenti, e ancora in via di esplorazione, sono invece gli utilizzi del machine learning da parte dei regolatori e delle pubbliche amministrazioni. Riferimenti normativi si trovano ad esempio nella recente Direttiva UE 2016/681 sull’uso dei dati del codice di prenotazione aerea (PNR) a fini di prevenzione di atti di terrorismo o di altri gravi reati, la quale espressamente prevede che si ricorra al trattamento automatizzato di tali dati per “valutare i passeggeri” sospetti ed identificare quelli da sottoporre ad ulteriore verifica (questa volta mediante interventi non automatizzati, o umani). Nei mercati finanziari, il diffondersi della consulenza automatizzata (o robo-adviser), ha portato lo IOSCO (International Organization of Securities Commissions, 2017) a proporre l’elaborazione di alcune linee guida ai regolatori per la mappatura dei rischi connessi alla diffusione di tali strumenti. Negli USA, la FED sta ipotizzando l’impiego del machine-learning per l’individuazione, quasi in tempo reale, di pratiche di insider trading (Coglianese e Lehr 2017). In ambiti meno sensibili, si discute della possibilità di utilizzare gli algoritmi per produrre obblighi informativi “personalizzati”, basati cioè su avvisi ritagliati sull’interesse specifico del destinatario e che gli pervengano nel momento in cui ne abbisogna, in luogo dei più tradizionali elenchi alluvionali di dati, che spesso i consumatori non recepiscono (Porat e Strahilevitz 2013; Busch 2016; Di Porto 2017).
Ma è probabilmente sul fronte del law enforcement, che gli impieghi del big data analytics sembrano attirare la maggiore attenzione. La programmazione dei controlli, come ad esempio delle ispezioni, potrebbe in effetti, acquisire grande efficacia se basata sulle tecniche di machine-learning, consentendo anche un notevole risparmio di risorse. Negli Stati Uniti, ad esempio, la città di Chicago utilizza simili strumenti per definire il calendario delle ispezioni igieniche nei ristoranti; così come a New York, la prevenzione degli incendi negli edifici è gestita attraverso il Mayor’s Office of Data Analytics, che fa uso del machine learning per l’invio degli ispettori. A livello federale, l’Internal Revenue Service si avvale delle reti neurali per identificare possibili nuove aree di non compliance fiscale (Coglianese e Lehr, cit.). Anche in Italia, fonti di stampa riportano che dal primo settembre prossimo, le visite fiscali dell’Inps saranno gestite attraverso il sistema Savio, ovverosia mediante un algoritmo che individuerà, attraverso l’incrocio di dati sui lavoratori pubblici, coloro da assoggettare a tali controlli senza ricorrere alla richiesta del dirigente responsabile.
L’impiego di soluzioni basate sul machine-learning nella regolazione e nell’attività di enforcement pubbliche solleva non pochi problemi sul piano giuridico, e non solo. Anzitutto, le decisioni amministrative basate sui big data sono un po’ diverse da quelle automatizzate sin qui note, perché, con l’apprendimento automatico degli algoritmi, l’output può non essere noto sin dall’inizio al decisore pubblico. Possiamo allora dire che la volontà manifestata attraverso il contributo del machine-learning appartenga ancora all’amministrazione? Oppure sarà sempre comunque necessario un intervento umano affinché possano considerarsi decisioni legittime? Ad esempio, nel campo delle comunicazioni relative al traffico urbano, la PA potrebbe diramare informazioni “mirate” e personalizzate (avvalendosi dei dati di geolocalizzazione, di quelli meteorologici, ecc.), inviando messaggi ai viaggiatori e deviando il traffico dalle zone interessate da possibili esondazioni di fiumi con anticipo rispetto all’evento previsto, basandosi sulle previsioni fornite dai big data. Sarebbe una soluzione certo molto efficiente se comparata all’attuale comunicazione radio sul traffico, che fa spesso disperdere l’informazione rilevante, e che richiederebbe il consenso dei cittadini all’uso dei propri dati di localizzazione.
Oltre al rischio che l’algoritmo possa errare nelle previsioni e condurre a decisioni amministrative sbagliate, come ad esempio, la chiusura al traffico di una strada (e che potrebbero risultare dannose per alcuni: si pensi ai commercianti presenti nella medesima), sorge il problema di stabilire se quella condotta attraverso i big data possa considerarsi una attività istruttoria sufficiente oppure no. In termini tecnici, potrebbe dubitarsi che l’elemento conoscitivo inferenziale da cui si ricava la conoscenza presunta e preventiva che in quella zona si verificherà una esondazione sia effettivamente un elemento di fatto sufficientemente accertato (al pari di una ispezione in loco).
Escludendo il caso – per il momento ancora solo futuribile – che la decisione di chiusura al traffico della strada possa avvenire in maniera completamente automatizzata, senza cioè alcun intervento umano di apprezzamento e di scelta, si potrebbe dubitare che gli accertamenti di fatti richiedenti sopralluoghi o ispezioni (come il rischio di esondazione di un fiume) possano essere riproducibili da sistemi automatizzati. A ben vedere, però, la conoscenza statistico-inferenziale del fatto, in un ambiente big data, è basata su migliaia se non milioni di dati, e ciò potrebbe essere sufficiente per fondare un “ragionevole affidamento” in ordine al verificarsi dell’evento, un po’ come avviene per gli accertamenti fiscali.
V’è però motivo per ritenere che ben farebbe l’amministrazione che intendesse avvalersi di siffatte tecniche, a dotarsi di regole interne per l’uso dei big data a fini di comunicazione pubblica e che prevedano, ad esempio, l’attivazione di segnalazioni (sotto forma di indicatori di anomalia o alert) che richiedono ulteriori accertamenti ispettivi, di tipo “umano” o comunque non automatico.
Un secondo tipo di problematiche riguarda gli amministrati, ed attiene, oltre al già accennato rischio di errore dell’algoritmo, alla tutela della privacy, alla sicurezza dei dati, ai rischi di discriminazione e di un “eccesso di sorveglianza”. In un saggio apparso sull’American Sociological Review del 2017, Sarah Brayne, Professore di sociologia all’Università del Texas in Austin, riporta i risultati di uno studio sull’uso del big data analytics da parte delle forze dell’ordine di Los Angeles. Se da un lato, il lavoro di “law enforcement” dei poliziotti risulta sostanzialmente più efficiente, perché fa emergere connessioni con maggiore facilità e rapidità, consentendo una migliore pianificazione delle operazioni, il lavoro dimostra come il ricorso ai big data in questa attività possa esacerbare i bias (o pregiudizi) nell’attività di selezione delle attività e gruppi di individui da sottoporre a controllo.
Anzitutto, l’integrazione di banche dati inter-istituzionali (cioè di diverse amministrazioni e persino di privati) porta ad un ampliamento dei soggetti sottoposti a controllo, con l’inclusione di individui prima sconosciuti alle forze dell’ordine (come vicini di casa o ex fidanzati di sospetti). In secondo luogo, i dati storici sui crimini, che alimentano gli algoritmi, possono essere incompleti o incorporare discriminazioni, anche non intenzionali (gli individui a basso reddito tendono ad avere uno “score” più elevato di quelli a reddito più elevato, e dunque a ricevere più controlli), portando ad una sorta di conferma dei precedenti, via via che ulteriori contatti vengono inseriti nell’algoritmo. Ciò può condurre oltre che ad un eccesso di controllo di un gruppo sociale anche ad una diversione di risorse pubbliche da aree ed individui che invece sfuggono alla raccolta di dati o che non dispongono di una propria “storia” di contatti con le istituzioni. In terzo luogo, sottolinea la Brayne, oltre alla disciplina del consenso individuale alla prima raccolta dei dati, l’uso del machine learning solleva con urgenza il problema di normare gli utilizzi successivi che di essi le amministrazioni possono fare senza ricevere apposita autorizzazione (è la cd. thid-party doctrine).