OPEN GOV e AI

Più valore agli Open Data della PA, ecco la piattaforma smart che li “igienizza”

Si basa su un mix di modelli potenziato dall’Intelligenza artificiale il progetto user-friendly firmato Università di Salermo e Regione Campania. Vediamo come il sistema garantisce “qualicy” (qualità e privacy) dei dati pubblici. Scongiurando il contagio dell’infosfera con dataset “sporchi” e non riusabili

Pubblicato il 13 Nov 2020

Giuseppe Ferretti

Direttore Tecnico Sistemi Informativi, Consiglio regionale della Campania - Componente del Tavolo tecnico per Dematerializzazione e Digitalizzazione, Conferenza dei Parlamenti regionali

Gianluigi Renzi

Consulente esperto Open Data, Consiglio regionale della Campania

Vittorio Scarano

Direttore ISISLAB, Dipartimento Informatica, Università Salerno

L’Intelligenza artificiale utilizzata in modo “etico” e “igienico” consente di ottenere la Qualicy (Quality + Privacy) negli Open Data della PA. La metodologia per la produzione agile di Open Data (OD) conformi a: GDPR, linee guida AGID e ISTAT e all’art. 52 CAD, quindi alla “Qualicy” (Quality + Privacy) nasce nel 2018, sulla scorta di accordi di collaborazione tra il Dipartimento di Informatica dell’Università di Salerno e la Regione Campania (Consiglio e Giunta).

Facciamo il punto su come funziona e perché è importante il “lavaggio” dei dataset della PA, prendendo ad esempio anche un caso d’uso reale: il monitoraggio dei dati sul fenomeno del femminicidio.

Indice degli argomenti

Produzione agile di Open Data

Presentata in anteprima nel 2019 alla 20th International Conference on Digital Government Research a Dubai (UAE prima nazione al mondo ad istituire un Ministero dell’Intelligenza Artificiale), la metodologia è stata pubblicata su ACM (Association for Computing Machinery) Digital Library.

Si basa, tra l’altro, sull’impiego di algoritmi di Intelligenza Artificiale su una piattaforma open source con un’amichevole interfaccia social, liberamente riusabile da PP.AA. (centrali e locali) e Community interessate (Cittadini, Imprese, Professionisti, Associazioni, Enti no-profit, Data journalist, Open Data activist, Università, Scuole, Team OpenGov, Hackaton, etc.).

La metodologia e la piattaforma, sviluppate dai laboratori universitari, insieme all’impegno e passione del personale regionale del Team Open Data (istituito con Decreto dirigenziale 233/2017, ai sensi della Delibera di Giunta Regionale 847/2017 e della L.R. 14/2013), con il supporto di AGID, degli Assessori regionali (Innovazione, Informatizzazione e Ricerca Scientifica) e dei qualificati partner tecnologici e consulenziali italiani, hanno portato il progetto Open Data Campania ad essere inserito nel Catalogo delle Esperienze curato dal Comitato di Pilotaggio per il coordinamento degli interventi OT11-OT2 (Obiettivi Tematici: Rafforzamento della Capacità Amministrativa e Digitalizzazione della PA) del Ciclo di programmazione Fondi Europei 2014-20, nonché essere finalista al Premio “OpenGov Champion 2019” (promosso dal Dipartimento della Funzione Pubblica in collaborazione con l’Open Government Forum) durante il 30° ForumPA.

“Lavaggio” di dataset sporchi

Oggi possiamo trarne utili spunti di riflessione, nel dibattito in corso sull’etica della produzione e uso dei dati durante la pandemia (ma, volutamente, qui non tratteremo delle app di contact tracing / distanziamento sociale).

Il Valore degli Open Data della P.A. è strettamente correlato sia alla Data Quality (cioè più i dati sono idonei ai loro usi previsti nelle operazioni, nel processo decisionale e nella pianificazione, più alta è la loro qualità) sia alla tutela della Privacy dei soggetti cui i dati si riferiscono.

Per evitare di contagiare la infosfera diffondendo dataset “sporchi” (cioè fake, inconsistenti, frammentati, illogici o sproporzionati se contenenti dati personali e/o sensibili), i produttori/aggregatori di dati dovrebbero “igienizzarli” appena possibile (data cleaning check), preferibilmente durante la fase di produzione, ma obbligatoriamente prima della pubblicazione a catalogo.

La nostra metodologia è basata su un abbinamento di modelli, potenziato da informazioni processate da AI, in particolare adoperando gli “alberi delle decisioni” (decision trees). Il ricorso alle funzionalità di AI rese disponibili non è obbligatorio, ma può essere un valido supporto agli operatori, per migliorare la Qualicy nei dataset da produrre e/o pubblicare.

Infatti, tali funzionalità sono state testate su set di dati reali, anche in ambiti sociale e sanitario. Nella valutazione dei risultati, ottenuti senza alcuna particolare complessità computazionale, i vantaggi forniti dal supporto dell’AI sono stati evidenti e misurabili. Ad esempio, l’analisi a campione dei dataset pubblicati sul portale europeo dei dati è stata utile per avere un’ampia panoramica del livello di Qualicy dei dati pubblicati dai governi di tutta Europa.

Come funziona l’approccio user-friendly

Per rendere ancor più semplice ed amichevole l’approccio in fase di co-creazione di OD da parte di utenti non tecnici (es. personale della P.A., operatori socio-sanitari, studenti, anziani, etc.), la metodologia è stata integrata in una piattaforma (evoluzione di quella realizzata nell’ambito del progetto europeo ROUTE-TO-PA) che, oltre ad un corposo catalogo di dataset georeferenziabili (conforme agli standard DCAT-AP_IT), è dotata di interfaccia social network; essa punta molto su usabilità ed appeal, essendo riccamente dotata di strumenti di consultazione agevolata e data visualization: tools di rappresentazione grafica dinamica (per confezionare grafici, tabelle e mappe, che possono anche essere condivise ed esportate in altri siti web); video-tutorial e story-telling in lingua italiana

“Qualicy” negli Open Data della PA

In Italia, la prevalenza della Privacy sul principio dell’Open by default è sancita dall’art. 52 del CAD:

“…I dati e i documenti che i soggetti di cui all’articolo 2, comma 2, pubblicano, con qualsiasi modalità, senza l’espressa adozione di una licenza di cui all’articolo 2, comma 1, lettera h), del decreto legislativo 24 gennaio 2006, n. 36, si intendono rilasciati come dati di tipo aperto ai sensi all’articolo 1, comma 1, lettere l-bis) e l-ter), del presente Codice, ad eccezione dei casi in cui la pubblicazione riguardi dati personali del presente Codice…”

In altri termini, i dati e i documenti pubblicati online dalle PP.AA., se non corredati da una esplicita licenza d’uso che ne definisca le possibilità e i limiti di riutilizzo, sono generalmente da intendersi come “dati aperti”, a meno che la pubblicazione sia riferita a “dati personali”.

Per creare valore a partire dai dati e contemporaneamente rispettare le norme sulla Privacy di cui al GDPR, prima della pubblicazione è necessario sia “pulire” i dati (per aumentarne la qualità e ridurne i costi del riuso), sia garantire un livello adeguato di “anonimizzazione” (per impedire l’identificazione di un individuo specifico attraverso l’incrocio dei suoi dati e quindi invogliare i consumatori a condividere i propri dati e comprendere i vantaggi della loro condivisione e riutilizzo).

Dal momento che l’attenzione è rivolta sia alla Qualità che alla Privacy, abbiamo creato il neologismo Qualicy = Quality + Privacy, per caratterizzare l’obiettivo che si intende raggiungere con la metodologia e gli strumenti di seguito illustrati.

Repository: come rompere il silos

È noto che la spinta propulsiva alla diffusione degli OD della P.A. è la richiesta di maggior trasparenza, riduzione della corruzione e miglioramento dei servizi offerti agli stakeholder (non solo cittadini ed organizzazioni no-profit, ma anche professionisti ed imprese che, lecitamente, traggano ricavi economici dalla loro elaborazione).

Qualsiasi PA, attraverso le sue attività quotidiane, nel tempo accumula molti dati. Quando non esiste una politica specifica, spesso questi dati restano distribuiti su più repository interni privati, anche in diversi formati, non sempre compatibili tra loro. Intraprendere un serio processo di open-information implica creare ufficialmente un team di dipendenti PA che, previa opportuna formazione ed affiancamento, siano autorizzati a rompere i silos, cioè prendere dati, informazioni e conoscenze memorizzati nei repository privati, facendo un lavoro di fusione, integrazione, pulizia e unendo altri dati per produrre dataset candidati per la pubblicazione su repository pubblici, da rendere disponibili agli stakeholder.

Il processo prevede un iter decisionale a più livelli organizzativi, che tenga conto di fattori politici, giuridici, socioeconomici e implicazioni culturali, nel solco delle attribuzioni affidate al RTD (Responsabile per la Transizione al Digitale).

E ricordiamo che, in termini di flusso di dati, non esiste solo il Dataset, ma anche i relativi Metadati e Note, che descrivono l’obiettivo del dataset, il suo contenuto, i possibili usi, la “scadenza”, etc.

“CampaniaCrea”, piattaforma smart per dataset

Il nostro obiettivo è stato lo sviluppo di un “editor intelligente di dataset” basato su una metodologia, non prescrittiva, capace di riconoscere automaticamente, prima della loro pubblicazione online, eventuali violazioni di Qualità e/o potenziali rischi di violazione della Privacy nei dataset “grezzi” (cioè dati formati da semplici stringhe di caratteri speciali, lettere e numeri, ad es. in formato CSV, con nessuna semantica collegata, nessuno “schema” del database, nessuna lunghezza predefinita).

Considerato che un dataset è essenzialmente una tabella di valori contenuti in “celle” individuate dall’incrocio di righe e colonne, il riconoscimento intelligente delle eventuali violazioni si basa sull’inferenza automatica del “tipo” di dati contenuti nelle colonne: il sistema (precedentemente “addestrato”) è capace, semplicemente “leggendo” i valori contenuti in tutte le celle di una medesima colonna (es. mоsca, capri, tortora, cervia,…) di riconoscere senza ambiguità il “tipo” di dati contenuti in quella colonna (es. tipo “Città” invece di tipo “Animali”).

Il sistema è intelligente ed ha memoria, per cui più inferisce, più impara ad inferire per effettuare i check su Quality e Privacy.

Infatti, se il sistema “legge”, nelle celle di una colonna, delle eterogeneità sintattiche (es. alcuni valori vuoti o promiscui o errori di battitura), li riporta come problemi di Qualità; se invece “legge” una particolare informazione sospetta, anche isolata (es. un IBAN, numero di tessera sanitaria, valore di temperatura corporea, genere maschile/femminile, CAP, etc.), lo segnala come possibile problema di Privacy (mancanza di anonimizzazione).

Anche quando si accorge che, in un medesimo dataset, sono presenti contemporaneamente delle insospettabili colonne di tipo “data”, “numero” e “testo”, pur se non strutturate, il sistema capisce che i dati derivanti dalla loro combinazione “potrebbero” rappresentare una violazione per la privacy (riconosciuta dal GDPR come informazione personale e sensibile).

La semplice eliminazione di alcuni dati personali non è sufficiente a garantire che i restanti possano fungere da pseudo-identificatori, vista l’elevata potenza dei moderni algoritmi di re-identificazione nel processarli (ad es. in un dataset relativo ai malati Covid in una Regione, non basta eliminarne nomi e cognomi, se si lasciano pubblicati il CAP di residenza, l’età e il numero di figli conviventi, per cui la piattaforma segnala un warning e l’operatore può intervenire per migliorare la qualità del dataset e la sua idoneità all’uso, una volta pubblicato).

Fasi della metodologia utilizzata

La metodologia utilizzata è decomponibile in più Fasi (sequenziali e/o iterative), come riportato nella seguente figura.

(1) Pianificazione – Quando c’è la decisione e la volontà di aprire specifici dati interni, questa Fase include la creazione di un Team/ Gruppo di lavoro rappresentativo, identificando cosa fanno le singole unità del personale incaricato, valutando anche le implicazioni legali, economiche e culturali del rendere disponibili tali dati.

(2) Co-creazione dei dati – L’idea è quella di formare piccoli gruppi misti di utenti: funzionari PA e stakeholder interessati a collaborare alla creazione del dataset. La co-creazione di dati è mediata e supportata da strumenti collaborativi online (stanze virtuali, agorà, etc.), che consentono agli utenti di lavorare insieme nella creazione e modifica di: dataset, metadati e note.

(3) Controlli qualità/privacy in itinere (facoltativi) – Durante la creazione/modifica collaborativa dei dataset, gli utenti possono, facoltativamente, utilizzare quante volte vogliono le funzionalità (intelligenza artificiale) di controllo Qualità e Privacy, direttamente nella piattaforma. La particolarità è che questi controlli sono strettamente integrati nel ciclo di produzione agile, in cui l’utente ottiene immediatamente un feedback (rassicurante o allarmato, comunque con proposta di una alternativa) sul contenuto del dataset in lavorazione e può, di conseguenza, decidere di modificarlo o no. Questa libertà (arbitrio umano) ci porta a definirla “metodologia non prescrittiva”, cioè non obbligatoria.

(4) Test di idoneità all’uso – In questo passaggio, l’idea è che la PA provi a prevedere potenziali usi dei dati prodotti. Nel nostro caso, il test consiste nel realizzare grafici dei dati in lavorazione: se i dati non sono completi e corretti, se hanno errori di battitura, etc., sarà difficile o impossibile generare un grafico, per cui l’operatore può scoprire problemi fondamentali, che non vengono rilevati dalle consuete tecniche basate sull’euristica.

(5) Pubblicazione dopo controlli qualitativi (obbligatori) – Questa è la fase in cui lo sforzo compiuto nella produzione di OD diventa visibile al di fuori dei confini della PA, ovvero quando il dataset viene pubblicato sul portale Open Data di quella PA, con i relativi Metadati e Note: ma prima dell’effettiva pubblicazione, il Responsabile della Pubblicazione deve eseguire il controllo accurato dei dati da pubblicare.

Caso d’uso reale: monitoraggio dei femminicidi

L’Osservatorio sul Fenomeno della Violenza sulle Donne (OFVD) – Organismo del Consiglio Regionale della Campania (CRC) – ha richiesto un supporto per il monitoraggio dei dati sul fenomeno del femminicidio, non solo in Campania, ma in tutta Italia. Il CRC, con il supporto delle principali Associazioni e Centri AntiViolenza, e in collaborazione con il team di docenti e ricercatori dell’Università di Salerno, ha utilizzato la piattaforma social, sfruttandone il flusso di lavoro “guidato” e con controlli Qualicy, per la creazione di dataset e per testarne l’efficacia all’uso, mediante rappresentazioni grafiche dinamiche georeferenziate.

Responsabilità dell’operatore “umano”

La metodologia qui illustrata è stata testata ed ottimizzata per la lingua italiana, ma è possibile adattare i controlli di Qualicy a diverse lingue; essi utilizzano una libreria javascript in formato open source e una piattaforma social open source gratuita, entrambi disponibili su Github.

Per vedere esempi concreti di applicazione ed utilizzare gratuitamente le funzionalità, il link è: https://dati.regione.campania.it

Avendo introdotto nel processo alcune tecniche di Intelligenza Artificiale (in particolare alberi di decisione), abbiamo ottenuto apprezzabili miglioramenti del tempo di esecuzione, senza perdere precisione e senza aumentare la complessità computazionale.

I controlli intelligenti di Qualicy eseguiti nella Fase 3 (facoltativi) e Fase 5 (obbligatori) sono uguali, per cui il livello finale di Qualicy dipende dall’operatore umano (che mantiene sempre il pieno controllo della situazione).

Infatti, nella Fase 3, grazie alla piattaforma social, i produttori del dataset possono svolgere online la discussione, direttamente durante i processi di co-creazione e di controllo (eventualmente chiedendo i feedback, tramite la piattaforma social, anche ad altri operatori della PA e/o altri stakeholder non direttamente coinvolti).

Nella Fase 5, se il Responsabile della pubblicazione decide, per qualsiasi motivo, di ignorare i suggerimenti forniti dalla piattaforma intelligente, lui/lei dovrà assumersi la responsabilità di qualsiasi informazione incongrua e/o sensibile che venisse accidentalmente pubblicata (con conseguenze assimilabili al data breach).

È fondamentale pertanto che le PP.AA., quali produttori qualificati, migliorino la Qualicy degli OD, preferibilmente già durante la fase di produzione, ma obbligatoriamente prima della fase di pubblicazione.

Il richiamo è in primis al principio fondante per cui i dati prodotti dalle istituzioni pubbliche appartengono alla collettività. Così come evidenziato a livello europeo dalle direttive comunitarie e, a livello nazionale, dalla normativa per l’accesso telematico e il riuso dei dati della PA, la possibilità di riutilizzare liberamente le informazioni del settore pubblico rappresenta un fattore strategico, sia per lo sviluppo economico e sociale del territorio, sia per la diffusione delle nuove tecnologie digitali fra enti pubblici, imprese, professionisti e cittadini.