Per un riuso in chiave “data economy” degli Open Data pubblici, bisogna andare oltre la loro pubblicazione frammentata e “locale”: occorre che tutti sappiano cosa pubblicare, per avere dati uniformi e utilizzabili in chiave di business. Rispondono a questa necessità gli “High-Value Datasets” (HVD) Ue, delle indicazioni affinché tutti gli Stati membri possano pubblicare come Open Data le stesse tipologie di dati ritenuti ad alto potenziale economico nei settori “Geospatial”, “Earth observation and environment”, “Meteorological”, “Statistics”, “Companies and company ownership”, “Mobility”.
Un altro aspetto importante della questione è “come” pubblicare i dati per sfruttarne le potenzialità in ambito business. In questo caso le parole chiave sono “standardizzare” e centralizzare.
Ci è utile a tal proposito analizzare le iniziative in corso verso la creazione di un Data Space europeo e fare il punto sullo stato dell’arte in Italia.
High-value dataset per superare la frammentazione dei dati pubblici
Molto di questo è emerso a un workshop a cui ho partecipato il mese scorso, riservato agli addetti ai lavori, in cui venivano presentati i risultati di un lavoro iniziato qualche mese fa sugli “High-Value Datasets” che dovranno essere resi disponibili dagli Stati Membri ai sensi della “Open Data Directive”. Ricordo che la Direttiva 2019/1024 (su Open Data e riuso dell’Informazione del Settore Pubblico) costituisce un framework giuridico comune a tutti i Paesi Membri per quanto riguarda il riuso dei dati prodotti dal settore pubblico. La direttiva si focalizza essenzialmente sugli aspetti economici, e questo perché si ritiene che il mercato degli Open Data sia un pezzo rilevante dell’intera data economy dell’EU.
Giusto per dare un’idea, e questo è un dato che viene citato spesso ogni volta che si parla di dati del settore pubblico, si parla di un mercato potenziale che è stato stimato ammontare a 52 miliardi di Euro nel 2018 e che si ritiene possa arrivare a 194 miliardi di Euro nel 2030. Ma una caratteristica degli Open Data per come li abbiamo conosciuti fino ad ora è che in generale si prestano con difficoltà ad un riuso di tipo “business”.
Questo è dovuto a quanto accaduto in questi anni, e cioè ad una pubblicazione per lo più spontanea e frammentata di Open Data sui vari portali nazionali o locali. Questo è un approccio che, come abbiamo avuto modo di vedere, si porta dietro tutta una serie di problemi che ne impediscono di sfruttarne appieno le potenzialità. Un problema su tutti deriva dal fatto che le varie amministrazioni che hanno avviato iniziative Open Data pubblicano un po’ cosa vogliono e come vogliono. Ma nel momento in cui si intende favorire un riuso dei dati in chiave “data economy”, è sempre più necessario puntare a dati che siano standardizzati sia nel “cosa” che nel “come”. E che siano “globali” e non “locali”, intendendo con questo il fatto che i dati devono poter ad esempio “coprire” porzioni importanti e significative di territorio e/o di popolazione.
I dati pubblicati solo da un comune o da una provincia o ancora da un ente locale, nella migliore delle ipotesi potranno essere utilizzati solo per quel comune o per quella provincia o per l’area di riferimento di quell’ente locale. E questo è chiaramente un limite molto forte per aziende della data economy che intendono creare prodotti e/o erogare servizi a valore aggiunto sui dati. Ed è un limite anche se parliamo di aree importanti del Paese che riteniamo essere sufficientemente “grandi” come possono essere il singolo comune di Roma o la singola area metropolitana di Milano.
Per il riuso in chiave business serve infatti andare oltre la dimensione locale. Serve di fatto andare verso la disponibilità in modo uniforme dello stesso dato per tutti i comuni o per tutte le province d’Italia. O, se stiamo parlando di Europa, la disponibilità dello stesso dato per tutti i Paesi Membri. In realtà questo è un aspetto che sto evidenziando da diverso tempo. Ne ho parlato svariate volte anche qui su Agendadigitale.eu. Se siete ancora sotto l’ombrellone, vi invito a leggere anche l’articolo “Data economy: la Ue colmerà il ritardo solo cambiando mentalità”, in cui provavo a fare qualche riflessione sulla strategia dati appena rilasciata dalla Commissione Europea ma anche il più recente “Open data: cosa ci ha insegnato il covid su riuso e governance”.
Gli HVD rispondono quindi alla domanda del “cosa” pubblicare, e questo per avere una “copertura” del dato quanto più uniforme su tutta l’UE. Ho avuto modo di partecipare ai lavori del Focus Group relativo agli “High-Value Datasets” nell’area Statistica e il workshop è stato quindi un’ ottima occasione per capire anche come avevano lavorato gli altri gruppi tematici e validare quindi l’intera proposta complessiva.
I passi necessari per standardizzare la raccolta dati
Faccio qui una prima considerazione: sarebbe opportuno estendere gli “HVD” anche con dati “nazionali” dalle elevate potenzialità in ambito business. E cioè dare finalmente chiare indicazioni alle PA centrali e soprattutto locali su “cosa” pubblicare. Che è una cosa diversa dalle “Basi di dati di interesse nazionale” di cui si parla sia nel precedente che nel più recente “Piano triennale per l’informatica nella PA 2020-2023” rilasciato un paio di settimane fa.
Nel nuovo piano triennale viene evidenziata la necessità di ridefinire una data governance che sia coerente con l’intera Strategia Europea. Che è esattamente quello che serve.
Ad ogni modo, la copertura del dato è soltanto una parte del problema. Un altro elemento che prima o poi dovrà essere affrontato è relativo alla struttura dei dati, ossia al “come”. Se due amministrazioni pubblicano lo stesso tipo di dato è molto improbabile che lo pubblichino allo stesso modo. A meno che non seguano degli standard di riferimento. Questo è un ulteriore ostacolo che si va ad aggiungere ai problemi che abbiamo descritto poc’anzi e che impedisce o quantomeno limita pesantemente la possibilità di integrare dati tra loro. Dobbiamo tenere sempre presente che dovremmo puntare ad un altro grado di automazione sia dei processi di pubblicazione dati da parte degli enti pubblici che sul fronte del loro riuso da parte del mercato. E sappiamo come l’automazione richiede sempre una forte standardizzazione per funzionare bene. Ora, questo è ovviamente un problema noto e sono stati e sono tuttora in corso tentativi per standardizzare, superare la frammentazione esistente e rendere i dati interoperabili tra loro. A livello europeo ricordiamo il programma ISA2, ma vari sforzi si stanno facendo da diverso tempo anche a livello nazionale.
E qui faccio una seconda considerazione. Credo che un passo necessario da fare per la standardizzazione dei dati sia quello di centralizzare la raccolta dati. Ne ho parlato in passato in diverse circostanze, ne ho accennato anche nella recente edizione di ForumPA 2020 Online. Attraverso una raccolta centralizzata di Open Data si avrebbe infatti la possibilità di controllare, standardizzare e arricchire i dati direttamente nella fase di pubblicazione.
È un po’ quello che accade ad esempio quando pubblichiamo un video su YouTube. Nella fase di pubblicazione il video viene infatti convertito in formati standard, viene ottimizzato e viene associata al video tutta una serie di informazioni e quindi di metadati in modo standardizzato al fine di garantire la coerenza interna dei dati e di conseguenza il funzionamento dell’intero sistema di gestione. Solo così è possibile ad esempio costruire sui dati il sistema di “recommendation” che suggerisce i video da vedere sulla base di quelli visti in precedenza.
Ripensare la Piattaforma Digitale Nazionale Dati
Va detto che qualcosa del genere si era cominciato ad intravedere qualche tempo fa con il progetto della Piattaforma Digitale Nazionale Dati (PDND). Dopo un periodo anche piuttosto lungo in cui se ne sono perse le tracce, scopriamo dal nuovo Piano Triennale che la piattaforma verrà rilasciata entro Dicembre 2020 (CAP3.LA43) .
Mi auguro che nel frattempo il progetto sia stato rivisto profondamente rispetto a quando è scomparso dai radar qualche tempo fa e spero lo si sia fatto in chiave “raccolta dati” (e aggiungo anche ridimensionando, spero di molto, tutta la parte essenzialmente inutile di analytics), e cioè esponendo servizi cloud per consentire l’upload e il check di un insieme di dataset già standardizzati secondo precisi schemi dati. Upload da poter effettuare sia attraverso una interfaccia utente da utilizzare “a mano” ma soprattutto attraverso API in scrittura, per consentire di automatizzare la fase di invio dati da parte dei singoli produttori. Andare verso un Data Space europeo come un contenitore di dati che possano essere veramente fruibili dal mercato passa necessariamente da qui. Come passa da qui anche la “Disponibilità e l’interoperabilità dei dati delle pubbliche amministrazioni e dei concessionari di pubblici servizi”. Mi riferisco all’art. 33 del recente decreto per la semplificazione e l’innovazione digitale, in particolare sull’obbligo del concessionario di servizi di “rendere disponibili all’amministrazione concedente tutti i dati acquisiti e generati nella fornitura del servizio agli utenti e relativi anche all’utilizzo del servizio medesimo da parte degli utenti, come dati di tipo aperto”. E questo deve finalmente valere anche per i “Dati per la Città del Futuro” come descritto nella “Strategia Digitale 2025”, ossia i dati su mobilità, energia, parcheggi, rifiuti urbani e così’ via. Canalizzati e standardizzati sulla Piattaforma Nazionale, magari in real time e mi piace pensare su Gaia-X, il cloud europeo lanciato da Germania e Francia e a cui sta guardando anche l’Italia, amplificherebbero tutte le loro potenzialità di riuso rendendoli veramente appetibili per un vero utilizzo business da parte del mercato.