Bisogna augurare lunga vita al Data & Analytics Framework, a maggior ragione adesso che ha assunto il nome Piattaforma Digitale Nazionale Dati (ex articolo 50-ter del Cad). E’ uno dei primissimi progetti messi sin da subito in campo dal Team Digitale guidato da Diego Piacentini poco più di due anni fa. Il Daf nasce per offrire una soluzione a uno dei grandi problemi della Pubblica amministrazione: superare le logiche “a silos” che, nonostante i passi fatti, caratterizzano ancora in modo molto forte i dati della PA.
Dal momento che l’interazione tra Pubbliche Amministrazioni avviene essenzialmente attraverso i dati, una PA che sia Interconnessa e Integrata deve necessariamente passare attraverso il superamento dell’attuale approccio “a canne d’organo”, in cui, cioè, i processi tendono a svilupparsi “in verticale” all’interno di unità organizzative omogenee con una scarsa propensione all’interazione con altre unità organizzative della stessa PA o peggio ancora con altre PA.
In cosa consiste il Data & Analytics Framework
Il DAF nasce, quindi, come un tentativo di portare alla luce dati che altrimenti resterebbero imprigionati all’interno dei silos, aumentandone nello stesso tempo la capacità di integrazione, come spiegato in uno dei primi post del Team Digitale. Almeno questo in un primo momento.
Ma in cosa consiste il DAF? Innanzitutto, è una attività prevista dal Piano Triennale per L’Informatica nella PA e consiste nel “canalizzare” e far confluire dati della PA all’interno di una unica piattaforma Cloud.
Nel momento in cui i dati transitano all’interno della piattaforma possono essere armonizzati, normalizzati, arricchiti, aumentando così sia la qualità del dato ma soprattutto il “grado di integrabilità” con gli altri dati presenti nella piattaforma. Questo vale sia per i dati open che per quelli non open prodotti dalle PA. E infatti il DAF nasce “con l’obiettivo di sviluppare e semplificare l’interoperabilità dei dati pubblici tra PA, standardizzare e promuovere la diffusione degli open data, ottimizzare i processi di analisi dati e generazione di sapere”.
A distanza di due anni dal “lancio”, ci sono un paio di cose da segnalare. Innanzitutto il DAF ha cambiato nome e ora si chiama Piattaforma Digitale Nazionale Dati (PDND). La seconda è che le attività attorno alla PDND hanno virato in modo credo di poter dire piuttosto deciso sugli Open Data.
Come funziona il DAF
Dal punto di vista concettuale il DAF nasce come una architettura Big Data, pensata per “ingerire” dati in modo continuo sia in modalità asincrona che in tempo reale. Dati che una volta dentro possono essere armonizzati, raffinati e “aumentati” per essere restituiti in modalità “Data as a Service” oppure per essere utilizzati all’interno dello stessa piattaforma per fare data analysis, costruire dashboard e così via. Il tutto attraverso un “Data Portal”, l’interfaccia utente progettata e sviluppata per consentire di gestire tutto il ciclo di vita del dato, dalla fase di acquisizione a quella della data analysis, visualizzazione e storytelling.
Lo stato dell’arte della PDND pubblicato recentemente ci racconta dello sforzo fatto affinchè la PDND potesse essere una risposta ad alcuni problemi che sappiamo ci sono a riguardo degli Open Data.
Una governance efficace per gli Open data
Abbiamo sempre visto come una criticità l’assenza di una governance nazionale efficace sugli Open Data. “Ognuno pubblica quello che vuole, come vuole e quando vuole” dicevo in un mio precedente articolo. La PDND cerca di dare una risposta alla necessità di una pubblicazione “controllata” di Open Data. Che può essere fatta in due modi: registrandosi al portale e quindi sfruttando tutte le funzionalità della piattaforma per pubblicare dati (modalità SaaS) oppure come portale Open Data “arricchito” di nuove funzionalità rispetto a quelle tradizionalmente presenti nei portali Open Data che una PA può far girare sui propri server. (modalità portale come container Docker)
Consente di pubblicare un po’ meglio i dati, con una particolare attenzione ai metadati, sia a quelli “strutturali”, ossia che si riferiscono ai dati contenuti all’interno del dataset, sia a quelli relativi invece all’intero dataset (es. la data di creazione, l’autore, il tema, …)
Aver creato un sistema per migliorare la qualità formale del dato è sicuramente importante.
Ma va detto che la qualità del dato e soprattutto le potenzialità che un dato esprime sta anche in altri aspetti che vanno oltre i metadati.
L’importanza di dati “vivi”
Una API Rest è una interfaccia Web che permette di connettersi direttamente ai dati. Tipo questa che si connette direttamente al data warehouse di diffusione di Istat. E che consente di fare ad esempio questa visualizzazione. Nel momento stesso in cui Istat pubblica nuovi dati lo script stesso “capisce” che i dati da visualizzare saranno quelli dell’ultimo anno disponibile. Ho fatto questa cosa 8 anni fa. A volte mi meraviglio come funzioni ancora. Ad ogni modo tutto va ancora avanti in modo automatico, senza che debba necessariamente intervenire.
Utilizzare le API su un dataset “statico” e che quindi non cambia nel tempo non ha senso. Il senso di utilizzare un’API sta tutta nel fatto che “mi fido” che i dati a cui l’API dà accesso siano mantenuti sempre aggiornati. Pensate ad esempio ai dati meteo. Un’API può essere quella che, passandogli il nome di una città restituisce dati tipo temperatura, pressione, vento ecc ecc riferiti al momento in cui viene fatta la richiesta. Se faccio la stessa richiesta un’ora dopo, avrò dati diversi.
Quello che ha senso è fornire accesso ai dati tramite API quando “dietro” c’è manutenzione di quel dataset. Quando quei dati sono “vivi”. Quando c’è dietro un processo automatico (o anche manuale) che rigenera quei dati nel momento stesso in cui quei dati cambiano.
I dati possono essere aggiornati in tempo reale oppure in modalità asincrona. Possono cambiare ad ogni istante oppure più lentamente. Ogni giorno, ogni mese, ogni anno. Dipende ovviamente dal tipo di dato. In ogni caso è necessario che siano dati “vivi”. E’ questo quello che serve per poter sfruttare veramente tutte le potenzialità dei dati. Abbiamo bisogno di dati “vivi”. Abbiamo bisogno di dati “live”. Certo, serve lavoro. Bisognerebbe ingegnerizzare una serie di processi delle PA che producono quei dati. Ma mi piace pensare che il DAF possa servire anche a questo.
Come “riempire” il DAF
“Ho sviluppato una dashboard, un’applicazione, una piattaforma web che si connette ai dati del DAF e che con i dati “live” del DAF mi ha consentito di sviluppare questo particolare servizio o di monitorare e analizzare questo particolare fenomeno” Mi piacerebbe sentirla questa frase. Con buona probabilità la si potrà cominciare a sentire nel momento in cui il DAF si farà carico di fornire una massa critica di dati sempre aggiornati e integrati a livello nazionale.
Il DAF è una infrastruttura. Va riempita. Ma va soprattutto fatto in modo che diventi il cuore di un sistema che “pompa” dati vivi nelle migliaia di attività di Pubbliche Amministrazioni, imprese e cittadini.