Negli ultimi tempi, anche nel mondo della Pubblica Amministrazione, non esiste termine più abusato di “big data”, ma come molti altri termini che divengono così popolari in determinati frangenti, quello che si intende, anche in questo caso, non è sempre chiaro.
Volendo fissare una definizione, il termine descrive una categoria di problemi, attinenti la memorizzazione, l’elaborazione e l’analisi dei dati, che non possono essere risolti con approcci e strumenti tecnologici tradizionali: per aiutare a comprendere la natura di tali problemi, si fa spesso riferimento alle quattro V (Volume, Velocità, Varietà, Veracità) la cui presenza, anche non simultanea, rende “grande” la sfida di gestire ed elaborare il dato.
La tecnologia per affrontare tali sfide non è poi così nuova, risale infatti al 2005, e si è evoluta nell’ultimo decennio fino a comprendere sistemi no-sql di storage ed elaborazione, database colonnari in-memory e sistemi di data virtualization, il tutto adeguatamente supportato da una evoluzione delle architetture e delle capacità dei sistemi hardware utilizzati per immagazzinare ed elaborare i dati.
I primi passi in Regione Toscana
In effetti anche in Regione Toscana l’era dei big data non è proprio agli inizi.
Si inizia infatti a parlare di MongoDB (uno dei possibili ambienti no-sql e open-source per la memorizzazione e la gestione di dati documentali a struttura libera) già nel 2013 nei documenti di progettazione “Consolidamento e sviluppo dell’infrastruttura di cooperazione applicativa CART” e più precisamente del componente infrastrutturale “Dati della Community”. Sempre nella stessa gara si introducono altri concetti molto innovativi come quello di Cart Data Lake e di Linked Protected Data.
Con la decisione di Regione Toscana di realizzare un punto unico di accesso e di ricerca per tutti i bandi di Finanziamento per le aziende, nascono le prime implementazioni dello stack tecnologico Elasticsearch/MongoDB (senza entrare troppo nel dettaglio, si utilizzano questi sistemi per collezionare dati provenienti da diverse fonti informative con le strutture dati più variegate e per effettuare su di essi ricerche full-text con algoritmi ottimizzati per tale scopo e quindi molto efficienti). L’applicazione Bandi di Finanziamento entra in produzione nel marzo 2015.
Sempre nel 2015, viene costituito il gruppo di lavoro Saas-Plat, che produrrà nello stesso anno le specifiche ed i requisiti per l’implementazione dell’omonimo sistema di monitoraggio eventi di tipo generico, adattabile a qualsiasi tipo di applicazione. Saas-Plaat è una implementazione dello stack tecnologico Elasticsearch/Logstash/Kibana (nel seguito ELK).
Su questo fronte, l’accumulazione di conoscenza prosegue tuttora grazie al fatto che, a partire dal 2015, Regione Toscana è partner come “Data Provider” del progetto europeo Fusepool p3. Nell’ambito di tale progetto è possibile vedere sul campo le potenzialità di ELK, e in particolare della componente Kibana quale strumento di analytics, anche georeferenziate (di seguito un piccolo esempio):
Esempi di statistiche e geo-localizzazione degli accessi al fascicolo sanitario elettronico
L’adozione del framework Hadoop e il data warehouse logico
Proprio la disponibilità sul sistema Saas-Plat di una grande quantità di logs applicativi, acquisiti in tempo reale e caratterizzati da contenuti semi-strutturati, ha reso necessario pensare a tecnologie adeguate per elaborarli ed analizzarli: da tale necessità, nel 2016, ha preso vita la sperimentazione e la successiva adozione del framework Hadoop, integrato con lo stack ELK, ma anche con gli ambienti di storage RDBMS tradizionali e con gli strumenti di analisi statistica, reporting e presentation tipicamente adottati in Regione Toscana e talvolta proposti anche al cittadino come strumenti di consultazione delle basi dati regionali (di seguito un piccolo e circoscritto esempio, realizzato con il software open-source Pentaho e disponibile sul sito istituzionale):
Statistiche su appalti di lavori pubblici, forniture e servizi in Toscana
La suddetta sperimentazione ha inoltre condotto all’adozione di infrastrutture di data virtualization (sia proprietarie che open-source) che vengono impiegate per la predisposizione del c.d. “data warehouse logico” e che sono ottimali per ridurre al massimo sia il time-to-market che i costi di manutenzione del data warehouse regionale, ma anche per mettere a disposizione un accesso ampio e trasversale a dati aggiornati real-time sui basamenti informativi regionali (un esempio in tal senso è costituito dal sistema di monitoraggio dei dati sui contratti, in fase di realizzazione, che prevede l’integrazione e la lettura trasversale di circa otto basi dati, dall’osservatorio appalti alla fatturazione elettronica, passando per il bilancio regionale e la produzione amministrativa).
Un primo interessante utilizzo del framework Hadoop, integrato in questo caso con Elasticsearch/Logstash e con strumenti open-source di analisi statistica e machine learning (nella fattispecie R e Spark-Mlib) è stato quello di analizzare su larga scala e previa rigorosa anonimizzazione i log prodotti dalla navigazione da parte dei cittadini dei vari servizi web messi a disposizione da Regione Toscana, taluni dei quali sono portati anche in maggiore evidenza nelle pagine del sito Open Toscana. Di seguito alcuni esempi di rappresentazioni prodotte con il software open-source R e riguardanti sia le correlazioni d’uso dei servizi promossi attraverso Open Toscana, che gli accessi al fascicolo sanitario elettronico per lo scarico dei referti di radiologia:
Frequenza e correlazioni d’uso dei servizi digitali per il cittadino
Utilizzo del servizio di download dei referti di radiologia da fascicolo sanitario elettronico
La potenzialità di tali elaborazioni sta nella capacità di integrare fonti informative diverse per monitorare e migliorare le strategie di digitalizzazione dei servizi regionali offerti al cittadino. Solo una infrastruttura per i big data consente ad esempio di integrare ed analizzare con algoritmi di machine learning (che consentono di individuare i pattern che caratterizzano un fenomeno senza assumere modelli semantici a priori, ma “imparando” dai dati) gli accessi ai servizi del fascicolo sanitario elettronico (dato semi-strutturato) assieme a quelli delle prestazioni sanitarie erogate e alle quali tali servizi sono riferiti (dato strutturato) includendo infine i dati di “sentimento” che i cittadini eventualmente esprimono nei confronti di tali servizi sui social media (dato non strutturato).
Open data, big data e data science
Merito dei risultati fino ad oggi ottenuti è in gran parte dell’entusiasmo e della proficua e autonoma collaborazione tra alcuni esperti di ICT e le (poche) figure di data scientist presenti nell’ambito dei sistemi informativi regionali.
Potremmo definire un data scientist adottando la descrizione che ne dà Dino Pedreschi, professore ordinario di Informatica all’Università di Pisa: «Una figura che deve avere più competenze. La prima è sapere gestire, acquisire, organizzare ed elaborare dati. La seconda competenza è di tipo statistico, ovvero il sapere come e quali dati estrarre, la terza capacità è una forma di storytelling, il sapere comunicare a tutti, con diverse forme di rappresentazione, cosa suggeriscono i dati».
In tale ottica, occorre tener conto che dal 2013 è attivo un gruppo di lavoro interdisciplinare permanente costituito dalle diverse professionalità necessarie (esperti di ICT, giuristi, digital media strategist etc.) con il compito di affrontare gli aspetti legati agli open data e sostenere l’opportuna attività di divulgazione, attuando anche iniziative rivolte allo sviluppo di idee e realizzazioni innovative da parte di soggetti privati su temi legati all’uso delle tecnologie digitali, basate sul riutilizzo dei dati pubblici. AgID stessa del resto suggerisce alle amministrazioni di “avviare e gestire a regime il processo di gestione dei dati in generale e, nello specifico, di apertura dei dati”.
Di conseguenza appare naturale e logico estendere l’interesse e le competenze del gruppo Open Data anche ai Big Data, coinvolgendo almeno parte del personale interno che fino ad oggi ha maturato una specifica competenza in tale ambito e proponendo iniziative di utilizzo e valorizzazione, anche attraverso l’integrazione con i big data interni dei principali e più completi ed aggiornati Open Data che sono oggi messi a disposizione (tra questi ricordiamo dati atmosferici, cartografici, dati statistici sulle imprese e la popolazione, sul turismo e le strutture ricettive, sul trasporto pubblico locale).
Oltre agli open data, Regione Toscana detiene su basi dati interne una quantità di dati sulle diverse tematiche di cui si occupa tanto elevata quanto poco valorizzata in un’ottica strategica. La semplice integrazione di questi contenuti, che vanno solo per fare un esempio dai temi del lavoro a quello del fisco, dalla sanità alla cultura, passando dal turismo e fino ad arrivare al controllo della gestione interna, beneficia indubbiamente degli approcci e delle tecnologie big data, nelle quali gli strumenti del data warehouse regionale e i relativi sistemi informativi di supporto alle decisioni trovano un contesto naturale di modernizzazione e potenziamento.
Riferimenti per eventuali approfondimenti
Obiettivo del presente articolo è quella di condividere, senza scendere in dettagli troppo tecnici, l’esperienza fino ad oggi maturata in Regione Toscana sul tema dei big data e del loro utilizzo. Per approfondimenti su tali esperienze o sulle tecnologie utilizzate, oppure per condividerne ulteriori casi d’uso, è possibile contattare il gruppo di lavoro che sta presidiando questi temi e queste attività, scrivendo a info-bigdata@regione.toscana.it.
Gli autori sono, rispettivamente, Responsabile PO “Sviluppo di sistemi finalizzati alla condivisione e accesso dell’informazione”, Responsabile PO “Piattaforme di sviluppo, monitoraggio ed erogazione di servizi telematici e loro certificazione e riuso” e Coordinatore Gruppo di lavoro Open&Big Data, Regione Toscana