il caso istat

API per dati statistici: parlare con i numeri grazie all’IA



Indirizzo copiato

Le API per dati statistici di Istat rappresentano un’opportunità di riutilizzo tramite intelligenza artificiale. I sistemi LLM permettono ricerche semantiche superando le barriere linguistiche e facilitando l’accesso ai dataset attraverso richieste in linguaggio naturale

Pubblicato il 23 apr 2025

Vincenzo Patruno

Data Manager e Open Data Expert – Istat



data strategy (1)

Abbiamo bisogno di molti dati. Se abbiamo molti dati accade che qualcuno li prende e ne fa qualcosa”. In passato ho citato spesso questa frase di Hans Rosling, geniale divulgatore statistico nonché ideatore delle “motion charts”, le “bolle animate” che caratterizzavano i suoi celebri speech.

Hans Rosling's 200 Countries, 200 Years, 4 Minutes - The Joy of Stats - BBC

Era il periodo in cui in Italia con tanti valorosi amici e amiche di viaggio portavamo all’attenzione delle istituzioni il valore degli Open Data e della conoscenza aperta. Era  il periodo in cui “Spaghetti Open Data”, la storica community di “italiani e italiane che fanno cose con i dati”, era diventata un importante punto di riferimento nazionale sui temi legati al rilascio e al riutilizzo dei dati pubblici.

Un aspetto che ricordo non mancavo mai di sottolineare (e che continuo a sottolineare tutt’ora) era quello legato al rilascio e alla pubblicazione di API pubbliche per specifiche tipologie di dati. La possibilità di connettere direttamente le applicazioni ai dati “apre” infatti a interessanti opportunità di riutilizzo.

API per dati statistici: il caso ISTAT

Istat pubblica da diverso tempo le sue API per l’accesso diretto ai dati statistici diffusi sulle proprie piattaforme. È un tema che conosco molto bene, in passato ho avuto modo di ideare, progettare e implementare la piattaforma di API pubbliche “apistat.istat.it” per l’accesso “machine to machine” ai dati pubblicati dall’istituto. La piattaforma è stata operativa ed è stata utilizzata per ben dieci anni, è stata dismessa qualche anno fa lasciando il posto ad altri endpoint ufficiali di accesso ai dati. Si tratta di endpoint che utilizzano lo standard SDMX, uno standard internazionale (ISO 17369) sviluppato in modo specifico per la trasmissione di dati e metadati statistici e che viene utilizzato da varie organizzazioni internazionali e istituti nazionali di statistica del mondo. L’Istat fornisce sul proprio sito istituzionale le necessarie informazioni di base per l’accesso, informazioni che per la parte relativa alle API di tipo REST possiamo trovare anche su Developers Italia.

La comunità e il riutilizzo dei dati tramite API per dati statistici

Va però detto che SDMX è uno standard poco conosciuto negli ambienti al di fuori di quelli che ruotano attorno alla statistica ufficiale.  Ma avere a disposizione e poter utilizzare API pubbliche per connettersi direttamente ai dati dell’Istat rappresenta una grande opportunità per “aumentare” la possibilità di “fare cose con i dati”. Di questo ne è stata sempre consapevole Ondata, associazione di promozione sociale che “promuove l’apertura dei dati pubblici per renderli accessibili a tutte e tutti” e che da sempre mette continuamente in campo azioni concrete per facilitarne il riutilizzo. E una di queste azioni concrete è stata la “Guida alle API REST di Istat”. Nonostante sia stata rilasciata alcuni anni fa e necessiti di essere aggiornata in alcuni punti, resta comunque una guida utilissima per capire il funzionamento delle API REST e delle logiche che accompagnano lo standard SDMX. Ondata APS ha voluto dedicare ad SDMX e ai dati Istat anche due Webinar: “Le API sui dati statistici di Istat e il progetto SDMX” e “Notte europea dei ricercatori: aperitivo coi dati ISTAT” in cui sono stati affrontati tanti interessanti aspetti legati alla diffusione e al riutilizzo dei dati statistici.

API per dati statistici e intelligenza artificiale: un caso innovativo

Tutto questo che ho raccontato fino ad ora, in realtà, mi serve per poter introdurre un bel caso di riutilizzo degli Open Data e delle API Istat che fa uso dell’intelligenza artificiale. Ho conosciuto Roberto Marras circa due anni fa. Eclettico designer con una importante esperienza di lavoro in UK, una volta rientrato in Italia si è dedicato allo studio e allo sviluppo di sistemi basati sull’utilizzo dei modelli LLM di intelligenza artificiale ed è attualmente CTO e co-fondatore di OnePix, startup che offre servizi proprio basati su IA. Roberto è’ entrato in contatto con Ondata e con il suo presidente Andrea Borruso proprio quando ha scoperto l’esistenza della guida alle API di Istat.

Una volta fu chiesto ad un alpinista cosa lo spingesse a scalare le montagne. Lui rispose semplicemente: “lo faccio perché le montagne sono lì”. Vi assicuro che lo stesso vale con i dati. Si “fanno cose con i dati” semplicemente perché i dati sono lì, e questo vale anche se a volte bisogna andarseli a prendere attraverso web scraping. Nei casi in cui i dati sono invece disponibili via API, allora diventa molto più comodo e vantaggioso utilizzarli: è come se in qualche modo fossero stati messi e resi disponibili su un vassoio d’argento.

Superare le barriere linguistiche con i Large Language Models

Mi diceva Roberto: “Lo scorso anno, quando ho cominciato a lavorare al mio progetto,  ho provato a utilizzare la funzione di ricerca dataset disponibile su IstatData. Cercavo dati che avessero a che fare con le nascite, ma se avessi inserito la parola “nascite” non mi sarebbe stata restituito nessun risultato. Questo perché nel sistema viene utilizzata la parola “fecondità” che, sebbene sia il termine tecnico corretto, non è una parola di uso comune. Mi sono reso conto di come questa costituisse in realtà una vera e proprio barriera linguistica, cosa che oggi non deve esserci in quanto è sempre più necessario un accesso democratico al sapere”. 

In una ricerca tradizionale basata su “parole chiave” non entra in gioco il significato della richiesta, cosa che invece diventa possibile fare nel momento in cui ci si avvale dell’utilizzo di un modello di linguaggio. Un Large Language Model (LLM) può infatti “capire” il significato di quello che scrive un utente, “riuscendo così ad individuare e selezionare quei dati che rientrano nelle “intenzioni” di chi sta facendo la richiesta”.

L‘architettura del sistema basato su API

Tutto è partito da qui, utilizzando le API di Istat per ricreare l’interfaccia di navigazione e di visualizzazione dei dati e creando una architettura dati che consentisse di “parlare” in linguaggio naturale con i metadati presenti nel sistema di diffusione. Titolo e descrizioni di ogni dataset vengono convertiti in “embeddings”, ossia una rappresentazione numerica che permette di salvare i dati su un database vettoriale per catturarne le relazioni e le similarità. È quello che chiamiamo RAG, che verrà utilizzato dall’LLM per “capire” la richiesta fatta dall’utente e restituire gli identificativi dèi dataset in cui il significato delle parole contenute nei titoli e nelle descrizioni sono semanticamente più “simili” alla richiesta fatta.

Ma il ricorso all’IA non viene soltanto utilizzato per ricercare dati facendo richieste in linguaggio naturale, ma, una volta individuati i dataset, anche per “parlare” con i dati, chiedendo all’IA di svolgere i task più diversi: dal commento e dalla spiegazione degli output ottenuti alla generazione di analisi automatiche o di infografiche.

Il futuro delle API con l’intelligenza artificiale

Istat da parte sua sta da tempo lavorando con l’IA e proprio di recente ha introdotto nuove funzionalità di ricerca nonché un assistente virtuale che sfruttano proprio l’intelligenza artificiale.

Ma la cosa più importante da sottolineare credo sia proprio l’importanza di rilasciare API pubbliche per l’accesso ai dati. In questo modo si dà la possibilità a chi vuole “fare cose con i dati” di avere a disposizione un intero campo di gioco ad esempio per integrare dati, in questo caso quelli della statistica ufficiale, nei propri sistemi. In questo modo è possibile non solo creare nuovi servizi basati sui dati ma, come nel caso di JIKU, il sistema ideato da Roberto Marras, anche e soprattutto di studiare, sperimentare, provare e capire come meglio sfruttare le potenzialità dei LLM per dialogare con i dati. E questo a beneficio di tutti.

Infine un paio di considerazioni. Innanzitutto la possibilità di utilizzare l’IA è sicuramente una strada che obbliga a ripensare profondamente il modo in cui progettare sistemi informativi. I sistemi informativi saranno infatti sempre più pensati e progettati già integrati con l’IA e i grandi modelli di linguaggio. Ma vorrei anche sottolineare il ruolo prezioso della società civile, che grazie ai dati aperti ha la possibilità  di valorizzare continuamente quanto viene fatto dagli enti pubblici contribuendo così a generare conoscenza aperta a vantaggio e beneficio dell’intera collettività.

EU Stories - La coesione innova l'Italia

Tutti
L'ANALISI
INIZIATIVE
PODCAST
Video&podcast
Analisi
VIDEO&PODCAST
Video & Podcast
Social
Iniziative
INNOVAZIONE
EU Stories | Dalla produzione industriale a fucina di innovazione: come il Polo universitario della Federico II a San Giovanni a Teduccio ha acceso il futuro
L'INIZIATIVA
DNSH e Climate proofing: da adempimento ad opportunità. Spunti e proposte dal FORUM PA CAMP Campania
INNOVAZIONE
EU Stories, il podcast | Laboratori Aperti: riqualificazione e innovazione in 10 città dell’Emilia-Romagna
Da OpenCoesione 3.0 a Cap4City: ecco i progetti finanziati dal CapCoe.  Il podcast “CapCoe. La coesione riparte dalle persone”
Capacità amministrativa e coesione: il binomio vincente per lo sviluppo dei territori
FORUM PA PLAY: come unire sostenibilità e investimenti pubblici. Speciale FORUM PA CAMP Campania
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
INNOVAZIONE
EU Stories | Dalla produzione industriale a fucina di innovazione: come il Polo universitario della Federico II a San Giovanni a Teduccio ha acceso il futuro
L'INIZIATIVA
DNSH e Climate proofing: da adempimento ad opportunità. Spunti e proposte dal FORUM PA CAMP Campania
INNOVAZIONE
EU Stories, il podcast | Laboratori Aperti: riqualificazione e innovazione in 10 città dell’Emilia-Romagna
Da OpenCoesione 3.0 a Cap4City: ecco i progetti finanziati dal CapCoe.  Il podcast “CapCoe. La coesione riparte dalle persone”
Capacità amministrativa e coesione: il binomio vincente per lo sviluppo dei territori
FORUM PA PLAY: come unire sostenibilità e investimenti pubblici. Speciale FORUM PA CAMP Campania
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4