“Abbiamo bisogno di molti dati. Se abbiamo molti dati accade che qualcuno li prende e ne fa qualcosa”. In passato ho citato spesso questa frase di Hans Rosling, geniale divulgatore statistico nonché ideatore delle “motion charts”, le “bolle animate” che caratterizzavano i suoi celebri speech.
Era il periodo in cui in Italia con tanti valorosi amici e amiche di viaggio portavamo all’attenzione delle istituzioni il valore degli Open Data e della conoscenza aperta. Era il periodo in cui “Spaghetti Open Data”, la storica community di “italiani e italiane che fanno cose con i dati”, era diventata un importante punto di riferimento nazionale sui temi legati al rilascio e al riutilizzo dei dati pubblici.
Un aspetto che ricordo non mancavo mai di sottolineare (e che continuo a sottolineare tutt’ora) era quello legato al rilascio e alla pubblicazione di API pubbliche per specifiche tipologie di dati. La possibilità di connettere direttamente le applicazioni ai dati “apre” infatti a interessanti opportunità di riutilizzo.
Indice degli argomenti
API per dati statistici: il caso ISTAT
Istat pubblica da diverso tempo le sue API per l’accesso diretto ai dati statistici diffusi sulle proprie piattaforme. È un tema che conosco molto bene, in passato ho avuto modo di ideare, progettare e implementare la piattaforma di API pubbliche “apistat.istat.it” per l’accesso “machine to machine” ai dati pubblicati dall’istituto. La piattaforma è stata operativa ed è stata utilizzata per ben dieci anni, è stata dismessa qualche anno fa lasciando il posto ad altri endpoint ufficiali di accesso ai dati. Si tratta di endpoint che utilizzano lo standard SDMX, uno standard internazionale (ISO 17369) sviluppato in modo specifico per la trasmissione di dati e metadati statistici e che viene utilizzato da varie organizzazioni internazionali e istituti nazionali di statistica del mondo. L’Istat fornisce sul proprio sito istituzionale le necessarie informazioni di base per l’accesso, informazioni che per la parte relativa alle API di tipo REST possiamo trovare anche su Developers Italia.
La comunità e il riutilizzo dei dati tramite API per dati statistici
Va però detto che SDMX è uno standard poco conosciuto negli ambienti al di fuori di quelli che ruotano attorno alla statistica ufficiale. Ma avere a disposizione e poter utilizzare API pubbliche per connettersi direttamente ai dati dell’Istat rappresenta una grande opportunità per “aumentare” la possibilità di “fare cose con i dati”. Di questo ne è stata sempre consapevole Ondata, associazione di promozione sociale che “promuove l’apertura dei dati pubblici per renderli accessibili a tutte e tutti” e che da sempre mette continuamente in campo azioni concrete per facilitarne il riutilizzo. E una di queste azioni concrete è stata la “Guida alle API REST di Istat”. Nonostante sia stata rilasciata alcuni anni fa e necessiti di essere aggiornata in alcuni punti, resta comunque una guida utilissima per capire il funzionamento delle API REST e delle logiche che accompagnano lo standard SDMX. Ondata APS ha voluto dedicare ad SDMX e ai dati Istat anche due Webinar: “Le API sui dati statistici di Istat e il progetto SDMX” e “Notte europea dei ricercatori: aperitivo coi dati ISTAT” in cui sono stati affrontati tanti interessanti aspetti legati alla diffusione e al riutilizzo dei dati statistici.
API per dati statistici e intelligenza artificiale: un caso innovativo
Tutto questo che ho raccontato fino ad ora, in realtà, mi serve per poter introdurre un bel caso di riutilizzo degli Open Data e delle API Istat che fa uso dell’intelligenza artificiale. Ho conosciuto Roberto Marras circa due anni fa. Eclettico designer con una importante esperienza di lavoro in UK, una volta rientrato in Italia si è dedicato allo studio e allo sviluppo di sistemi basati sull’utilizzo dei modelli LLM di intelligenza artificiale ed è attualmente CTO e co-fondatore di OnePix, startup che offre servizi proprio basati su IA. Roberto è’ entrato in contatto con Ondata e con il suo presidente Andrea Borruso proprio quando ha scoperto l’esistenza della guida alle API di Istat.
Una volta fu chiesto ad un alpinista cosa lo spingesse a scalare le montagne. Lui rispose semplicemente: “lo faccio perché le montagne sono lì”. Vi assicuro che lo stesso vale con i dati. Si “fanno cose con i dati” semplicemente perché i dati sono lì, e questo vale anche se a volte bisogna andarseli a prendere attraverso web scraping. Nei casi in cui i dati sono invece disponibili via API, allora diventa molto più comodo e vantaggioso utilizzarli: è come se in qualche modo fossero stati messi e resi disponibili su un vassoio d’argento.
Superare le barriere linguistiche con i Large Language Models
Mi diceva Roberto: “Lo scorso anno, quando ho cominciato a lavorare al mio progetto, ho provato a utilizzare la funzione di ricerca dataset disponibile su IstatData. Cercavo dati che avessero a che fare con le nascite, ma se avessi inserito la parola “nascite” non mi sarebbe stata restituito nessun risultato. Questo perché nel sistema viene utilizzata la parola “fecondità” che, sebbene sia il termine tecnico corretto, non è una parola di uso comune. Mi sono reso conto di come questa costituisse in realtà una vera e proprio barriera linguistica, cosa che oggi non deve esserci in quanto è sempre più necessario un accesso democratico al sapere”.
In una ricerca tradizionale basata su “parole chiave” non entra in gioco il significato della richiesta, cosa che invece diventa possibile fare nel momento in cui ci si avvale dell’utilizzo di un modello di linguaggio. Un Large Language Model (LLM) può infatti “capire” il significato di quello che scrive un utente, “riuscendo così ad individuare e selezionare quei dati che rientrano nelle “intenzioni” di chi sta facendo la richiesta”.
L‘architettura del sistema basato su API
Tutto è partito da qui, utilizzando le API di Istat per ricreare l’interfaccia di navigazione e di visualizzazione dei dati e creando una architettura dati che consentisse di “parlare” in linguaggio naturale con i metadati presenti nel sistema di diffusione. Titolo e descrizioni di ogni dataset vengono convertiti in “embeddings”, ossia una rappresentazione numerica che permette di salvare i dati su un database vettoriale per catturarne le relazioni e le similarità. È quello che chiamiamo RAG, che verrà utilizzato dall’LLM per “capire” la richiesta fatta dall’utente e restituire gli identificativi dèi dataset in cui il significato delle parole contenute nei titoli e nelle descrizioni sono semanticamente più “simili” alla richiesta fatta.
Ma il ricorso all’IA non viene soltanto utilizzato per ricercare dati facendo richieste in linguaggio naturale, ma, una volta individuati i dataset, anche per “parlare” con i dati, chiedendo all’IA di svolgere i task più diversi: dal commento e dalla spiegazione degli output ottenuti alla generazione di analisi automatiche o di infografiche.




Il futuro delle API con l’intelligenza artificiale
Istat da parte sua sta da tempo lavorando con l’IA e proprio di recente ha introdotto nuove funzionalità di ricerca nonché un assistente virtuale che sfruttano proprio l’intelligenza artificiale.
Ma la cosa più importante da sottolineare credo sia proprio l’importanza di rilasciare API pubbliche per l’accesso ai dati. In questo modo si dà la possibilità a chi vuole “fare cose con i dati” di avere a disposizione un intero campo di gioco ad esempio per integrare dati, in questo caso quelli della statistica ufficiale, nei propri sistemi. In questo modo è possibile non solo creare nuovi servizi basati sui dati ma, come nel caso di JIKU, il sistema ideato da Roberto Marras, anche e soprattutto di studiare, sperimentare, provare e capire come meglio sfruttare le potenzialità dei LLM per dialogare con i dati. E questo a beneficio di tutti.
Infine un paio di considerazioni. Innanzitutto la possibilità di utilizzare l’IA è sicuramente una strada che obbliga a ripensare profondamente il modo in cui progettare sistemi informativi. I sistemi informativi saranno infatti sempre più pensati e progettati già integrati con l’IA e i grandi modelli di linguaggio. Ma vorrei anche sottolineare il ruolo prezioso della società civile, che grazie ai dati aperti ha la possibilità di valorizzare continuamente quanto viene fatto dagli enti pubblici contribuendo così a generare conoscenza aperta a vantaggio e beneficio dell’intera collettività.
