Al cittadino può essere difficile parlare di ontologie, far capire a cosa servono, nella fattispecie nella pubblica amministrazione, nuova e inaspettata miniera di estrazione di conoscenza con uso di tecniche di intelligenza artificiale.
Ma è oggi quanto mai necessario, se non parlare di ontologie, perlomeno capirle, conoscerne il senso. Stiamo assistendo ad un accumulo esponenziale di informazioni e se prima ad una causa corrispondeva uno ed un solo effetto oggi una piccola perturbazione delle nostre azioni crea una serie di effetti a catena di cui non sempre siamo padroni. Pensiamo ad un (apparente) innocuo “tap” sul nostro smartphone, un gesto semplice e rapido che in realtà, ogni volta che lo facciamo, genera delle conseguenze, sull’app o sul portale che stiamo utilizzando, e quindi dati. I dati sono il vero nuovo petrolio del XXI secolo e data la loro gigantesca mole abbiamo il dovere di ordinarli, di incasellarli, di “taggarli” con etichette che ci permetteranno il loro recupero e la loro lettura in futuro, quando finiranno nell’immenso calderone della rete. Le ontologie servono essenzialmente a catalogare dati, anzi, fanno di più: danno ai dati una semantica, un senso. Danno ai dati una voce, la possibilità cioè di far dire a loro di che informazione si fanno carico, di che contenuto si fanno ospiti. Organizzare, strutturare, e gerarchizzare i dati è oggi un compito quanto mai necessario per riuscire a non perdere la bussola nel mare del web. Il web semantico fa proprio questo, e le ontologie, come vedremo di seguito, sono un ottimo alleato per riuscire nell’intento.
Nel caso che descriviamo, il cittadino può arrivare a comprendere la conoscenza nascosta nei dati e nei processi della pubblica amministrazione, vedendola rappresentata graficamente, disegnata.
Capita di dover, e volere, estrarre conoscenza dai dati e dai loro descrittori, ossia i metadati.
Necessita di doverlo fare partendo “dal basso”, ispirandosi a concetti un po’ astratti.
Il tutto somiglia forse ad una pesca in mare aperto: con delle buone esche si possono ottenere buoni risultati.
Parliamo di dati aperti, di open data, di strutture dati piatte, che più piatte non si può: tabelle excel, i famigerati files csv, ovvero file testuali con righe di dati, ed ogni riga costituita da campi separati da un carattere convenzionale, il più delle volte il punto e virgola.
Un amico (Fabio Galgani) ti da una mano e ti crea un tool generico che scarica tutti i csv, da dati.gov.it, che rispondono ad un certo criterio di ricerca, ad esempio “rifiuti”.
Si estraggono dati nel mondo open che trattino di rifiuti, classificati nella tematica ambiente, si parte da un determinato input.
Ogni famigerato file csv viene accasato in un database access.
Per ciascun file si crea una scheda che contenga i nomi e le descrizioni di tabelle e campi.
I valori alfanumerici dei campi diventano a loro volta nomi campi (dati e non solo metadati, istanze e non solo classi), ad esempio se voglio estrarre conoscenza dall’attributo colore, mi interessano anche i suoi valori discreti: bianco, rosso, verde, e via dicendo, partendo perché no dai colori della bandiera italiana…
Ogni scheda metadati ottenuta viene trattata da un tool (che lo scrivente ha realizzato insieme e grazie a Carlo Batini e Manuel Garasi) che genera file di testo che sono frammenti di ontologie (entità e loro astrazioni, relazioni, attributi).
Le suite di frammenti per ogni inferenza diventano input del web service di Cristiano Longo che le traduce in owl, un formato ontologico ricco, e ulteriormente arricchibile. Ecco il web service.
Ogni owl viene disegnata: il disegno della conoscenza ne esalta la potenza espressiva.
Ecco un esempio a corredo della pesca dei concetti per la tematica ambiente rifiuti.
Ulteriori esperimenti sono in corso con ontologie standard europee raccomandate dal W3C, in particolare un sottoinsieme di una ontologia che descrive i servizi pubblici, per estrarre dal basso i concetti sinora trattati ad esempio sempre nel campo dei rifiuti.
Con questi metodi e tools, e con vari tipi di ontologie, è sempre possibile, e più fruttuoso, estrarre conoscenza dalle strutture operazionali delle basi dati, strutture meno piatte e maggiormente relazionate: con un esempio, non solo conoscenza estratta da singoli acini di uva, ma da interi grappoli.