Ogni volta che scrivo o parlo di ontologie, l’obiezione che sento più spesso è sempre la stessa: è un argomento complesso, va semplificato e sintetizzato.
L’esemplificazione da cui parto per introdurre le ontologie, è la lingua, scritta o parlata. Immaginiamo di avere un “manuale” che descriva ogni materia di cui parliamo, una sorta di enciclopedia suddivisa per materie. Supponiamo da qui in poi di voler descrivere la materia “pubblica amministrazione”, perché è quella che mi ha permesso, insieme alla materia “automotive”, di sperimentare l’uso delle ontologie. Immaginiamo di avere un manuale della pubblica amministrazione in italiano. Immaginiamo che tale manuale sia un corposo ipertesto, dove cioè ogni singola parola o quasi sia linkabile, ovvero cliccando su di essa si possa approfondire il contenuto e il significato della parola stessa.
Dare alla pubblica amministrazione, sia a chi ne fruisce (il cittadino), sia a chi sta dall’altra parte del bancone (dal semplice impiegato fino al funzionario) un ipertesto specializzato che tiri le fila di tutti gli oggetti, informatizzati e non, che fanno parte della grammatica della pubblica amministrazione.
Il problema fondamentale è che, sia per la pubblica amministrazione che per altre materie, molto spesso non ho lì bella e pronta una enciclopedia che la descriva, ma la devo costruire, mediando tra:
– una sintesi concettuale di alto livello che descriva la materia nei modi più generali possibili, sintesi molto spesso presente nella testa degli esperti di materia, che va necessariamente formalizzata in lingua corrente, diciamo l’introduzione dell’enciclopedia e
– un dettaglio costituito da dati e processi, possibilmente informatizzati, e doverosamente provvisti di metadati.
Il tutto deve essere attuato con un approccio agile.
Il principio che guida l’approccio agile è il seguente, semplice ma potente: cerchiamo di arrivare all’ontologia della PA, popolando un foglio bianco con alcuni concetti esistenti a disposizione e facendoli evolvere, senza la pretesa di costruire una cosa complicatissima e quindi di non costruirla mai. Evitiamo quindi di arrivarci con interviste infinite agli esperti di materia, troviamo semmai dei semi-automatismi semplici ma potenti, che riducano gli ordini di grandezza di tempo necessari per arrivarvi.
Per fare questo si parte da una libreria di concetti, ossia di schemi concettuali integrati, classificati e raggruppati piramidalmente secondo gerarchie di astrazione.
Modelli entità-relazioni e attributi, metadati descrittivi.
Può presentarsi il problema di costruire l’ontologia della PA locale avendo a disposizione:
– dal basso gli schemi logico fisici delle basi dati e i loro metadati, di una PA locale
– dall’alto gli schemi concettuali della PA centrale.
Abbiamo messo a punto una metodologia di inferenza semantica per il marriage top-down (schemi concettuali PA centrale, schemi logico-fisici PA locale) e l’ottenimento degli schemi concettuali PA locale.
Tale metodologia consta di 5 step fondamentali e funzionali:
- ricerca entità (funzione principale, ad oggi migliorabile nei criteri di text mining e ricerca semantica): ogni nome entità (quindi ogni concetto) presente negli schemi concettuali PA centrale viene ricercata per somiglianza nei nomi e nelle descrizioni di tavole e campi dei database della PA locale piemontese
- riuso gerarchie di generalizzazione entità presenti nei concettuali PA centrale
- marriage attributi concettuali PA centrale con attributi logico-fisici PA locale
- riuso relazioni concettuali PA centrale
- aggiunta relazioni (e quindi nuove entità) di vicinanza tra tabelle logico-fisiche PA locale; questa funzionalità permette di incrementare la conoscenza a disposizione, ovvero nuovi concetti che acquistano dignità ed aggiornano i concetti esistenti usati come esca
Questa metodologia produce dei semilavorati da mettere a disposizione degli esperti di materia, che validano e perfezionano (aggiungendo o togliendo concetti inferiti e non) i prototipi di schemi concettuali PA locale ottenibili dalla metodologia e dai tools correlati.
Gli schemi validati ottenuti, da notare, sono concettuali, ma “ancorati” ai database logico-fisici dei quali analizzano i metadati. Tale ancoraggio potrebbe consentire, a fronte di query ontologiche fatte sui modelli concettuali, di mappare e interrogare le basi dati fisiche.
Inoltre la metodologia descritta si presterebbe anche ad altri scopi, ovvero ad essere usata per mettere in relazione concetti nel web.
Non ultima, la generalizzabilità del metodo: a fronte di una libreria di schemi per la PA ottengo schemi e ancoraggi a metadati e dati della PA, se ho a disposizione ad esempio una libreria di schemi automotive, posso inferire schemi e ancorare metadati (siano essi basi dati o piu’ in generale oggetti informatici, web e quant’altro) relativi al settore automotive.