Cybersecurity, per agevolare la comprensione della terminologia e la documentazione del dominio è a disposizione di esperti e utenti un Thesaurus. Realizzato in lingua italiana e accessibile sul sito dell’Osservatorio Cybersecurity dell’Iit
Il dominio della sicurezza informatica è un ambito che presenta un lessico altamente specializzato. Per agevolare la comprensione di determinati tecnicismi per gli utenti comuni, così come per gli esperti di dominio, possono venire in aiuto diverse risorse semantiche orientate all’organizzazione della conoscenza.
Per questa ragione è stato realizzato un thesaurus per la sicurezza informatica in lingua italiana. Tra le altre motivazioni principali che hanno spinto alla decisione di realizzare un thesaurus italiano per la sicurezza informatica, si trova in primo luogo l’attuale assenza ufficiale e normativa di una risorsa di questo tipo in lingua italiana.
I servizi terminologici disponibili in lingua italiana sono soprattutto glossari o tassonomie riferite alla Cybersecurity (si veda “Glossario Intelligence – Il Linguaggio degli Organismi Informativi” redatto dalla Presidenza del Consiglio dei ministri), e la maggior parte di queste sono state utilizzate come base di dati da inserire nel corpus di partenza per la costruzione del thesaurus.
Così è stato realizzato il thesaurus sulla cybersecurity
Il thesaurus è stato realizzato utilizzando più documenti autorevoli relativi al dominio della sicurezza informatica in modo tale da poter essere individuato come uno strumento affidabile e di riferimento che potesse racchiudere quanta più informazione accurata sull’ambito della Cybersecurity al fine di agevolare altresì la comprensione di una terminologia specialistica.
Il thesaurus è attualmente presente tra i servizi offerti dal portale web dell’Osservatorio della Cybersecurity (OCS) e contiene allo stato attuale 245 termini rappresentativi della sicurezza informatica.
Nell’ambito di OCS, risorsa online rivolta non solo agli esperti del settore ma anche a utenti comuni, si è ritenuto necessario sviluppare e mettere a disposizione degli stakeholders degli strumenti terminologici in grado di gestire su più livelli sia i termini in uso che i concetti riferiti al mondo della Cybersecurity, ciò perché la conoscenza in questo ambito non sempre è chiara, ma spesso porta ad ambiguità di significato delle “parole”.
Pertanto, in seno all’OCS sono stati sviluppati sia un vocabolario di termini controllato (il thesaurus) con il quale sono state gestite le sinonimie e descritte tanto le relazioni tra i termini, andando dal livello generico a quello specifico, quanto le associazioni tra termini, sia un modello concettuale (l’ontologia) con il quale sono stati rappresentati i concetti definendone le classi, le proprietà, gli attributi e le relazioni tra le classi.
Entrambe le risorse sono attualmente in lingua italiana, si riferiscono al dominio della Cybersecurity e risultano importanti per un recupero puntuale delle informazioni su questo campo di studio. Esse fungono da faro per l’utente che ha bisogno di capire le parole e i significati (concetti) usati per rappresentare la conoscenza del dominio della Cybersecurity ed hanno come obiettivo primario quello di restituire un quadro della conoscenza relativa alla Cybersecurity che possa aiutare l’utente, esperto o comune, ad orientarsi meglio in questo campo della conoscenza specialistica.
Gli obiettivi del Thesaurus
In sintesi permettono la realizzazione di un sistema di inter-connessioni semantiche tra i termini e/o concetti relativi alla Cybersecurity, e gestiscono l’informazione ad essa riferita in base a una serie di rinvii che aiutano a orientarsi con più disinvoltura nel dominio di studio.
Il motivo per cui è stato deciso di utilizzare sia un thesaurus che un’ontologia è dovuto al fatto che il primo, nonostante sia un mezzo di organizzazione della conoscenza molto intuitivo e dinamico che modella le connessioni tra i termini attraverso l’uso di etichette standardizzate (si veda la norma ISO 25964- The International Standard for Thesauri and Interoperability with Other Vocabularies), presenta alcuni punti di debolezza nel momento in cui si cerca di esplicitare una serie di connessioni semantiche tra i concetti del dominio.
Inoltre, quest’ultima sfrutta dei linguaggi di rappresentazione propri quali OWL e RDF che consentono una migliore presentazione dei concetti e sono in grado di rendere più esplicite le interconnessioni della sicurezza informatica seguendo una logica di esplicitazione dei rapporti semantici tra termini e concetti quanto più dettagliata possibile. Inoltre a livello visivo un’ontologia ha un impatto più immediato rispetto ad un thesaurus la cui conoscenza è rappresentata sotto forma di albero e risponde ad una logica gerarchizzata.
Nel dettaglio, il Thesaurus offre un’organizzazione della conoscenza del dominio della Cybersecurity sotto forma di vocabolario controllato che al suo interno contiene i termini più rappresentativi del dominio nonché una serie di relazioni semantiche tra i termini.
Ecco come è organizzato
Le tipologie di relazioni sono principalmente tre: relazione di gerarchia (Broader Term, BT, Narrower Term, NT), di associazione (Related Term, RT) e di sinonimia (Use, USE, Used For, UF), a queste si aggiunge la definizione dei termini attraverso una nota d’uso, Scope Note, SN.
Fig. 1 è un esempio della struttura tesaurale presente sul sito dell’OCS, si può osservare il termine “Phishing” come NT di “Spam”, che a sua volta è NT di “Meccanismi di Attacchi informatici”, mentre la Fig. 2 mostra la sua nota d’uso che riporta la definizione data da fonti autorevoli a questo termine.
Fig. 1
Fig. 2
La funzione primaria di queste relazioni è quella di strutturare un sistema rinvii semantici tra i termini presenti nel thesaurus affinché possa crearsi un network terminologico per il recupero dell’informazione del dominio di interesse e per i processi di indicizzazione.
Per la costruzione del thesaurus sono state utilizzate fonti autorevoli, quali norme ecc., così come riviste di settore, necessarie per arricchire la terminologia recuperata. Altre fonti utili sono state i glossari europei (ENISA) e le tassonomie esistenti contenute nel National Institute of Standards and Technology (NIST) e nello standard ISO/IEC 27000:2016.
L’Ontologia, come osservato, da un lato si contraddistingue rispetto a un thesaurus per l’uso dei linguaggi OWL e RDF, i quali permettono una forma di interoperabilità tra più sistemi operativi, dall’altro gestisce i rapporti tra i concetti appartenenti al dominio di interesse in forma più dettagliata attraverso una migliore esplicitazione dei tipi di relazioni semantiche.
L’ontologia è stata costruita a partire dal modello del thesaurus italiano sulla Cybersecurity e tutte le relazioni tra le classi rappresentano un mapping più preciso dei rapporti di associazione e di gerarchia all’interno del thesaurus.
L’uso di questa struttura consente una migliore gestione del processo di disambiguazione semantica della rappresentazione della conoscenza. La visualizzazione dell’ontologia sulla pagina web dell’OCS è stata resa con l’applicazione web “Web-based Visualization for Ontologies” (WebVOwl) e presenta una sistematizzazione della conoscenza attraverso la descrizione grafica degli elementi in OWL. WebVOwl permette un’esplorazione più dinamica dell’ontologia della Cybersecurity, nonché consente di scegliere la visualizzazione preferita in base a parametri di densità informativa e combinazioni concettuali. Fig. 3 e Fig 4 presentano degli esempi di come appare l’ontologia sul sito web dell’OCS.
Fig. 3
Fig. 4