La nuova sfida, nell’ambito della produzione documenti, consiste di due aspetti:
- sia nel fornire informazioni comprensibili, che possano essere facilmente classificate per temi e quindi ricercate;
- sia nel rilasciare documenti in cui i dati che li descrivono, i metadati, quali ad esempio l’autore, la data di rilascio, l’indicazione dell’approvazione dello stesso (indice anche della presenza o meno di un processo di approvazione in cui venga stabilita chiaramente una matrice RACI di responsabilità), siano, oltre che presenti, anche facilmente estrapolabili dagli stessi.
La sfida consiste quindi nel rilasciare un’informazione di qualità intesa come esatta, realmente utile.
I requisiti di qualità di un documento
I requisiti di qualità che devono essere posseduti da un documento sono:
- la chiarezza: il testo non deve dar luogo a equivoci e/o dubbi ed i richiami a documenti, ovvero a loro parti, non allegati deve essere limitato;
- la completezza: all’interno del documento devono essere inserite tutte le informazioni di cui un lettore può aver bisogno per capirlo ed interpretarlo e di tutte le informazioni previste per quel tipo di documentazione;
- la leggibilità: indica la scorrevolezza di lettura e la facilità di comprensione del significato di un testo;
- la correttezza: il testo non deve contenere refusi, contraddizioni, errori logici;
- la flessibilità: il documento deve poter essere facilmente aggiornato e deve essere fornito nella sua ultima versione, senza revisioni in chiaro;
- l’originalità: il testo contenuto in un documento deve essere originale e deve rispettare il diritto d’autore.
L’ufficio III della Direzione dei Sistemi Informativi e dell’Innovazione (DSII) del Ministero dell’Economia e delle Finanze, nell’ambito del sistema di gestione della qualità, ha iniziato un’attività di ricerca di indicatori di qualità della documentazione anche attraverso lo sviluppo di un’applicazione prototipale di misura dei requisiti di qualità di un documento digitale (i formati supportati sono .doc, .docx, .ppt, .pptx e .pdf). Le misure effettuate riguardano indicatori di leggibilità, di originalità e la presenza o meno di metadati ed informazioni previste dal processo di approvazione del documento stesso. Di seguito vengono riportati gli indicatori calcolati.
Le misure di leggibilità
Le misure di leggibilità sono state effettuate attraverso il calcolo degli indici di leggibilità Gulpease e Gunning’s Fog. L’indice di Gulpease è l’unico indice di leggibilità tarato sulla lingua italiana ed ha una scala di possibili valori che va da 0 a 100, dove il valore “100” indica la leggibilità più alta e “0” la leggibilità più bassa. La formulazione di tale indice esprime essenzialmente che più le frasi e le parole di un testo sono “corte” più tale testo è leggibile. L’indice di Gulpease, inoltre, permette di stabilire delle soglie in funzione del grado di formazione del lettore, difatti si può affermare che un documento totalizzante un valore dell’indice:
- inferiore a 80 indica un documento difficile da leggere per chi ha una formazione di base;
- inferiore a 60 indica un documento difficile da leggere per chi ha formazione intermedia;
- inferiore a 40 indica un documento difficile da leggere per chi ha una formazione elevata.
L’ indice di Gunning’s Fog, riflette, in maniera approssimata, il numero minimo di anni di scuola (basandosi sul sistema scolastico americano) che una persona deve aver frequentato per leggere con facilità il testo in esame. I risultati hanno un valore massimo di 17 (il numero di anni in cui è raggiunto il livello post-laurea negli USA): eventuali risultati maggiori di 17 vengono riportati a tale valore.
Dalla strutturazione dei due indici si evince che un’analisi della misura dei due indici va rapportata anche al tipo di pubblico del documento analizzato.
Esistono diversi strumenti per calcolare tali indici, tra questi vi sono Word di Office (limitato al formato .docx) e numerose applicazioni web. Queste ultime applicazioni, una volta raggiunto il sito che le ospita ed immesso il testo in apposite finestre (un esempio), calcolano tali indici visualizzandoli in semplici cruscotti.
La misura di originalità
La misura di originalità è stata ottenuta attraverso il calcolo di un indicatore espresso come rapporto tra il numero di frasi non avente corrispondenza perfetta in un documento indicizzato presente sul world wide web ed il numero delle frasi contenute nel documento stesso. Due frasi sono in corrispondenza perfetta se contengono gli stessi caratteri nello stesso ordine. Le frasi sono state ricercate attraverso delle api messe a disposizione dal Google Custom Search. Inoltre per ogni frase avente corrispondenza perfetta viene riportato, oltre che il testo della frase, la url, la home page ed il titolo del primo sito in cui è stata riscontrata la corrispondenza perfetta.
Il valore dell’indice di originalità va interpretato a seconda del tipo di documento, ad esempio un basso valore dell’originalità potrebbe essere totalizzato da un documento il cui scopo sia quello di raccoglierne altri (in questo caso risulta comunque interessante analizzare se le fonti siano state citate correttamente).
Misure di presenza di metadati
Tali misure riguardano la completezza e la flessibilità della documentazione. Seguono le informazioni analizzate.
I metadati estratti dal documento sono:
-Titolo, Soggetto, Creatore, Nome modello utilizzato, Compagnia, Numero pagine, Lingua del documento, Data di creazione, Data ultimo accesso, Data ultima modifica.
Le informazioni estratte riguardanti il processo di approvazione del documento sono:
-Autore, Stato autorizzativo, Nome Autorizzatore, Revisione, Data di rilascio.
E’ stata, inoltre, valutata la presenza o meno di tutta una serie di informazioni richieste in allegati contrattuali, ma non è stato possibile rendere automatica tale misura a causa della mancanza di modelli in cui l’informazione specifica prevista fosse legata ad un particolare campo.
Misure di qualità della documentazione per questo articolo
Nella Figura 1 vengono visualizzate le misure di qualità della documentazione per questo articolo escluso il testo contenuto in questo sottoparagrafo (Misure di qualità della documentazione per questo articolo). Tale articolo risulta, ad una prima analisi e secondo le limitazioni sopra descritte, originale e leggibile pienamente da chi ha una formazione elevata (Gulpease = 43, Gunning’s Fog = 16). Nella Figura 1 viene inoltre inserita l’informazione “Top 10 Domini” che indica i 10 domini più presenti come origine delle frasi trovate su Google Custom Search. In tale top ten, nella Figura 1, non sono disponibili dati in quanto nel documento analizzato non sono state riscontrate frasi non originali.
Figura 1: Misure di qualità della documentazione: esempio cruscotto sul singolo file analizzato
Prossimi sviluppi
Gli sviluppi possibili per questa applicazione riguardano:
- misure di correttezza relativa alla presenza o meno di refusi;
- misura automatica dei requisiti di qualità della documentazione per articoli pubblicati su Internet;
- estrapolazione automatica dal testo di tag al fine di una più facile classificazione;
- creazione di un database in cui inserire tutte le misurazioni dei requisiti di qualità della documentazione svolte sull’intero patrimonio documentale della DSII;
- calcolo dell’originalità utilizzando come fonte, non solo i documenti indicizzati dal motore di ricerca personalizzato di Google, ma anche il database formato secondo le modalità delineate nel punto precedente.