qualità dei dati

Etica e qualità dei dati: metodi e strumenti per rendere gli algoritmi responsabili

Trattare i dati in modo consapevole non può prescindere dagli aspetti etici che si manifestano quando i dati sono usati in processi decisionali critici come la valutazione del personale, l’ammissione all’università o le condanne penali. Vediamo le dimensioni di quello che chiameremo il cluster etico della qualità dei dati

Pubblicato il 12 Mag 2021

Donatella Firmani

Università Roma Tre

Letizia Tanca

DEIB, Politecnico di Milano

Riccardo Torlone

Università Roma Tre

Nell’era dei big data, le aziende, i governi e le organizzazioni fanno sempre più affidamento, per prendere decisioni, su massicce quantità di dati raccolti da sorgenti sia interne (ad esempio, CRM, ERP) che esterne (ad esempio, il WWW). Anche quando i dati appartengono a sorgenti controllate, essi di solito presentano diversi problemi di qualità come incompletezza, (dati parziali), ridondanza (dati sovrapposti), incoerenza (ad esempio, dati in conflitto) o inesattezza (ad esempio, errori nei dati).

Fino a poco tempo fa questi erano considerati come i principali problemi di qualità dei dati e quindi come il principale nemico da combattere per non incorrere in decisioni errate. Recentemente però è emerso un altro importante aspetto: trattare i dati in modo consapevole non può prescindere dagli aspetti etici che si manifestano quando i dati sono utilizzati in processi decisionali critici come, ad esempio, la valutazione del personale, l’ammissione all’università o le condanne penali.

In questo breve articolo ci proponiamo innanzitutto di introdurre come dimensioni della qualità dei dati i principi etici più comuni, ovvero equità (fairness), trasparenza, rispetto della diversità e, ultimo ma non meno importante, il rispetto della privacy. Passeremo quindi a discutere queste dimensioni nell’ambito delle fasi centrali di un tipico data science workflow, ovvero:

identificare le sorgenti di dati contenenti le informazioni di interesse;
raccogliere i dati corrispondenti ed eventualmente integrarli al fine di produrre un set di dati unico; e
applicare i metodi di analisi più appropriati, dall’applicazione di una semplice query all’uso di una sofisticata tecnica di machine learning.

Indice degli argomenti

I principi etici come principi fondamentali nell’analisi dei dati

Notiamo innanzitutto che, in fondo, noi siamo abituati a vedere le cose dal punto di vista opposto: non potremmo mai fidarci di un’informazione (e quindi considerarla accettabile dal punto di vista etico) se non fossimo certi che i dati su cui si basa siano di buona qualità (veritieri e accurati). Se però guardiamo le cose da un altro punto di vista ci rendiamo conto che, affinché i dati possano essere considerati di buona qualità, è necessario in primis che siano conformi a uno standard etico elevato. Pertanto, la soddisfazione dei requisiti etici di base è effettivamente necessaria per affermare la qualità di una collezione di dati e non semplicemente la sua conseguenza.

Uno tra i primi lavori che suggeriscono l’importanza di considerare i principi etici come principi fondamentali nell’analisi dei dati è l’articolo “Data, responsibly: Fairness, neutrality and transparency in data analysis”. Successivamente, la discussione nell’articolo “Ethics-aware Data Governance (Vision Paper)” suggerisce di “iniettare” i principi etici fondamentali nelle varie fasi del processo di estrazione delle informazioni, amalgamando e risolvendo adeguatamente i loro contrasti. Le sfide identificate nell’articolo appena citato dipendono da tre aspetti principali del processo di estrazione delle informazioni: (i) non vi è alcuna garanzia sulla qualità dei dati di input, (ii) gli algoritmi sono scritti da esseri umani e (iii) spesso i modelli ottenuti dai dati sono opachi e difficili da interpretare.

Il cluster etico della qualità dei dati

Vediamo ora più nel dettaglio le dimensioni di quello che chiameremo il cluster etico della qualità dei dati. L’equità, o fairness, è definita come mancanza di parzialità. L’equità è stata spesso studiata per i processi, mentre più recentemente la sua importanza è stata riconosciuta anche per i dati coinvolti nel processo stesso, visto che risultati non equi possono risultare anche a causa di algoritmi di Machine Learning che sono stati addestrati sulla base di dati distorti. La trasparenza è la possibilità di interpretare il processo di estrazione delle informazioni al fine di verificare quali aspetti dei dati ne determinano i risultati. La trasparenza consente l’individuazione di possibili pregiudizi ed è quindi è collegata alla equità. La diversità misura quanto siano rappresentate, in set di dati, le diverse categorie. L’articolo “Diversity in big data: A review” propone diverse metriche per la diversità. Garantire la diversità all’inizio del processo di estrazione delle informazioni può essere utile per raggiungere conclusioni eque, però bisogna tener conto del fatto che garantire la diversità può significare entrare in conflitto con altri requisiti di qualità, per esempio con il concetto di Trust che invece vorrebbe che la priorità fosse data a poche sorgenti di dati, di alta reputazione. La privacy riguarda i modi per proteggere dati, algoritmi e modelli dall’accesso non autorizzato, per esempio nel contesto di processi industriali. La protezione dei dati è correlata alla dimensione di qualità già nota come sicurezza. Come si può intuire, la protezione dei dati o degli algoritmi potrebbe essere in conflitto con la necessità di trasparenza.

Le fasi del data science workflow

Facciamo ora una breve analisi delle fasi centrali di un tipico data science workflow, come discusso prima, evidenziando alcune sfide legate al rispetto delle dimensioni del cluster etico della qualità dei dati.

Selezione delle sorgenti di dati

I dati provengono tipicamente da più sorgenti, ed è desiderabile che ognuna di queste sia conforme alle dimensioni etiche introdotte. Sfortunatamente, quando si considera una sorgente in isolamento, tali dimensioni sono difficili da valutare, mentre maggiori informazioni possono essere ottenute osservando altre sorgenti contenenti informazioni simili. Se le sorgenti non rispettano individualmente alcune dimensioni o se è difficile fare una valutazione, dovremmo considerare che il requisito veramente importante è che l’insieme complessivo dei dati utilizzati per il processo decisionale lo facciano. Ad esempio, il pregiudizio verso una certa categoria

presente in una certa sorgente può essere eliminato aggiungendo un’altra sorgente con polarizzazione opposta. Si noti che, mentre per le dimensioni di equità, trasparenza e diversità questo è chiaramente possibile, per la privacy possiamo agire solo sulle singole sorgenti, poiché aggiungere informazioni può solo abbassare il livello di protezione (o, al massimo, lasciarlo così com’è).

L’etica nella selezione delle sorgenti è strettamente correlata alla trasparenza della sorgente, in particolare per le sorgenti che sono esse stesse generate per copia o aggregazione da altre. Le metriche di trasparenza possono utilizzare le nozioni di (i) spiegazione (explanation), che descrive il modo in cui un risultato è stato ottenuto, e (ii) provenienza (data provenance), che rappresenta,

mediante metadati, da dove i dati originali provengono. Naturalmente, notiamo che anche il processo stesso di acquisizione dei dati gioca un ruolo importante, e lo sviluppo di metodi di raccolta ed estrazione intrinsecamente trasparenti ed equi è un argomento ancora nuovo.

Integrazione dei dati

L’integrazione dei dati consiste nel combinare i dati provenienti da diverse sorgenti in una vista unificata e di solito prevede tre passaggi chiave: (i) Schema Matching e Mapping, ovvero trovare e definire corrispondenze tra tabelle e nomi di attributi di sorgenti di dati strutturati^[1]; (ii) Entity Resolution, o Record Linkage, utilizzata per identificare e aggregare diversi profili/record di entità che descrivono lo stesso oggetto del mondo reale; (iii) Data Fusion, che mira a scoprire i veri valori di un attributo quando è riportato da diverse fonti informative, con valori che sono (parzialmente o completamente) diversi. Ogni passaggio è soggetto a diversi problemi etici, come discusso di seguito.

Schema Matching. I gruppi trattati equamente in ogni singola sorgente possono diventare sovrarappresentati o sottorappresentati come conseguenza del processo di integrazione, causando, nei passaggi successivi, decisioni ingiuste. Problemi simili sorgono in connessione con la dimensione di diversità.
Entity Resolution. L’integrazione di sorgenti che, singolarmente, proteggono l’identità (ad esempio tramite l’anonimizzazione) potrebbe generare un set di dati che viola la privacy, perché connettendo insieme le due sorgenti si potrebbero scoprire informazioni che invece erano ben protette in ciascuna delle sue sorgenti. Pertanto la protezione dei dati è molto critica in questa fase.
Data Fusion. La divulgazione dei dati, ovvero la violazione della protezione, può avvenire anche nella fase di fusion se il rumore che preserva la privacy viene accidentalmente rimosso unendo i dati. La data fusion può anche influenzare la dimensione di equità, quando la combinazione di dati provenienti da sorgenti diverse porta all’esclusione di alcuni gruppi.

Sia la selezione delle sorgenti che l’integrazione dei dati possono beneficiare dell’esistenza di dati ausiliari, generati automaticamente, che consentano di inferire significati contestuali per singoli termini e frasi. Si noti che anche la generazione di tali dati può avere risvolti etici, poiché spesso può introdurre stereotipi e pregiudizi. Infine, in tutti i passaggi precedenti, la trasparenza è fondamentale: possiamo verificare l’adempimento delle dimensioni etiche solo se possiamo fornire spiegazioni dei risultati intermedi e descrivere la provenienza dei dati finali. Sfortunatamente, questo può entrare in conflitto con la privacy poiché la rimozione delle informazioni sull’identità può causare mancanza di trasparenza, che alla fine può portare a risultati che violano l’equità.

Estrazione delle Informazioni

Qualsiasi processo di estrazione delle informazioni dovrebbe presentare all’utente i dati organizzati in modo da soddisfare le sue esigenze applicative. Alcuni esempi di processi di estrazione della conoscenza sono: (1) la semplice selezione dei soli dati rilevanti per un certo scopo; (2) l’aggregazione di dati, come nel caso delle interrogazioni OLAP (nei Data Warehouse); (3) l’analisi dei dati, attraverso tecniche di data mining, statistica, o machine learning, come ad esempio la classificazione, basata su un modello addestrato, oppure il clustering, che raggruppa i dati in base alla somiglianza tra loro rispetto a una o più caratteristiche, e una miriade di altri modi per ottenere nuovi dati (di solito sintetici) da quelli già presenti. Tali esempi sono discussi nel seguito.

Tipiche operazioni di selezione di dati sono la ricerca e l’interrogazione. Operazioni come queste sono impiegate, per esempio, nei sistemi di raccomandazione, oppure nella selezione dei candidati per un lavoro o per l’ammissione all’università. In questo contesto, garantire la diversità tra i risultati può essere un modo per garantire l’equità del processo di selezione. È interessante notare però che, se i dati da interrogare rappresentano in modo dominante una categoria, forzare la diversità può portare proprio all’esclusione dei dati di quella categoria, violando in alcuni casi l’equità.
Le tipiche query aggregate per il supporto alle decisioni (es. GROUP BY) potrebbero produrre risultati distorti. Infatti, le tendenze che compaiono in diversi gruppi di dati possono scomparire o addirittura essere invertite quando questi gruppi vengono combinati (paradosso di Simpson).
Per quanto riguarda le operazioni di analisi dei dati, quando si utilizzano tecniche opache come il deep learning siamo ancora lontani dal comprendere appieno quali proprietà dei dati siano di maggiore importanza affinché il modello produca il suo output. Questo è un limite quando i dati vengono utilizzati per prendere decisioni che incidono sulla vita delle persone, perché dobbiamo essere sicuri che i dati e gli algoritmi non introducano pregiudizi nel processo decisionale. In questo ambito, i sistemi di spiegazione (explanation) sono diventati una importante area di ricerca.

Conclusioni

In conclusione, al fine di considerare gli aspetti etici come fondamentali per la qualità dei dati è possibile valutare dal punto di vista etico ognuna delle tre fasi centrali di un tipico data science workflow discusse in questo articolo. Si noti che una collezione di dati che può sembrare rispettare i principi etici rispetto a un certo processo decisionale potrebbe invece violarli rispetto a un altro, e che quindi la valutazione delle dimensioni del cluster etico della qualità dei dati va portata avanti con in mente lo scopo finale.

Come per qualsiasi altro prodotto di ingegneria, la responsabilità per l’utilizzo dei dati è condivisa da un appaltatore e un produttore: solo se quest’ultimo è in grado di fornire una certificazione di qualità per le varie dimensioni etiche, il primo può condividere la responsabilità per un uso improprio. Allo stesso modo, i produttori dovrebbero essere consapevoli della loro responsabilità quando la qualità scende al di sotto del livello previsto. Sebbene tali garanzie siano disponibili per molte dimensioni classiche di qualità, lo stesso non vale per la maggior parte delle dimensioni etiche. Una direzione fondamentale della ricerca è ideare metodi e strumenti per far rispettare i principi etici by design, sviluppando una metodologia per riconoscere e porre rimedio ai diversi modi in cui sistemi e algoritmi basati sui dati possono introdurre disuguaglianze.

Bibliografia

Online; accessed 05 May 2021. url: https://agkn.wordpress.com/2014/09/15/riding-with-the-stars-passenger-privacy-in-the-nyc-taxicab-dataset/
Online; accessed 05 May 2021. url: https://dataresponsibly.github.io
S. Abiteboul and J. Stoyanovich. “Transparency, Fairness, Data Protection, Neutrality: Data Management Challenges in the Face of New Regulation”. In: JDIQ 11.3 (2019), p. 15.
R. Agrawal et al. “Diversifying search results”. In: Proceedings of WSDM. ACM. 2009, pp. 5–14.
C. Batini and M. Scannapieco. Data and Information Quality – Dimensions, Principles and Techniques. Springer, 2016.
M. Drosou et al. “Diversity in big data: A review”. In: Big data 5.2 (2017), pp. 73–84.
L. Floridi et al. “AI4People – An ethical framework for a good AI society: opportunities, risks, principles, and recommendations”. In: Minds and Machines 28.4 (2018), pp. 689–707.
S. Galhotra et al. “Fairness testing: testing software for discrimination”. In: Proceedings of the 2017 11th Joint Meeting on Foundations of Software Engineering^{. ACM. 2017, pp. 498–510.}
M. Herschel et al. “A survey on provenance: What for? What form? What from?” In: The VLDB Journal 26.6 (2017), pp. 881–906.
S. Mudgal et al. “Deep learning for entity matching: A design space exploration”. In: Proceedings of SIGMOD. ACM.
2018, pp. 19–34.
E. Rader et al. “Explanations as mechanisms for supporting algorithmic transparency”. In: Proceedings of CHI. ACM.
2018, p. 103.
M. T. Ribeiro et al. “Why should I trust you? Explaining the predictions of any classifier”. In: Proceedings of KDD.
ACM. 2016, pp. 1135–1144.
Y. L. Simmhan et al. “A survey of data provenance in e-science”. In: ACM Sigmod Rec. 34.3 (2005), pp. 31–36.
R. Speer. “Conceptnet numberbatch 17.04: better, less-stereotyped word vectors”. In: ConceptNet blog. (2017).
J. Stoyanovich et al. “Data, responsibly: Fairness, neutrality and transparency in data analysis”. In: Proceedings of EDBT. OpenProceedings.org. 2016, pp. 718–719.
L. Tanca et al. “Ethics-aware Data Governance (Vision Paper)”. In: Proceedings of SEBD. CEUR-WS.org. 2018, p. 49.
, Vol. 1, No. 1, Article . Publication date: April 2021.

¹I sistemi utilizzati dagli esperti di database (DB) generano mappature di schemi stabili, ma oggigiorno, con il numero e il volume crescenti di sorgenti di dati, gli schemi cambiano frequentemente e gli utenti non sono esperti, quindi sono necessari strumenti automatici. ↑