I tradizionali sistemi di estrazione della conoscenza (ricerca testuale, interrogazione di basi di dati, analisi dei dati – nei big data) generalmente trascurano le possibili ricadute etiche e sociali dei loro risultati.
Tuttavia, oggi tali aspetti stanno acquistando sempre maggiore rilevanza con riferimento alla protezione dei diritti umani fondamentali. Alcune riflessioni recentemente presentate all’annuale convegno italiano sui sistemi evoluti per basi di dati [16].
Etica e big data
L’introduzione di un insieme di tecnologie e di metodologie di analisi di dati massivi, per scoprire i legami tra fenomeni diversi e prevedere quelli futuri ha acuito la necessità di stabilire sistemi di analisi e di generazione di conoscenza che tengano conto dei principi etici fondamentali che dovrebbero regolare la convivenza civile. Ci riferiamo, in particolare, ai cosiddetti Big Data e alla capacità di estrapolare, analizzare e mettere in relazione tra loro un’enorme quantità di dati eterogenei – strutturati e non strutturati.
In effetti, questioni etiche emergono lungo tutto il ciclo di vita dell’estrazione di conoscenza e vanno affrontate risolvendo possibili conflitti tra necessità spesso contrastanti, quali ad esempio la trasparenza e la riservatezza. Ai fini di una corretta analisi dei dati, è necessario dapprima identificare i requisiti etici rilevanti e quindi definire una metodologia e gli associati strumenti per la sua applicazione ad ogni stadio del ciclo. Alla realizzazione di tali metodologie e sistemi dovrebbero perciò concorrere, a fianco degli specialisti informatici, esperti in discipline etiche, legali e sociali: loro compito è definire i parametri ai quali riferirsi al momento di selezionare le sorgenti, integrare ed analizzare i dati da esse provenienti in modo da rispettare i requisiti etici rilevanti.
La definizione di una ethical checklist
Un primo passo in questa direzione è costituito dalla redazione di un’ampia lista di desiderata etici – Ethical CheckList (ECL) [16]- per l’elaborazione e la protezione dei dati. Obiettivo preliminare nella formazione della ECL è l’identificazione dei parametri etici che sono più rilevanti quando ci si accinge ad elaborare dei dati allo scopo di estrarne conoscenza, e delle loro mutue relazioni, così da poter individuare gli opportuni compromessi che permettano di integrare le questioni etiche nei processi di selezione ed esplorazione dei dati. Un esempio di insieme di tali parametri può essere il seguente:
- Trasparenza (transparency) – possibilità da parte dell’utente di sapere e controllare quali dei propri dati vengono memorizzati e come vengono utilizzati;
- Responsabilità (accountability) – capacità di un fornitore di dati di controllare che questi vengano usati in modo corretto secondo regole prestabilite; assicurare comprensibilità e interpretabilità dei risultati;
- Equità (fairness) – può essere considerata come non discriminazione o non polarizzazione (bias) dei risultati (per esempio con un ordinamento prioritario eticamente scorretto);
- Autorevolezza (trustability) – garanzia della qualità della sorgente in termini di origine (provenance) dei dati che mette a disposizione, della loro autenticità (ad esempio facendo uso di metadati);
- Diversità – differenziazione delle sorgenti per evitare polarizzazioni;
- Qualità dei dati – principalmente precisione, accuratezza, completezza, correttezza, tempestività di aggiornamento;
- Protezione dei dati – sicurezza e privatezza.
I tre passi per produrre conoscenza dai dati
I passi fondamentali che conducono alla produzione di conoscenza a partire dai dati sono tre:
- selezione delle sorgenti contenenti i dati di interesse ai fini della ricerca o dell’analisi che si ha in mente di svolgere;
- integrazione dei dati contenuti nelle sorgenti pertinenti all’obiettivo di interesse; e infine
- estrazione della conoscenza, mediante il metodo, o i metodi, più appropriati.
Mentre negli ultimi decenni la comunità scientifica e le aziende informatiche di tutto il mondo hanno generato un’enorme quantità di ricerche e di sistemi che permettono di svolgere queste operazioni, tali sviluppi non hanno tenuto nel dovuto conto le possibili conseguenze di un uso eticamente scorretto delle tecniche prodotte. Occorre quindi intervenire, innanzitutto chiedendosi quale, o quali, dei parametri etici prima elencati siano importanti per lo scopo di analisi che ci si prefigge: se per esempio stiamo utilizzando il nostro sistema per scegliere i candidati a un nuovo posto di lavoro sarà opportuno evitare di usare un metodo che possa penalizzare certe categorie di persone a favore di altre; se si stanno analizzando i tragitti casa-lavoro dei cittadini, occorrerà trovare un metodo che fornisca le necessarie informazioni aggregate senza ledere la riservatezza riguardo ai tragitti compiuti dal singolo cittadino.
Consideriamo ora più da vicino i tre passi dell’analisi:
- selezione delle sorgenti – al fianco di sorgenti classiche costituite da basi di dati strutturati, troviamo oggi dati provenienti da servizi web e da reti sociali, dati per i quali è fondamentale accertare l’autorevolezza, l’affidabilità, l’eventuale polarizzazione, l’equità. Occorre quindi applicare la ECL a ciascuna sorgente candidata in modo da selezionare quelle più rilevanti per il problema in oggetto.
- Integrazione dei dati – è importante identificare quali dati facciano riferimento alla stessa entità del mondo reale e utilizzare tecniche di integrazione che tengano conto dei requisiti etici di interesse. In questa fase, l’intervento di operatori umani esperti del dominio applicativo è particolarmente utile, ma questa esigenza può scontrarsi con requisiti di riservatezza dei dati. E’ comunque importante mantenere il tracking delle operazioni di trasformazione in modo da poter sempre spiegare e giustificare il risultato raggiunto (accountability);
- Estrazione della conoscenza – questo passo può richiedere vari tipi di operazioni che comportano rischi dal punto di vista etico:
- Personalizzazione dei risultati – abbiamo già accennato al problema della polarizzazione nella scelta dei risultati da presentare all’utente [3]; la ricerca su grandi insiemi di dati deve fornire risultati abbastanza diversificati da assicurare un’equa copertura delle possibili alternative, pur mantenendo un livello di efficienza accettabile; ciò può essere ottenuto utilizzando informazioni di contesto che comprendano i parametri etici [12, 14, 15]
- Diffusione dell’informazione e propagazione delle influenze nelle reti sociali – le reti sociali vengono utilizzate per pubblicizzare prodotti, divulgare idee, condividere opinioni, e altre attività che richiedono di massimizzare la capacità di influenzare gli utenti [10]. In questo senso è importante scegliere correttamente e in modo differenziato i soggetti promotori e i soggetti alla promozione in modo da garantire la fairness – per esempio promuovendo il “fact-checking” – pur preservando i principi utilitaristici di marketing e l’efficacia del messaggio [2].
- Modelli esplicativi per la trasparenza e l’interpretabilità dei risultati – i processi di trasformazione dei Big Data e soprattutto le procedure di Machine Learning devono poter essere esaminate in modo trasparente a partire dalla loro sorgente [6]. In particolare, alcune tecniche di Machine Learning si fondano sulla creazione automatica, a partire dai dati, di una procedura di estrazione di conoscenza la cui logica non è esplicita [13]. Anche questo aspetto ha delle serie conseguenze relative alla dimensione di accountability.
- Sicurezza e privatezza del sistema – qui è necessario raggiungere un compromesso tra l’accuratezza dei risultati e la riservatezza delle informazioni dalle quali si è partiti.
Bisogna notare che molti dei problemi elencati non hanno ancora trovato soluzioni soddisfacenti e sono tuttora oggetto di ricerca. Alcune presentazioni e riferimenti più estesi si possono trovare in [6, 8, 11, 16]. D’altra parte, il problema dell’etica nelle professioni informatiche è sentito anche nelle sedi normative internazionali che, anche se talvolta in modo non esplicito, forniscono linee guida di buon comportamento [1, 4, 5, 7, 9] e nella didattica dei corsi universitari.
Ci piace chiudere questo articolo ricordando la formula che conclude la proclamazione dei laureati del Politecnico di Milano: “Nell’esercizio della propria attività, i laureati dovranno operare con la dignità che la professione di Ingegnere comporta, ispirandosi costantemente alle conoscenze scientifiche e alla propria coscienza, senza soggiacere ad interessi, imposizioni e suggestioni di qualunque natura”.
_____________________________________________________
BIBLIOGRAFIA
[1] ACM – Statement on the Importance of Preserving Personal Privacy – Foundational Privacy Principles and Practices, (2018)
[2] S. Cazalens, J. Leblay, I. Manolescu, P. Lamarre, X. Tannier – Computational fact-checking: a content management perspective – PVLDB 11(12), 2110-2113, (2018)
[3] P. Ciaccia, D. Martinenghi – Reconciling Skyline and Ranking Queries – PVLDB 10(11), 1454-1465, (2017)
[4] E. Derman, P. Wilmott – The Financial Modeler’s Manifesto – https://www.uio.no/studier/emner/sv/oekonomi/ECON4135/h09/undervisningsmateriale/FinancialModelersManifesto.pdf, (2009)
[5] EGE, https://ec.europa.eu/research/ege
[6] L. Floridi, M. Taddeo – What is data ethics? – Phil. Trans. R. Soc. A374:20160360.
http://dx.doi.org/10.1098/rsta.2016.0360, (2016)
[7] GDPR, https://www.eugdpr.org
[8] http://wp.sigmod.org/?author=30
[9] Informatics Europe & EUACM – When Computers Decide: European Recommendations on Machine-Learned Automated Decision Making, (2018)
[10] C. Kang, S. Kraus, C. Molinaro, F. Spezzano, V. S. Subrahmanian – Diffusion centrality: A paradigm to maximize spread in social networks – Artif. Intell. 239, 70-96, (2016)
[11] U. Pagallo – On the Principle of Privacy by Design and its Limits: Technology, Ethics and the Rule of Law – European Data Protection 2012, 331-346, (2012)
[12] E. Quintarelli, E. Rabosio, L.Tanca – Recommending New Items to Ephemeral Groups Using Contextual User Influence – RecSys 2016: 285-292, (2016)
[13] M. Santoro, D. Marino, G. Tamburrini – Learning robots interacting with humans: from epistemic risk to responsibility – AI Soc. 22(3), 301-314, (2008)
[14] F. A. Schreiber, L. Tanca – Il contesto nei sistemi informativi: cos’è e perché è sempre più importante – Agenda Digitale, 7-5-2018, (2018)
[15] J. Stoyanovich, S. Abiteboul, G. Miklau – Data Responsibly – Fairness, Neutrality and Transparency in Data Analysis – EDBT 2016, 718-719, (2016)
[16] L. Tanca, P. Atzeni, D. Azzalini, I. Bartolini, L. Cabibbo, L. Calderoni, P. Ciaccia, V. Crescenzi, J. C. De Martin, S. Fenoglietto, D. Firmani, S. Greco, F. Isgrò, D. Maio, D. Martinenghi, M. Matera, P. Merialdo, C. Molinaro, M. Patella, R. Prevete, E. Quintarelli, A. Santangelo, A. Tagarelli, G. Tamburrini, R. Torlone – Ethics-aware Data Governance (Vision Paper) – SEBD 2018, 49, Castellaneta Marina, (2018)