Le decisioni basate su modelli di apprendimento computazionale (Machine Learning – ML) – che non prevedono quindi il coinvolgimento umano – possono avere un’influenza importante sulla competitività delle aziende, ma hanno anche un notevole impatto dal punto di vista dei rischi di contenzioso.
Per questo, i riflettori degli organismi di controllo si sono accesi sulla natura stessa del processo decisionale aziendale – ad esempio, l’addestramento dei modelli ML usati per prendere decisioni relative al personale ha tenuto conto dei vincoli riguardanti i diritti dei lavoratori – ed è sempre più richiesto alle grandi organizzazioni di rendere pubblici i loro processi decisionali governati da modelli ML.
Non a caso, l’articolo 71 della General Data Protection Regulation (GDPR) europea fa esplicito riferimento al diritto di ottenere una spiegazione sulle decisioni prese da modelli automatici ed eventualmente di contestarle.
L’articolo 13 (detto a volte “anti-ML”) precisa il diritto di accesso degli utenti alla logica degli algoritmi di decisione e alle conseguenze previste dalla loro adozione.
Agenda 2030, equità e trasparenza delle decisioni tra gli obiettivi
Questa tendenza è stata confermata anche nella definizione dei 17 Obiettivi di Sviluppo Sostenibile (SDGs) fissati dall’Agenda 2030 delle Nazioni Unite, che hanno contribuito ad ampliare sempre di più il concetto di “sviluppo sostenibile”, includendovi l’equità e la trasparenza delle decisioni.
Un primo requisito è rendere pubblico l’ambito di applicazione dei modelli ML, chiarendo quali decisioni sono prese direttamente dalle persone e quali sono sotto il controllo dei modelli. Un altro elemento importante è la trasparenza nell’uso del transfer learning, che richiede di chiarire se i modelli che prendono decisioni riguardanti gli umani siano stati addestrati direttamente nell’organizzazione che li utilizza o se siano stati acquistati e adattati da un soggetto terzo.
L’informazione sui processi decisionali è firmata dai legali rappresentanti esattamente come il resto della rendicontazione finanziaria, e quindi impegna la responsabilità legale. Non si tratta però di obblighi puramente normativi: l’informazione sull’utilizzo dei modelli ML nei processi decisionali di un’azienda sarà sempre più necessaria alle società di rating per valutare il rischio d’impresa, e di conseguenza il rischio d’investire nell’azienda stessa.
Intelligenza Artificiale per il CEO
Ricapitoliamo anzitutto come funziona l’apprendimento computazionale a livello concettuale, facendo riferimento al classico ciclo di vita standardizzato dall’ISO. Innanzitutto, un modello ML viene addestrato alimentandolo con esempi di coppie di ingressi e uscite che descrivono un determinato fenomeno (ad esempio dichiarazioni dei redditi e decisioni di concessione di mutuo, esami di laboratorio e diagnosi, apprezzamenti su un prodotto sui social network e vendite). Questa procedura imposta certi parametri interni di funzionamento del modello ML. Successivamente, l’accuratezza del modello addestrato viene validata usando altri ingressi e confrontando l’uscita prevista dal modello con quella reale. Infine, il modello addestrato e validato viene utilizzato in produzione per prevedere l’uscita corrispondente a ingressi mai visti prima. Naturalmente, in questa fase occorre fidarsi del modello addestrato, anche se è possibile adattarlo e addirittura riaddestrarlo se le sue prestazioni peggiorano.
Accuratezza e accettabilità dei modelli
È importante sottolineare la differenza tra accuratezza e accettabilità dei modelli. L’accuratezza è un parametro collettivo misura gli errori che il modello commette rispetto al totale degli ingressi. La copertura dell’insieme degli ingressi possibili da parte dei dati di addestramento è un fattore primario per l’accuratezza. I dati di addestramento vengono selezionati in base all’esistenza, alla disponibilità (legale) o al costo di acquisizione. Il modello ML ignorerà tutti gli aspetti della realtà che non sono descritti dai dati con cui è stato addestrato. Questo effetto di sottocampionamento è fonte di errori in caso di ingressi “rari” per cui non sono disponibili esempi di uscite, anche se sono state sviluppate diverse tecniche per contrastarlo. Il sottocampionamento può portare a contenzioso sull’uso dei modelli ML di classificazione, richiedendo da parte di chi usa il modello una dimostrazione di “best effort” che limiti le mancate inclusioni nei dati di addestramento ai cosiddetti “unknown unknowns“, ovvero ad esempi la cui esistenza era ignota all’addestratore al momento dell’addestramento del modello.
Per quanto riguarda l’accettabilità, occorre considerare che anche una sola decisione sbagliata può compromettere l’accettabilità sociale di un modello. Si possono anzi identificare due aspetti distinti, che riguardano rispettivamente l’accettabilità dell’intero modello e di uscite specifiche. Il primo esprime l’aspettativa che il modello si comporterà “ragionevolmente” quando verrà alimentato da dati che vede per la prima volta. Tecnicamente, tratta di un requisito sulla regolarità della funzione di decisione incorporata nel modello. Se un modello deve decidere, ad esempio, gli aumenti da attribuire ai dipendenti, persone con risultati simili dovrebbero avere esiti paragonabili. La fiducia nelle singole decisioni esprime invece la spiegabilità del singolo comportamento del modello, ovvero la possibilità di motivare perché un valore d’ingresso ha portato a una certa uscita.
La spiegabilità può essere ottenuta ricostruendo il percorso che ha portato il modello a decidere (cosa difficile per gli attuali modelli, che hanno milioni di parametri interni) oppure inviando la coppia ingresso-uscita a un modello ausiliario, co-addestrato con quello principale, che ha il compito di fungere da “ufficio reclami” e generare, senza vincoli di tempo, una “giustificazione” della decisione presa dal modello principale.
Causalità e correlazione
Soffermiamoci un attimo sulla natura di queste giustificazioni, perché è all’origine di incomprensioni anche in ambito normativo. Per comprenderla occorre rifarsi alla differenza tra causalità e correlazione. Nelle scienze naturali, alcune leggi consolidate (ad esempio la legge di Ohm in elettrotecnica) riassumono effetti causali: la tensione ai capi di un resistore determina un valore proporzionale per la corrente elettrica che lo percorre. Non vi è dubbio che la legge di Ohm, per quanto approssimata (e falsificabile in futuro), esprima oggi una conoscenza valida in tutti i contesti e per tutti i valori possibili di tensione e quindi “spieghi” come la misura di una tensione tra un punto e la terra, determinando la corrente, “giustifichi” – anche normativamente – le precauzioni (indossare materiali isolanti) da prendere per evitare folgorazioni toccando il punto stesso. Il rigetto dell’istanza di risarcimento di chi si sia accostato a un impianto ad alta tensione in ciabatte non dipende dal valore specifico della tensione a cui l’impianto lavorava.
Sfortunatamente, sia nelle scienze naturali sia in quelle sociali, non siamo sempre in grado di derivare relazioni di questo tipo. Osserviamo soltanto che un particolare intervallo di valori di un ingresso “di solito” produce un certo tipo di effetto (cioè, rileviamo una correlazione), magari senza avere la più pallida idea del perché (ed in quale contesto) accada.
Secondo alcuni filosofi del diritto, il diverso status epistemologico della correlazione rispetto alla causalità ne compromette il valore giuridico, e usare esempi di osservazioni per addestrare un modello ML di per sé non cambia la situazione. Ad esempio, se un sistema di conversazione (un chatbot) basato su ML non viene informato (sulla base degli esempi) che la figura storica di Napoleone Bonaparte è vista in modo molto diverso in Inghilterra e Francia, alcuni messaggi generati dal modello (“ sei un Napoleone ”) potrebbero offendere alcuni partecipanti alla conversazione; e le osservazioni su cui il modello è stato addestrato in Francia non costituiscono causa evidente di rigetto di una querela da parte di chi si fosse sentito ingiuriato dal suo linguaggio nel Regno Unito. Nel 2016, Microsoft si trovò ad affrontare un problema simile per il suo bot “Tay.ai”.
Un altro pregiudizio (in inglese “bias”) di cui soffrono i sistemi decisionali basati su ML è “nascondere la discriminazione dietro esempi oggettivi”. I pregiudizi possono essere (intenzionalmente o meno) codificati negli esempi sottoposti al modello ML e portare alla discriminazione quando il modello è in produzione. Questo effetto sorge quando un modello ML viene utilizzato per supportare decisioni giudiziarie o di polizia originariamente prese da umani (ad esempio la “frisk policy” in base a cui la polizia decide se perquisire un passante sulla base del suo atteggiamento e/o abbigliamento “sospetto”). Se un tale pregiudizio è incorporato in un modello decisionale e non è reso pubblico agli utenti, può ovviamente causare contenziosi.
Essere in grado di spiegare perché un modello ML ha fornito un output specifico è un fattore critico che ostacola un uso più ampio dell’intelligenza artificiale nei settori verticali che coinvolgono gli umani. Non sorprende quindi che diverse organizzazioni internazionali, ed anche ricercatori italiani, abbiano iniziato a lavorare su questo argomento; basterà citare il programma Darpa Xai, una grande iniziativa strategica avviata nel 2016 dall’agenzia DARPA degli Stati Uniti. Anche l’IEEE (Institute of Electrical and Electronics Engineers) ha lanciato un’iniziativa su “Ethical Considerations in Artificial Intelligence and Autonomous Systems”.
Le interazioni uomo-intelligenza artificiale sono diventate un campo privilegiato anche per l’innovazione. La divisione cloud di Google ha presentato i suoi nuovi servizi di etica AI per aiutare i clienti a verificare i modelli ML prima di portarli in produzione sul cloud Google. Diverse start-up americane ed europee hanno ottenuto investimenti importanti sui servizi di etica per le aziende che adottano modelli ML in settori verticali critici come i mutui e in generale la gestione dei prestiti.
Le iniziative europee
In Europa, il concetto di audit e certificazione dinamica delle proprietà etiche nel comportamento di modelli ML è sotto i riflettori di grandi aziende come SAP, ma anche di gruppi universitari in tutto il Continente (in Italia, se ne occupano tra gli altri il gruppo di Barbara Caputo al Politecnico di Torino e il mio gruppo all’Università di Milano), tutti impegnati nella progettazione di strumenti per promuovere un’IA responsabile.
Queste iniziative evidenziano gli sforzi europei nel promuovere la trasparenza dell’IA “come servizio”, un tema centrale per la comunità internazionale del service computing. Non c’è dubbio che ML-Ethics-as-a-Service possa costituire una vera e propria rivoluzione per il settore del cloud computing. Tuttavia, bisogna fare presto, ed agire di concerto con chi opera nel settore del diritto per lo sviluppo di un quadro regolatorio innovativo rivolto all’intelligenza artificiale.