L’eXplainable Artificial Intelligence (XAI) o Explainable AI, è un programma di ricerca in cui i processi decisionali degli algoritmi sono comprensibili dagli umani.
Un’intelligenza artificiale “spiegabile” per una Sanità efficace e sicura: i nodi
I più recenti modelli di apprendimento automatico, o machine learning, soffrono infatti di un serio difetto che impedisce di affidarsi pienamente ad essi in contesti sensibili come quello medico-sanitario o legale: la loro opacità (o il loro essere “scatole nere”), ovvero il fatto che la complessità della loro struttura impedisca agli utenti umani di comprenderne e spiegarne appieno il funzionamento.
Una opacità che rischia di compromettere il metodo scientifico, fondato sulla riproducibilità degli esperimenti e il nesso razionale tra causa ed effetto.
L’Explainable AI punta a ricucire la tradizione galileiana con le tecniche più avanzate di intelligenza artificiale.
Explainable AI: cosa è l’opacità negli algoritmi e da cosa deriva
Negli ultimi anni, la natura e le conseguenze dell’opacità degli algoritmi sono diventati argomenti di scottante dibattito, non solo tra i decisori politici, come testimoniato per esempio dal Recital 7.1 del GDPR[1], ma anche tra i filosofi e gli stessi informatici.
In generale, gli studiosi concordano su due punti fondamentali che, contrariamente a quello che può sembrare di primo acchito e di come viene solitamente presentato, sottolineano come il problema sia particolarmente complesso da analizzare, sia da un punto di vista concettuale che tecnico.
Il primo è che il termine “opacità” non possiede un significato univoco e ben definito, ma che con esso ci si riferisce ad un ampio spettro di problematiche differenti, seppure correlate.
Molti considerano in effetti l’opacità connessa con la difficoltà da parte degli utenti umani di ricostruire passo per passo il ragionamento seguito dall’algoritmo per giungere a formulare una certa previsione. Impedimento che, a sua volta, viene fatto dipendere da due fattori: la complessità dei modelli, come ad esempio il numero di nodi e connessioni di una rete neurale, generalmente troppo elevata perché un umano riesca ad averne una visione d’insieme[2], e il loro design sub-simbolico, il quale, a differenza di quello simbolico caratteristico della cosiddetta Good-old Fashioned AI, basata essenzialmente sulla logica, impedisce di fornire un’interpretazione semantica alle inferenze svolte dall’intelligenza artificiale e quindi dar un significato comprensibile agli utenti.
Prendendo come punto di partenza queste considerazioni, gran parte della letteratura scientifica di riferimento ha di conseguenza interpretato l’opacità come una proprietà intrinseca di alcune tipologie di modelli, il cui grado viene semplicemente attribuito sulla base di quanto il design si discosti da quello della tradizionale IA simbolica.
Molte delle più note introduzioni all’IA, per esempio, classificano come trasparenti i modelli basati sugli alberi di decisione o quelli basati sulla programmazione logica, mentre considerano i modelli della “nuova IA”, come le reti neurali ad apprendimento profondo, la cui architettura è interamente sub-simbolica, come l’esempio prototipico di modello opaco, o, per usare il gergo in voga, di black box.
In altri casi, invece, parlando dell’opacità di un sistema ci si riferisce al fatto che le caratteristiche e la tipologia dell’algoritmo di apprendimento impediscono agli utenti di comprendere e verificare l’affidabilità dei pattern appresi. In altri casi ancora, i modelli sono considerati opachi perché prevedono solo il verificarsi di certi fenomeni ma non ne spiegano né le cause né le leggi che li governano.
Il secondo punto di accordo tra gli studiosi, infine, è che l’opacità dipende dagli obiettivi legati all’utilizzo di un certo sistema di machine learning, dalla conoscenza che di questo hanno i suoi utilizzatori, e non da ultimo il contesto concreto in cui il sistema è impiegato.
Detto altrimenti, lo stesso sistema può risultare trasparente se usato in un dato contesto, per un dato scopo e da una data classe di utenti, ma opaco se impiegato in un altro contesto, da utenti con competenze e scopi differenti.
Come l’opacità degli algoritmi impatta sul metodo scientifico
Uno dei contesti in cui l’impiego del machine learning ha recentemente riscosso un ampio successo è quello della ricerca scientifica. In particolare, nei settori di ricerca che studiano fenomeni complessi, come l’insorgere di un cancro, il folding delle proteine, o il verificarsi di una crisi finanziaria globale: fenomeni dall’evoluzione nel tempo non lineare e che dipende da un numero di variabili molto elevato, difficilmente gestibile tramite le pratiche sperimentali e i modelli tradizionali. In quei settori dove sia l’intuizione umana che i modelli e gli strumenti d’indagine scientifica più tradizionali si sono rivelati poco efficaci, gli algoritmi di machine learning ci permettono oggi di ottenere previsioni incredibilmente accurate.
A ben vedere, la popolarità del machine learning non è poi così sorprendente, dato che esso condivide con la scienza sia approcci che obiettivi. Ciò nonostante, da un punto di vista metodologico ed epistemologico, l’uso della “nuova AI” rischia di avere un impatto dirompente sulla metodologia e sui valori epistemici della ricerca scientifica.
Tradizionalmente, infatti, il processo di costruzione di un modello scientifico per un dato fenomeno poggia sulla formulazione di ipotesi teoriche, in genere sulla scorta sia dell’osservazione che delle conoscenze pregresse, e la loro successiva valutazione sperimentale. Allo stesso tempo, ad un modello è richiesto di soddisfare i desiderata epistemici fondamentali dell’indagine scientifica, vale a dire spiegare le leggi, le cause o i meccanismi alla base dei fenomeni naturali, prevederne l’evoluzione e controllarne il verificarsi.
Al contrario, le tecniche di machine learning quali l’apprendimento profondo che sono al centro della rivoluzione degli ultimi anni non sono in genere guidate da conoscenze pregresse e, poiché forniscono modelli puramente associativi, non sono in genere in grado di trasmettere informazioni utili su cause o meccanismi. In questo modo, quello a cui si sta assistendo in quelle discipline che abbracciano la superiorità predittiva dei modelli di machine learning rispetto ai modelli tradizionali, è il passaggio ad una scienza data-centrica[3] in cui sia i modelli tradizionali che le tecniche tradizionali di produzione della conoscenza rischiano via via di diventare sempre più obsoleti.
Così facendo, l’utilizzo dei nuovi sistemi di apprendimento automatico potrebbe pertanto avere una “influenza nefasta sul modo di condurre la scienza”, come indicato in un recente discussion paper pubblicato congiuntamente dalla Royal Society e dall’Alan Turing Institute,[4] in particolare poiché interferirebbero negativamente con gli obiettivi di comprensione scientifica, obiettività e spiegazione, inclusa la riproducibilità degli esperimenti scientifici,[5] che stanno al centro della scienza moderna.
Vi è tuttavia modo di integrare la scienza data-centrica, ed in particolare l’utilizzo delle più recenti tecniche di machine learning, con le forme ed i valori tradizionali della ricerca scientifica. Una possibilità è data dal recente programma della eXplainable Artificial Intelligence (XAI).
Come l’Explainable AI aiuta a chiarire il nesso di causalità
Dal punto di vista tecnico, gli studiosi di intelligenza artificiale hanno iniziato a sviluppare diversi metodi e strumenti per risolvere il problema dell’opacità e quindi rendere i modelli di machine learning più comprensibili dal punto di vista umano. I loro sforzi hanno recentemente dato origine ad un nuovo programma di ricerca, denominato eXplainable Artificial Intelligence (XAI)[6] i cui sforzi, tuttavia, sono finora stati principalmente diretti allo sviluppo di strumenti adatti o alle esigenze di ingegneri e programmatori o a contesti come la presa di decisione e la governance dell’IA. Alcuni degli approcci delle tecniche sviluppate dalla XAI, tuttavia, possono giocare un ruolo centrale anche nell’ambito della ricerca scientifica. Ciò è vero in particolare per quel che riguarda il cosiddetto causal machine learning, che discuteremo brevemente nel prosieguo di questo paragrafo.
La forma di opacità che tra tutte rappresenta probabilmente il maggior ostacolo all’utilizzo dei modelli generati da algoritmi di machine learning nell’ambito della ricerca scientifica è dovuta al fatto che l’informazione veicolata da questi modelli risulta sovente insufficiente o inadeguata ai fini della spiegazione e del controllo dei fenomeni considerati.
Fondamentale per capire le ragioni di questa limitazione è l’osservazione che gli algoritmi di machine learning, per quanto potenti, si basano esclusivamente sull’uso di euristiche statistiche applicate a dati osservazionali, e non sono, di conseguenza, in grado di distinguere legami causali da semplici correlazioni, ovvero, sommariamente, di constatare che, date due variabili di interesse, a ciascun valore della prima corrisponda regolarmente un valore della seconda. In effetti, come sottolineato dal celebre informatico Judea Pearl,[7] l’inferenza causale richiede, da un lato la capacità di intervenire sul fenomeno per testare specifiche ipotesi riguardo a potenziali nessi causali tra le variabili coinvolte, e dall’altro quella di immaginare scenari controfattuali, tutte abilità che un’IA il cui addestramento è basato su euristiche statistiche non sarà mai in grado di svolgere, anche disponendo di ingenti quantità di dati.
Un modo per ovviare a questo problema è quello di incorporare le ipotesi causali nella procedura di addestramento sotto forma di conoscenza di background. Così facendo, si può garantire che il modello di machine learning generato dal processo di addestramento eseguirà solo previsioni basate su associazioni statistiche causalmente rilevanti.
Due altre tecniche rilevanti sono il cosiddetto approccio della input features relevance, e l’apprendimento automatico causale (causal machine learning).
Nel primo caso, si ha a che fare con tecniche che permettono ad esempio l’identificazione delle variabili che il modello ritiene contribuiscano maggiormente al verificarsi di un determinato fenomeno target. In questo modo si permette agli scienziati di ridurre significativamente il numero di variabili coinvolte e quindi di eseguire manipolazioni sperimentali più tradizionali che permettano a posteriori di comprendere come l’interazione causale tra le variabili necessarie per produrre il fenomeno di interesse.
L’obiettivo centrale dell’apprendimento automatico causale è identificare automaticamente le variabili di input che sono causalmente rilevanti per una data previsione. Nel causal feature learning, per esempio, si analizzano le distribuzioni di probabilità condizionata definite sulle variabili in input per determinare quali di esse abbiano un ruolo causale nel verificarsi di un dato fenomeno e quali no.
Nei metodi di spiegazione controfattuale, invece, si utilizzano perturbazioni dell’input per rilevare determinate caratteristiche invarianti all’analisi controfattuale che, in quanto tali, potrebbero avere rilevanza causale per i fenomeni predetti.
Nella model-agnostic causality applicata alle reti neurali profonde, infine, si utilizzano tecniche ispirate al cosiddetto “do-calculus” di Pearl per visualizzare il contributo causale di ciascun gruppo di nodi della rete rispetto ad un certo output.
Per concludere, l’approccio del causal machine learning può svolgere un ruolo essenziale per contrastare l’opacità dovuta all’uso di modelli puramente predittivi nella scienza data-centrica, sia per quel che concerne la spiegazione che la comprensione scientifica di fenomeni.
Conclusioni
La disponibilità di enormi quantità di dati, congiuntamente allo sviluppo di strumenti statistici per elaborarli grazie agli strepitosi sviluppi dell’IA, ed in particolare all’apprendimento profondo, sembrano, riprendendo una citazione di Chris Anderson,[8] aprire le porte a un “modo completamente nuovo di comprendere il mondo”, nel quale “la correlazione sostituisce la causalità e la scienza può avanzare anche senza modelli coerenti, teorie unificate o qualsiasi spiegazione meccanicistica.”
Dovremmo quindi confrontarci con la fine della teoria e con la rinuncia alla pretesa di una genuina comprensione del mondo per accontentarci della mera previsione di un fenomeno? Non necessariamente. Ed una risposta alla sfida di non rinunciare né al potere predittivo della nuova IA né alle forme ed ai valori tradizionali della ricerca scientifica passa per l’integrazione di metodi e tecniche provenienti dal programma della XAI nella pratica delle scienze incentrate sui dati.
_______________________
Note
- Questi dice che “[the data subject should have] the right … to obtain an explanation of the decision reached”. ↑
- Si pensi a questo proposito ai modelli basati su reti ad apprendimento profondo, le quali possono arrivare ad includere diversi strati di elaborazione dell’informazione, con diverse migliaia, se non milioni, di connessioni e altrettanti parametri che influiscono contemporaneamente sulle predizioni finali del modello. A questo proposito, rimandiamo a A. Yuichiro, “Pattern recognition and machine learning”, Elsevier, 2012. ↑
- Per una discussione sul ruolo e le conseguenze dell’uso dei big data nella ricerca scientifica, si veda S. Leonelli, “Scientific Research and Big Data”, in E.N. Zalta (ed.) The Stanford Encyclopedia of Philosophy (Summer 2020 Edition), URL=<https://plato.stanford.edu/archives/sum2020/entries/science-big-data/ ↑
- Royal Society e Alan Turing Institute, “Discussion paper: The AI revolution in scientific research”, 2019 (accessibile a questo indirizzo: https://royalsociety.org/-/media/policy/projects/ai-and-society/AI-revolution-in-science.pdf). ↑
- A questo proposito si veda anche: Stewart, M. (2019) “The Machine Learning crisis in scientific research”. Towards Data Science blog: https://towardsdatascience.com/the-machine-learning-crisis-in-scientific-research-91e61691ae76 (accessed 25 November, 2021). ↑
- Sulla XAI, si veda A. Adadi & M. Berrada. (2018). “Peeking inside the black-box: a survey on explainable artificial intelligence (XAI)”. IEEE access, 6, 52138-52160. Testo accessibile online: https://ieeexplore.ieee.org/iel7/6287639/6514899/08466590.pdf ↑
- Invitiamo il lettore a leggere il suo recente, e godibilissimo, libro: J. Pearl e D. Mackenzie, “The book of why: the new science of cause and effect”, Basic books, 2018. ↑
- C. Anderson, “The end of theory: The data deluge makes the scientific method obsolete”, Wired magazine 16, no. 7, 2008, 16-17. Online https://www.wired.com/2008/06/pb-theory/ ↑