Intelligenza artificiale e gestione del rischio: quando serve l'intervento umano

Il “caso” AlphaGo, la diagnostica per immagini, la guida autonoma. Sono tre casi in cui i sistemi di intelligenza artificiale possono arrivare a un livello di precisione paragonabile a quella umana. Ma ciò avviene solo in situazioni semplici e contesti limitati. Ecco perché l’human-in-the-loop resta fondamentale

Al di là dei molti problemi etici che l’intelligenza artificiale si porta dietro, gli attuali sistemi sembrano essere in grado di affrontare efficacemente situazioni semplici in contesti chiari e limitati, come un gioco da tavolo o, magari, un’autostrada. L’intervento umano, però, resta essenziale in molti altri contesti e per molte ragioni.

Esaminiamo tre scenari.

Indice degli argomenti

Il caso di successo di AlphaGo

AlphaGo è un software basato principalmente sul machine learning sviluppato per il gioco del Go, considerato il gioco da tavolo più complesso al mondo. Alphago è diventato famoso per aver battuto prima il campione europeo Fan Hui 5-0, poi il campione del mondo Lee Sedol 4-1. Alphago è stato addestrato inizialmente su un insieme di partite giocate da ottimi giocatori, e poi giocando contro sé stesso. In un lungo ma interessante video documentario su quelle partite^[1], si vede come ad un certo punto AlphaGo inizi a giocare in modo inusuale, che inizialmente viene scambiato per “mosse sbagliate”^[2], riconoscendo poi che invece il programma era uscito dagli schemi di gioco tradizionali per iniziare a giocare in modo nuovo, e vincente. Con un’umiltà ed un’onestà intellettuale che piacerebbe vedere in altri contesti, i due campioni hanno riconosciuto che Alphago aveva cambiato il modo di giocare a Go, e che loro erano stati arricchiti da questa esperienza^[3]. AlphaGo è stato seguito da AlphaGo Zero, che ha imparato a giocare senza basarsi su partite di giocatori umani ma solo giocando contro sé stesso: in una serie di partite, AlphaGo Zero ha battuto AlpaGo 100 a 0.

AlphaGo è senz’altro un caso di successo del machine learning, il più spettacolare senz’altro, ed uno dei casi in cui il machine learning ha mostrato di avere più successo di un umano. AlphaGo però vive in un mondo molto semplice: una scacchiera 19×19, che comprende quindi 361 caselle (molte più degli scacchi), un insieme di pietre bianche e nere, poche semplici regole e un obiettivo chiaro: finire la partita con un punteggio maggiore di quello dell’avversario. In questo semplice mondo (seppure fonte di complessità per il numero elevato di possibili scelte ad ogni mossa), ogni partita parte nello stesso modo, si sviluppa ad ogni mossa senza incertezze se non su quale delle caselle sarà posta la prossima pietra, e procede inesorabilmente verso una fine in cui sarà chiaramente dichiarato un vincitore. Se il programma sbaglia, al più perde. In queste condizioni, il programma può giocare un numero illimitato di partite, anche contro sé stesso, senza alcun intervento umano.

Machine learning e diagnostica per immagini

Consideriamo adesso un altro caso di successo importante del machine learning, ovvero la diagnostica per immagini. Qui, i sistemi di intelligenza artificiale sono arrivati in diversi casi ad una precisione paragonabile a quella di uno specialista “junior”. Anche qui, i sistemi sono addestrati inizialmente con un insieme di immagini annotate, ovvero a cui un medico ha già associato una analisi in cui evidenzia ad esempio un’area in cui è presente una lesione, equivalenti alle “partite giocate da umani” su cui si è addestrato inizialmente AlphaGo. In questo caso, il risultato fornito da un programma basato su machine learning è qualcosa del tipo: “c’è una probabilità del 78% che nella tale area ci sia una lesione”. Tuttavia, qui la situazione è diversa per parecchie ragioni. La prima è che il sistema non potrà mai “giocare da solo”, perché non ha una regola per capire se la propria analisi è corretta o meno. Solo un umano potrà dargli la risposta, o perché ha una maggiore competenza nell’esaminare l’immagine, o perché a posteriori, magari sulla base di ulteriori analisi, può dire con certezza se la valutazione era o meno corretta.

Supponiamo adesso che uno di questi sistemi abbia raggiunto un buon grado di precisione, per cui se dice che con una certa probabilità in un’area c’è una lesione, la probabilità (non necessariamente la valutazione) sia corretta. Rimarrebbero naturalmente i casi dubbi, ovvero in cui la probabilità è in una fascia intermedia: quelli in cui, dall’immagine il programma (e potenzialmente anche una persona) non è in grado di trarre una conclusione sufficientemente certa. Su questi casi torniamo dopo, per ora è interessante la domanda: potremmo utilizzarlo per effettuare diagnosi senza la supervisione umana nei casi “semplici” in cui il programma sia abbastanza certo della diagnosi (probabilità molto alta o molto bassa di una lesione)? Il problema naturalmente si pone in quei relativamente pochi casi in cui comunque sbaglierebbe.

Il tema della responsabilità e della “intelligenza”

La posizione attuale più comune è che la risposta sia no. Questa posizione è espressa in particolare dall’art. 22 del GDPR che ci dice che in generale una persona fisica, quando si trattano i suoi dati personali, come è ad esempio un’immagine radiologica, “ha il diritto di non essere sottoposto a una decisione basata unicamente sul trattamento automatizzato, compresa la profilazione, che produca effetti giuridici che lo riguardano o che incida in modo analogo significativamente sulla sua persona”. Le ragioni sono diverse, fra queste sicuramente il tema della responsabilità dell’errore del programma e quello della sicurezza (security) del programma, che in questo caso si traduce in sicurezza (safety) del paziente.

È utile sottolineare che un sistema di machine learning non “pensa” e non è “intelligente” nel senso umano del termine, contrariamente a quello che il termine Intelligenza Artificiale farebbe pensare: i processi con cui arriva al risultato sono fondamentalmente diversi. Questo rende difficile, a fronte di una valutazione fatta dal programma, capire come sia arrivato a quella conclusione, perché i passaggi intermedi fra l’immagine e la decisione non sono quelli di un ragionamento umano, sono estremamente complessi e non sono rappresentabili in modo comprensibile se non in modo approssimativo. Esistono strumenti per avere una rappresentazione di quali sono stati i “punti di attenzione” che hanno portato il programma ad una conclusione, ma questo è molto diverso dal capire come sia arrivato a quella conclusione.

Naturalmente anche i medici sbagliano, ma se un medico sbaglia, è in grado di spiegare come è arrivato alla propria conclusione (se non è in grado, c’è naturalmente un problema), e i suoi colleghi sono in grado di seguire il ragionamento e capire in generale se il medico ha fatto un errore per imperizia, se ci sia stata negligenza o quale altra ragione ci sia dietro l’errore. Nel caso di un sistema di machine learning il risultato si presenta quasi come un vaticinio: o ci credi, o non ci credi. Cosa succederebbe allora se il programma iniziasse a sbagliare con maggiore frequenza, per un intervenuto problema del programma, o perché è stato manomesso? Ci si renderebbe conto del problema solo a posteriori, valutandone dopo un certo tempo gli effetti dannosi sui pazienti? La posizione dell’art. 22 è di cautela e di responsabilità: la decisione finale è presa da una persona, a tutela dell’interessato e della collettività. L’art. 22 naturalmente vale solo per il trattamento dei dati personali: nel momento in cui un sistema di machine learning venisse utilizzato per, ad esempio, gestire gli investimenti di un’azienda sul mercato finanziario, il GDPR non sarebbe applicabile.

Il problema del deskilling

Quindi, nel caso della diagnosi, è previsto che programma si limiti a “suggerire” al medico dei punti di attenzione, ma poi è il medico ad effettuare la diagnosi, l’intervento dell’uomo è richiesto. Ma il problema potrebbe essere solo apparentemente risolto. Le persone infatti, poste di fronte ad un problema che richiede di esaminare un gran numero di casi non interessanti, individuando quelli che richiedono maggiore approfondimento, tendono a fallire nel compito. È un problema noto per esempio nel caso dei controlli di sicurezza ai gate degli aeroporti, dove il personale che passa le giornate ad individuare bottiglie di profumo e tagliaunghie dimenticati dai passeggeri nei bagagli, finisce facilmente per non vedere quando, una volta su molte migliaia di bagagli o più, dovrebbe individuare un’arma ben nascosta. Si tratta di un problema della natura umana, i compiti tediosi abbassano l’attenzione, e le cose che si fanno poco frequentemente si disimparano. Come tutti i problemi di questo tipo non si risolve con obblighi e sanzioni, ma con soluzioni che modifichino il problema in sé rendendolo meno ripetitivo, ad esempio aumentando la necessità di attenzione con test periodici. Nel caso di un medico che si trovi a supporto un sistema che gli indica con grande accuratezza i punti di interesse di una radiografia e le aree dubbie, il problema è che il medico può perdere la capacità e l’attenzione per individuare ad esempio un’area sospetta al di fuori di quelle che gli sono state suggerite. Si parla comunemente di deskilling. Si tratta di un problema che deve essere considerato e contrastato, magari con verifiche simili a quelle utilizzate negli aeroporti, o richiedendo ogni tanto al medico di formulare la propria diagnosi prima di vedere i suggerimenti del sistema.

In ogni caso, anche qui il sistema di machine learning vive in un universo ristretto, fatto di immagini radiologiche, regole, per quanto molto meno definite di quelle del Go, e un obiettivo il cui raggiungimento gli è confermato o meno dal medico.

I sistemi di guida autonoma

Consideriamo adesso un sistema di guida autonoma per un’automobile. In questo caso, il sistema è decisamente più complesso: molti sensori di diverso tipo “leggono” continuamente l’ambiente intorno al veicolo, e sulla base sia di apprendimento che, in generale, di regole definite più esplicitamente, il sistema stabilisce che cosa il veicolo debba fare. L’obiettivo è arrivare a destinazione e, nel frattempo, non provocare incidenti, per di più rispettando il codice della strada.

Apparentemente la situazione è simile alla guida umana, ma ci sono in realtà delle differenze importanti. Proprio perché il processo di analisi di un sistema di machine learning è diverso da quello umano, gli errori che può compiere sono spesso radicalmente diversi. Ad esempio, applicando alcuni adesivi ad un cartello di stop, cosa che per un umano non avrebbe praticamente nessun effetto, è stato possibile convincere un’auto che si trattasse “solo” di un limite di velocità, cosa che avrebbe un impatto potenzialmente disastroso al momento di attraversare un incrocio.

Anche nel caso di auto a guida autonoma, in caso di dubbio si prevede l’intervento del guidatore, mentre quando il sistema è abbastanza certo di sapere cosa stia succedendo, guida lui. Attualmente, nei casi migliori sembra che il guidatore debba intervenire una volta ogni alcune migliaia di chilometri circa. La scelta quindi è diversa da quella della diagnostica per immagini: dove il programma è abbastanza certo della valutazione, l’intervento umano non c’è.

Anche qui abbiamo quindi gli stessi problemi della diagnostica per immagini: il programma potrebbe iniziare a sbagliare, o essere manomesso (o potrebbe essere manomesso l’ambiente per farlo sbagliare), e anche qui si prevede l’intervento umano come soluzione. In effetti, la classificazione dei veicoli a guida autonoma comunemente utilizzata si basa proprio sul livello di intervento richiesto al guidatore. In particolare, nel passaggio dal livello 2 al livello 3 non si chiede più al guidatore di monitorare l’ambiente, ma solo di “rispondere adeguatamente ad una richiesta di intervenire”. In pratica, al livello 3 si richiede al guidatore di restare alla guida, potendosi distrarre (ad esempio, per guardare il cellulare, senza tenere le mani sul volante), ma in caso di necessità gli si chiede di sapere intervenire in un tempo presumibilmente breve… una volta ogni diverse migliaia di chilometri. La situazione è solo apparentemente simile a quella della diagnostica per immagini, perché qui c’è un fattore aggiuntivo fondamentale: il tempo. Consideriamo tutte quelle persone che già adesso utilizzano il cellulare in auto in modo incosciente, e che hanno portato la distrazione dovuta al cellulare ad essere una delle principali cause di incidente alla guida, ed immaginiamocele alla guida di un veicolo che permetta loro di distrarsi guardando un video, ma richieda loro, magari una volta all’anno, di rispondere adeguatamente ad una richiesta di intervenire: fallirebbero di sicuro, probabilmente causando un incidente. Ma anche la persona più attenta non solo sarebbe in difficoltà ad intervenire: finirebbe comunque per perdere anche quella prontezza di riflessi e quegli automatismi che permettono al guidatore di reagire in situazioni di emergenza. Gli stessi problemi di distrazione e di deskilling che si presentano per il medico, si avrebbero quindi anche per il guidatore. C’è però un problema anche più grave, e cioè che in caso di manomissione della segnaletica, l’auto semplicemente non si accorgerebbe che c’è un problema e non allerterebbe il guidatore, avviandosi tranquillamente ad attraversare l’incrocio senza rispettare lo stop.

C’è infine un altro punto di attenzione. Nella guida umana, sappiamo benissimo che l’evitare incidenti è fatto anche, particolarmente in città, di “percezione” delle intenzioni: il guidatore guarda i pedoni e capisce se hanno intenzione di attraversare, anche se non stanno già muovendosi trasversalmente alla strada, e si prepara a frenare, e il pedone guarda le auto e i guidatori prima di attraversare per capire se lo hanno visto e sembrano intenzionati a fermarsi. Questo tipo di interazione manca nel caso di un’auto che guida autonomamente mentre il guidatore guarda da un’altra parte.

Le possibili soluzioni ai problemi

Preso atto dei problemi, si ragiona naturalmente delle possibili soluzioni, che non possono essere semplicemente “passare il controllo all’autista” in caso di dubbio. In questi casi, l’human-in-the-loop può aiutare veramente poco, sia come prevenzione degli incidenti, sia probabilmente come apprendimento nel corso della guida, perché i momenti in cui la persona interviene sono troppo pochi. Gli rimane solo, potenzialmente, una responsabilità che non è in grado di gestire.

Consideriamo quindi le possibili soluzioni, prendendo la guida autonoma solo come esempio. Prima di tutto, se guardiamo il livello 4 di guida autonoma, introduce un concetto diverso, ovvero che le funzionalità siano fornite solo in condizioni particolari, ad esempio in autostrada dove l’ambiente è oggettivamente più semplice. Anche ai livelli più bassi, ha senso che certe funzionalità siano disponibili solo dove l’ambiente presenta meno variabili.

Poi, è probabilmente sbagliato pensare che un’auto debba comprendere una segnaletica pensata per gli esseri umani. Si possono considerare ad esempio servizi che segnalino direttamente al veicolo “connesso” le situazioni di pericolo su di un percorso (curve pericolose, limiti di velocità o altro); attrezzando già le sole autostrade con servizi di questo tipo, la verifica “visiva” della segnaletica e diventerebbe un sistema ulteriore di sicurezza, invece dell’unico disponibile. A questo si sommerebbero poi le informazioni disponibili sulle mappe utilizzate dai navigatori, ottenendo quella ridondanza che è tanto importante quando si parla di sicurezza.

Poi ancora, si stanno studiando modalità di segnalazione luminosa delle “intenzioni” di un’auto a guida autonoma, che permettano a chi ne incontra una di capire cosa stia per fare. Ad esempio, potrebbe segnalare che sta considerando una franata di emergenza, permettendo a chi la segue di non essere colto alla sprovvista, come anche l’intenzione o meno di frenare ad un passaggio pedonale.

E naturalmente, il veicolo può iniziare la manovra di emergenza che ritiene più sicura già prima dell’intervento umano, esattamente come già adesso molte auto frenano quando ci sia avvicina troppo a quella che precede.

Tutto questo può portare a ridurre la frequenza degli incidenti. Rimane il tema della responsabilità e anche dell’accettabilità di quelli che comunque ci saranno. Anche quando, auspicabilmente, l’utilizzo di auto a guida autonoma arriverà a ridurre gli incidenti gravi, dovuti al momento principalmente a comportamenti dell’autista in sé superabili con la guida autonoma (eccesso di velocità, distrazione, guida in stato di ebbrezza…), sarà necessario da una parte capire se e dove ci sia responsabilità, dall’altra accettare che un incidente causato da un’auto a guida autonoma possa essere un costo accettabile per averne evitati magari dieci causati da umani. Si tratta di un passaggio solo apparentemente naturale: la morte di una persona “a causa di un computer” può essere difficile da accettare, a prescindere da ogni ragionamento razionale.

Come detto in apertura, quindi, gli attuali sistemi di intelligenza artificiale sembrano essere in grado di affrontare situazioni semplici in contesti limitati. Per contro, è difficile vedere in un futuro prossimo una capacità di affrontare problemi non tanto complessi, quanto che richiedano una conoscenza del contesto ampia e profonda. L’human-in-the-loop è importante non solo per insegnare al sistema, ma per creare una sinergia fra sistema e persona che permetta di trarre vantaggio dalle capacità di entrambi. Nello stesso tempo, non si può pensare che chiamare in causa un umano quando una macchina fallisce, possa risolvere tutti i problemi di errore e di responsabilità.

___________________________________________________________

https://www.youtube.com/watch?v=jGyCsVhtW0M da guardare con i sottotitoli per le parti in coreano. Sono interessanti le reazioni degli altri giocatori e spettatori all’unica vittoria di Lee Sedol (dal punto 1:11:50 al punto 1:14:20) ↑
Stesso video, dal punto 1:17:00 al punto 1:19:30 ↑
Stesso video, dal punto 1:21:00 al punto 1:21:15 e poi da 1:24:15 a 1:27:30 ↑