Uno dei principali motivi del successo dell’intelligenza artificiale (IA) moderna è il superamento del binomio tra automazione e produzione di massa di prodotti standard, che fu alla base del boom industriale del secondo dopoguerra.
L’IA e l’affermazione di un “nuovo artigianato”
L’IA sta favorendo l’affermazione di un “nuovo artigianato” che realizza automaticamente e su larga scala prodotti e servizi che sono però unici e personalizzati.
Nei mezzi di comunicazione, ad esempio, l’IA permette la generazione automatica e su larga scala di contenuti mirati ai gusti dei singoli spettatori. Nella sanità, l’IA permette di automatizzare la diagnostica delle malattie e, in molti casi, la loro terapia, mirandola però al profilo genetico e metabolico del singolo paziente. Nell’istruzione, l’IA promette l’ottimizzazione dell’apprendimento umano articolando il materiale didattico e la sua somministrazione sulla base delle capacità degli studenti. Nei trasporti, l’IA si occupa della guida e della gestione automatica di veicoli autonomi. Ultimo, ma non meno importante, è l’uso dell’IA per identificare e gestire attacchi informatici polimorfici, le cui modalità e avvisaglie cambiano ogni volta.
Luci e le ombre dell’apprendimento computazionale supervisionato
Alla base del successo dei modelli IA rispetto alle tecniche algoritmiche tradizionali, ed anche dei rischi che li coinvolgono, ci sono le luci e le ombre della tecnica di apprendimento computazionale supervisionato, che addestra i modelli sulla base di esempi noti.
Per mettere a fuoco il problema, occorre considerare che i modelli supervisionati sono diversi a seconda del compito che devono svolgere.
La classificazione di nuovi dati in ingresso
Il compito classico e forse più importante è la classificazione di nuovi dati in ingresso, che può essere binaria (ad esempio, il riconoscimento di un software ostile/benigno) oppure multiclasse (riconoscimento di volti umani). I modelli classificatori generano le loro risposte ai dati in ingresso “generalizzando” coppie ingressi-etichette di classe corretti o sbagliati (a cui corrisponde un errore) loro sottoposte durante l’addestramento (i training set). L’addestramento di un classificatore supervisionato può richiedere la generazione automatica di esempi di classi “rare” o impreviste, una funzione oggi utilizzata dalle grandi piattaforme di social media per generare contenuti graditi dagli utenti.
Il completamento
Un compito emergente è il completamento, ovvero la generazione di un contenuto che completi correttamente una richiesta o “prompt”, che arriva sotto forma di domanda o di stimolo multimediale. In questo caso l’addestramento supervisionato si ottiene esponendo il modello IA a coppie prompt-risposta ottenute da grandi repertori testuali (corpora) o multimediali.
La pianificazione
Infine, consideriamo un compito classico per la robotica, la pianificazione, che consiste nella generazione di comportamenti (sequenze di mosse) appropriati a raggiungere uno scopo, sulla base di esempi in cui questi comportamenti hanno fallito o avuto successo. In quest’ultimo caso non è disponibile un errore, ma è misurabile in forma cumulativa una penalità (o premio) a valle di un certo comportamento complessivo dell’agente e della reazione dell’ambiente in cui viene adottato. L’uso di una penalità per definire i comportamenti futuri viene chiamato apprendimento rafforzativo o reinforcement learning.
I modelli che si occupano di tutti e tre questi compiti possono fallire o essere usati impropriamente; è importante determinare in dettaglio le loro modalità di fallimento o uso scorretto (i cosiddetti failure mode). Solo attraverso la conoscenza dei failure mode è possibile quantificare il rischio dell’IA, definito come prodotto tra l’impatto, anche in termini sanzionatori o di contenzioso, del fallimento per chi usa il modello che fallisce e la probabilità del fallimento stesso, in senso di frequenza o anche di confidenza statistica associata alla previsione di fallimento. In questo articolo, ci occupiamo della analisi dei failure mode dei modelli di IA ai fini della valutazione e riduzione del rischio.
Ambiti critici di applicazione dell’IA
Per brevità, concentriamoci sui tre compiti dell’IA accennati sopra. Per la classificazione, i generatori usati per completare i training set dei classificatori producono contenuti che altrimenti non sarebbero disponibili (ad esempio, l’identikit di un criminale per cui non sono disponibili fotografie). Generano però anche contenuti falsi su cui le persone potrebbero erroneamente fare affidamento (ad esempio, un falsi video che mostra l’arresto di un politico).
I modelli di linguaggio di grandi dimensioni (Large Language Models – LLM) come il celeberrimo GPT, eseguono compiti di completamento, cioè restituiscono bozze di articoli, programmi per computer o oggetti digitali che gli esseri umani possono usare direttamente o migliorare a mano. Gli LLM hanno parecchi failure mode specifici, a partire dal completamento delle domande con dati controfattuali che sono semplicemente sbagliati, per arrivare all’uso scorretto dei loro output, spacciati come risultato del lavoro umano.
Infine, il compito di pianificazione è tipico degli agenti intelligenti come i robot basati su apprendimento rafforzativo che sostituiscono o aiutano gli operatori umani in situazioni pericolose come la guida di veicoli. I loro failure mode corrispondono a comportamenti instabili o non sicuri che possono portare anche a lesioni e altri danni alle persone.
Chi è responsabile in caso di fallimento dell’IA?
In tutti e tre questi casi, gli attori coinvolti nell’impiego dell’IA hanno iniziato a domandarsi: in caso di fallimento di un modello IA, chi può essere ritenuto responsabile e a quanto ammonta la sua responsabilità? Ad esempio, chi è responsabile se un’immagine fasulla convince un utente ad un incauto acquisto su Internet, oppure se un LLM risponde in modo sbagliato a una domanda su come comportarsi in una lite condominiale, o ancora se un veicolo frena improvvisamente – causando un incidente – a causa del sistema di guida basato sull’IA?
Gli attori coinvolti nel fallimento dell’IA
I possibili responsabili del fallimento di un modello IA sono le aziende che lanciano sul mercato prodotti e servizi basati sull’IA, i fornitori di tecnologia e i consulenti che propongono o decidono quale architettura, algoritmo di addestramento e quali dati utilizzare.
In certi casi, sono considerati attori dell’uso dell’IA anche i singoli cittadini o gruppi di consumatori che divulgano i propri dati per l’addestramento dei modelli e prendono decisioni influenzate dall’output dei modelli stessi. Tutti questi attori, e in particolare le aziende e fornitori, dovrebbero garantire di aver preso le ragionevoli precauzioni per prevenire i failure.
Le classi di failure
Per classificare i failure mode si usano di solito le proprietà fondamentali che sono compromesse dai fallimenti. Cominciamo dalla robustezza e resilienza, la cui mancanza può aggravare le conseguenze degli attacchi di cyber-sicurezza all’IA al momento dell’addestramento dei modelli (“avvelenando” i dati di training) o dell’inferenza (falsificando gli input forniti al modello IA in produzione). Questi failure possono provocare decisioni errate del modello, favorendo gli interessi degli attaccanti a spese degli utenti legittimi.
Le violazioni di privatezza permettono invece di ricostruire i dati di addestramento dei modelli o gli input degli utenti in produzione, esponendo I responabili a contenziosi e danni d’immagine.
I failure di equità, spesso – ma non sempre – derivati da un addestramento errato, consistono in pregiudizi ingiusti e discriminazioni nell’esecuzione del compito da parte del modello di IA.
Per tutti e tre queste categorie di failure, gli attori che abbiamo elencato dovrebbero garantire l’analisi, almeno a posteriori, dei modelli IA e la possibilità di segnalare impatti negativi da parte di terzi, anche in termini delle relative compensazioni e risarcimenti.
Il ruolo dell’AI ACT
Il recente regolamento dell’Unione Europea sull’IA, in corso di recepimento nelle normative nazionali, ha l’obiettivo di garantire che i “sistemi di IA” siano sicuri e rispettino i diritti fondamentali e i valori fondamentali dell’UE, fornendo la base giuridica per facilitare gli investimenti e l’innovazione nell’IA e facilitando lo sviluppo di un mercato unico per modelli IA sicuri e affidabili nel rispetto della normativa. Secondo il documento, un sistema di IA è un “software sviluppato con una o più delle tecniche e degli approcci elencati nell’Allegato I e [che] può, per un determinato insieme di obiettivi definiti dall’uomo, generare output come contenuti, previsioni, raccomandazioni o decisioni che influenzano gli ambienti con cui interagisce”.
Le tecniche elencate nell’Allegato I, oltre ai classici approcci logici e statistici, comprendono l’apprendimento supervisionato e rafforzativo, utilizzando un’ampia varietà di metodi.
L’AI Act definisce quattro livelli di rischio: il rischio inaccettabile a cui corrisponde la proibizione dell’uso dell’IA, il rischio alto, che impone agli attori di soddifare requisiti specifici ed eseguire valutazioni di conformità, il rischio medio, a cui corrispondono obblighi di trasparenza e di informazione, e infine il rischio basso, che corrisponde all’uso consentito senza restrizioni. Una valutazione d’impatto è prevista solo per i sistemi di AI ad alto rischio (Articolo 6 e Annex III), ed è richiesta e circoscritta al loro primo utilizzo. L’articolo 27 dell’AI Act specifica che la valutazione deve comprendere lo scopo previsto e una descrizione dei processi dell’operatore in cui verrà utilizzato il sistema di IA ad alto rischio, il periodo di tempo e la frequenza di utilizzo, le categorie di persone fisiche e gruppi che potrebbero essere interessati dal suo utilizzo nel contesto specifico. Per ogni categoria di attori interessati, vanno indicati i rischi specifici che la riguardano. Infine, occorre fornire una descrizione delle misure di controllo umano, ed in particolare delle misure da adottare in caso di concretizzazione dei rischi individuati. L’impatto sanzionatorio è ingente, con sanzioni amministrative pecuniarie che possono arrivare fino a 30 milioni di euro o al 6% del fatturato totale annuo mondiale dell’azienda responsabile.
Dalla teoria alla pratica: gestione dei rischi nell’IA
Molte aziende stanno dando a vita a processi di valutazione volontari, aderendo a un “AI Pact” che definisce i comportamenti virtuosi. Anche prescindendo da chi dovrà farle, lo scenario che abbiamo delineato richiede due valutazioni: la valutazione del livello di rischio, che assegna un livello di rischio alle singole applicazioni di specifici modelli IA, e la valutazione di impatto, che sarà obbligatoria solo le applicazioni qualificate come “ad alto rischio”.
In ogni caso, entrambe queste valutazioni (ed anche la valutazione volontaria di applicazioni qualificate a rischio inferiore) presuppongono un’analisi dettagliata dei failure mode come quella delineata sopra. Eseguirla non è un compito semplice, soprattutto nel caso delle analisi ex-ante, in cui occorre valutare severità e probabilità dei fallimenti di tecnologie di AI in corso di implementazione e non ancora immesse sul mercato.
Metodologie e strumenti
La comunità scientifica italiana è al lavoro per mettere a punto tecniche conformi allo spirito dell’AI Act e utilizzabili nel sistema giuridico nazionale. L’approccio Human Hall for AI sviluppato nell’ambito del progetto PNRR MUSA da informatici e giuristi dell’Università degli Studi di Milano, prevede due strumenti fondamentali: le schede modello, ex-ante ed ex-post, e le sandbox normative.
Le schede modello riepilogano le informazioni su un modello esistente (analisi a posteriori) o su un modello disegnato per essere equivalente (a priori) a quello che sarà messo in opera. Le schede mostrano I failure mode e le metriche usate per eseguire l’analisi quantitativa del rischio – inclusa la stima frequentistica o come confidenza della probabilità – per ciascuno di essi.
Infine, i sandbox normativi utilizzano i risultati della valutazione dei failure mode e le competenze giuridiche per misurare e contenere il rischio normativo e sanzionatorio.
Il risultato di questa metodologia è una guida verso la definizione di misure preventive in termini di scelte architetturali e di generazione/condizionamento dei dati di addestramenti da adottare ex-ante, e di misure correttive da introdurre ex-post sui sistemi IA in produzione.