Il Comitato Europeo per la Protezione dei Dati (EDPB) ha lanciato il progetto “AI: Algoritmi Complessi e Supervisione Efficace della Protezione dei Dati” al fine di assistere le Autorità per la protezione dei dati su due aspetti:
- la valutazione dei bias nell’AI attraverso strumenti specifici e
- l’implementazione efficace dei diritti dei soggetti interessati.
Nell’ambito del progetto sono stati pubblicati due documenti che analizzano i temi oggetto del progetto e forniscono alcune indicazioni da tenere in considerazione.
Indice degli argomenti
Tipi di bias derivanti dai dati nei sistemi di intelligenza artificiale
Il primo documento è focalizzato sull’individuazione delle tipologie di bias che possono caratterizzare un sistema di AI; infatti, si parte dal presupposto che il ciclo di vita di un sistema di AI richieda numerose scelte e attività che possono contribuire all’insorgere di bias.
La prima categoria di distorsioni evidenziata nel documento riguarda i bias che derivano dai dati.
Il bias storico
Quest’ultima è composta da sottocategorie. Il bias storico che si verifica quando un sistema di AI è addestrato su dati storici, i quali spesso riflettono delle distorsioni della società che sono incorporate nei dati stessi.
Il bias di rappresentazione
Il bias di rappresentazione che è introdotto quando si definisce e si campiona la popolazione target durante il processo di raccolta dei dati.
Il bias di misurazione
Il bias di misurazione che si verifica quando sono utilizzati dei dati che sono una rappresentazione approssimativa di un fenomeno o una variabile di interesse; questi dati rischiano di essere una semplificazione della realtà.
Il bias di aggregazione
Il bias di aggregazione che può portare a considerazioni errate relative a singoli individui o a piccoli gruppi quando il dataset di riferimento è relativo all’intera popolazione.
Bias algoritmici e tecniche di mitigazione nei sistemi di IA
Una seconda categoria di bias riportata nel documento riguarda quelli che derivano direttamente dagli algoritmi; infatti, l’autore che ha svolto lo studio per l’EDPB riporta che, anche se i dataset non sono affetti da bias, le scelte algoritmiche potrebbero comunque contribuire a decisioni distorte.
Dopo l’elencazione delle tipologie di bias, sono riportate delle tecniche di mitigazione che possono intervenire in diverse fasi del ciclo di vita dei sistemi di AI. In particolare, nella fase di pre elaborazione si può intervenire modificando i dati di addestramento prima che venga addestrato il modello; questa fase può essere idonea a identificare i bias storici, di misurazione e di rappresentazione. Nella fase di elaborazione si può intervenire o attraverso cambi nella funzione obiettivo del sistema o con un vincolo di ottimizzazione aggiuntivo. Infine, nel caso in cui non si sia riusciti ad intervenire nelle fasi precedenti, si può intervenire nella fase di post elaborazione con delle tecniche, residuali, volte a correggere l’output del sistema di AI.
In conclusione, comprendere le fonti e la provenienza dei bias è essenziale per intervenire in modo efficace ed evitare che sistemi di AI “distorti” danneggino le persone.
Implementazione dei diritti di cancellazione e rettifica nei modelli di IA
Il secondo documento pubblicato nell’ambito del progetto è incentrato sulle tecniche e i metodi che possono essere utilizzati per consentire un effettivo esercizio dei diritti da parte degli interessati nei casi in cui i sistemi di AI siano stati sviluppati utilizzando dati personali. In primo luogo, è posta l’attenzione sui diritti di cancellazione e di rettifica dei dati del modello su cui si basa il sistema di AI.
Ciò, secondo l’autore che ha svolto lo studio per l’EDPB, comporta la cancellazione dei dati utilizzati come input per il training e l’eliminazione dell’influenza degli stessi dati nell’addestramento del modello.
Tuttavia, è stato evidenziato che ci sono diverse problematiche tecniche nel concretizzare quanto sopra; ad esempio, vi è una comprensione limitata su quanto un dato in input impatti il modello, in particolare quando sono utilizzate delle reti neurali profonde. Un altro aspetto problematico riguarda la circostanza dell’allenamento progressivo del modello; questo perché ogni aggiornamento si basa anche sui dati degli aggiornamenti precedenti, rendendo complesso scindere le singole fasi ed eliminare dati specifici.
Soluzioni tecniche per garantire i diritti degli interessati nei sistemi di IA
Alcune delle possibili soluzioni individuate nel documento sono: il ri addestramento del modello (che comunque può rivelarsi difficoltoso e costoso); il “disapprendimento”, che, evitando di dover riaddestrare il modello, permette di far disimparare o di modificare alcune informazioni del modello stesso, a seconda della tecnica utilizzata. Tramite queste tecniche si possono far disimparare, ad esempio, specifici pezzi di informazione.
Vi è comunque la raccomandazione di preferire l’utilizzo di dati anonimi per lo sviluppo e il deploy di modelli di AI al fine di evitare situazioni in cui si possano rendere necessarie la correzione e la cancellazione di dati personali.
Considerazioni finali sul rapporto tra intelligenza artificiale e dati personali
I due documenti condivisi dall’EDPB pongono l’attenzione sullo stretto legame tra dati personali e intelligenza artificiale. Il primo, relativo ai bias, pone al centro il tema della discriminazione e ci invita a tenere a mente che ci sono diversi modi attraverso cui i sistemi di AI possono portare a degli output “distorti”. Il secondo documento, invece, pone importanti riflessioni sulla complessità che si riscontra in alcuni casi nel momento in cui si deve garantire l’esercizio dei diritti da parte degli interessati.
In ogni caso, entrambi i documenti offrono uno spunto utile che ci spinge a considerare la complessità delle valutazioni che devono essere svolte prima di procedere con l’addestramento di un modello di AI o che devono essere tenute in considerazione quando si vuole sviluppare un sistema di AI a partire da un modello pre addestrato.