l’analisi

Il ruolo dei dati per una intelligenza artificiale equa e imparziale



Indirizzo copiato

Un modello di IA addestrato con dati polarizzati, poco rappresentativi o di cattiva qualità produrrà anche risultati di cattiva qualità. La scelta e la preparazione dei dati utilizzati per l’addestramento e la validazione dei sistemi di IA assumono quindi un’importanza centrale. Alcune metriche per rilevare e correggere la polarizzazione

Pubblicato il 21 lug 2023

Diego Ragazzi

Data Strategy Lead Cefriel



Could Algorithm Audits Curb AI Bias?

La recente approvazione del testo dell’AI Act da parte del Parlamento Europeo ha riportato al centro del dibattito pubblico la questione dell’uso etico e sicuro dell’intelligenza artificiale (IA). Si moltiplicano in letteratura gli esempi di applicazioni discriminatorie dell’IA.

Rischi di discriminazione legati all’IA

Nel settore della sanità, per esempio, è emerso che un sistema di IA utilizzato negli Stati Uniti per stimare il rischio sanitario di oltre 200 milioni di americani tendeva ad assegnare un livello di rischio inferiore ai pazienti afroamericani a parità di condizioni di salute, con la conseguenza di negargli l’accesso a cure adeguate. I ricercatori che hanno svolto l’analisi del caso hanno stabilito che la causa era da attribuire alla metrica utilizzata per stimare il rischio, che era basata sulla spesa sanitaria media individuale. Come si vede, in questo caso l’appartenenza a un gruppo etnico non è una caratteristica utilizzata direttamente dall’algoritmo, ma influenza indirettamente il risultato attraverso la struttura economica della società americana. Questo esempio ci fa capire come non sia sempre facile rilevare la parzialità dei sistemi di IA.

Il ruolo centrale dei dati

Il successo delle tecniche di apprendimento automatico (machine learning o ML) ha ribaltato l’approccio tradizionale alla programmazione, che consisteva nel codificare un algoritmo basato su regole per ottenere un certo risultato usando dei dati. La conoscenza era fornita dal programmatore umano. Il nuovo approccio prevede invece che le regole vengano imparate dal modello di ML basandosi sui dati forniti in fase di addestramento (training).

Il ruolo del programmatore diventa quindi più simile a quello di un maestro che guida l’allievo nel processo di apprendimento fornendo le informazioni necessarie e ne valuta alla fine la preparazione. In un certo senso il nuovo approccio si può definire come “programmare con i dati”.  Ne consegue che la scelta e la preparazione dei dati utilizzati per l’addestramento e la validazione dei sistemi di IA assumono un’importanza centrale.

Il ruolo dei dati nella nascente normativa europea

Il ruolo fondamentale dei dati è riconosciuto anche nella nascente normativa europea. L’AI Act è legato esplicitamente al Data Governance Act approvato nel giugno 2022 e impone per i sistemi di IA a rischio elevato l’adozione di buone pratiche di gestione e governo dei dati. Non solo, impone anche di descrivere i dati utilizzati per l’addestramento (Amendment 771) e di comunicare i dati soggetti a diritti d’autore (Amendment 399). Non stupirà sapere che la maggior parte dei principali modelli di base (foundation models) presenti oggi sul mercato, come GPT-4 usato da OpenAI, PaLM 2 di Google e LLaMA di Meta, non rispettano per ora questi requisiti. In particolare, il livello di conformità minimo si raggiunge proprio sul rispetto dei diritti d’autore, come emerge da una recente analisi del Center for Research on Foundation Models dell’Università di Stanford. Gli autori osservano che “molti modelli di base vengono addestrati su dati selezionati da Internet, di cui una parte considerevole è probabilmente protetta da copyright”. La validità legale dell’utilizzo di questi dati in fase di addestramento rimane poco chiara.

Da quanto detto non dovrebbe sorprendere che i dati rappresentino una delle cause principali di parzialità e polarizzazione nei sistemi di IA e questo vale sia per i grandi modelli di base che per applicazioni più specifiche sviluppate internamente dalle aziende.

È quindi importante mettere in campo metodi, processi e strumenti per eliminare o mitigare questo fenomeno. Una prima risposta è già contenta nel testo della normativa europea: l’applicazione di buone pratiche di gestione e governo del dato (data governance) costituisce la base di una solida strategia di mitigazione.

E tuttavia, le peculiarità dei sistemi di IA basati su tecniche di apprendimento profondo (deep learning) impongono alcuni importanti aggiustamenti.

Le tecniche per migliorare la qualità dei dati in chiave etica

Per rilevare e correggere la polarizzazione dei dati e per valutarne gli effetti sull’equità delle decisioni prese dai sistemi di IA, occorre aggiungere alle tradizionali metriche di qualità del dato alcune metriche specifiche. Ma prima di tutto dobbiamo definire i concetti che ci interessa misurare.

La fairness

La fairness, che potremmo tradurre con equità o imparzialità, è uno dei principi etici più importanti, spesso associato al concetto di bias (pregiudizio o polarizzazione). Sebbene collegati, si tratta di concetti distinti. La fairness si riferisce all’assenza di discriminazione o favoritismi nei confronti di gruppi o individui, in particolare sulla base di caratteristiche sensibili quali sesso, religione, età o razza, ed è un concetto propriamente etico e sociale.

Il bias

Il bias invece si riferisce all’errore sistematico di un algoritmo che “devia” dal risultato corretto tendenzialmente nella stessa direzione, ed è un concetto più tecnico. La presenza di bias può avere un impatto sull’accuratezza dell’algoritmo, ma non necessariamente produce risultati eticamente inappropriati.

Una prima contromisura che possiamo mettere in campo consiste quindi nel rinforzare i processi classici di misura e monitoraggio della qualità dei dati con tecniche specificamente mirate a rilevarne il grado di polarizzazione. Esistono a questo scopo diversi strumenti, anche open source, che possono supportarci. Ironicamente, alcuni di questi strumenti sono basati su tecniche di IA volte a scoprire la distribuzione statistica delle caratteristiche di interesse in un dataset.

L’importante sarà definire bene le nuove metriche e integrarle nel processo aziendale di monitoraggio della qualità del dato.

Comprendere i motivi della polarizzazione

Incidentalmente, osserviamo che sarebbe ingenuo pensare che basti aggiungere più dati per rimuovere eventuali polarizzazioni dovute al fatto che alcune categorie sono scarsamente rappresentate. Basti pensare che anche i grandi modelli di base addestrati su quantità enormi di dati provenienti da Internet non sono esenti da polarizzazione e non è difficile capirne il motivo se si considera che la stessa Internet è severamente polarizzata.

Secondo le statistiche dell’International Telecommunication Union, per esempio, la percentuale di utenti Internet è massima in Nord America (90% della popolazione) e in Europa (85%) e minima nell’Africa sub-sahariana (30%). Anche nei Paesi più sviluppati, c’è uno scarto importante nell’uso di Internet in base all’età. Un altro esempio notevole è Wikipedia, dove i contributi femminili e afroamericani sono decisamente minoritari.

Avere ben chiari gli obiettivi etici e di business

Un altro punto importantissimo da sottolineare è l’esigenza di avere ben chiari gli obiettivi etici e di business che vogliamo raggiungere, perché non esiste ad oggi nessuno “standard di equità” applicabile in tutte le circostanze. Basti pensare che in letteratura sono state proposte un centinaio di metriche diverse per misurare la fairness. Inoltre, le metriche di fairness, bias e accuracy non sono indipendenti e ottimizzare una può significare peggiorare un’altra. È quindi imperativo prima di tutto comprendere il contesto di applicazione di un sistema di IA, concordare chiaramente gli obiettivi che si desidera raggiungere e soppesare con attenzione gli inevitabili compromessi. Una volta fatta chiarezza su questi aspetti, dovremo svolgere un’analisi approfondita per determinare la strategia migliore per raggiungere i nostri obiettivi. Abbiamo diverse leve a nostra disposizione che possono essere azionate lungo tutto il ciclo di sviluppo di un’applicazione di IA. Se ci limitiamo ai dati utilizzati per l’addestramento e la validazione, possiamo applicare tecniche di sovra o sotto-campionamento, oppure di generazione sintetica di dati “compensativi”.

Conclusioni

Infine vale la pena osservare che questa rinnovata attenzione ai dati che usiamo nelle nostre applicazioni potrà avere effetti positivi anche oltre gli aspetti puramente etici. Un modello di IA addestrato con dati polarizzati, scarsamente rappresentativi o in generale di cattiva qualità produrrà verosimilmente anche risultati di cattiva qualità.

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Analisi
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 3