strumenti e metriche

Verso un’IA affidabile: il catalogo Ocse e le buone pratiche globali

L’OCSE con la GPAI, ha creato un catalogo aperto per strumenti e metriche di IA. Serve a promuovere trasparenza, sicurezza e spiegabilità, garantendo il rispetto dei diritti umani e dei valori democratici

Pubblicato il 13 feb 2025

Simona Romiti

Change agent Senior Advisor in Programmi ed ecosistemi europei

Affidabilità, trasparenza e spiegabilità dei modelli di intelligenza artificiale, in particolare di quelli generativi, sono alla base del rapporto fiduciario che ciascun di essi può creare nei confronti del pubblico utente e dei governi chiamati a legittimarli.

Indice degli argomenti

La piattaforma collaborativa Ocse: gli obiettivi

L’OCSE, insieme alla Global Partnership in IA – GPAI – ha costruito un ambiente aperto di strumenti e metriche di valutazione, dove ciascun sviluppatore o industria che ne implementa le funzionalità, può condividere i sistemi e algoritmi ed esporre gli standard applicativi.

I test per valutare l’IA sono “rotti”: urgono nuovi standard

L’obiettivo è quello di validare gli sforzi tecnologici e regolamentativi e, attraverso buone pratiche globali, consentire una rapida diffusione nonché applicazione dei principi OCSE: rispetto dello Stato di diritto, dei diritti umani, dei valori democratici e della diversità; sostegno alla crescita sostenibile e inclusiva, alla trasparenza, robustezza e spiegabilità dei sistemi di IA; individuazione delle responsabilità di funzionamento in capo alle entità che sviluppano, distribuiscono o gestiscono tali sistemi.

Il catalogo

Il Catalogo, disponibile sulla piattaforma, opera come un one-stop-shop di casi d’uso, distinti per obiettivi o fase del ciclo di vita implementativo dell’IA, raccoglie in due separati ambienti gli strumenti, intesi come software, codici di programmazione, linee guida o standard, e le metriche tecniche, riferite invece alle formule matematiche che verificano i requisiti di affidabilità dell’IA in particolari contesti operativi.

Il caricamento sulla piattaforma

Il caricamento sulla piattaforma è di tipo aperto, il segretariato dell’OCSE, coadiuvato da altri gruppi di lavoro dell’organizzazione, come le unità Business Civil Society, l’Information Society Advisory Council e il Trade Union Advisory Committee, esamina l’operatività – cosa fa?- e i risultati che produce ciascun modello, inoltre cura l’aggiornamento semestrale del catalogo espungendo quei casi d’uso che per un periodo di due anni non stati aggiornati dagli autori.

La modalità di raccolta

La modalità di raccolta è condotta con un cloud service e sono ordinati secondo architetture informative ad hoc. La qualificazione di strumento tecnico viene operata dal sistema di catalogazione attraverso indici di popolarità espressi con fork e stelle, correlate a ciascun principio OCSE dell’IA. Per l’identificazione di nuove metriche, il sistema si avvale del database Paper with Code, un portale aperto che raccoglie documenti, codici, set di dati, metodi e tabelle di valutazione di Machine Learning. La raccomandazione per ciascun attore dell’IA coinvolto nel ciclo di vita dell’IA è quella di dover garantire, in base al proprio ruolo, contesto, capacità di agire, un approccio sistemico e cooperativo nella gestione del rischio e adottare condotte etiche nell’analisi degli output dei sistemi di IA.

Gli strumenti e le metriche tecniche raccolte

Ad oggi sono stati raccolti 917 strumenti e 130 metriche tecniche.

Tra gli strumenti possiamo riportare: FAMOS, Aixploit, TrustWorth AIGovernance, verticalizzati su 3 ambiti diversi.

Federated AI Monitoring Service – FAMOS

FAMOS è l’acronimo di Federated AI Monitoring Service, un dashboard per monitorare tutti i prodotti di IA funzionali al servizio di assistenza sanitaria. Gli utenti possono analizzare e rilevare la qualità dei dati utilizzati nella fase post implementazione del sistema di IA, ovvero le modifiche agli output dell’IA, e contestualmente, l’aspetto più interessante, visionare l’uso in tempo reale del prodotto di IA da parte del personale sanitario.

AIxploit

AIxploit è uno strumento tecnico creato per misurare le vulnerabilità e migliorare la robustezza dei Modelli linguistici di grandi dimensioni attraverso test avversari, con query dannose o fuorvianti. Aixploit dispone di metriche dettagliate sulle prestazioni del modello sotto stress, di scenari personalizzati per casi d’uso o per settori specifici e offre report di analisi dettagliate utili a tutti gli sviluppatori di LLM.

TrustWorth AI Governance

TrustWorth AI Governance è invece un processo di valutazione sulla conformità normativa di ciascun strumento di IA con l’EU AI Act e successive regolamentazioni. Difatti dalle informazioni raccolte nel modulo di AI governance l’applicativo mappa per trasparenza e grado di rischiosità, corrispondenti ai 4 livelli del framework dell’IA Act, tutti gli utilizzi dell’IA per ciascuna organizzazione, dando priorità a quelli con un valore aziendale più alto.

Nel catalogo delle metriche troviamo un elenco di metodologie di valutazione dei sistemi di IA distinte per obiettivi di accuratezza, correttezza, riservatezza dei dati; fase di gestione del rischio; fase del ciclo di vita; scopi; utenti target; settore target.

Ne possiamo riportare alcune tra le più popolari.

Equal Performance

Equal Performance, diretta a valutare l’uguaglianza delle prestazioni, in particolare nel campo sanitario. Uguaglianza intesa come uguale sensibilità, uguale specificità, uguale valore predittivo positivo, per utenti appartenenti diverse coorti, gruppi protetti e non. Equal Perfomance monitora come i tre indicatori di accuratezza identificativa, equità di trattamento e di parità predittiva possano determinare un’uguaglianza di risultato.

Bilingual Evaluation Understudy (BLEU)

Bilingual Evaluation Understudy (BLEU) è un algoritmo che rileva la qualità del testo tradotto automaticamente da una lingua naturale a un’altra. La qualità viene misurata da una comparazione tra l’output prodotto da una macchina e quello di un essere umano. I punteggi dei testi vengono calcolati per singoli segmenti tradotti, in genere frasi, confrontandoli con un set di traduzioni di riferimento di buona qualità.

Gender based Illicit Proximity Estimate – GIPE

GIPE, acronimo di Gender based Illicit Proximity Estimate, propone una nuova metrica di valutazione del bias e misura l’entità dell’associazione di parole indesiderate risultante dalla presenza di predilezioni basate sul genere o dalla disposizione spaziale della disposizione delle parole. GIPE adotta un metodo di rimozione dei pregiudizi di genere collegati a bias diretto o di prossimità, aggiungendo un disturbo semantico minimo.

Il Report del GAO – Government Accountability Office

Di base le pratiche per sviluppare i modelli di IA comprendono diversi strumenti di auto-valutazione e verifica di vulnerabilità ad attacchi esterni o alla determinazione di output non dichiarati o non voluti.

Il Report prodotto dal GAO – Government Accountability Office – degli Stati Uniti, sintesi di una analisi condotta su modelli, strumenti, prodotti e servizi di IA sviluppati dalle più dinamiche organizzazioni private (Amazon, Anthropic, Google, Meta, Microsoft, Nvidia Corporation, OpenAI e Stability AI) e su white paper, schede modello o documentazione accademica, ha classificato punti di forza e di debolezza di almeno 4 metodologie di indagine dei rischi associati alla tracciabilità e alla trasparenza dei set di dati utilizzati per la fasi implementazione e post-implementazione dei sistemi di IA.

Queste includono: test di benchmark; utilizzo di team multidisciplinari; monitoraggio e red teaming. I test di benchmarking sono diretti a valutare l’accuratezza dei modelli rispetto a ragionamento, fattualità, matematica e scienza, comprensione multilingue, tra le altre. Il monitoraggio post implementazione esamina la coerenza del modello agli standard di sicurezza del promotore estraendo l’utente che ne fa un uso improprio attraverso prompt e risposte con diniego.

Il Red teaming è collegato a test di penetrazione, simulazione di attacchi, del modello di IA per identificare difetti o vulnerabilità e valutare la sicurezza del sistema.

Si può concludere che il catalogo OCSE rappresenta di per se un bene o servizio pubblico: la disponibilità degli strumenti e delle metriche su una piattaforma aperta determina un principio di non rivalità o utilità generale degli stessi, la piattaforma di per se segna i primi passi per orientare regole e norme di un nuovo istituto giuridico.