strumenti e metriche

Verso un’IA affidabile: il catalogo Ocse e le buone pratiche globali



Indirizzo copiato

L’OCSE con la GPAI, ha creato un catalogo aperto per strumenti e metriche di IA. Serve a promuovere trasparenza, sicurezza e spiegabilità, garantendo il rispetto dei diritti umani e dei valori democratici

Pubblicato il 13 feb 2025

Simona Romiti

Change agent Senior Advisor in Programmi ed ecosistemi europei



intelligenza artificiale ricerca

Affidabilità, trasparenza e spiegabilità dei modelli di intelligenza artificiale, in particolare di quelli generativi, sono alla base del rapporto fiduciario che ciascun di essi può creare nei confronti del pubblico utente e dei governi chiamati a legittimarli.

La piattaforma collaborativa Ocse: gli obiettivi

L’OCSE, insieme alla Global Partnership in IA – GPAI – ha costruito un ambiente aperto di strumenti e metriche di valutazione, dove ciascun sviluppatore o industria che ne implementa le funzionalità, può condividere i sistemi e algoritmi ed esporre gli standard applicativi.

WHITEPAPER

ESG, implementa la tua strategia aziendale: tutto quello che c’è da sapere

Environment-tecnologie per ambiente ed energia
Corporate Social Responsability

L’obiettivo è quello di validare gli sforzi tecnologici e regolamentativi e, attraverso buone pratiche globali, consentire una rapida diffusione nonché applicazione dei principi OCSE: rispetto dello Stato di diritto, dei diritti umani, dei valori democratici e della diversità; sostegno alla crescita sostenibile e inclusiva, alla trasparenza, robustezza e spiegabilità dei sistemi di IA; individuazione delle responsabilità di funzionamento in capo alle entità che sviluppano, distribuiscono o gestiscono tali sistemi.

Il catalogo

Il Catalogo, disponibile sulla piattaforma, opera come un one-stop-shop di casi d’uso, distinti per obiettivi o fase del ciclo di vita implementativo dell’IA, raccoglie in due separati ambienti gli strumenti, intesi come software, codici di programmazione, linee guida o standard, e le metriche tecniche, riferite invece alle formule matematiche che verificano i requisiti di affidabilità dell’IA in particolari contesti operativi.

Il caricamento sulla piattaforma

Il caricamento sulla piattaforma è di tipo aperto, il segretariato dell’OCSE, coadiuvato da altri gruppi di lavoro dell’organizzazione, come le unità Business Civil Society, l’Information Society Advisory Council e il Trade Union Advisory Committee, esamina l’operatività – cosa fa?- e i risultati che produce ciascun modello, inoltre cura l’aggiornamento semestrale del catalogo espungendo quei casi d’uso che per un periodo di due anni non stati aggiornati dagli autori.

La modalità di raccolta

La modalità di raccolta è condotta con un cloud service e sono ordinati secondo architetture informative ad hoc. La qualificazione di strumento tecnico viene operata dal sistema di catalogazione attraverso indici di popolarità espressi con fork e stelle, correlate a ciascun principio OCSE dell’IA. Per l’identificazione di nuove metriche, il sistema si avvale del database Paper with Code, un portale aperto che raccoglie documenti, codici, set di dati, metodi e tabelle di valutazione di Machine Learning. La raccomandazione per ciascun attore dell’IA coinvolto nel ciclo di vita dell’IA è quella di dover garantire, in base al proprio ruolo, contesto, capacità di agire, un approccio sistemico e cooperativo nella gestione del rischio e adottare condotte etiche nell’analisi degli output dei sistemi di IA.

Gli strumenti e le metriche tecniche raccolte

Ad oggi sono stati raccolti 917 strumenti e 130 metriche tecniche.

Tra gli strumenti possiamo riportare: FAMOS, Aixploit, TrustWorth AIGovernance, verticalizzati su 3 ambiti diversi.

Federated AI Monitoring Service – FAMOS

FAMOS è l’acronimo di Federated AI Monitoring Service, un dashboard per monitorare tutti i prodotti di IA funzionali al servizio di assistenza sanitaria. Gli utenti possono analizzare e rilevare la qualità dei dati utilizzati nella fase post implementazione del sistema di IA, ovvero le modifiche agli output dell’IA, e contestualmente, l’aspetto più interessante, visionare l’uso in tempo reale del prodotto di IA da parte del personale sanitario.

AIxploit

AIxploit è uno strumento tecnico creato per misurare le vulnerabilità e migliorare la robustezza dei Modelli linguistici di grandi dimensioni attraverso test avversari, con query dannose o fuorvianti. Aixploit dispone di metriche dettagliate sulle prestazioni del modello sotto stress, di scenari personalizzati per casi d’uso o per settori specifici e offre report di analisi dettagliate utili a tutti gli sviluppatori di LLM.

TrustWorth AI Governance

TrustWorth AI Governance è invece un processo di valutazione sulla conformità normativa di ciascun strumento di IA con l’EU AI Act e successive regolamentazioni. Difatti dalle informazioni raccolte nel modulo di AI governance l’applicativo mappa per trasparenza e grado di rischiosità, corrispondenti ai 4 livelli del framework dell’IA Act, tutti gli utilizzi dell’IA per ciascuna organizzazione, dando priorità a quelli con un valore aziendale più alto.

Nel catalogo delle metriche troviamo un elenco di metodologie di valutazione dei sistemi di IA distinte per obiettivi di accuratezza, correttezza, riservatezza dei dati; fase di gestione del rischio; fase del ciclo di vita; scopi; utenti target; settore target.

Ne possiamo riportare alcune tra le più popolari.

Equal Performance

Equal Performance, diretta a valutare l’uguaglianza delle prestazioni, in particolare nel campo sanitario. Uguaglianza intesa come uguale sensibilità, uguale specificità, uguale valore predittivo positivo, per utenti appartenenti diverse coorti, gruppi protetti e non. Equal Perfomance monitora come i tre indicatori di accuratezza identificativa, equità di trattamento e di parità predittiva possano determinare un’uguaglianza di risultato.

Bilingual Evaluation Understudy (BLEU)

Bilingual Evaluation Understudy (BLEU) è un algoritmo che rileva la qualità del testo tradotto automaticamente da una lingua naturale a un’altra. La qualità viene misurata da una comparazione tra l’output prodotto da una macchina e quello di un essere umano. I punteggi dei testi vengono calcolati per singoli segmenti tradotti, in genere frasi, confrontandoli con un set di traduzioni di riferimento di buona qualità.

Gender based Illicit Proximity Estimate – GIPE

GIPE, acronimo di Gender based Illicit Proximity Estimate, propone una nuova metrica di valutazione del bias e misura l’entità dell’associazione di parole indesiderate risultante dalla presenza di predilezioni basate sul genere o dalla disposizione spaziale della disposizione delle parole. GIPE adotta un metodo di rimozione dei pregiudizi di genere collegati a bias diretto o di prossimità, aggiungendo un disturbo semantico minimo.

Il Report del GAO – Government Accountability Office

Di base le pratiche per sviluppare i modelli di IA comprendono diversi strumenti di auto-valutazione e verifica di vulnerabilità ad attacchi esterni o alla determinazione di output non dichiarati o non voluti.

Il Report prodotto dal GAO – Government Accountability Office – degli Stati Uniti, sintesi di una analisi condotta su modelli, strumenti, prodotti e servizi di IA sviluppati dalle più dinamiche organizzazioni private (Amazon, Anthropic, Google, Meta, Microsoft, Nvidia Corporation, OpenAI e Stability AI) e su white paper, schede modello o documentazione accademica, ha classificato punti di forza e di debolezza di almeno 4 metodologie di indagine dei rischi associati alla tracciabilità e alla trasparenza dei set di dati utilizzati per la fasi implementazione e post-implementazione dei sistemi di IA.

Queste includono: test di benchmark; utilizzo di team multidisciplinari; monitoraggio e red teaming. I test di benchmarking sono diretti a valutare l’accuratezza dei modelli rispetto a ragionamento, fattualità, matematica e scienza, comprensione multilingue, tra le altre. Il monitoraggio post implementazione esamina la coerenza del modello agli standard di sicurezza del promotore estraendo l’utente che ne fa un uso improprio attraverso prompt e risposte con diniego.

Il Red teaming è collegato a test di penetrazione, simulazione di attacchi, del modello di IA per identificare difetti o vulnerabilità e valutare la sicurezza del sistema.

Si può concludere che il catalogo OCSE rappresenta di per se un bene o servizio pubblico: la disponibilità degli strumenti e delle metriche su una piattaforma aperta determina un principio di non rivalità o utilità generale degli stessi, la piattaforma di per se segna i primi passi per orientare regole e norme di un nuovo istituto giuridico.

WHITEPAPER

Strategie ESG: migliorare la resilienza aziendale attraverso l'attenzione all'ambiente

Utility/Energy
ESG

EU Stories - La coesione innova l'Italia

Tutti
Video & Podcast
Analisi
Social
Iniziative
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4