benchmark

Misurare i progressi dell’IA, ma con quali parametri? Ecco le sfide



Indirizzo copiato

Ogni nuovo modello di intelligenza artificiale viene valutato con benchmark spesso mal progettati, complicando la regolamentazione e la valutazione delle capacità reali. È urgente creare parametri di riferimento robusti e significativi per guidare lo sviluppo e la regolamentazione del settore

Pubblicato il 10 dic 2024

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza



Shutterstock_2475147097 (1)

Ogni volta che viene rilasciato un nuovo modello di Intelligenza Artificiale, in genere si parla – anche un po’ enfaticamente – di prestazioni eccellenti rispetto a una serie di parametri di riferimento. Un esempio calzante è dato dalla punta di diamante di casa OpenAI, ossia GPT-4, che quando è stato lanciato a maggio scorso è stato presentato con una raccolta di risultati che mostravano le sue straordinarie prestazioni superiori a quelle di ogni altro modello di Intelligenza Artificiale concorrente o meno.

Il problema dei parametri per la valutazione dell’IA

Il problema è che questi parametri di riferimento, con il quale si compara un modello nuovo a un altro più datato, sono spesso mal progettati, con risultati difficili da replicare e con un certo grado di “arbitrarietà” non accettabile. E tutto ciò suona abbastanza preoccupante perché i punteggi ottenuti dai modelli di Intelligenza Artificiale rispetto a questi parametri di riferimento determinano il livello di controllo e di regolamentazione che ricevono al momento della commercializzazione.

Cosa sono i benchmark e a cosa servono

Un “benchmark” (o, nella lingua di Dante, “parametro di riferimento”) è essenzialmente un test che un’Intelligenza artificiale deve sostenere per presentarsi sul mercato. Può avere un formato a scelta multipla, come il più famoso, il Massive Multitask Language Understanding benchmark (MMLU) e può essere una valutazione della capacità dell’Intelligenza Artificiale di svolgere un compito specifico nonché una valutazione della qualità delle sue risposte testuali a una serie di domande.

Le aziende produttrici di Intelligenza Artificiale citano spesso questi parametri di riferimento come testimonianza del successo di un nuovo modello “rispetto alla concorrenza” o rispetto a modelli passati.

I parametri di riferimento e regolamentazione dell’IA

Questi parametri di riferimento fanno già parte dei piani di regolamentazione dell’Intelligenza Artificiale di alcune nazioni ed entità sovranazionali. Ad esempio, il Regolamento 2024/1689 dell’Unione Europea fa riferimento ai benchmark come strumento per determinare se un modello dimostra o meno un “rischio sistemico” (Art. 51 del Regolamento); in tal caso, sarà soggetto a livelli più elevati di controllo e regolamentazione.

L’Istituto britannico per la sicurezza dell’intelligenza artificiale “UK AI Safety Institute” fa riferimento, invece, ai benchmark in Inspect, che è il quadro di riferimento britannico per la valutazione della sicurezza dei modelli linguistici di grandi dimensioni (LLM o Large Language Model).

Le difficoltà nella valutazione dei benchmark

Data la loro crescente importanza, i ricercatori hanno innanzitutto cercato di verificare i risultati dei benchmark presentati dagli sviluppatori dei modelli di Intelligenza Artificiale ma, spesso, non sono riusciti a riprodurli.

Segretezza del codice sorgente

Per testare un benchmark, in genere servono istruzioni o codice per eseguirlo su un modello.

Molti creatori di benchmark non hanno reso pubblico il codice per eseguirli. In altri casi, il codice risulta obsoleto. Spesso i creatori dei benchmark non rendono pubbliche nemmeno le domande e le risposte del loro set di dati. Se lo facessero, le aziende potrebbero addestrare il loro modello sul benchmark; sarebbe come permettere a uno studente di vedere le domande e le risposte di un test prima di sostenerlo.

Saturazione dei benchmark

Ma questo li rende difficili da valutare. Un altro problema è che i benchmark sono spesso “saturi”, il che significa che tutti i problemi sono stati praticamente risolti. Per esempio, diciamo che c’è un test con semplici problemi di matematica. La prima generazione di un modello di Intelligenza Artificiale ottiene un venti percento di risposte esatte nel test, fallendo. La seconda generazione del modello ottiene il novanta percento di risposte esatte e la terza il novantatré percento. Un osservatore esterno potrebbe considerare questi risultati come un rallentamento del progresso dell’Intelligenza Artificiale; tuttavia, un’altra interpretazione potrebbe essere che il benchmark “è stato risolto” e non è più una misura così importante del progresso, non riuscendo – in pratica – a “cogliere la differenza” di capacità tra la seconda e la terza generazione di un modello.

Un elenco di criteri che rendono un benchmark valido: la ricerca

Una recente ricerca ha cercato di definire un elenco di criteri che rendono un benchmark valido. Tale ricerca è stata accompagnata dal lancio di BetterBench (by University of Stanford) , un sito web che classifica i parametri di riferimento dell’Intelligenza Artificiali più popolari “sulla piazza”.

I fattori di valutazione includono la consultazione o meno di esperti per la progettazione, la definizione della capacità testata e altri elementi di base.

Il già citato benchmark MMLU ha ottenuto, straordinariamente, le valutazioni più basse. Alcuni pensano che i criteri alla base non siano all’altezza del quadro generale. Un benchmark perfettamente progettato, in pratica, non vuol dire nulla. Un benchmark che verifica la capacità del modello di Intelligenza Artificiale di fornire un’analisi convincente dei sonetti di Shakespeare potrebbe essere inutile se qualcuno è davvero preoccupato delle capacità di hacking dell’Intelligenza Artificiale, no?

Come migliorare lo stato attuale della situazione

Ci sono organizzazioni che cercano attivamente di migliorare la “situazione”.

Il nuovo benchmark di Epoch AI

Per esempio, un nuovo benchmark di Epoch AI, un’organizzazione di ricerca, è stato progettato con il contributo di sessanta matematici e verificato da due vincitori della Medaglia Fields, il più prestigioso premio di matematica. La partecipazione di questi esperti soddisfa uno dei criteri di valutazione di BetterBench. Gli attuali modelli più avanzati sono in grado di rispondere a meno del due percento delle domande del benchmark, il che significa che c’è ancora molta strada da fare prima che il benchmark sia saturo.

Il parametro di riferimento Humanity’s Last Exam (HLE)

Invece, l’organizzazione CAIS, sta collaborando con Scale AI per creare un nuovo benchmark che, a suo dire, metterà alla prova i modelli di IA contro la frontiera della conoscenza umana, “battezzato” Humanity’s Last Exam (HLE).

In pratica, questo parametro di riferimento contiene domande non ambigue, non ricercabili, che richiedono una comprensione di livello post-universitario per essere risolte.
Sebbene ci sia molto disaccordo su cosa si debba misurare esattamente, molti ricercatori concordano sulla necessità di parametri di riferimento più solidi, soprattutto perché stabiliscono una direzione per le aziende e sono uno strumento fondamentale per i diversi paesi alle prese con la regolamentazione dell’Intelligenza Artificiale. I parametri di riferimento devono essere davvero buoni; anche se dobbiamo avere dapprima una comprensione di cosa significhi “veramente buono”, cosa che al momento non possiamo determinare.

EU Stories - La coesione innova l'Italia

Tutti
Analisi
Video
Iniziative
Social
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4