Ogni volta che viene rilasciato un nuovo modello di Intelligenza Artificiale, in genere si parla – anche un po’ enfaticamente – di prestazioni eccellenti rispetto a una serie di parametri di riferimento. Un esempio calzante è dato dalla punta di diamante di casa OpenAI, ossia GPT-4, che quando è stato lanciato a maggio scorso è stato presentato con una raccolta di risultati che mostravano le sue straordinarie prestazioni superiori a quelle di ogni altro modello di Intelligenza Artificiale concorrente o meno.
Il problema dei parametri per la valutazione dell’IA
Il problema è che questi parametri di riferimento, con il quale si compara un modello nuovo a un altro più datato, sono spesso mal progettati, con risultati difficili da replicare e con un certo grado di “arbitrarietà” non accettabile. E tutto ciò suona abbastanza preoccupante perché i punteggi ottenuti dai modelli di Intelligenza Artificiale rispetto a questi parametri di riferimento determinano il livello di controllo e di regolamentazione che ricevono al momento della commercializzazione.
Cosa sono i benchmark e a cosa servono
Un “benchmark” (o, nella lingua di Dante, “parametro di riferimento”) è essenzialmente un test che un’Intelligenza artificiale deve sostenere per presentarsi sul mercato. Può avere un formato a scelta multipla, come il più famoso, il Massive Multitask Language Understanding benchmark (MMLU) e può essere una valutazione della capacità dell’Intelligenza Artificiale di svolgere un compito specifico nonché una valutazione della qualità delle sue risposte testuali a una serie di domande.
Le aziende produttrici di Intelligenza Artificiale citano spesso questi parametri di riferimento come testimonianza del successo di un nuovo modello “rispetto alla concorrenza” o rispetto a modelli passati.
I parametri di riferimento e regolamentazione dell’IA
Questi parametri di riferimento fanno già parte dei piani di regolamentazione dell’Intelligenza Artificiale di alcune nazioni ed entità sovranazionali. Ad esempio, il Regolamento 2024/1689 dell’Unione Europea fa riferimento ai benchmark come strumento per determinare se un modello dimostra o meno un “rischio sistemico” (Art. 51 del Regolamento); in tal caso, sarà soggetto a livelli più elevati di controllo e regolamentazione.
L’Istituto britannico per la sicurezza dell’intelligenza artificiale “UK AI Safety Institute” fa riferimento, invece, ai benchmark in Inspect, che è il quadro di riferimento britannico per la valutazione della sicurezza dei modelli linguistici di grandi dimensioni (LLM o Large Language Model).
Le difficoltà nella valutazione dei benchmark
Data la loro crescente importanza, i ricercatori hanno innanzitutto cercato di verificare i risultati dei benchmark presentati dagli sviluppatori dei modelli di Intelligenza Artificiale ma, spesso, non sono riusciti a riprodurli.
Segretezza del codice sorgente
Per testare un benchmark, in genere servono istruzioni o codice per eseguirlo su un modello.
Molti creatori di benchmark non hanno reso pubblico il codice per eseguirli. In altri casi, il codice risulta obsoleto. Spesso i creatori dei benchmark non rendono pubbliche nemmeno le domande e le risposte del loro set di dati. Se lo facessero, le aziende potrebbero addestrare il loro modello sul benchmark; sarebbe come permettere a uno studente di vedere le domande e le risposte di un test prima di sostenerlo.
Saturazione dei benchmark
Ma questo li rende difficili da valutare. Un altro problema è che i benchmark sono spesso “saturi”, il che significa che tutti i problemi sono stati praticamente risolti. Per esempio, diciamo che c’è un test con semplici problemi di matematica. La prima generazione di un modello di Intelligenza Artificiale ottiene un venti percento di risposte esatte nel test, fallendo. La seconda generazione del modello ottiene il novanta percento di risposte esatte e la terza il novantatré percento. Un osservatore esterno potrebbe considerare questi risultati come un rallentamento del progresso dell’Intelligenza Artificiale; tuttavia, un’altra interpretazione potrebbe essere che il benchmark “è stato risolto” e non è più una misura così importante del progresso, non riuscendo – in pratica – a “cogliere la differenza” di capacità tra la seconda e la terza generazione di un modello.
Un elenco di criteri che rendono un benchmark valido: la ricerca
Una recente ricerca ha cercato di definire un elenco di criteri che rendono un benchmark valido. Tale ricerca è stata accompagnata dal lancio di BetterBench (by University of Stanford) , un sito web che classifica i parametri di riferimento dell’Intelligenza Artificiali più popolari “sulla piazza”.
I fattori di valutazione includono la consultazione o meno di esperti per la progettazione, la definizione della capacità testata e altri elementi di base.
Il già citato benchmark MMLU ha ottenuto, straordinariamente, le valutazioni più basse. Alcuni pensano che i criteri alla base non siano all’altezza del quadro generale. Un benchmark perfettamente progettato, in pratica, non vuol dire nulla. Un benchmark che verifica la capacità del modello di Intelligenza Artificiale di fornire un’analisi convincente dei sonetti di Shakespeare potrebbe essere inutile se qualcuno è davvero preoccupato delle capacità di hacking dell’Intelligenza Artificiale, no?
Come migliorare lo stato attuale della situazione
Ci sono organizzazioni che cercano attivamente di migliorare la “situazione”.
Il nuovo benchmark di Epoch AI
Per esempio, un nuovo benchmark di Epoch AI, un’organizzazione di ricerca, è stato progettato con il contributo di sessanta matematici e verificato da due vincitori della Medaglia Fields, il più prestigioso premio di matematica. La partecipazione di questi esperti soddisfa uno dei criteri di valutazione di BetterBench. Gli attuali modelli più avanzati sono in grado di rispondere a meno del due percento delle domande del benchmark, il che significa che c’è ancora molta strada da fare prima che il benchmark sia saturo.
Il parametro di riferimento Humanity’s Last Exam (HLE)
Invece, l’organizzazione CAIS, sta collaborando con Scale AI per creare un nuovo benchmark che, a suo dire, metterà alla prova i modelli di IA contro la frontiera della conoscenza umana, “battezzato” Humanity’s Last Exam (HLE).
In pratica, questo parametro di riferimento contiene domande non ambigue, non ricercabili, che richiedono una comprensione di livello post-universitario per essere risolte.
Sebbene ci sia molto disaccordo su cosa si debba misurare esattamente, molti ricercatori concordano sulla necessità di parametri di riferimento più solidi, soprattutto perché stabiliscono una direzione per le aziende e sono uno strumento fondamentale per i diversi paesi alle prese con la regolamentazione dell’Intelligenza Artificiale. I parametri di riferimento devono essere davvero buoni; anche se dobbiamo avere dapprima una comprensione di cosa significhi “veramente buono”, cosa che al momento non possiamo determinare.
Chatbot Arena
Chatbot Arena è una piattaforma creata da due studenti della University of California, Berkeley, Anastasios Angelopoulos e Wei-Lin Chiang, per confrontare le performance dei modelli di intelligenza artificiale (AI) attraverso un sistema di valutazione basato su preferenze umane.
Si è conquistata una popolarità tra le società AI.
Come Funziona
- Confronto Diretto: Gli utenti possono fare una domanda e ricevere risposte da due modelli AI anonimi in un confronto testa a testa.
- Valutazione Utente: Gli utenti votano quale risposta è migliore, basandosi su criteri soggettivi come chiarezza, creatività e coerenza.
- Classifica: I risultati dei voti vengono aggregati in una classifica pubblica, dove modelli di grandi aziende come OpenAI, Google e Meta competono con tecnologie di startup più piccole.
- Categorie Specifiche: La piattaforma include classifiche separate per aree come scrittura creativa, programmazione e risposte alle istruzioni.
- Mystery AI: Alcuni modelli non identificati pubblicamente vengono testati sulla piattaforma, attirando curiosità e analisi dalla comunità.
Vantaggi
- Valutazione Basata su Preferenze Umane: Chatbot Arena adotta un approccio unico rispetto ai benchmark tradizionali, mettendo al centro il giudizio umano. Questo metodo cattura elementi soggettivi che i test standardizzati non riescono a cogliere.
- Competizione Trasparente: Le aziende possono vedere come i loro modelli si posizionano rispetto alla concorrenza in tempo reale, creando incentivi per migliorare continuamente.
- Integrazione della Community: I dati raccolti dai voti degli utenti vengono condivisi parzialmente per aiutare gli sviluppatori a comprendere meglio le interazioni reali con le AI.
- Accessibilità Democratica: Semplifica il confronto tra AI per utenti non esperti, rendendo visibili le capacità delle diverse tecnologie.
- Rilevanza per il Settore: La classifica è diventata un riferimento influente per aziende tecnologiche, attirando attenzione simile a quella dei ranking di settore come il Billboard Hot 100 per la musica.
Limitazioni
- Soggettività: Le valutazioni sono basate sulle preferenze personali degli utenti e potrebbero non riflettere criteri oggettivi come l’accuratezza delle informazioni.
- Dipendenza da Coinvolgimento Umano: La qualità delle valutazioni dipende dalla diversità e dall’impegno degli utenti.
Impatto
Chatbot Arena si è rapidamente affermata come un punto di riferimento nel mondo AI. Grazie alla sua semplicità e trasparenza, attira l’attenzione sia di appassionati sia di professionisti, influenzando le strategie di sviluppo delle principali aziende tecnologiche globali.