I ricercatori della compagnia di intelligenza artificiale Anthropic hanno trovato indizi sul funzionamento interno dei modelli linguistici di grandi dimensioni, il che potrebbe aiutare a prevenire il loro uso improprio e a ridurre i potenziali rischi. Lo studio prende le mosse dal fatto che i codici alla base dei sistemi di intelligenza artificiale non sono scritti linea per linea dai programmatori, ma creati in modo che tali sistemi apprendano autonomamente dai dati forniti. Questo rende difficile capire o correggere gli errori commessi dai modelli.
Tradizionalmente, i modelli di IA sono trattati come “scatole nere”: input complessi producono risposte altrettanto complesse, senza una chiara comprensione dei processi sottostanti. Questo limita la fiducia degli utenti nell’affidabilità e sicurezza dei modelli, poiché non si comprende come facciano, ad esempio, ad evitare risposte potenzialmente dannose, pregiudizievoli o non veritiere. “Aprire” questa scatola nera non è semplice; lo stato interno del modello risulta infatti essere una lunga lista di numeri privi di significato diretto.
Il lavoro del team di Anthropic e il ‘dictionary learning’
Per affrontare questi problemi, una sotto-disciplina della ricerca sull’intelligenza artificiale, chiamata “interpretabilità meccanicistica“, cerca di capire il funzionamento interno di questi modelli. Recentemente, il team di Anthropic, la start-up americana che ha creato il modello AI Claude, ha annunciato un’importante scoperta utilizzando una tecnica chiamata “dictionary learning”.
La scoperta è stata descritta in un post sul sito web della startup pubblicato il 21 maggio, intitolato “mappare la mente di un LLM”. Secondo quanto riportato dall’articolo, precedentemente, sono stati fatti progressi abbinando schemi di attivazioni neuronali, noti come caratteristiche, a concetti interpretabili. Utilizzando la tecnica del “dictionary learning”, derivata dal machine learning classico, i ricercatori hanno quindi isolato schemi ricorrenti di attivazioni neuronali.
Come l’interpretabilità può aiutare a mitigare i rischi associati all’uso dell’IA
Questa tecnica permette di rappresentare lo stato interno del modello attraverso poche caratteristiche attive, semplificando la comprensione dei processi interni del modello. Nell’ottobre 2023, Anthropic ha applicato con successo il dictionary learning a un piccolo modello di linguaggio, identificando caratteristiche coerenti con concetti specifici come testo in maiuscolo, sequenze di DNA e argomenti di funzioni in Python. Questo successo preliminare ha motivato ulteriori ricerche su modelli di dimensioni maggiori.
In tal modo, i ricercatori hanno identificato e mappato circa 10 milioni di caratteristiche nel modello linguistico proprietario di Anthropic, Claude 3.0 Sonnet – uno dei più avanzati modelli di linguaggio attualmente in uso – fornendo una mappa concettuale dettagliata degli stati interni del modello. Le caratteristiche individuate includono entità come città, persone, elementi atomici, campi scientifici e sintassi di programmazione, dimostrando una profondità e astrazione avanzata. Hanno quindi rilevato che alcune di tali caratteristiche si attivavano nel modello solo se veniva interrogato su argomenti o concetti specifici.
Queste caratteristiche possono essere manipolate manualmente per cambiare il comportamento del sistema. Ad esempio, attivando una caratteristica legata alla lusinga, il modello rispondeva con elogi esagerati. Questo progresso potrebbe permettere un controllo più efficace dei modelli di intelligenza artificiale, aiutando a mitigare bias, rischi di sicurezza e problemi di autonomia.
I ricercatori di Anthropic hanno quindi identificato caratteristiche correlate a potenziali rischi, come discriminazione di genere, affermazioni razziste e comportamenti problematici dell’IA, scoperte fondamentali per migliorare la sicurezza dei modelli di IA, permettendo di monitorare comportamenti pericolosi e orientare il modello verso risultati desiderabili. L’analisi delle caratteristiche può anche potenziare tecniche di sicurezza esistenti, migliorando ulteriormente la resistenza ai jailbreak.
Le sfide future dell’interpretabilità dei modelli di IA
Nonostante questi progressi, ci sono ancora molte sfide da affrontare. I modelli più grandi potrebbero contenere miliardi di caratteristiche, richiedendo immense risorse computazionali per essere comprese completamente.
Questa ricerca rappresenta comunque un passo avanti significativo verso la comprensione e il controllo dei sistemi di intelligenza artificiale, riducendo il timore che possano diventare ingovernabili. Tuttavia, questa è solo una parte di un più ampio sforzo di ricerca che mira a rendere l’IA più trasparente e comprensibile.
In questo senso, i metodi di interpretabilità mirano a spiegare il motivo per cui l’IA prende determinate decisioni, migliorando la fiducia degli utenti. Tecniche come l’analisi delle “attenzioni” nei modelli Transformer Circuits, componenti chiave all’interno delle architetture di alcuni modelli di linguaggio, ad esempio, permettono di visualizzare quali parti dell’input il modello considera più significative. Questo approccio può fornire un quadro dettagliato di come i modelli linguistici elaborano le informazioni e prendono decisioni.
L’approccio del team dell’Università di Ginevra alla scelta del metodo di interpretabilità
Una delle principali sfide è la scelta del metodo di interpretabilità corretto. Diversi metodi possono produrre risultati differenti anche sullo stesso compito, sollevando la questione di quale sia il più affidabile. Per affrontare questo problema, un team di ricercatori dell’Università di Ginevra (UNIGE), degli Ospedali Universitari di Ginevra (HUG) e della National University of Singapore (NUS) ha sviluppato un nuovo approccio per valutare le tecniche di interpretabilità dell’intelligenza artificiale, volto a comprendere meglio come l’IA prende decisioni e se utilizza i dati corretti per farlo. Il team ha anche creato un dataset sintetico per facilitare la valutazione delle IA nel contesto delle sequenze temporali, mentre i prossimi passi del progetto di ricerca includono test clinici per migliorare l’adozione dell’IA in medicina.
Il contributo degli agenti IA del MIT per la comprensione delle reti neurali
Un altro gruppo di ricercatori, all’interno del Massachusetts Institute of Technology, ha invece introdotto agenti IA capaci di eseguire esperimenti su vari sistemi computazionali per descrivere il funzionamento interno delle reti neurali, risolvendo il problema della loro interpretabilità. Questi agenti, basati su modelli di linguaggio preaddestrati, non si limitano a classificare o riassumere, ma partecipano attivamente alla formazione di ipotesi, ai test sperimentali e all’apprendimento iterativo. Il loro approccio, denominato FIND (Facilitating Interpretability through Novel Design) consente agli agenti IA di pianificare ed eseguire test, producendo spiegazioni sotto forma di descrizioni linguistiche e codice. Questo metodo attivo differisce dalle tradizionali tecniche passive, migliorando significativamente la comprensione e la trasparenza dei modelli di IA.
L’importanza della collaborazione tra ricercatori, industrie e regolatori
I progressi nel campo dell’interpretabilità, quindi, possono contribuire a mitigare i rischi associati all’uso dell’IA. Comprendere meglio come funzionano questi modelli può aiutare a prevenire usi impropri. Inoltre, possono aumentare la capacità di correggere comportamenti anomali nei modelli.
Le ricerche in corso sono fondamentali per migliorare la comprensione e il controllo dei modelli di IA. Questi progressi non solo contribuiscono a rendere l’IA più affidabile e sicura, ma aprono anche nuove possibilità per l’uso responsabile dell’IA in vari settori. La collaborazione continua tra ricercatori, industrie e regolatori sarà essenziale per affrontare le sfide future e garantire che i benefici dell’IA possano essere pienamente realizzati.