oltre la black box

Interpretabilità dell’IA: ecco i primi passi per risolvere un grosso problema



Indirizzo copiato

L’opacità dei sistemi di Intelligenza Artificiale, noti come “black box”, ostacola la loro diffusione in settori cruciali come medicina e sicurezza. Recenti progressi, come quelli di Anthropic, mirano a rendere questi modelli più trasparenti e controllabili, migliorando la fiducia e l’adozione, soprattutto nel settore sanitario

Pubblicato il 14 giu 2024

Luigi Mischitelli

Legal & Data Protection Specialist at Fondazione IRCCS Casa Sollievo della Sofferenza



convenzione quadro consiglio europa IA

Tra le tante problematiche che attanagliano l’intelligenza artificiale, quella relativa alla “opacità” del suo funzionamento interno rappresenta uno degli ostacoli più grandi alla sua diffusione. Parliamo di “black box” o “scatola nera” riferendoci alla maggior parte dei sistemi di Intelligenza Artificiale in cui conosciamo input e output ma non tutto ciò che “succede in mezzo”.

AI Algorithms and the Black Box

Questa oscurità può avere gravi implicazioni, specialmente nei settori sensibili come quello sanitario, dove un errore di diagnosi basato su AI può avere conseguenze fatali.

In risposta a questa sfida, enti di ricerca come Anthropic e l’Università dell’Illinois stanno lavorando per rendere gli algoritmi di IA più ‘spiegabili’, cercando di svelare i misteri della black box e garantendo un futuro dell’IA più sicuro e trasparente.

Si rilevano insomma in queste settimane i primi consistenti passi per migliorare l’interpretabilità (interpretability) dell’IA.

La ricerca di Anthropic per svelare la black box

Un team di esperti della società statunitense Anthropic PBC, startup di San Francisco che opera nel campo dell’Intelligenza Artificiale, ha segnato un significativo passo avanti nella nostra capacità di analizzare ciò che accade all’interno di questi modelli. I ricercatori della società californiana hanno dimostrato[1] di poter non solo collegare particolari schemi di attività in un modello linguistico di grandi dimensioni (LLM) a concetti concreti e astratti, ma anche di poter controllare il comportamento di tale modello aumentando o diminuendo questa attività.

La ricerca si basa su anni di lavoro sulla cosiddetta interpretabilità meccanicistica (tecnica di spiegabilità che si concentra sull’individuazione delle idee particolari per cui i neuroni hanno acquisito la capacità di comprendere[2]), in cui i ricercatori effettuano il “reverse engineering” (processo di analisi) delle reti neurali per capire come l’attività dei diversi neuroni di un modello ne determini il comportamento.

Le implicazioni della black box nell’IA generativa

Ovviamente è più facile a dirsi che a farsi, perché i modelli di Intelligenza Artificiale di ultima generazione codificano le informazioni in modelli di attività, in modo ben diverso da particolari neuroni o gruppi di neuroni. Ciò significa che i singoli neuroni possono essere coinvolti nella rappresentazione di un’ampia gamma di concetti diversi. In precedenza, i ricercatori avevano dimostrato di poter estrarre modelli di attività, noti come caratteristiche, da un modello relativamente piccolo e collegarli a concetti interpretabili dall’uomo.

Il lavoro di Anthropic

Questa volta, però, il team di Anthropic ha deciso di analizzare il suo modello linguistico di grandi dimensioni, “Claude 3 Sonnet”, per dimostrare che l’approccio può funzionare su sistemi di Intelligenza Artificiale “commercialmente utili”. I ricercatori della startup californiana hanno addestrato un’altra rete neurale sui dati di attivazione di uno degli strati mediani di neuroni di Sonnet, che è stata in grado di estrarre circa dieci milioni di caratteristiche uniche relative a qualsiasi cosa, da persone e luoghi a idee astratte come il pregiudizio di genere (uno dei bias dell’Intelligenza Artificiale) o il mantenimento di segreti (riservatezza).

È interessante notare che le caratteristiche di concetti simili erano raggruppate insieme, con una notevole sovrapposizione di neuroni attivi. Secondo il team di San Francisco, ciò suggerisce che il modo in cui le idee sono codificate in questi modelli corrisponde alle nostre concezioni di somiglianza. Ma, cosa più pertinente, i ricercatori hanno anche scoperto che regolare l’attività dei neuroni coinvolti nella codifica di queste caratteristiche può avere un impatto significativo sul comportamento del modello. Ad esempio, amplificando in modo massiccio la caratteristica del Golden Gate Bridge (iconico ponte di San Francisco), il modello lo inseriva in ogni risposta, anche se irrilevante, sostenendo addirittura che il modello stesso fosse il punto di riferimento iconico.

Ma il team di Anthropic ha anche sperimentato alcune manipolazioni più “sinistre”. In una di queste, hanno scoperto che attivando eccessivamente una funzione relativa alle e-mail di spam, il modello poteva aggirare le restrizioni e scriverne una propria. È stato anche possibile indurre il modello a usare l’adulazione come mezzo di inganno, potenziando una funzione relativa all’adulazione. Secondo il team della società californiana, non c’è il rischio che gli aggressori utilizzino questo approccio per indurre i modelli a produrre risultati indesiderati o pericolosi, soprattutto perché esistono già modi molto più semplici per raggiungere gli stessi obiettivi. Ma potrebbe rivelarsi un modo utile per monitorare i modelli alla ricerca di comportamenti preoccupanti. Aumentare o diminuire l’attività di diverse caratteristiche potrebbe anche essere un modo per indirizzare i modelli verso risultati desiderabili e allontanarli da quelli meno positivi. Tuttavia, i ricercatori di Anthropic tengono a precisare che le caratteristiche scoperte costituiscono solo una piccola parte di tutte quelle contenute nel modello. Inoltre, l’estrazione di tutte le caratteristiche richiederebbe un’enorme quantità di risorse informatiche, persino più di quelle utilizzate per addestrare il modello. Ciò significa che siamo ancora lontani dall’avere un quadro completo di come questi modelli “pensano”. Tuttavia, la ricerca dimostra che, almeno in linea di principio, è possibile rendere queste “scatole nere” un po’ meno “imperscrutabili”.[3][4]

L’approccio di OpenAI

Passando da Anthropic a OpenAI (patron del popolare ChatGPT), l’approccio della società del gruppo Microsoft alla costruzione dei suoi modelli di Intelligenza Artificiale è stato messo recentemente sotto tiro da alcuni suoi ex dipendenti che accusano l’azienda co-fondata da Elon Musk di correre rischi inutili con una tecnologia che potrebbe diventare dannosa. OpenAI, alcuni giorni dopo, ha pubblicato un nuovo documento di ricerca (apparentemente) volto a dimostrare che l’azienda intende affrontare seriamente i rischi dell’Intelligenza Artificiale rendendo i suoi modelli più spiegabili. Nel documento, i ricercatori dell’azienda hanno illustrato un modo per “sbirciare” all’interno del modello di Intelligenza Artificiale che alimenta ChatGPT, con l’elaborazione di un metodo per identificare il modo in cui il modello memorizza determinati concetti, compresi quelli che potrebbero indurre un sistema di Intelligenza Artificiale a “comportarsi male”. Sebbene la ricerca renda più visibile il lavoro di OpenAI per tenere sotto controllo l’Intelligenza Artificiale, essa evidenzia anche le recenti turbolenze dell’azienda.

La nuova ricerca, infatti, è stata condotta da un team di OpenAI, recentemente sciolto, che si occupava di studiare i rischi a lungo termine della tecnologia. Com’è noto, ChatGPT si basa su una famiglia di modelli linguistici di grandi dimensioni basati su reti neurali artificiali. Queste reti hanno dimostrato una grande capacità di apprendere compiti utili analizzando dati esemplificativi, ma il loro funzionamento non può essere facilmente esaminato come i programmi informatici convenzionali.

La complessa interazione tra gli strati di “neuroni” all’interno di una rete neurale artificiale rende estremamente impegnativa la decodifica del motivo per cui un sistema come ChatGPT ha ottenuto una particolare risposta. Il nuovo documento di OpenAI illustra una tecnica che riduce un po’ il “mistero” della tecnologia, identificando modelli che rappresentano concetti specifici all’interno di un sistema di apprendimento automatico con l’aiuto di un ulteriore modello di apprendimento automatico. L’innovazione chiave consiste nell’affinare la rete utilizzata per “scrutare” all’interno del sistema di interesse identificando i concetti, per renderla più efficiente.

OpenAI ha provato tale approccio identificando i modelli che rappresentano i concetti all’interno di GPT-4, uno dei suoi più grandi e recenti modelli. L’azienda del gruppo Microsoft ha rilasciato il codice relativo al lavoro di interpretabilità, nonché uno strumento di visualizzazione che può essere utilizzato per vedere come le parole in diverse frasi attivano diversi concetti. Sapere come un modello rappresenta determinati concetti potrebbe essere un passo avanti verso la possibilità di ridurre quelli associati a comportamenti indesiderati, per mantenere un sistema di Intelligenza Artificiale sui binari. Potrebbe anche rendere possibile la messa a punto di un sistema di Intelligenza Artificiale per favorire determinati argomenti o idee. L’innovazione principale del team di OpenAI consiste nel mostrare un modo più efficiente per configurare una piccola rete neurale che può essere utilizzata per comprendere i componenti di una rete più grande. Tuttavia, si tratta di una tecnica che deve essere perfezionata per renderla più affidabile.

Il problema de black box nell’Intelligenza Artificiale

Perché tutto questo è importante? Per molti motivi.

La black box dell’IA è connesso al deep learning in generale e ancora di più nei grandi modelli di large language, che diventano sempre più diffusi e in prospettiva potrebbero diventare comuni anche in settori critici per la società. E’ un problema se non sappiamo, a causa della black box, interpretare le loro decisioni/output. Il problema è duplice: ci costringe a rischiare nell’uso di IA che potenzialmente, nella black box, possono nascondere gravi errori e bias; oppure può spingerci a non usare l’IA, perdendone quindi i potenziali vantaggi.

Cinque implicazioni della black box

  1. Complessità dei modelli:
    • Le reti neurali profonde, come le reti neurali convolutive (CNN) o le reti neurali ricorrenti (RNN), consistono in milioni o miliardi di parametri. La loro complessità rende difficile tracciare come input specifici influenzano i risultati finali.
    • Questi modelli sono addestrati su grandi quantità di dati e imparano schemi e rappresentazioni che non sono facilmente interpretabili dall’uomo.
  2. Mancanza di trasparenza:
    • A differenza degli algoritmi tradizionali, dove le regole sono esplicite e visibili, le decisioni prese dai modelli di IA generativa sono il risultato di una serie di trasformazioni e calcoli interni non trasparenti.
    • Anche gli sviluppatori spesso non riescono a spiegare esattamente come e perché il modello ha prodotto un particolare output.
  3. Difficoltà di interpretazione:
    • La natura dei modelli di deep learning rende difficile la loro interpretazione. Ad esempio, non è semplice isolare quale parte del modello ha contribuito a un particolare aspetto dell’output.
    • Le tecniche di interpretazione esistenti, come le mappe di calore o le decomposizioni di attenzione, offrono solo una visione parziale e spesso non completamente comprensibile.
  4. Implicazioni etiche e di sicurezza:
    • La mancanza di trasparenza può avere conseguenze etiche significative. Ad esempio, se un modello di IA generativa produce contenuti inappropriati o biased, è difficile identificare e correggere la fonte del problema.
    • Inoltre, la fiducia degli utenti può essere compromessa se non si comprende come il modello prende decisioni, specialmente in settori critici come la sanità, la finanza o il diritto.
  5. Regolamentazione e conformità:
    • La difficoltà di spiegare i modelli di IA generativa complica la conformità con le normative esistenti che richiedono trasparenza e spiegabilità. Ad esempio, il Regolamento Generale sulla Protezione dei Dati (GDPR) dell’Unione Europea include il diritto degli individui di ottenere una spiegazione delle decisioni automatizzate che li riguardano.

La black box nell’IA applicata al settore sanitario

Scendendo nel particolare, analizziamo uno dei settori (già accennati) a maggior impatto per quanto riguarda la tecnologia in esame. Com’è noto, da diversi anni l’Intelligenza Artificiale sta “prendendo d’assalto” il settore sanitario, mentre i ricercatori condividono le scoperte e i fornitori della tecnologia in esame si affrettano a commercializzare algoritmi avanzati in vari casi d’uso. Termini come apprendimento automatico, apprendimento profondo (Deep Learning) e Intelligenza Artificiale generativa stanno entrando a far parte del vocabolario quotidiano dei diversi attori del settore sanitario, i quali cercano di capire come questi strumenti possano aiutarli a raggiungere i loro obiettivi; tuttavia, la comprensione di come questi strumenti giungano alle loro conclusioni rimane sempre una grande sfida per gli operatori sanitari.

Molti ritengono che se i fornitori della tecnologia non sono in grado di determinare come un’Intelligenza Artificiale genera i suoi risultati, non è possibile stabilire se il modello è distorto o impreciso, il che li rende meno propensi a fidarsi e ad accettare le sue conclusioni. Questa affermazione ha portato le parti interessate a chiedersi come “costruire la fiducia” nell’adozione dell’Intelligenza Artificiale in diagnostica, nell’imaging medico e nel supporto alle decisioni cliniche. Per farlo, il settore sanitario deve esplorare le sfumature dell’attuale dibattito relativo alle black box. Una delle principali attrattive dell’Intelligenza Artificiale in campo sanitario è il suo potenziale per aumentare le prestazioni dei medici nel miglioramento delle cure; tuttavia, il problema della black box inibisce in modo significativo la capacità di questi strumenti di fornire risultati su questi fronti.

Le potenziali conseguenze delle diagnosi errate dell’IA

L’Intelligenza Artificiale “opaca” è una problematica che riguarda pazienti, medici e persino i progettisti della tecnologia, con tutti i possibili danni causati dalla mancanza di spiegabilità di questi strumenti sempre troppo sottovalutati. Il danno derivante dalle diagnosi errate dell’Intelligenza Artificiale in medicina può essere più grave, in alcuni casi, di quello causato dalle diagnosi errate dei medici umani, notando che la caratteristica di non spiegabilità di tali sistemi limita l’autonomia del paziente nel processo decisionale condiviso e che gli strumenti a scatola nera possono creare significativi oneri psicologici e finanziari per i pazienti.

L’importanza degli algoritmi ‘spiegabili’

Per affrontare questi problemi, molte parti interessate del settore sanitario chiedono lo sviluppo e l’adozione di algoritmi di Intelligenza Artificiale “spiegabili”.

La spiegabilità può essere incorporata nell’Intelligenza Artificiale in diversi modi. Per esempio, un gruppo di ricercatori dell’Università dell’Illinois ha dimostrato[5] che l’uso dell’apprendimento profondo può aiutare a risolvere il problema della scatola nera nella diagnostica per immagini. L’approccio dei ricercatori prevede un modello per l’identificazione delle malattie e la segnalazione dei tumori in immagini mediche come radiografie, mammografie e tomografia a coerenza ottica (OCT). Da qui, lo strumento genera un valore compreso tra zero e uno per indicare la presenza di un’anomalia, che può essere utilizzato nel processo decisionale clinico.

Tuttavia, oltre a questi valori, il modello fornisce anche una “mappa di equivalenza” (una versione trasformata dell’immagine medica originale che evidenzia le regioni interessanti dell’immagine) che aiuta lo strumento a “spiegare” il suo ragionamento, consentendo ai medici di verificare l’accuratezza e spiegare i risultati diagnostici ai pazienti.

Conclusioni

Nonostante i successi di questa tecnologia, si discute ancora se questi strumenti risolvano effettivamente il problema della scatola nera o se gli algoritmi a scatola nera siano ancora un problema. Staremo a vedere. [6]

Note


[1] Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet. Transformer Circuits Thread. https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html

[2] Comprensione delle reti neurali: quadro quantitativo di CoSy per la valutazione della spiegazione testuale. Code Labs Academy. https://codelabsacademy.com/it/news/understanding-neural-networks-cosys-quantitative-framework-for-textual-explanation-evaluation-2024-06-04

[3] Breaking Into AI’s Black Box: Anthropic Maps the Mind of Its Claude Large Language Model. Singularity. https://singularityhub.com/2024/05/29/breaking-into-ais-black-box-anthropic-maps-the-mind-of-its-claude-large-language-model/

[4] The AI “black box” conundrum. ORF. https://www.orfonline.org/research/the-ai-black-box-conundrum

[5] A Test Statistic Estimation-Based Approach for Establishing Self-Interpretable CNN-Based Binary Classifiers. IEEE. https://ieeexplore.ieee.org/document/10378976

[6] Navigating the black box AI debate in healthcare. HealthITAnalytics.com. https://healthitanalytics.com/features/navigating-the-black-box-ai-debate-in-healthcare

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Analisi
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 3