scenari

Machine “unlearning”: rimuovere i dati da un’IA non è semplice né privo di conseguenze



Indirizzo copiato

Rimuovere a posteriori un elemento di informazione appreso da una AI a oggi è possibile ma non è una procedura semplice né economica. E, soprattutto, potrebbe avere delle implicazioni ancora imprevedibili. A che punto è la ricerca

Pubblicato il 11 set 2023

Antonio Cisternino

Università di Pisa



renAIssance - intelligenza artificiale

Con riferimento all’IA generativa, si comincia a parlare di “unlearning”, ossia della rimozione di particolari informazioni da un sistema al fine di cambiarne il comportamento. Si tratta di tecniche già impiegabili? Tra quanto tempo saranno disponibili?

Che il tema della rimozione delle informazioni acquisite da un’intelligenza artificiale esista lo ha sottolineato anche il Garante per la privacy a marzo, nel contesto del contenzioso con OpenAI. Ed esiste sia che si tratti di informazioni puntuali sia che si tratti di informazioni contenenti il cosiddetto “bias culturale”, ovverosia l’acquisizione di modelli legati ad una particolare credenza di una parte della popolazione, per assicurare un corretto comportamento da parte dell’AI nelle valutazioni e, potenzialmente, nelle azioni che intraprenderà.

Il problema del bias di apprendimento

Recentemente una studentessa asiatica del MIT ha chiesto ad una AI generativa di migliorare in senso professionale la propria foto ed ha ottenuto il seguente risultato:

A composite of Rona Wang smiling while wearing a red shirt next to the AI-generated image that has made her skin lighter while also enlarging her eyes and making them blue.

L’AI invece di aggiungere o modificare dettagli ha ritenuto più opportuno cambiare i tratti somatici, il colore della pelle e degli occhi. L’intelligenza artificiale usata ha probabilmente visto più persone caucasiche con occhi chiari associate al concetto di “professionale di successo” e ha quindi ritenuto di modificare la foto in tal senso.

Se la stessa AI fosse stata utilizzata per decidere se assumere o meno la studentessa, o concedere il finanziamento di una startup, la decisione non sarebbe certamente adeguata ed è sicuramente uno dei pericoli più grandi che corriamo nell’introduzione delle tecnologie AI nei processi decisionali. Già oggi altri modelli statistici hanno limitato significativamente la discrezionalità dei direttori delle filiali di banca condannando chi rientra nei fattori di rischio più alto ad infiniti problemi anche se magari sarebbero assolutamente in grado di adempiere ai propri obblighi.

I nuovi modelli statistici dell’AI potrebbero aggravare il problema utilizzando aspetti non strettamente rilevanti e legati a “distorsioni” apprese dal particolare dataset utilizzato per l’apprendimento.

Come contrastare il bias

È importante evidenziare che il bias nell’addestramento di una AI non è necessariamente negativo, al contrario una delle motivazioni alla base della creazione di OpenAI era quella di creare una AI non pericolosa per l’uomo e quindi in qualche modo condizionata, ovvero biased. Il rifiuto di spiegare come si crea un’arma o un veleno, è un altro esempio di condizionamento “buono” dell’AI a cui tutti siamo ormai abituati.

Un po’ come accade per noi uomini, il materiale utilizzato per l’apprendimento di una AI determina le nozioni che astrae dal contenuto mostrato, testo nel caso di intelligenze artificiali come GPT e Bard. È inevitabile che il risultato finale sia influenzato dal materiale utilizzato e che inevitabilmente contenga una fotografia della nostra cultura al momento dell’apprendimento.

La procedura di rimozione di un elemento di informazione

Come è possibile quindi rimuovere un elemento di informazione appreso da una AI a posteriori? Ad oggi la risposta è semplice: si rimuove l’elemento dai dati usati per l’addestramento e si addestra nuovamente il modello. Sappiamo però che oggi questa semplice procedura, oltre a richiedere molto tempo può essere economicamente impegnativa, fino ad arrivare per modelli complessi a cifre di 5-10 milioni di dollari. Non è quindi pensabile che normalmente la rimozione di un’informazione valga tanto, ed è una delle argomentazioni usate dai produttori di modelli di AI per dire che in generale le informazioni non si possono rimuovere tempestivamente dal modello.

Ovviamente è possibile agire a posteriori: prima di restituire una risposta la si può analizzare per verificare che non contenga informazioni indesiderate, ma è una soluzione palliativa che non può certo essere ritenuta soddisfacente.

Per questo motivo già a partire dal 2015 i ricercatori hanno cominciato a lavorare ad algoritmi di apprendimento automatico capaci di rimuovere pezzi di informazioni senza richiedere l’intero addestramento del modello. Anche un fattore di 4x nella velocità di apprendimento sarebbe già un grande risultato in termini di risparmi economici, andando a dividere il costo dell’apprendimento iniziale.

Si tratta di una procedura complessa poiché il funzionamento di una rete neurale risiede proprio nello sparpagliare le informazioni nelle connessioni tra neuroni (altrimenti se i dati fossero mantenuti integri sarebbe un database). Come gli autori del primo lavoro illustrano l’idea è quella di “pre-digerire” i dati prima di usarli per l’apprendimento vero e proprio in modo da poter abbattere i costi di modifica del modello cambiando gli esempi dati in ingresso.

In un articolo del 2019 si propone una metodologia per alterare i pesi di un modello disponendo solo degli esempi che si vogliono dimenticare senza avere a disposizione l’intera collezione usata per l’apprendimento del modello.

Più recentemente, in un articolo del 2021, alcuni ricercatori affrontano il problema di rimuovere informazioni basandosi sull’output del modello, senza alcuna informazione sui dati di addestramento.

Ad oggi si tratta di approcci sperimentali, e le performance dei modelli alterati non sono altrettanto efficienti rispetto agli originali. Quella dell’unlearning è comunque un’area molto importante al punto tale da indurre Google a fine giugno 2023 a lanciare una sfida a chi sviluppa algoritmi di machine unlearning così da accelerare lo sviluppo di questa tecnologia mediante la competizione.

Disimparare è possibile?

Per noi uomini sappiamo che disimparare non è davvero possibile, possiamo imparare ad ignorare ricordi o emozioni, ma non è possibile rimuovere l’informazione dalle nostre menti. La necessità biologica di riprodursi e morire contribuisce a superare questo limite ripartendo da zero ad ogni generazione, trasferendo le conoscenze significative ed adattandosi al mondo che evolve nel tempo. Allo stesso tempo sappiamo bene come la memoria contribuisca a definire chi siamo, nel bene e nel male, e dobbiamo considerare le implicazioni di consentire ad una AI di rimuovere una particolare informazione. È probabile che gli effetti possano condizionarne il comportamento anche in modi inattesi, è quindi importante affiancare allo sviluppo della tecnologia le opportune metodologie che assicurino che il comportamento di una AI modificata non sia alterato in modo significativo, altrimenti si rischia di compromettere il funzionamento di tutti i sistemi che dipendono da essa.

Conclusioni

Ad oggi gli unici modi per rimuovere informazioni da un modello AI prevedono il riaddestramento del modello con l’eliminazione dei dati desiderati dagli esempi usati, o la rimozione dall’output di informazioni indesiderate se possibile.

La nascente disciplina del machine unlearning promette di fornire ulteriori metodi più efficienti e meno costosi, ma ad oggi siamo ancora nel mondo della ricerca. Ma come abbiamo imparato con l’AI generativa sono bastati pochi anni dalla pubblicazione delle tecniche fondanti alla sua commercializzazione.

Dobbiamo però interrogarci sulle conseguenze della rimozione di informazioni da un modello e di come questo ne possa alterare il comportamento. Si tratta di un’ulteriore variabile in un mondo già fin troppo complicato.

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Social
Analisi
Video
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati