scenario

Come addestrare i modelli di AI nel rispetto di norme e diritti: lo spiega l’EDPB



Indirizzo copiato

L’EDPB ha rilasciato un parere su come gestire in maniera corretta il trattamento dei dati personali nelle fasi di addestramento dei modelli di intelligenza artificiale: ecco i punti principali

Pubblicato il 7 gen 2025

Giuseppe D'Acquisto

Funzionario del Garante per la protezione dei dati personali, Titolare dell’insegnamento di intelligenza artificiale presso il Dipartimento di Giurisprudenza dell’Università LUISS Guido Carli



gdpr (3) (1)

L’European Data Protection Board (EDPB) a dicembre ha rilasciato un parere sul trattamento dei dati personali nell’ambito della fase di addestramento dei modelli di intelligenza artificiale.

A distanza di qualche settimana dall’adozione, è utile una lettura di questo importante documento che cerchi da una parte di cogliere il quadro d’insieme riguardo l’applicazione all’intelligenza artificiale del framework normativo in materia di protezione dei dati personali e, dall’altra, di intuire i problemi nuovi che si aprono in questo scenario e le riflessioni ulteriori che tali problemi inducono.

Dati personali e AI, cosa dice l’EDPB

Il pronunciamento del Board riguarda quattro quesiti:

  • se un modello di intelligenza artificiale, e in particolare l’insieme dei parametri di cui questo si compone, possa essere considerato una collezione di dati “anonimi”;
  • come possano i titolari dimostrare l’appropriatezza dell’interesse legittimo come base giuridica per il trattamento di dati personali nelle fasi di addestramento (o development);
  • di impiego (o deployment) del modello;
  • se un trattamento illecito di dati personali nella fase di development abbia conseguenze sulla liceità del deployment del modello di IA.

Già il primo quesito affronta una questione dirimente: la natura eventualmente anonima dei parametri di un modello di intelligenza artificiale addestrato usando dati personali. Se così fosse, allora ogni modello sarebbe un oggetto de-regolamentato che potrebbe essere impiegato indefinitamente per qualsiasi scopo senza alcun obbligo privacy da parte di chi lo usa.

I chiarimenti sull’anonimizzazione

Qui l’EDPB fissa un primo punto fermo: l’inintelligibilità dei parametri dei modelli non deve essere confusa per una forma di anonimizzazione. In un passaggio cruciale del parere, l’EDPB afferma che i dati (anche personali) impiegati in fase di addestramento di un modello possono comunque rimanere “assorbiti” nei parametri del modello, ossia rappresentati tramite grandezze matematiche non immediatamente intellegibili, ma che conservano in una forma diversa le informazioni originali associate a tali dati. Quelle informazioni possono infatti, al ricorrere di determinate condizioni, essere estratte in una fase successiva.

È una presa di posizione degna di attenzione, che evita di indulgere alla facile tentazione di rifugiarsi nella deresponsabilizzazione in un contesto di mercato nel quale pochi soggetti sviluppano e addestrano modelli, e molti altri li impiegano attraverso diverse forme di riaddestramento per scopi propri. Non c’è dunque una automatica interruzione di responsabilità tra development e deployment, e chi usa un modello che non ha sviluppato deve sapere che può trovarsi a trattare dati personali.

Naturalmente, la ragionevolezza dello sforzo necessario per estrarre dati personali dai parametri del modello conta, e se lo sforzo è “irragionevole” allora la natura anonima dei parametri di un modello di IA può essere affermata. Tuttavia, prosegue l’EDPB, la ricerca scientifica è particolarmente dinamica in questo settore e vi sono già oggi significativi risultati che dimostrano come sia possibile utilizzare mezzi, che dobbiamo assumere ragionevoli, per estrarre dati personali da alcuni modelli di IA, o semplicemente ottenere anche in modo accidentale dati personali tramite interazioni con un modello di IA (ad esempio attraverso l’uso di specifici prompt nei casi di impiego di large language models).

I criteri di valutazione

Dunque, la determinazione della natura anonima dei parametri di un modello deve essere valutata, sulla base di criteri specifici, caso per caso tenendo conto di ciò che la ricerca scientifica indicherà nel tempo come mezzo ragionevole a stato dell’arte.

L’EDPB si sofferma su questi criteri, fornendo indicazioni molto concrete. Ad esempio, l’impiego, in fase di addestramento, di dati pubblici oppure riservati, la disponibilità pubblica ovvero ristretta del modello, l’applicazione di tecniche di anonimizzazione al set di dati prima che l’addestramento abbia luogo, l’impiego di tecniche di regolarizzazione per favorire generalizzazioni e evitare forme di overfitting, o (aspetto rilevantissimo) il rapporto tra il volume di dati impiegati per l’addestramento e il numero di parametri del modello (quanto maggiore è il numero di parametri del modello rispetto alla quantità di dati impiegati, tanto meno verosimile è l’ipotesi sulla natura anonima del modello[1]).

Il presupposto del legittimo interesse

Il secondo e terzo quesito, sin dalla loro formulazione, testimoniano quella “inevitabile attrazione” verso il legittimo interesse come presupposto giuridico per l’addestramento a cui si faceva riferimento nel nostro precedente articolo. È ben noto il dilemma della scelta della base giuridica per i trattamenti effettuati sul web (non molto dissimili da quelli effettuati nel contesto dell’addestramento dei modelli IA), nei quali pur potendo imbattersi in dati dalla natura cosiddetta sensibile, il titolare che li tratta non è nelle condizioni di accorgersi immediatamente di tale natura e di intervenire con più stringenti misure di tutela.

Sulla questione (che, invero, era riferibile al quadro giuridico preesistente al GDPR, ma che nella sostanza si mantiene invariata) è intervenuta la Corte di Giustizia Europea nel 2019 con la sentenza C-136/17[2], affermando che il divieto e le restrizioni relativi al trattamento di dati sensibili si applicano … per il tramite di una verifica da effettuare, sotto il controllo delle autorità nazionali competenti, sulla base di una richiesta presentata dalla persona interessata.

Ossia, detto in altri termini, non essendo possibile, nell’ambito dell’indicizzazione di una pagina web, accertare preliminarmente per via semantica la natura sensibile di un dato, tale particolare qualità può essere soltanto verificata ex-post dal gestore di un motore di ricerca a seguito di una specifica richiesta di de-indicizzazione presentata dall’interessato.

L’EDPB non interviene sulla determinazione della base giuridica idonea al trattamento delle categorie speciali di dati (di cui all’art. 9 del GDPR), tema escluso dai quesiti della DPC irlandese, richiamando (al par. 17 del parere) per questa fattispecie i principi generali e lasciando dunque impregiudicato lo schema di verifica ex-post identificato dalla sentenza C-136/17, ma indica un articolato percorso di compliance per l’applicazione dell’art 6(1)(f) del GDPR, mutuato dalle proprie recenti linee guida sul legittimo interesse[3] e valido con opportune varianti sia nella fase di development sia in quella di deployment.

Le condizioni necessarie

In particolare, la legittimità dell’interesse è accertata al sussistere di tre condizioni cumulative: non vi siano leggi che ostano al raggiungimento di quell’interesse; l’interesse è ben rappresentato da chi ne è portatore; l’interesse è fattuale e non speculativo o futuro. Inoltre, il trattamento del dato personale deve essere necessario per il conseguimento dell’interesse (ovvero, senza il dato quell’interesse non può essere realizzato e non esistono mezzi meno invasivi per conseguirlo).

Infine, occorre che sia stato realizzato un bilanciamento tra gli interessi del soggetto che sviluppa o impiega un modello e della persona a cui i dati si riferiscono, di modo che siano considerati tutti i diritti in gioco e che il raggiungimento degli interessi del titolare non pregiudichi i diritti di cui gode l’interessato. All’esito del bilanciamento, qualora gli interessi, i diritti e le libertà degli interessati prevalgano ancora sugli interessi perseguiti dal titolare, il titolare può ulteriormente intervenire a salvaguardia degli interessati attraverso l’introduzione di misure di mitigazione per limitare l’impatto del trattamento su tali interessi, diritti e libertà individuali.

Le misure di mitigazione

Proprio con riguardo alla scelta delle misure di mitigazione, l’EDPB differenzia operativamente il bilanciamento da effettuare durante la fase di development da quello richiesto (eventualmente anche a soggetti diversi) nelle fasi di deployment. Di particolare rilievo sono le misure di trasparenza, quelle per l’esercizio dei diritti di opposizione o di cancellazione (a tal proposito, è interessante il riferimento all’introduzione di uno scarto di tempo tra la raccolta del dato e l’addestramento del modello, proprio per consentire l’eventuale esercizio di tali diritti), come pure le misure adottate per evitare uno scraping incondizionato dei contenuti sul web (quali, a titolo esemplificativo, la selezione delle fonti, il rispetto dei protocolli di esclusione robots.txt o ai.txt con i quali i gestori dei siti web possono segnalare la scelta di non offrire i propri contenuti all’indicizzazione o al training dei modelli di IA).

A queste misure, particolarmente indicate per la fase di development, si aggiungono misure più specifiche che i titolari possono adottare nelle fasi di deployment. Considerato il limitato margine di manovra del deployer sull’addestramento del modello, queste misure ulteriori riguardano l’output del modello, di modo che non si verifichi il fenomeno della cosiddetta data regurgitation, ovvero la riproposizione in uscita di dati memorizzati dal modello stesso. Tra queste, la misura più efficace indicata dall’EDPB è il ricorso a filtri che, sulla base di black list appositamente predisposte dal titolare, evitino che determinate sequenze di caratteri (con il contenuto a queste associato) possano essere presentate come risposta a specifici prompt di interrogazione forniti in ingresso al modello.

Infine, con riguardo al quarto quesito sulla possibilità che un trattamento illecito dei dati personali nella fase di development abbia conseguenze sulla liceità del deployment del modello, l’EDPB offre una costruzione concettuale. Essa si fonda sulla considerazione che le due fasi sono certamente dipendenti, ma non tutto ciò che avviene nella fase (temporalmente precedente) di development, inclusa l’illiceità, si riverbera automaticamente nella fase (temporalmente successiva) di deployment. Pertanto, possono esistere delle situazioni di raccolta e trattamento illecito nella fase di development che possono essere “sanate” e non produrre conseguenze nella fase di deployment (operata da parte dello stesso soggetto che ha effettuato il development o di un soggetto terzo). Lo strumento per effettuare questa “sanatoria” è l’anonimizzazione dei dati. Ossia, se è possibile dimostrare che il modello è anonimo, allora la fase temporalmente successiva di deployment non eredita l’eventuale illiceità della fase di addestramento.

Lo scenario futuro

Emergono dunque da questa lettura del parere un approccio all’applicazione delle norme e una linea di enforcement dettata dall’EDPB di stampo non massimalista, anzi si configura piuttosto chiaramente una linea molto pragmatica, che punta a risolvere i problemi dell’oggi con soluzioni dell’oggi, offrendo una interpretazione del GDPR non bloccante rispetto allo sviluppo dell’intelligenza artificiale. La giurisprudenza che sarà maturata dalle autorità di protezione dei dati e dalle corti ci dirà se questo approccio pragmatico sarà idoneo a risolvere i problemi del domani.

Tra questi, se ne segnalano due (che non v’è chi non veda): il primo riguarda la possibilità di riconoscere in un trattamento automatizzato (quale è l’addestramento di un modello) la natura sensibile di un dato (o qualsiasi altro carattere del dato in grado di segnalare uno specifico rischio per gli interessati) e far discendere da questa consapevolezza forme più rafforzate (o differenziate) di tutela; il secondo riguarda l’impiego dell’anonimizzazione come strumento di superamento di illiceità maturate in fase di development e, in particolare, l’inevitabile incentivo che questa “sanatoria” offre a forme sbrigative e approssimate di anonimizzazione, magari soltanto annunciate ma non effettive e dunque del tutto inidonee allo scopo.

Per quanti problemi si cerchi di risolvere, come si vede, altrettanti, e molto complessi, se ne pongono. Per la loro soluzione – sia qui consentito esprimere un auspicio – un consistente spazio nel dibattito dovrà essere dedicato alla ricerca di soluzioni tecnologiche (dalla differential privacy al machine unlearning), che sempre più distintamente emergono come opzioni concrete ed efficaci per garantire agli interessati forme di tutela oggettive e misurabili, e che per queste caratteristiche appaiono adeguate a confrontarsi con la complessità, la scala e la velocità dei trattamenti effettuati nell’ambito delle applicazioni di intelligenza artificiale.


Note

[1] Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019), Reconciling modern machine-learning practice and the classical bias–variance trade-off. Proceedings of the National Academy of Sciences, 116(32)

[2] Causa C‑136/17 GC e a. contro Commission nationale de l’informatique e des libertés (CNIL), https://curia.europa.eu/juris/document/document.jsf?text=&docid=218221&pageIndex=0&doclang=IT&mode=req&dir=&occ=first&part=1&cid=4005669

[3] EDPB Guidelines 1/2024 on processing of personal data based on Article 6(1)(f) GDPR, Version 1.0, adopted on 8 October 2024 , https://www.edpb.europa.eu/our-work-tools/documents/public-consultations/2024/guidelines-12024-processing-personal-data-based_en

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Social
Analisi
Video
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4