L’Unione europea (UE) ha da anni la piú ampia e articolata normativa sulla tutela della privacy e dei dati personali, da cui hanno tratto ispirazione le legislazioni di numerosi Stati non europei. Piú recentemente si è dotata di un’ampia e articolata normativa sull’intelligenza artificiale (‘AI’), che ha destato grande interesse da parte di molti Paesi extra-europei, imprese, istituti di ricerca e società civile.
L’AI pone numerose questioni che riguardano anche la privacy e i dati personali e, quindi, determina la necessità di un coordinamento tra la disciplina settoriale ad essa dedicata e quella sulla tutela della privacy e dei dati personali. Nel governare l’AI, l’UE, come molti Paesi extraeuropei, si trova di fronte alla sfida di stimolare l’innovazione tecnologica, salvaguardando nel contempo i diritti degli individui. Un’analoga esigenza di un bilanciamento tra gli interessi generali allo sviluppo della ricerca e delle attività economiche e i diritti individuali si è posta anche quando l’UE ha legiferato in tema di privacy e dati personali.
Per agevolare le imprese, i ricercatori e gli utilizzatori dell’AI, l’UE ha dettato una disciplina uniforme dell’AI direttamente applicabile in tutti gli Stati membri. Questo approccio è stato anche seguito con riguardo alla normativa sui dati personali.
Nonostante queste analogie tra legislazione europea sull’AI e legislazione sulla tutela dei dati personali la loro applicazione congiunta in vari casi richiede un non facile esercizio interpretativo.
Indice degli argomenti
La rilevanza dei dati personali nello sviluppo e nell’uso dell’AI
Chiunque sviluppa, fornisce a terzi o utilizza un sistema AI deve tener conto dell’esigenza di tutelare i dati personali che sono e saranno trattati da tale sistema. Infatti un sistema AI richiede il trattamento di enormi quantità di dati sin dalla sua progettazione, durante il suo addestramento, nel corso della sua operatività e per l’intero ciclo di vita.
Data l’ampia definizione di dato personale ai sensi del Regolamento generale sulla protezione dei dati GDPR[1], nella maggioranza dei casi, i dati usati da un sistema AI comprendono inevitabilmente anche dati personali e quindi sono soggetti alla disciplina del GDPR. Pertanto, un sistema AI dev’essere progettato e realizzato in modo da rispettare i principi di trattamento dei dati personali dettati dal GDPR. Inoltre, un sistema AI dev’essere utilizzato conformemente a tali principi.
In effetti, i principi del GDPR sono stati tenuti in considerazione quando il legislatore europeo ha normato i sistemi AI. Il Regolamento europeo sull’intelligenza artificiale AI Act[2] enuclea alcuni principi applicabili ai sistemi AI che evocano quelli sanciti dal RGPD per la tutela dei dati personali. La trasparenza, equità, vita privata, robustezza tecnica e sicurezza dei sistemi AI di cui al considerando 27 dell’AI Act appaiono simili alla trasparenza, liceità, correttezza, sicurezza e riservatezza dei dati personali ex art. 5 del GDPR.
Inoltre, il GDPR disciplina ogni trattamento automatizzato di dati personali, a prescindere dalla tecnologia utilizzata[3]. Pertanto, esso è applicabile ai sistemi AI che trattano dati personali e gli individui a cui appartengono tali dati godono di una serie di diritti. In particolare, l’art. 22 del GDPR regola il processo decisionale automatizzato relativo alle persone fisiche, ossia l’adozione di decisioni nei confronti di queste ultime mediante un trattamento automatizzato dei loro dati personali. Questa disciplina è solitamente rilevante per i sistemi AI. Infatti, i sistemi AI vengono spesso utilizzati per prendere decisioni automatizzate che producono effetti sugli individui.
L’AI Act presenta alcune analogie con il GDPR. È anch’esso un regolamento ed è quindi direttamente applicabile in tutti gli Stati membri dell’UE[4]; ha portata generale, cioè non limitata a specifici settori economici; disciplina i sistemi AI in modo differenziato a seconda dello specifico livello di rischio (approccio basato sul rischio)[5]. Queste sono caratteristiche sostanzialmente simili ad alcuni tratti che contraddistingono il GDPR rispetto alla Direttiva 95/46 che lo ha preceduto[6].
Le finalità che l’AI Act mira a soddisfare comprendono anche la tutela dei diritti fondamentali. In effetti, esso mira a “promuovere la diffusione di un’intelligenza artificiale (IA) antropocentrica e affidabile, garantendo nel contempo un livello elevato di protezione della salute, della sicurezza e dei diritti fondamentali sanciti dalla Carta dei diritti fondamentali dell’Unione europea (…)” (considerando 1). Inoltre, l’AI Act detta “regole specifiche sulla protezione delle persone fisiche con riguardo al trattamento dei dati personali, consistenti in limitazioni dell’uso dei sistemi di IA per l’identificazione biometrica remota a fini di attività di contrasto, dell’uso dei sistemi di IA per le valutazione dei rischi delle persone fisiche a fini di attività di contrasto e dell’uso dei sistemi di IA di categorizzazione biometrica a fini di attività di contrasto (…)”.
Ma l’AI Act afferma esplicitamente che esso lascia impregiudicato il GDPR (art. 2, comma 7), precisando che restano salvi gli obblighi dei fornitori e dei ‘deployer’ dei sistemi AI[7] nel loro ruolo di titolari del trattamento o responsabili del trattamento ai sensi del GDPR, nella misura in cui la progettazione, lo sviluppo o l’uso di sistemi di AI comportino il trattamento di dati personali, cosí come tutti i diritti e le garanzie di cui godono gli interessati ai sensi del GDPR, compresi i diritti connessi al processo decisionale esclusivamente automatizzato relativo alle persone fisiche, compresa la profilazione (considerando 10[8]).
Pertanto, il GDPR detta una disciplina complementare e integrativa di quella dell’AI Act per quanto concerne il trattamento di dati personali mediante l’AI. Questo si spiega con il fatto che l’AI Act è principalmente una normativa sulla sicurezza dei prodotti immessi sul mercato, volta ad assicurare che i sistemi AI sono realizzati in modo sicuro cosí da non arrecare danni ai consumatori, alle infrastrutture, alle cose o all’ambiente, mentre il GDPR è una normativa sulla tutela dei diritti umani, che garantisce agli individui una serie di diritti con riguardo al trattamento dei loro dati personali.
Inoltre, l’AI Act non regola tutti i sistemi AI, ma solo quelli ad alto rischio, suscettibili di avere un impatto nocivo significativo sulla salute, la sicurezza e i diritti fondamentali delle persone nell’UE. Piú precisamente, l’AI Act vieta categoricamente i sistemi AI che comportino rischi inaccettabili[9], detta regole stringenti per i sistemi di AI ad alto rischio e alcuni obblighi di trasparenza per quelli che presentino rischi limitati[10]. Esso non disciplina affatto i sistemi AI con un profilo di rischio minimo o pari a zero.
Per contro, come detto, qualsiasi sistema AI (anche se in fase di progettazione) rientra nell’ambito di applicazione del GDPR se comporta il trattamento automatizzato di dati di individui che si trovano nell’UE.
In altri termini, quando i dati personali vengono utilizzati in sistemi AI ad alto rischio, gli sviluppatori, i ‘deployers’ e gli utilizzatori dei sistemi AI sono soggetti sia agli obblighi normativi del GDPR che a quelli dell’AI Act. Sarebbe problematico fornire o utilizzare un modello AI per il cui sviluppo e/o addestramento sono stati utilizzati dati personali in violazione del GDPR.
Anche i sistemi AI che non sono classificati come ad alto rischio ai sensi dell’AI Act e sono, quindi, soggetti ad una disciplina meno rigorosa, devono rispettare le norme sulla tutela dei dati personali. Sul piano pratico, essi dovranno avere caratteristiche tecniche ‘data-friendly’.
Protezione dei dati personali nei sistemi di intelligenza artificiale
Risulta chiaro che il GDPR e l’AI Act si completano a vicenda per creare un quadro normativo che incoraggia l’innovazione tutelando al tempo stesso i diritti degli individui.
Mentre il GDPR garantisce la protezione dei dati personali e della privacy, l’AI Act detta regole per l’uso etico e sicuro dei sistemi AI, basato sui principi di intervento e sorveglianza umani, robustezza tecnica e sicurezza, vita privata e governance dei dati, trasparenza, diversità, non discriminazione ed equità, benessere sociale e ambientale.
Il GDPR può contribuire in modo decisivo a realizzare il fine sotteso alla politica europea sull’AI, piú volte ribadito nell’AI Act: fare in modo che l’AI sia “una tecnologia antropocentrica”, cioè costituisca uno “strumento per le persone, con il fine ultimo di migliorare il benessere degli esseri umani”[11].
Ne deriva l’esigenza di un’applicazione congiunta delle norme del GDPR e di quelle dell’AI Act alle operazioni di trattamento di dati personali mediante i sistemi AI contempleti dall’AI Act. Questa sinergia garantisce che i sistemi di AI funzionino in modo sicuro ed equo, assicurando, oltre alla sicurezza dei consumatori, il rispetto dei loro diritti fondamentali.
L’AI Act potrebbe essere considerato come una normativa sulla tutela dei dati personali di nuova generazione, ‘sollecitata’ dall’ultima evoluzione nel campo dell’informatica[12]. Ciò richiede un coordinamento tra le disposizioni dell’Ai Act e quelle del GDPR.
Alcuni esempi di applicazione congiunta di norme del GDPR e dell’AI Act
Quando lo sviluppo, la fornitura e l’uso dell’AI comporta il trattamento di dati personali di individui che si trovano nell’UE occorre applicare sia le norme dell’AI Act che quelle del GDPR[13].
Ad esempio, sia il GDPR che l’AI Act impongono specifici obblighi a coloro che rivestono determinati ruoli in relazione al trattamento di dati personali (titolare o responsabile del trattamento) ovvero rispetto ad un sistema AI (sviluppatore, ‘deployer’, fornitore o utilizzatore). È importante comprendere quale ruolo si riveste ai sensi del GDPR e dell’AI Act e vedere come gli obblighi imposti da un Regolamento interagiscano con quelli che derivano dall’altro. Il fornitore o il ‘deployer’ di un sistema AI può essere titolare del trattamento ai sensi del GDPR.
Cosí, ad esempio, lo sviluppatore di un sistema AI “ad alto rischio”, prima di poterlo immettere sul mercato e fornire ai consumatori, deve compiere una valutazione della conformità di tale sistema ai requisiti stabiliti dall’AI Act[14]. Tale valutazione si accompagna ad alcuni adempimenti previsti dal GDPR, tra cui la valutazione di impatto sulla protezione dei dati (‘DPIA’)[15]. Infatti, una DPIA è richiesta in presenza di una “valutazione sistematica e globale di aspetti personali relativi a persone fisiche, basata su un trattamento automatizzato, compresa la profilazione, e sulla quale si fondano decisioni che hanno effetti giuridici o incidono in modo analogo significativamente su dette persone fisiche” (art. 35, par. 3 del GDPR).
Per i sistemi ad alto rischio l’AI Act impone ai ‘deployers’ di sistemi di AI ad alto rischio di svolgere una valutazione d’impatto sui diritti fondamentali (‘FRIA’) prima di metterli in uso al fine di “individuare i rischi specifici per i diritti delle persone o dei gruppi di persone che potrebbero essere interessati e di individuare le misure da adottare al concretizzarsi di tali rischi” (considerando 96)[16]. Il rapporto tra la FRIA e la DPIA è chiarito dall’AI Act, secondo cui se qualsiasi obbligo relativo alla FRIA è già rispettato in virtú della DPIA effettuata ai sensi del GDPR, la FRIA è richiesta solo per quegli aspetti che non sono già ricompresi nella DPIA.
È stato sottolineato come vi siano delle sinergie tra FRIA e DPIA nella misura in cui la risposta ad una questione affrontata nell’ambito della DPIA possa anche rispondere ad una questione oggetto della DPIA e viceversa[17].
L’AI Act impone degli obblighi volti a garantire la tutela dei diritti umani, tra cui quello per il ‘deployer’ di un sistema AI ad alto rischio di condurre una valutazione dell’impatto sulla protezione dei dati che l’uso di tale sistema può avere (art. 27). A tal fine, il ‘deployer’ deve individuare e valutare i rischi che l’uso del sistema AI ad alto rischio possa avere sui diritti fondamentali degli individui con cui il sistema sarà impiegato. Questa valutazione, pur non essendo limitata al diritto alla tutela dei dati personali, dovendo considerare tutti i diritti fondamentali degli individui che potranno subire gli effetti dell’uso del sistema AI, presenta analogie con la DPIA condotta ai sensi del GDPR.
È poi possibile che uno Stato membro nomini l’autorità nazionale per la protezione dei dati (‘DPA’) anche autorità di vigilanza del mercato ai sensi dell’AI Act (‘MSA’)[18]. Questo è l’approccio seguito dall’UE, posto che il Garante europeo della protezione dei dati (‘EDPS’) è designato dall’AI Act quale autorità competente a vigilare sul rispetto da parte di Istituzioni, Organi e Organismi dell’UE delle norme dell’AI Act ad essi applicabili (art. 70, comma 9).
Il Comitato europeo per la protezione dei dati (‘EDPB’) ha raccomandato agli Stati membri di optare per la designazione della DPA come MSA dei sistemi AI ad alto rischio, evidenziando che tali autorità, oltre a soddisfare i requisiti di indipendenza richiesti dall’AI Act, hanno dimostrato in vari casi la loro conoscenza e competenza in materia di AI quando hanno adottato linee guida o provvedimenti su questioni legate al trattamento dei dati personali mediante sistemi AI, contribuendo in modo significativo alla diffusione di sistemi AI sicuri e rispettosi dei diritti fondamentali[19].
Ciò rende ancor piú evidente l’importanza della tutela dei dati personali nell’enforcement dell’AI Act.
Alcuni adempimenti funzionali all’applicazione del GDPR sono utili anche ai fini dell’applicazione dell’AI Act. Ad esempio, la mappatura delle operazioni di trattamento dei dati personali suggerisce di ‘mappare’ i sistemi AI in uso all’interno di un’impresa o ente pubblico.
Vi sono adempimenti che gli enti soggetti al GDPR devono compiere come parte del loro piano di conformità al GDPR che possono essere resi funzionali anche all’osservanza dell’AI Act, con le integrazioni o gli adattamenti necessari.
Ad esempio, come occorre individuare i tipi di trattamenti di dati personali che presentano un rischio elevato per i diritti e le libertà delle persone fisiche ai sensi del GDPR, cosí occorre classificare il rischio dei sistemi AI secondo i criteri dettati dall’AI Act.
È altresí essenziale sviluppare i sistemi AI tenendo conto dei principi di protezione dei dati fin dalla progettazione (‘privacy by design’) e protezione dei dati per impostazione predefinita (‘privacy by default’) di cui all’art. 25 del GDPR al fine di minimizzare la raccolta di dati personali e integrare nel sistema meccanismi di tutela dei dati personali che verosimilmente saranno trattati mediante esso.
Nella fase di addestramento di un sistema AI vengono usate grandi quantità di dati disponibili su Internet e che frequentemente includono dati personali. Lo sviluppatore o il ‘deployer’ del sistema dovrebbero consultare un responsabile della protezione dei dati o DPO, come richiede il GDPR in presenza di “trattamenti che, per loro natura, ambito di applicazione e/o finalità, richiedono il monitoraggio regolare e sistematico degli interessati su larga scala” o che comprendono il “trattamento, su larga scala, di categorie particolari di dati personali” (art. 37 del GDPR). Il coinvolgimento del DPO rende il deployment del sistema AI meno rischioso dal punto di vista della tutela dei dati personali.
Il programma di sensibilizzazione e di formazione dei dipendenti sulle nozioni, sui principi, sugli obblighi e sui diritti previsi dal GDPR che ogni ente ha dovuto attuare come parte del proprio piano di conformità a quest’ultimo si rende necessario anche per l’AI Act, che reca definizioni tecniche e pone una serie di doveri di cui tutti coloro che, all’interno di un’organizzazione, hanno a che fare con l’AI devono essere consapevoli.
Ai sensi dell’AI Act, i sistemi AI ad alto rischio devono essere progettati e sviluppati in modo tale da poter essere efficacemente supervisionati da persone fisiche durante il periodo in cui sono in uso al fine di prevenire o ridurre al minimo i rischi per la salute, la sicurezza o i diritti fondamentali (art. 14). La sorveglianza umana deve sussistere fin dall’immissione sul mercato e per l’intero ciclo di vita di un sistema AI.
Tale requisito si applica anche alla profilazione automatizzata, che costituisce un sistema ad alto rischio ai sensi dell’AI Act[20]. Un fornitore di un sistema AI ad alto rischio, rispettando il requisito della supervisione umana, riduce significativamente il rischio di violare la disciplina dettata dal GDPR in tema di processo decisionale automatizzato. Se la sorveglianza umana è volta a fare in modo che sia sempre una persona fisica a prendere la decisione finale, la disciplina del GDPR sul processo decisionale totalmente automatizzato non sarà applicabile. Quindi, anche da questo punto di vista, AI Act e GDPR contribuiscono al raggiungimento del medesimo obiettivo: minimizzare i rischi delle decisioni basate unicamente sul trattamento automatizzato dei dati personali degli individui.
Sia l’AI Act che il GDPR impongono una serie di obblighi di trasparenza a tutela del diritto degli individui interessati di conoscere informazioni per essi rilevanti riguardo alla progettazione e all’utilizzo di un sistema AI[21] o al trattamento dei loro dati personali[22]. Ciò è fondamentale per promuovere lo sviluppo e l’uso responsabile dell’AI e per garantire agli individui di avere il controllo sui propri dati personali. In particolare, i ‘deployers’ dei sistemi AI ad alto rischio che adottano decisioni o assistono nell’adozione di decisioni che riguardano persone fisiche devono informare queste ultime che sono soggette all’uso di tali sistemi[23]. A sua volta il GDPR prevede che il titolare del trattamento deve informare i soggetti interessati, inter alia, dell’eventuale esistenza di un processo decisionale automatizzato, compresa la profilazione, fornendo informazioni significative sulla logica utilizzata, nonché sull’importanza e sulle conseguenze previste di tale trattamento per l’interessato[24].
L’AI Act e il GDPR impongono obblighi di notifica in caso di incidente di sicurezza che possa comportare un rischio per i diritti e le libertà delle persone o per la loro salute[26]. È necessario inoltre mettere in atto procedure di gestione degli incidenti per identificare, analizzare e rispondere rapidamente agli stessi[27].
A seconda dei rischi che possono essere generati, sia il GDPR che l’AI Act richiedono l’implementazione di misure di protezione adeguate per mitigarli, tra cui misure tecniche e organizzative (ad esempio, pseudonimizzazione, crittografia, controllo degli accessi, formazione del personale)[25].
In termini di documentazione, il GDPR richiede la tenuta di un registro delle attività di trattamento, comprendente informazioni quali le finalità del trattamento, le categorie di dati interessati e i destinatari dei dati[28]. Similmente, in base all’AI Act, l’utilizzo dei sistemi AI richiede la realizzazione di un inventario esaustivo comprendente informazioni sul funzionamento del sistema (dati, metodi, algoritmi…), sui suoi risultati e sul suo obiettivo. Questo registro centralizza le informazioni e facilita il monitoraggio della conformità[29].
Il GDPR e l’AI Act raccomandano l’istituzione di policies e procedure scritte per formalizzare la protezione dei dati e i requisiti giuridici dell’AI. L’obiettivo è rafforzare la responsabilità delle parti interessate e incoraggiarle a dimostrare che stanno adottando misure concrete per proteggere i diritti e le libertà delle persone. Ciò garantisce anche la coerenza e la trasparenza delle attività e dei processi all’interno di un’organizzazione.
È importante garantire che tutti questi requisiti siano soddisfatti non solo all’inizio dello sviluppo o della diffusione dei sistemi AI, ma durante tutto il loro ciclo di vita, al fine di garantire un’AI affidabile, etica e sicura.
Sul piano pratico, comprendere le sinergie tra i principi GDPR e i principi dell’AI Act consente agli enti soggetti ad entrambi questi regolamenti di avvalersi delle conoscenze in tema di tutela dei dati personali e del programma di compliance al GDPR per conformarsi all’AI Act. Questo costituisce un vantaggio dal punto di vista organizzativo, operativo e finanziario.
Possibili sfide poste dall’AI alla disciplina del GDPR
Sotto alcuni profili, appare complesso riconciliare alcuni principi del GDPR con l’AI[30]. Si tratta dei principi di minimizzazione dei dati, limitazione della finalità e limitazione della conservazione (art. 5 del GDPR).
La minimizzazione dei dati implica che la raccolta dei dati dovrebbe essere limitata a quanto strettamente necessario per uno scopo specifico. La finalità del trattamento esige che i dati personali siano raccolti per finalità determinate, esplicite e legittime e poi trattati in modo non incompatibile con tali finalità. La limitazione della conservazione prevede che i dati siano conservati solo per il tempo necessario a conseguire lo scopo della raccolta.
Ora, grandi quantità di dati sono fondamentali per l’addestramento, lo sviluppo, la funzionalità e il miglioramento dell’AI. Inoltre, i sistemi AI introducono nuovi metodi di raccolta dei dati attraverso le interazioni degli individui con il sistema, che spesso avvengono in modo automatico. Tali configurazioni tecniche potrebbero comportare la raccolta di più dati di quelli strettamente necessari.
Molti sistemi AI hanno un’ampia gamma di potenziali applicazioni, mirando ad imitare l’intelligenza umana. Ciò rende difficile la chiara definizione delle finalità di trattamento.
Inoltre, i dati potrebbero essere conservati per periodi più lunghi di quanto richiesto per il loro scopo iniziale. Questa conservazione prolungata è spesso necessaria per lo sviluppo continuo del sistema AI, che in genere differisce dalla finalità iniziale della raccolta dei dati.
I principi della minimizzazione dei dati e della limitazione della conservazione sembrano difficilmente compatibili con l’AI non solo per le caratteristiche tecniche di quest’ultima, ma anche per come essa è disciplinata dall’AI Act. Infatti, ai sensi dell’AI Act, i fornitori di sistemi AI ad alto rischio devono soddisfare rigorosi standard di qualità e governance dei dati. I dati utilizzati devono essere appropriati, rappresentativi e pertinenti per gli individui o i gruppi a cui il sistema è destinato. Per mitigare i rischi di parzialità e discriminazione nei sistemi AI, è necessario utilizzare dati che riflettano accuratamente gli utenti. L’accesso a dati di alta qualità svolge un ruolo essenziale nell’attenuazione di possibili distorsioni nei set di dati e può essere raggiunto tenendo conto delle caratteristiche o degli elementi particolari dello specifico contesto geografico, contestuale, comportamentale o funzionale nel quale il sistema AI sarà usato. Questi requisiti aumentano la probabilità che i dati che soddisfano i requisiti di qualità dell’AI Act siano, di per sé o siano intrecciati con, dati personali come definiti dal GDPR.
Il GDPR riconosce vari diritti ai soggetti interessati, alcuni dei quali pongono sfide nel contesto dell’AI. Tra questi rientrano, ad esempio, il diritto alla cancellazione, il diritto alla portabilità dei dati e il diritto di accesso ai dati.
Il diritto alla cancellazione, noto come diritto all’oblio, consente all’interessato di richiedere che il titolare del trattamento cancelli tutti i dati personali che lo riguardano senza ingiustificato ritardo (art. 17, par. 1, del GDPR)[31]. Inoltre, se il titolare del trattamento ha reso pubblici i dati, costui deve adottare misure ragionevoli per contattare altri titolari del trattamento che stanno utilizzando i dati e informarli che l’interessato ha richiesto la cancellazione dei dati (art. 17, par. 2, del GDPR).
Gli sviluppatori di sistemi AI, indipendentemente dalla loro classificazione del rischio, devono considerare come e se il diritto alla cancellazione degli interessati può essere tecnicamente garantito quando sviluppano sistemi AI e selezionano i dati da utilizzare nei loro modelli. Ciò significa garantire che i dati personali possano essere rimossi dai sistemi AI e da qualsiasi database associato, il che può essere complesso data la natura dei modelli AI e di apprendimento automatico che spesso si basano su grandi set di dati per l’addestramento e il funzionamento.
Allo stesso modo, il diritto di accesso (art. 15 del GDPR) e il diritto alla portabilità dei dati (art. 20 del GDPR) richiedono che il titolare del trattamento, ove l’interessato ne faccia richiesta, possa raccogliere tutti i dati personali di un determinato interessato e fornirli a quest’ultimo in forma intellegibile.
In particolare, il diritto alla portabilità dei dati implica che il titolare del trattamento debba fornire all’interessato o a un altro titolare del trattamento tutti i dati personali che l’interessato ha fornito in un formato strutturato, di uso comune e leggibile da dispositivo automatico. Questo diritto si applica quando il trattamento dei dati si basa sul consenso o sull’adempimento di obblighi contrattuali tra l’interessato e il titolare del trattamento e il trattamento è effettuato con mezzi automatizzati.
L’interessato ha diritto di avere accesso ai dati personali che lo riguardano. Questo diritto sussiste ogniqualvolta i dati personali sono trattati, indipendentemente dalla base giuridica del trattamento.
Il diritto di accesso e alla portabilità richiedono agli sviluppatori di sistemi AI di considerare come i dati personali possano essere rintracciati ed estratti dal sistema e dai database associati, il che – come già detto – può essere complesso data la natura dell’AI.
Oltre ai dati personali che provengono direttamente o indirettamente dall’interessato, i sistemi AI possono creare dati ulteriori, risultanti dalla rielaborazione di tali dati personali da parte dell’AI. I dati “inferiti” vengono creati e costituiscono l’output di un sistema AI. Il GDPR si applica solo ai dati personali. Pertanto, ci si deve chiedere se i dati di output si qualificano come dati personali. Se questi dati sono riferibili ad individui, si può presumere che i dati dedotti si qualificano come dati personali. Se, invece, i dati di output consistono in caratteristiche di gruppi di persone (ad esempio, persone che amano le vetture sportive spesso condividono alcune caratteristiche comuni, quali la passione per la velocità, l’amore per il design, uno spirito avventuroso e un interesse per la tecnologia) è meno probabile che essi siano riferibili a singoli interessati e possano, quindi, configurare dei dati personali. Tuttavia, anche questi dati diventano dati personali se vengono attribuiti ad un individuo (ad esempio, Tizio che ama vetture sportive probabilmente ha le caratteristiche summenzionate).
L’uso di dati sintetici al posto di dati personali di persone fisiche per sviluppare e addestrare sistemi AI ridurrebbe il rischio di incorrere in violazioni delle norme del GDPR, ma presenta dei limiti e anche altre forme di rischio[32].
Come riconciliare GDPR e AI: il Parere dell’EDPB
Le recenti linee guida dell’EDPB e della DPA francese, CNIL, confermano che il GDPR è sufficientemente flessibile da non impedire lo sviluppo dell’AI nell’UE, offrendo al tempo stesso un’adeguata tutela ai diritti degli individui[33].
Il 18 dicembre 2024 l’EDPB ha emesso un parere in risposta ad una richiesta formale della DPA irlandese che chiedeva chiarimenti su alcune questioni chiave, tra cui se lo sviluppo e l’utilizzo di un modello AI[34] comportano un trattamento di dati personali e, in tal caso, quale sia la base giuridica adeguata per tale trattamento[35].
Per quanto riguarda la questione se i modelli AI possano essere considerati anonimi, il Parere segue la scia di un documento di discussione pubblicato nel luglio 2024 dall’autorità per la protezione dei dati del Land tedesco di Amburgo. In tale documento si sostiene che i modelli AI, in particolare i modelli di linguaggio (Large Language Models o LLM) sono, di per sé, anonimi, ovvero non comportano trattamenti di dati personali[36]. Piú precisamente, gli LLM elaborano ‘tokens’ e ‘embeddings’ che, secondo il documento, non costituiscano trattamento o conservazione di dati personali ai sensi del GDPR. Pertanto il GDPR non è applicabile agli LLM. Per giungere a tale conclusione, la DPA di Amburgo ha distinto il modello AI dal suo iniziale sviluppo e addestramento (che può comportare la raccolta e l’ulteriore trattamento di dati personali) e dal suo successivo uso (il cui input può contenere dati personali e il cui output può essere utilizzato in un modo da creare dati personali). Di conseguenza, il modello AI può essere ritenuto anonimo, anche se lo sviluppo e l’uso del modello comportano il trattamento di dati personali[37].
L’EDPB ha una posizione meno netta sull’anonimità di un modello AI, sostenendo che ci sono casi in cui tale modello reca dati personali, il che va valutato caso per caso.
Il Parere riguarda solo i modelli AI che sono stati addestrati utilizzando dati personali. Pertanto, i modelli AI addestrati utilizzando esclusivamente dati non personali (come dati statistici o dati finanziari relativi alle aziende) possono essere considerati anonimi. Peraltro, l’EDPB ricorda l’ampia definizione di dato personale ai sensi del GDPR da cui deriva l’esteso ambito di applicazione di quest’ultimo.
Ove i dati personali siano utilizzati nella fase di addestramento di un modello AI, occorre vedere se tale modello sia specificatamente progettato per fornire dati personali riguardanti individui i cui dati personali sono stati utilizzati per formare il modello (ad esempio, un modello di AI generativa che è addestrato sulle registrazioni vocali di cantanti famosi in modo che possa, a sua volta, imitare le voci di quei cantanti). In tal caso, il modello AI non è anonimo. Infatti, il modello è addestrato sui dati personali di individui al fine di essere in grado di produrre altri dati personali su quegli individui come output.
Infine, c’è il caso dei modelli AI che sono addestrati sui dati personali, ma che non sono progettati per fornire dati personali riconducibili a quelli usati per l’addestramento come output. Tali modelli possono essere anonimi, ma solo se lo sviluppatore del modello può dimostrare che le informazioni sugli individui i cui dati personali sono stati utilizzati per addestrare il modello non possono essere ottenute dal modello con qualsiasi mezzo che sia ragionevolmente probabile utilizzare. Nonostante i dati personali utilizzati per addestrare il modello non esistano più all’interno del modello nella sua forma originaria (ma piuttosto siano rappresentati tramite oggetti matematici), tali informazioni sono, secondo l’EDPB, ancora in grado di costituire dati personali.
Il Parere illustra come sia possibile ottenere dati personali da un modello AI. Innanzitutto, i dati di addestramento possono essere estratti da tale modello tramite attacchi deliberati (mediante tecniche di inversione del modello, attacchi di ricostruzione e inferenza di attributi e appartenenze[38]). In secondo luogo, c’è il rischio di “rigurgito” accidentale o involontario di dati personali come parte degli output di un modello AI.
Di conseguenza, uno sviluppatore deve essere in grado di dimostrare che il suo modello AI sia in grado di resistere sia ad attacchi che estraggono dati personali direttamente dal modello, sia al rischio di rigurgito di dati personali in risposta a queries[39].
L’EDPB fornisce un elenco di criteri che possono essere utilizzati per valutare la probabilità che un modello AI contenga dati personali[40].
Per quanto concerne l’altra domanda posta dalla DPA irlandese, l’EDPB sostiene che quando si utilizzano dati personali per addestrare un modello AI, di norma, la base giuridica preferibile è il legittimo interesse del titolare del trattamento (art. 6, par. 1, lett. f, del GDPR). Questo per motivi pratici. Sebbene, in alcune circostanze, sia possibile ottenere un valido consenso da parte delle persone sull’uso dei loro dati per scopi di addestramento dell’AI, nella maggior parte dei casi ciò non è fattibile.
È forse questo il punto cardine del Parere: il riconoscimento da parte dell’EDPB che l’interesse legittimo del titolare del trattamento possa essere una base giuridica valida ai sensi del GDPR per lo sviluppo, l’addestramento e il deployment di un modello AI. Tuttavia, l’EDPB afferma che, per poter fare affidamento su questa base giuridica, le imprese devono condurre e documentare un ‘legitimate interest assessment’ caso per caso[41].
Tale valutazione, come indicato nelle Linee guida 1/2024 sul trattamento dei dati personali in base all’articolo 6(1)(f) GDPR[42], si articola in tre passaggi:
1) test della finalità: le imprese devono valutare se l’interesse che invocano è legittimo (ossia, lecito, articolato in modo chiaro e preciso, reale e attuale). A tale proposito, l’EDPB ha riconosciuto che le tecnologie AI creano molte opportunità e benefici in un’ampia gamma di settori e attività sociali;
2) test di necessità: le imprese devono valutare se il trattamento dei dati personali consentirà loro di realizzare la finalità perseguita e confermare che questa finalità non possa essere realizzata trattando meno dati personali o non trattando affatto dati personali. Ad esempio, le imprese devono valutare se possono utilizzare dati anonimi o sintetici invece che dati personali per addestrare i loro modelli AI;
3) test di bilanciamento: le imprese devono confermare che gli interessi o i diritti delle persone i cui dati vengono trattati non prevalgano sugli interessi legittimi delle imprese. Nel fare ciò, le imprese dovrebbero tenere conto i) di eventuali vantaggi o effetti positivi sulle persone, ii) di eventuali rischi per le persone (ad esempio, pregiudizi o discriminazioni) e iii) se le persone sono consapevoli o possano ragionevolmente aspettarsi che i loro dati saranno trattati in questo modo. Quest’ultima circostanza dipende anche dal fatto che i dati personali siano disponibili pubblicamente e dagli sforzi di trasparenza dell’impresa di AI.
L’EDPB sottolinea che per le imprese possa essere relativamente facile individuare un interesse legittimo per il trattamento di dati personali ai fini dello sviluppo e dell’addestramento di un sistema AI. Come esempi di interessi legittimi sufficientemente specifici e concreti, l’EDPB menziona lo sviluppo di un sistema AI per rilevare contenuti o comportamenti fraudolenti e lo sviluppo del servizio di un agente conversazionale per assistere gli utenti.
Tuttavia, le imprese possono avere maggiori difficoltà a dimostrare che il trattamento dei dati personali sia necessario per realizzare il loro legittimo interesse e che il loro legittimo interesse sia subordinato al bilanciamento in favore dei diritti dell’interessato o di terzi (test del bilanciamento).
L’EDPB ha precisato che, se la finalità perseguita dal titolare sarebbe realizzabile anche attraverso un modello AI che non comporta il trattamento di dati personali, tale trattamento non dovrebbe essere considerato necessario ai sensi del GDPR.
Va detto che se, sul piano tecnico può accadere che i dati personali non siano essenziali per l’addestramento di un modello AI, tuttavia, potrebbe essere arduo rimuovere tutti i dati personali da un set di dati di addestramento o sostituire tutti gli elementi identificativi con valori fittizi.
Per quanto riguarda il test di bilanciamento, l’EDPB sostiene che le imprese, nel valutare se sia lecito raccogliere dati personali a fini di addestramento di modelli AI, debbano considerare l’interesse dell’interessato all’autodeterminazione e al mantenimento del controllo sui propri dati. In particolare, potrebbe essere più difficile soddisfare il test di bilanciamento se uno sviluppatore esegue lo scraping di grandi volumi di dati personali (includendo persino dati sensibili) contro la volontà o ad insaputa dell’interessato o in contesti che non sarebbero ragionevolmente prevedibili dall’interessato.
Per quanto riguarda il fine distinto del deployment di un sistema AI, l’EDPB chiede alle imprese di considerare l’impatto sui diritti fondamentali dell’interessato derivante dallo scopo per il quale il modello AI sarà utilizzato. Ad esempio, i modelli AI utilizzati per bloccare la pubblicazione dei contenuti possono influire negativamente sul diritto fondamentale dell’interessato alla libertà di espressione. Per contro, il deployment di un modello AI può avere un impatto positivo sui diritti e sulle libertà dell’interessato ove il modello migliori l’accessibilità a determinati servizi per le persone con disabilità. In linea con il considerando 47 del GDPR, l’EDPB ricorda ai titolari del trattamento di considerare le “ragionevoli aspettative” degli interessati in relazione all’uso dei dati personali sia in termini di addestamento che di deployment di modelli AI.
Infine, il Parere esamina una serie di “misure di attenuazione” che possono essere utilizzate per ridurre i rischi per gli interessati e quindi far “pendere la bilancia” a favore del titolare del trattamento. Queste misure includono:
- misure tecniche per ridurre il volume o la sensibilità dei dati personali utilizzati (ad esempio, pseudonimizzazione e mascheramento);
- misure volte a facilitare l’esercizio dei diritti degli interessati (ad esempio, prevedere un diritto incondizionato per gli interessati di rinunciare all’uso dei propri dati personali per l’addestramento o il deployment di un modello AI);
- misure di trasparenza (ad esempio, comunicazioni pubbliche sulle pratiche del titolare del trattamento in relazione all’uso dei dati personali per lo sviluppo di modelli AI);
- misure specifiche per il web scraping[43] (ad esempio, esclusione di pubblicazioni che presentano rischi particolari o di determinate categorie o fonti di dati).
In particolare, l’EDPB osserva che, per essere efficaci, queste misure di mitigazione devono andare oltre il mero rispetto degli obblighi del GDPR.
Con l’ultima domanda la DPA irlandese ha interrogato l’EDPB sulle possibili conseguenze sul deployment di un modello AI di un trattamento illecito di dati personali eventualmente verificatosi durante la fase di sviluppo del modello sul successivo utilizzo.
Anche su tale questione la posizione dell’EDPB è meno netta di quella della DPA di Amburgo. Infatti, secondo l’EDPB, un trattamento illecito a monte può avere un impatto sul successivo deployment di un modello AI in vari modi.
Innanzitutto, le misure correttive adottate nei confronti dello sviluppatore possono produrre effetti anche sul ‘deployer’. Ad esempio, se allo sviluppatore viene ordinato di eliminare i dati personali raccolti illegalmente per scopi di addestramento, lo sviluppatore non sarebbe autorizzato ad un successivo trattamento di tali dati. Ciò solleva il problema di come, concretamente, i dati di addestramento possano essere identificati ed eliminati dal modello AI, tenendo conto del fatto che il modello non li conserva nella loro forma originaria.
In secondo luogo, un trattamento illecito di dati personali nella fase di sviluppo di un modello AI può incidere sulla base giuridica per il deployment del modello. In particolare, se il ‘deployer’ del modello AI si basa su un interesse legittimo, sarà più difficile soddisfare il test di bilanciamento alla luce delle violazioni avvenute nella fase di raccolta ed uso dei dati di addestramento.
Alla luce di questi rischi, l’EDPB raccomanda ai ‘deployers’ dei modelli AI di adottare misure ragionevoli per valutare la conformità dello sviluppatore alle norme sulla tutela dei dati personali durante la fase di sviluppo e addestramento. Ad esempio, lo sviluppatore può spiegare le fonti dei dati utilizzati, le misure adottate per rispettare il principio di minimizzazione e le eventuali valutazioni di interesse legittimo condotte nella fase di addestramento.
Per alcuni modelli AI, gli obblighi di trasparenza imposti in relazione ai sistemi AI dall’AI Act può rendere piú agevole per un ‘deployer’ ottenere da uno sviluppatore terzo di modelli AI informazioni sulle modalità di trattamento dei dati personali durante lo sviluppo e l’addestramento del modello AI.
Il Parere dell’EDPB conferma l’impegno dell’UE a promuovere uno sviluppo responsabile dell’AI, nel rispetto della tutela dei dati personali degli individui in linea con il GDPR. Il Parere conferma che nozioni, norme e raccomandazioni formulate sulla base del GDPR (come ad esempio, quelle di ‘legittimo interesse’, il ‘legitimate interest assessment’, la tenuta del registro delle attività di trattamento ai fini dell’‘accountability’ del titolare).
Gli obblighi facenti capo agli sviluppatori e ai ‘deployers’ dei sistemi AI ai sensi del GDPR, ricordati nel Parere dell’EDPB, si aggiungono a quelli introdotti dall’AI Act[44].
Il Parere concerne solo le questioni su cui l’EDPB è stato consultato dalla DPA irlandese. Esso non affronta alcuni temi chiave del rapporto tra GDPR e AI, come il trattamento di dati sensibili (ad esempio, opinioni politiche, convinzioni religiose, orientamento sessuale), il processo decisionale automatizzato, le valutazioni di impatto sulla protezione dei dati e il principio ‘privacy by design’.
Inoltre, come detto, il Parere non presenta soluzioni ‘definitive’ per le questioni affrontate, ma lascia chiaramente intendere come occorra fare valutazioni caso per caso sul se e come applicare le norme del GDPR allo sviluppo, all’addestramento e/o al deployment di modelli AI.
Come riconciliare GDPR e AI: le Raccomandazioni della CNIL
La DPA francese (CNIL) come l’EDPB propone soluzioni interpretative che consentano di riconciliare il GDPR e l’AI, con il fine dichiarato di sostenere un’innovazione tecnologica “responsabile”.
Recentemente, la CNIL ha pubblicato due raccomandazioni volte a guidare le imprese nello sviluppo e nel deployment “responsabile” dei sistemi AI in conformità con il GDPR. La prima raccomandazione è intitolata “AI: informare gli interessati” (la ‘Raccomandazione sull’informazione degli individui’) e la seconda è intitolata “AI: rispettare e facilitare l’esercizio dei diritti degli interessati” (la ‘Raccomandazione sui diritti individuali’)[45].
Nella Raccomandazione sull’informazione degli individui, la CNIL sottolinea l’importanza della trasparenza nei sistemi AI che trattano i dati personali. Le imprese AI devono fornire agli interessati informazioni chiare, accessibili e comprensibili sul trattamento dei loro dati da parte di un sistema AI.
In particolare, per quanto concerne le tempistiche dell’informazione degli insteressati, la CNIL raccomanda di fornire informazioni al momento della raccolta dei dati. Se i dati sono ottenuti indirettamente (il che accade, ad esempio, quando i dati vengono raccolti su Internet tramite il download di files, oppure si usano strumenti di raccolta dati come il web scraping o interfacce di programmazione di applicazioni messe a disposizione dei riutilizzatori da piattaforme online, oppure si ottengano informazioni da partner istituzionali o commerciali come i data brokers, oppure si riutilizza un database già costituito), gli interessati dovrebbero essere informati il prima possibile e al più tardi al primo punto di contatto con essi o al momento della prima comunicazione dei dati con un altro destinatario. In ogni caso, gli interessati devono essere informati del trattamento dei loro dati personali entro un mese al massimo dalla raccolta dei loro dati.
Come buona pratica, quando i dati presentano una particolare sensibilità per gli individui, la CNIL invita le imprese a lasciar trascorrere un ragionevole lasso temporale tra il momento in cui gli individui vengono informati che i loro dati sono contenuti in un database di apprendimento e quello dell’apprendimento di un modello AI. Questa buona pratica consentirà agli interessati di esercitare i propri diritti durante questo periodo, tenendo conto delle difficoltà tecniche nell’esercizio di tali diritti sul modello stesso e dei rischi che ciò genera (in particolare, a seconda della natura dei dati archiviati).
Sulle modalità in cui fornire tali informazioni agli interessati, la CNIL raccomanda di fornire informazioni concise, trasparenti e facilmente comprensibili, utilizzando un linguaggio chiaro e semplice. Le informazioni dovrebbero essere facilmente accessibili e distinte da altri contenuti non correlati. A tal fine, la CNIL raccomanda di fornire in prima battuta informazioni essenziali, che si collegano a spiegazioni più dettagliate.
Quanto alla possibilità di derogare all’obbligo di informare individualmente gli interessati, la CNIL analizza vari casi in cui tale deroga possa operare. Ad esempio, quando le persone sono già in possesso delle informazioni di cui all’art. 14, par. 5, lett. a) del GDPR[46] o quando l’informativa personalizzata richiederebbe uno sforzo sproporzionato ai sensi dell’art. 14, par. 5, lett. b) del GDPR[47] o quando una disposizione legislativa del diritto UE o di uno Stato membro limiti il diritto all’informativa degli interessati ai sensi dell’art. 23 del GDPR. In tutti i casi, le imprese devono garantire che queste esenzioni siano applicate responsabilmente e che i diritti degli interessati siano rispettati attraverso misure alternative.
Nell’informare gli interessati sul trattamento dei loro dati personali nello sviluppo di sistemi AI, la CNIL conferma che, di norma, è necessario fornire tutte le informazioni previste dagli articoli 13 e 14 del GDPR. Se, in base al GDPR, le imprese possono derogare all’obbligo di informare individualmente gli interessati, esse devono comunque garantire la trasparenza pubblicando informative generali sui trattamenti dei dati personali. Ad esempio, tutte le informazioni pertinenti che sarebbero state fornite tramite informativa individuale dovrebbero essere rese disponibili un sito web.
Se l’impresa non è in grado di identificare gli interessati, deve dichiararlo esplicitamente nell’informativa. Se possibile, le persone dovrebbero essere informate di quali dettagli aggiuntivi esse possano fornire per aiutare l’impresa a verificare la loro identità.
Per quanto riguarda l’origine dei dati personali, l’impresa deve generalmente fornire dettagli specifici al riguardo quando i set di dati di apprendimento provengono da un numero limitato di fonti, a meno che non sia applicabile un’eccezione a tale obbligo[48]. Se, invece, i dati provengono da numerose fonti pubblicamente disponibili, è sufficiente una divulgazione generale. Ciò può includere le categorie e gli esempi delle fonti chiave. Ciò è in linea con il considerando 61 del GDPR, che consente di fornire informazioni generali sulle fonti di dati quando vengono utilizzate varie fonti[49].
La CNIL ricorda che, in caso di sviluppo di un modello GPAI ai sensi dell’AI Act, oltre all’obbligo di informazione previsto dal GDPR, l’art. 53 dell’AI Act impone di sviluppare e mettere a disposizione del pubblico una sintesi sufficientemente dettagliata dei contenuti utilizzati per addestrare tale modello, conformemente agli orientamenti forniti dall’Ufficio europeo per l’AI della Commissione europea[50]. Il considerando 107 dell’AI Act precisa che tale sintesi dovrebbe essere generalmente completa in termini di contenuto piuttosto che tecnicamente dettagliata, al fine di assistere le parti interessate a far valere i loro diritti.
La CNIL sottolinea che non tutti i modelli AI sono soggetti al GDPR. Alcuni modelli AI sono considerati anonimi perché non trattano dati personali. In questi casi, il GDPR non si applica. Tuttavia, la CNIL sottolinea che alcuni modelli AI possono memorizzare parti dei loro dati di addestramento, inclusi dati personali. In tal caso, i modelli rientrerebbero nell’ambito di applicazione del GDPR e si applicherebbe l’obbligo di trasparenza. Come buona prassi, la CNIL consiglia ai fornitori di modelli AI di specificare nelle loro informative i rischi associati all’estrazione dei dati dal modello, come la possibilità di “rigurgito” dei dati di addestramento nell’AI generativa, le misure di mitigazione implementate per ridurre tali rischi e i meccanismi di ricorso a disposizione degli individui nel caso in cui uno di tali rischi si materializzi.
È importante notare come la CNIL distingua tra il caso in cui il fornitore di un modello AI abbia sviluppato e addestrato il modello utilizzando dati personali di cui esso stesso era in possesso (ad esempio, in quanto operatore di un social network) e il caso in cui il fornitore del modello AI abbia sviluppato e addestrato il modello utilizzando dati personali raccolti mediante, ad esempio, web scraping. Nel primo caso, il fornitore del modello può e deve informare gli interessati personalmente prima di trattare i dati ai fini dello sviluppo e dell’addestramento del modello; nel secondo caso, il fornitore del modello potrebbe non avere alcun contatto con gli interessati e quindi dovrebbe ricorrere ad un’informativa generalizzata. Inoltre, in questo secondo caso, il fornitore del modello, per soddisfare eventuali richieste di cancellazione o di opposizione da parte degli interessati rispetto all’uso del modello, non sarebbe tenuto a dismettere quest’ultimo solo perché sia impossibile cancellare o limitare ex post i dati usati per lo sviluppo e/o l’addestramento del modello, ma dovrebbe implementare dei “filtri” per evitare che i dati degli interessati che hanno esercitato questi diritti ai sensi del GDPR possano essere ulteriormente utilizzati come output del modello e/o per il suo riaddestramento. Questo a riprova dell’approccio pragmatico prediletto dalla CNIL (non si può “disfare” ciò che è stato fatto) e anche del suo intento di bilanciare diritti individuali e sviluppo tecnologico.
La Raccomandazione sui diritti individuali mira a garantire che i diritti degli interessati siano rispettati e ne sia facilitato l’esercizio quando i loro dati personali sono utilizzati nello sviluppo di sistemi o modelli AI[51].
La CNIL sottolinea che gli interessati devono essere in grado di esercitare i propri diritti rispetto ai loro dati personali sia per quanto riguarda i set di dati di addestramento che i modelli AI, a meno che i modelli non siano considerati anonimi.
La CNIL segnala che, sebbene i diritti di accesso, rettifica o cancellazione per i set di dati di addestramento pongano delle sfide simili a quelle affrontate con altri database di grandi dimensioni, l’esercizio di questi diritti direttamente rispetto al modello di AI (in contrapposizione al set di dati di addestramento) solleva questioni uniche e complesse.
Per bilanciare i diritti individuali e l’innovazione dell’AI, la CNIL chiede soluzioni realistiche e proporzionate e sottolinea che il GDPR offre flessibilità per adattarsi alle specificità dei modelli AI nella gestione delle richieste di diritti degli interessati. Ad esempio, la complessità di rispondere alla richiesta e i costi per farlo sono fattori rilevanti che possono essere presi in considerazione quando si valuta come rispondere ad una richiesta da parte di un soggetto interessato di esercizio dei diritti riconosciuti dal GDPR.
Secondo la CNIL, il modo in cui si dovrebbe rispondere alle richieste di diritti dipende dal fatto che queste richieste riguardino set di dati di addestramento o il modello AI stesso. A questo proposito, le imprese dovrebbero informare chiaramente le persone su come viene interpretata la loro richiesta, ovvero se si riferisce ai dati di addestramento o al modello AI, e spiegare come viene gestita la richiesta.
Quando le richieste di diritti si riferiscono a set di dati di addestramento, le imprese possono incontrare difficoltà nell’identificazione degli individui. A questo proposito, la CNIL sottolinea che:
i) se un’impresa non ha più bisogno di identificare gli individui in un set di dati di addestramento e può dimostrarlo, può indicarlo in risposta alle richieste di diritti;
ii) i fornitori di modelli o sistemi AI generalmente non hanno bisogno di identificare le persone nei loro set di dati di addestramento;
iii) le imprese non sono tenute a conservare gli identificatori esclusivamente per facilitare le richieste di diritti se i principi di minimizzazione dei dati ne giustificano l’eliminazione;
iv) se le persone forniscono ulteriori informazioni, l’impresa può utilizzarle per verificare la loro identità e facilitare le richieste di esercizio dei diritti.
Gli individui hanno il diritto di ottenere copie dei propri dati personali dai set di dati di addestramento, comprese le annotazioni e i metadati in un formato intellegibile. Il rispetto di questo diritto di accesso non deve violare i diritti di terzi, come la proprietà intellettuale e i segreti commerciali. Inoltre, nel rispettare il diritto di accesso, le imprese devono fornire dettagli sui destinatari e sulle fonti dei dati. Se la fonte originaria è nota, queste informazioni devono essere divulgate. Quando vengono utilizzate più fonti, le imprese devono fornire tutte le informazioni disponibili, ma non sono tenute a conservare gli URL, a meno che non sia necessario per la conformità . Più in generale, la CNIL sottolinea che è necessaria un’analisi caso per caso per determinare il livello di dettaglio e il contenuto delle informazioni che devono essere conservate in modo ragionevole e proporzionato per rispondere alle richieste di accesso.
Per quanto riguarda i diritti di rettifica, cancellazione e opposizione, la CNIL precisa che:
i) gli individui possono richiedere la correzione di annotazioni imprecise nei set di dati di addestramento;
ii) quando il trattamento si basa su un interesse legittimo o su un interesse pubblico, gli interessati si possono opporre, se le circostanze lo giustificano;
iii) gli sviluppatori di AI dovrebbero esplorare soluzioni tecniche, come meccanismi di opt-out o elenchi di esclusione, per facilitare le richieste di diritti in caso di web scraping.
L’art. 19 del GDPR prevede che il titolare del trattamento debba notificare a ciascun destinatario dei dati a cui ha comunicato dati personali la richiesta di rettifica, limitazione o cancellazione formulata da un soggetto interessato. Di conseguenza, quando un set di dati è condiviso con altre parti, gli aggiornamenti dovrebbero essere comunicati ai destinatari tramite interfaccia di programmazione dell’applicazione (‘API’) o obblighi contrattuali che impongano ai destinatari di applicare tali aggiornamenti.
Alcuni modelli AI vengono addestrati su dati personali, ma rimangono anonimi dopo l’addestramento. In tali casi, il GDPR non si applica. Se il modello conserva dati personali identificabili, si applica il GDPR e le persone devono essere in grado di esercitare i propri diritti sul modello. Quindi, le imprese devono valutare se un modello contiene dati personali. Se la presenza di dati personali è incerta, l’impresa deve dimostrare di non essere in grado di identificare individui all’interno del suo modello. Se, invece, il modello ricomprende dati riconducibili ad un individuo, l’impresa deve risalire ai dati di quest’ultimo. Se possibile, gli interessati devono avere la possibilità di fornire ulteriori informazioni per verificare la loro identità ed esercitare i loro diritti.
Se l’impresa ha ancora accesso ai dati di addestramento, potrebbe essere opportuno identificare l’individuo all’interno del set di dati prima di verificare se i suoi dati siano stati memorizzati dal modello AI e possano essere estratti. Se i dati di addestramento non sono più disponibili, l’impresa può fare affidamento sulla tipologia di dati per determinare la probabilità che siano state memorizzate specifiche categorie di dati.
Per i modelli di AI generativa, la CNIL consiglia ai fornitori di stabilire una procedura interna per interrogare sistematicamente il modello utilizzando una serie predefinita di prompt.
I diritti di rettifica e cancellazione non sono assoluti e devono essere valutati alla luce della sensibilità dei dati e dell’impatto sull’impresa, compresa la fattibilità tecnica e il costo della riqualificazione del modello. In alcuni casi, la ripetizione dell’addestramento del modello non è fattibile e la richiesta può essere rifiutata. Gli sviluppatori di AI dovrebbero monitorare i progressi nella conformità dell’AI, poiché l’evoluzione delle tecniche potrebbe richiedere che le richieste di esercizio dei diritti ai sensi del GDPR che inizialmente non sono state soddisfatte debbano esserlo in futuro.
Quando l’impresa è ancora in possesso dei dati di addestramento, dovrebbe essere prevista la ripetizione dell’addestramento del modello per rimuovere o correggere i dati. In ogni caso, poiché le soluzioni attuali non sempre forniscono una risposta soddisfacente nei casi in cui un modello AI è soggetto al GDPR, la CNIL raccomanda ai fornitori di rendere anonimi i dati di addestramento. Se ciò non è fattibile, dovrebbero assicurarsi che il modello AI sia anonimo dopo l’addestramento.
Quando si intende fare leva su una deroga ai diritti degli interessati prevista dal GDPR, l’impresa AI deve informare in anticipo gli interessati che i loro diritti possono essere limitati e spiegare le ragioni di tali restrizioni.
L’aspetto principalmente degno di nota dell’approccio della CNIL al tema delle richieste di esercizio dei diritti da parte degli interessati, è che la CNIL distingue tra richieste che riguardano i dati usati per lo svluppo e l’addestramento dei modelli AI e quelli risultanti dall’output di tali modelli, una volta che questi siano utilizzati. La CNIL riconosce che possa essere concretamente impossibile o oltremodo difficile soddisfare le richieste di accesso, rettifica, cancellazione e opposizione ai dati di addestramento. Pertanto, la CNIL sembra suggerire che la tutela dei diritti degli interessati debba essere garantita quando l’output di un modello AI include dati personali.
È interessante notare come questo approccio lasci intendere che eventuali violazioni del GDPR realizzatasi nelle fasi di sviluppo e addestramento di un modello AI – che possono essere la ragione per cui non si riesca a soddisfare le richieste di esercizio dei diritti da parte degli interessati – non inficino necessariamente il modello AI e non ne impediscano l’utilizzo “a valle”, purché tale utilizzo sia conforme al GDPR (se applicabile).
Anche nel suo comunicato stampa relativo alle Raccomandazioni sopracitate, la CNIL interpreta i principi del GDPR in modo flessibile, adattandoli alle caratteristiche dei sistemi GPAI[52].
Cosí, le imprese che non sono in grado di definire con precisione tutte le applicazioni future in fase di addestramento possono limitarsi a descrivere il tipo di sistema AI in fase di sviluppo e illustrare le principali funzionalità potenziali, rispettando il principio della limitazione della finalità.
Inoltre, il principio di minimizzazione dei dati non impedisce l’uso di set di dati di addestramento di grandi dimensioni, anche se i dati utilizzati dovrebbero essere selezionati e puliti per ottimizzare l’addestramento degli algoritmi, evitando l’uso di dati personali non necessari.
I dati relativi all’addestramento possono essere conservati per periodi prolungati, se giustificato e se sono adottare misure di sicurezza adeguate.
Il riutilizzo delle banche dati, comprese quelle disponibili online, è possibile in molti casi, a condizione che si verifichi che i dati non siano stati raccolti illecitamente e che il loro riutilizzo sia compatibile con la finalità originaria della raccolta.
Le Raccomandazioni della CNIL sulle informazioni e sui diritti degli interessati sono state precedute da altre adottate nel corso del 2014.
In particolare, il 7 giugno 2024 la CNIL ha pubblicato la versione finale delle linee guida su come sviluppare sistemi AI nel rispetto delle norme sulla tutela dei dati personali[53]. Nelle linee guida, la CNIL afferma che il progresso nello sviluppo dei sistemi AI può essere conciliato con la tutela dei dati personali. Queste linee guida riguardano i sistemi basati sull’apprendimento automatico, i sistemi il cui utilizzo operativo è definito durante la fase di sviluppo e sistemi GPAI che possono essere utilizzati per alimentare diverse applicazioni, i sistemi che vengono appresi “una volta per tutte” o su base continuativa, ad esempio utilizzando i dati di utilizzo per il miglioramento.
Le linee guida sono suddivise in sette “schede” sull’AI che forniscono alle imprese di AI su indicazioni su come:
1) determinare il regime giuridico applicabile (ad esempio, il GDPR o la Direttiva UE relativa alla protezione delle persone fisiche con riguardo al trattamento dei dati personali da parte delle autorità competenti a fini di prevenzione, indagine, accertamento e perseguimento di reati o esecuzione di sanzioni penali[54]);
2) definire una finalità;
3) determinare come i fornitori dei sistemi AI siano qualificabili ai sensi del GDPR (ad esempio, titolari, responsabili o contitolari del trattamento);
4) garantire la liceità del trattamento dei dati;
5) effettuare una DPIA quando necessario;
6) tenere conto della tutela dei dati nella progettazione del sistema AI;
7) tenere conto della tutela dei dati nella raccolta e nella gestione dei dati[55].
Successivamente, la CNIL ha adottato un’altra serie di linee guida in cui spiega come sviluppare sistemi AI nel rispetto del GDPR con particolare riguardo ai seguenti temi:
1) l’uso della base giuridica dell’interesse legittimo;
2) l’interesse legittimo nel caso dei modelli di open source;
3) l’interesse legittimo in caso di web scraping;
4) le informazioni agli interessati;
5) il rispetto e la facilitazione dell’esercizio dei diritti degli interessati;
6) l’annotazione dei dati;
7) uno sviluppo sicuro di un sistema AI[56].
Va sottolineato che la CNIL ha chiarito che l’interesse legittimo del titolare del trattamento costituisce nella maggioranza dei casi la base giuridica piú appropriata per il trattamento di dati personali nello sviluppo, nell’addestramento e nel ‘deployment’ di modelli AI, mentre solo in determinati casi sarà possibile basarsi su un valido consenso dagli interessati o sull’adempimento di un obbligo risultante da un contratto richiesto dall’interessato. L’interesse legittimo andrà valutato ai sensi del GDPR mediante il test in tre passaggi illustrato dall’EDPB.
Considerazioni conclusive
Ai problemi interpretativi che pone l’applicazione del GDPR all’ AI le DPA europee hanno dato risposte diverse. Alcune DPA sono favorevoli ad avere un approccio pragmatico e flessibile nell’applicare i principi del GDPR soprattutto allo sviluppo e all’addestramento dell’AI. L’obiettivo dichiarato è quello di promuovere il progresso tecnologico garantendo nel contempo un’adeguata tutela dei diritti degli individui rispetto all’output dell’AI, combinando la disciplina del GDPR con quella dell’AI Act.
Tuttavia, oltre a non esserci ancora un consensus tra le DPA europee su molte questioni riguardanti l’applicazione del GDPR all’AI, non è ancora chiaramente definita la governance dell’AI Act in vari Stati membri dell’UE, ossia se esso sarà applicato dalle DPA o da altre autorità indipendenti. Si tratta di un work in progress in cui le varie imprese attive nella filiera AI devono compiere e documentare le valutazioni circa l’applicabilità del GDPR ai modelli e sistemi AI e le modalità prescelte per osservare i requisiti da esso stabiliti. Avere una posizione difendibile che mostri l’impegno a dipanare questioni su cui non vi è ancora un adeguato livello di certezza giuridica può senz’altro aiutare le imprese AI nelle loro interazioni con le DPA e con i soggetti interessati.
Note
[1] Il Regolamento (UE) 2016/679 del 27 aprile 2016, relativo alla protezione delle persone fisiche con riguardo al trattamento dei dati personali, nonché alla libera circolazione di tali dati e che abroga la direttiva 95/46/CE (regolamento generale sulla protezione dei dati), pubblicato in GU L 119 del 4.5.2016, è in vigore dal 27 aprile 2016. La giurisprudenza della Corte di Giustizia ha chiarito che un’informazione non possa essere qualificata come informazione riferita a una “persona fisica identificabile” e, quindi, come dato personale ai sensi del GDPR “se l’identificazione della persona interessata fosse vietata dalla legge o praticamente irrealizzabile, per esempio a causa del fatto che implicherebbe un dispendio di tempo, di costo e di manodopera, facendo così apparire in realtà insignificante il rischio di identificazione” (sentenza del 19 ottobre 206, causa C‑582/14, Breyer, ECLI:EU:C:2016:779, punto 46). Su questo punto sarà interessante vedere la definizione di dato personale risultante dall’attesa sentenza della Corte di giustizia sul caso C-413/23 P, EDPS contro SRB, su cui il 6 febbraio 2025 l’Avvocato Generale Spielmann ha formulato le sue Conclusioni (ECLI:EU:C:2025:59).
[2] Il Regolamento (UE) 2024/1689 del 13 giugno 2024, che stabilisce regole armonizzate sull’intelligenza artificiale (regolamento sull’intelligenza artificiale), pubblicato in GU L, 2024/1689, 12.7.2024, è entrato in vigore il 1° agosto 2024. Si vedano gli orientamenti sulla definizione del sistema AI ai sensi dell’AI Act, pubblicati dalla Commissione europea il 6 febbraio 2025, mediante la Comunicazione C(2025) 924, ‘Approval of the content of the draft Communication from the Commission – Commission Guidelines on the definition of an artificial intelligence system established by Regulation (EU) 2024/1689 (AI Act)’. In dottrina si veda N.A. Smuha – K. Yeung, ‘The European Union’s AI Act. Beyond Motherhood and Apple Pie?’, in ‘The Cambridge Handbook of the Law, Ethics and Policy of Artificial Intelligence’, pp. 228 – 258.
[3] Il GDPR si applica al trattamento interamente o parzialmente automatizzato di dati personali (art. 2, comma 1). Ai sensi del considerando 15 del GDPR, “la protezione delle persone fisiche dovrebbe essere neutrale sotto il profilo tecnologico e non dovrebbe dipendere dalle tecniche impiegate”.
[4] Come ha ricordato il Presidente della Commissione europea von der Leyen all’Artificial Intelligence Action Summit svoltosi il 10 e l’11 febbraio 2025 a Parigi, “questo è lo scopo dell’AI Act: fornire un unico insieme di norme di sicurezza in tutta l’Unione Europea (450 milioni di persone), invece di 27 diverse normative nazionali”.
[5] In base all’AI Act, maggiore è il rischio di un sistema o modello AI, più severe sono le regole. I fornitori e gli utilizzatori avranno obblighi diversi ai sensi dell’AI Act a seconda del livello di rischio del sistema o del modello coinvolto. Per i sistemi di intelligenza artificiale “ad alto rischio” l’AI Act richiede un’analisi volta ad identificare e valutare potenziali rischi per i diritti e le libertà delle persone.
[6] Si vedano, ad esempio, Article 29 Data Protection Working Party, ‘Statement on the role of a risk-based approach in data protection legal frameworks’, 30 maggio 2014; G. Maldof, The Risk-Based Approach in the GDPR: Interpretation and Implications, IAPP White Paper, Marzo 2016; R. Gellert, ‘The role of the risk-based approach in the General data protection Regulation and in the European Commission’s proposed Artificial Intelligence Act: Business as usual?’, Journal of Ethics and Legal Technologies – Volume 3(2) – November 2021, p. 15-33.
[7] Un fornitore è definito dall’art. 3, par. 3, dell’AI Act come una persona fisica o giuridica o un organismo che sviluppa o fa sviluppare un sistema o modello AI per scopi generali e immette tale sistema o modello sul mercato, o mette in servizio tale sistema, con il nome o il marchio del fornitore, a pagamento o gratuitamente. Il ‘deployer’ ai sensi dell’art. 3, par. 4, dell’AI Act, è una persona fisica o giuridica o un organismo che utilizza un sistema AI sotto la sua autorità, tranne che nel corso di un’attività personale non professionale. Ai sensi dell’AI, Act, i fornitori hanno la responsabilità generale di garantire la conformità e la sicurezza dei sistemi AI. È fornitore l’entità che progetta, costruisce o sviluppa un modello o sistema AI, ma anche un’entità che esternalizza lo sviluppo del sistema o modello AI generale ed è responsabile della sua immissione sul mercato o in servizio. I ‘deployers’ hanno, invece, la responsabilità fondamentale di garantire l’uso sicuro e conforme dei sistemi AI quando vengono messi in funzione.
[8] Nel considerando 10 dell’AI Act si legge: “Il presente regolamento non mira a pregiudicare l’applicazione del vigente diritto dell’Unione che disciplina il trattamento dei dati personali, inclusi i compiti e i poteri delle autorità di controllo indipendenti competenti a monitorare la conformità con tali strumenti. Inoltre, lascia impregiudicati gli obblighi dei fornitori e dei deployer dei sistemi di IA nel loro ruolo di titolari del trattamento o responsabili del trattamento derivanti dal diritto dell’Unione o nazionale in materia di protezione dei dati personali, nella misura in cui la progettazione, lo sviluppo o l’uso di sistemi di IA comportino il trattamento di dati personali. È inoltre opportuno chiarire che gli interessati continuano a godere di tutti i diritti e le garanzie loro conferiti da tale diritto dell’Unione, compresi i diritti connessi al processo decisionale esclusivamente automatizzato relativo alle persone fisiche, compresa la profilazione (…)”.
[9] La Commissione europea ha pubblicato, il 4 febbraio 2025, gli orientamenti sulle pratiche vietate in materia di AI quali definiti dall’AI Act. Si veda la Comunicazione della Commissione C(2025) 884, ‘Approval of the content of the draft Communication from the Commission – Commission Guidelines on prohibited artificial intelligence practices established by Regulation (EU) 2024/1689 (AI Act)’.
[10] Si veda il considerando 26.
[11] Si vedano i consideranda 1, 6, 8, 27 e 176. Ai sensi dell’art. 1, comma 1, dell’AI Act, lo scopo di quest’ultimo “è migliorare il funzionamento del mercato interno e promuovere la diffusione di un’intelligenza artificiale (IA) antropocentrica e affidabile, garantendo nel contempo un livello elevato di protezione della salute, della sicurezza e dei diritti fondamentali sanciti dalla Carta dei diritti fondamentali dell’Unione europea, compresi la democrazia, lo Stato di diritto e la protezione dell’ambiente, contro gli effetti nocivi dei sistemi di IA nell’Unione, e promuovendo l’innovazione”.
[12] Si veda G. Zanfir-Fortuna, ‘Why data protection legislation offers a powerful tool for regulating AI’, 10 febbraio 2025, https://blogs.lse.ac.uk/.
[13] L’AI Act si applica a tutti gli attori della catena di fornitura dell’AI (sviluppo, produzione, messa in commercio o in servizio), sia all’interno che al di fuori dell’UE, purché i sistemi AI siano utilizzati o commercializzati nell’UE. Ricadono, dunque, nell’ambito di applicazione dell’AI Act i fabbricanti, i fornitori, gli importatori e i distributori che immettono sul mercato o mettono in servizio sistemi AI nell’UE, indipendentemente dal fatto che siano stabiliti nell’UE o in un paese terzo; i ‘deployers’ dei sistemi AI che hanno il loro luogo di stabilimento o sono situati all’interno dell’UE; i fornitori e ‘deployers’ di sistemi AI che hanno il loro luogo di stabilimento o sono situati in un paese terzo, laddove l’output prodotto dal sistema AI sia utilizzato nell’UE (art. 2 dell’AI Act). Invece, il GDPR si applica ai titolari e ai responsabili del trattamento che hanno uno stabilimento nell’UE, che offrono beni o servizi ad individui nell’UE o che monitorano il comportamento tenuto da individui all’interno dell’UE (art. 3 del GDPR). Ciò significa che l’AI Act è applicabile anche a sistemi AI che trattano dati personali di individui che non si trovano nell’UE. Inoltre, un sistema AI senza dati personali potrebbe rientrare nell’AI Act, ma non nel GDPR.
[14] Si vedano il considerando 46 e l’art. 8 dell’AI Act.
[15] Si vedano l’art. 35 del GDPR e Gruppo di lavoro Articolo 29, Linee guida in materia di valutazione d’impatto sulla protezione dei dati e determinazione della possibilità che il trattamento “possa presentare un rischio elevato” ai fini del regolamento (UE) 2016/679, da ultimo aggiornate dal Comitato europeo per la protezione dei dati (‘EDPB’) il 4 ottobre 2017.
[16] Si veda l’art. 27 dell’AI Act.
[17] Si veda A. Thomaidou – K. Limniotis, ‘Navigating Through Human Rights in AI: Exploring the Interplay Between GDPR and Fundamental Rights Impact Assessment’, Journal of Cybersecurity and Privacy, 2025, p. 31.
[18] Si veda l’art. 70 dell’AI Act.
[19] EDPB, ‘Statement 3/2024 on data protection authorities’ role in the Artificial Intelligence Act framework’, 16 luglio 2024.
[20] La profilazione automatizzata consiste nell’utilizzo di algoritmi per analizzare e prevedere il comportamento, le preferenze, le caratteristiche o le abitudini di una persona fisica. Un sistema AI può svolgere la profilazione automatizzata su larga scala e con una precisione sempre maggiore.
[21] Ai sensi dell’art. 13 dell’AI Act, i sistemi AI ad alto rischio dovrebbero essere progettati in modo da consentire ai ‘deployers’ di comprendere il funzionamento del sistema, valutarne la funzionalità e comprenderne i punti di forza e i limiti. Inoltre, i sistemi AI ad alto rischio devono essere accompagnati da informazioni adeguate sotto forma di istruzioni per l’uso, incluse le caratteristiche, le capacità e i limiti delle prestazioni del sistema. Quindi, come si vede, la trasparenza riguarda sia lo sviluppo di un sistema AI ad alto rischio, affinché i ‘deployers’ possano comprendere come il sistema funziona e produce risultati, che le istruzioni per l’uso fornite ai ‘deployers’.
[22] Si vedano gli articoli da 12 a 14 del GDPR.
[23] Si veda l’art. 26, par. 11 dell’AI Act.
[24] Si vedano gli articoli 13, par. 2 e 14, par. 2 del GDPR.
[25] Si vedano gli articoli 15 e 26 dell’AI Act. Si veda, inoltre, l’art. 35 del GDPR.
[26] L’AI Act definisce “incidente grave” un incidente o malfunzionamento di un sistema AI che, direttamente o indirettamente, causa una delle conseguenze seguenti: il decesso di una persona o gravi danni alla salute di una persona; una perturbazione grave e irreversibile della gestione o del funzionamento delle infrastrutture critiche; la violazione degli obblighi a norma del diritto dell’UE intesi a proteggere i diritti fondamentali; gravi danni alle cose o all’ambiente (art. 3). Il GDPR considera una “violazione dei dati personali” la violazione di sicurezza che comporta accidentalmente o in modo illecito la distruzione, la perdita, la modifica, la divulgazione non autorizzata o l’accesso ai dati personali trasmessi, conservati o comunque trattati (art. 4).
[27] Si veda l’art. 73 dell’AI Act. Si vedano altresí gli articoli 33 e 34 del GDPR.
[28] Ai sensi dell’art. 30 del GDPR, “ogni titolare del trattamento e, ove applicabile, il suo rappresentante tengono un registro delle attività di trattamento svolte sotto la propria responsabilità”.
[29] Si vedano gli articoli 11 e 12 dell’AI Act.
[30] Si veda l’articolata analisi di P. Dewitte, ‘AI Meets the GDPR. Navigating the Impact of Data Protection on AI Systems’, in ‘The Cambridge Handbook of the Law, Ethics and Policy of Artificial Intelligence’, pp. 133 – 157.
[31] Il diritto all’oblio come altri diritti riconosciuti dal GDPR ai soggetti interessati non è un diritto assoluto, ma può essere esercitato in determinati casi ed entro certi limiti.
[32] Si vedano G. D’Aquisto, Dati sintetici: cosa sono, le applicazioni e i rischi da gestire, pubblicato il 6 maggio 2024 su Agenda Digitale, e R. Manuelli, AI Act e dati sintetici: connubio perfetto per l’innovazione responsabile, pubblicato il 24 aprile 2024 su Agenda Digitale.
[33] Si veda G. Zanfir-Fortuna, ‘Why data protection legislation offers a powerful tool for regulating AI’, citato.
[34] Sul piano terminologico, il Parere dell’EDPB distingue tra “sistema AI” e “modello AI”. Per il primo, l’EDPB riprende la definizione contenuta nell’AI Act. Un modello AI è un componente di un sistema AI, un programma che applica ai dati uno o più algoritmi per riconoscere modelli, fare previsioni o prendere decisioni senza l’intervento umano. I modelli AI richiedono l’aggiunta di ulteriori componenti, come un’interfaccia utente, per diventare dei sistemi AI.
[35] EDPB, ‘Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context of AI models’, 17 dicembre 2024.
[36] Si veda Der Hamburgische Beauftragte für Datenschutz und Informationsfreiheit, ‘Diskussionspapier: Large Language Models und personenbezogene Daten’, 15 luglio 2024. In questo documento si sostiene che nessun dato personale viene conservato o trattato negli LLM e, pertanto, il GDPR non è applicabile a tali modelli AI. Considerando solo il modello AI isolatamente, il documento ha deciso che i ‘token’ e gli ‘embeddings’ che costituiscono il funzionamento interno di un modello AI non sono correlati a dati di individui identificabili.
[37] Nella misura in cui i dati personali vengono trattati in un sistema AI supportato da LLM, le operazioni di trattamento devono essere conformi ai requisiti del GDPR. Ciò si applica in particolare all’output di tale sistema. L’addestramento degli LLM con dati personali deve rispettare il GDPR, in particolare i diritti degli interessati. Tuttavia, l’addestramento di un modello AI in violazione del GDPR non inficia necessariamente la legalità dell’uso di tale modello in un sistema AI. Si veda il ‘Diskussionspapier: Large Language Models und personenbezogene Daten’, citato.
[38] Si tratta di tecniche che possono essere impiegate per “ingannare” il modello AI e fargli rivelare dati di addestramento o altrimenti ricostruire tali dati di addestramento, in alcuni casi basandosi sull’accesso privilegiato al modello stesso.
[39] L’EDPB ritiene che, affinché un modello AI possa essere considerato anonimo dovrebbe essere insignificante per qualsiasi interessato, utilizzando mezzi ragionevoli, sia (i) la probabilità di estrazione diretta (anche probabilistica) di dati personali relativi a individui i cui dati personali sono stati utilizzati per addestrare il modello; sia (ii) la probabilità di ottenere, intenzionalmente o meno, tali dati personali mediante query. Si veda l’‘Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context of AI models’, sopracitata.
[40] Il Parere menziona le seguenti tipologie di misure: misure adottate per evitare o limitare la raccolta di dati personali durante la fase di formazione; misure di minimizzazione dei dati o mascheramento (come la pseudonimizzazione) applicate per ridurre il volume e la sensibilità dei dati personali utilizzati durante la fase di addestramento; metodologie durante lo sviluppo del modello che riducono i rischi per la privacy; misure che riducono la probabilità di ottenere dati personali dalle queries (ad esempio, assicurando che il sistema AI blocchi la presentazione all’utente di output che possa contenere dati personali); audit basati su documenti (interni o esterni) intrapresi dallo sviluppatore del modello che includono una valutazione delle misure scelte e del loro impatto per limitare la probabilità di identificazione; test del modello per dimostrare la sua resilienza a diverse forme di attacchi di estrazione dati.
[41] Si veda l’‘Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context of AI models’, sopracitata.
[42] Si vedano: EDPB, ‘Guidelines 1/2024 on processing of personal data based on Article 6(1)(f) GDPR’ adottate l’8 ottobre 2024.
[43] Il ‘web scraping’ consiste nel rastrellamento massivo di dati sul web fatto dall’AI. Questo può portare ad una raccolta indiretta di dati personali degli individui.
[44] Si possono ricordare, ad esempio, gli obblighi per i fornitori di sistemi AI ad alto rischio di stabilire un sistema di gestione del rischio, che comprenda l’identificazione del rischio, i test e l’adozione di misure di mitigazione del rischio; applicare pratiche di governance e gestione dei dati durante l’addestramento dei modelli; redigere e aggiornare la documentazione tecnica e mantenere la registrazione automatica degli eventi; fornire istruzioni per l’uso ai ‘deployers’ che utilizzano il sistema AI; garantire la supervisione umana (ad esempio, includendo un pulsante ‘stop’ per i revisori umani per interrompere l’operatività del sistema AI); raggiungere un livello appropriato di accuratezza, robustezza e sicurezza informatica dei sistemi AI; sviluppare un sistema di monitoraggio post-commercializzazione per essere in grado di rilevare eventuali casi di malfunzionamento; sottoporsi a procedure di valutazione della conformità prima di essere immesso sul mercato; registrare il sistema AI in un database pubblico gestito dalla Commissione europea; informare le autorità di regolamentazione dell’UE se il sistema AI presenta rischi per la salute e la sicurezza delle persone o per i diritti fondamentali o in caso di incidente grave. Inoltre, i fornitori di modelli AI per uso generale (‘General Purpose AI’ o ‘GPAI’) sono tenuti a redigere (e mantenere aggiornata) la documentazione tecnica; fornire la documentazione alle imprese che intendono integrare il GPAI nei loro sistemi AI; redigere e implementare politiche di conformità alla normativa UE sul copyright; pubblicare un riepilogo dei dati utilizzati per la formazione. A questi obblighi se ne aggiungono alcuni specifici per i fornitori di modelli GPAI con rischi sistemici, tra cui quelli di condurre una valutazione del modello per identificare i rischi sistemici, anche tramite test avversari; valutare i rischi sistemici che il modello può presentare e implementare misure per mitigarli; monitorare gli incidenti gravi e notificarli all’AI Office e alle autorità di regolamentazione nei Paesi UE interessati; garantire un livello appropriato di sicurezza informatica.
[45] Si vedano: CNIL, ‘IA : Informer les personnes concernées’, 7 febbraio 2025, e ‘IA : Respecter et faciliter l’exercice des droits des personnes concernées’, 7 febbraio 2025.
[46] Come buona pratica, la CNIL incoraggia i riutilizzatori dei dati ad affidarsi al diffusore dei dati per informare le persone, soprattutto quando quest’ultimo è ancora in contatto con le persone interessate. Ad esempio, l’editore di un set di dati che pubblica su una piattaforma di scambio di dati di formazione potrebbe utilmente centralizzare le informative dei riutilizzatori sulla pagina di download del set di dati in questione. Al contrario, se il fornitore del set di dati in questione ha informato correttamente le persone riguardo al suo trattamento mettendo a disposizione il set di dati, ma non ha fornito tutte le informazioni sul trattamento dei riutilizzatori, questi ultimi devono informare gli interessati con i propri mezzi. Si veda: CNIL, ‘IA : Informer les personnes concernées’, sopracitata.
[47] Per valutare l’entità degli sforzi da compiere, è necessario tener conto dell’assenza di mezzi di contatto delle persone interessate o dell’età dei dati di contatto conservati (di accuratezza incerta, come nel caso di dati di contatto risalenti a più di 10 anni) o anche del numero di persone interessate e del costo della comunicazione. Ad esempio, il titolare del trattamento che intende riutilizzare i dati dei propri clienti e possiede ancora il loro indirizzo email dovrebbe sempre utilizzarlo per informarli individualmente. Al contrario, il titolare del trattamento che desideri raccogliere dati identificativi indirettamente non dovrà generalmente ricercare l’identità reale o i dati di contatto delle persone per informarle direttamente (sono allora sufficienti le informazioni generali sul suo sito internet). Per valutare l’impatto sulla vita privata degli interessati e l’intrusività del trattamento, è opportuno tenere conto dei rischi legati al trattamento (natura più o meno direttamente identificativa dei dati, sensibilità dei dati, ecc.) e delle eventuali garanzie poste in essere (quali la pseudonimizzazione, lo svolgimento di una DPIA, la riduzione del periodo di conservazione o l’implementazione di varie misure di sicurezza tecniche e organizzative). Ad esempio, a seconda del rischio derivante dalla natura dei dati e dal contesto della loro pubblicazione, il riutilizzatore di un set di dati pubblicamente accessibile online può avvalersi delle misure adottate dal titolare del trattamento iniziale per informare gli interessati della possibilità di riutilizzo da parte di terzi a fini di apprendimento. Il riutilizzatore può quindi semplicemente fornire informazioni generali (sul proprio sito web). Si veda: CNIL, ‘IA : Informer les personnes concernées’, citata.
[48] In caso di riutilizzo di un set di dati o di un modello AI soggetto al GDPR, oltre a indicare la fonte dei dati utilizzati, la CNIL raccomanda, almeno per gli insiemi di dati che presentano il rischio maggiore per le persone, di fornire mezzi per contattare il titolare del trattamento da cui sono stati recuperati. È buona norma rimandare direttamente al sito web dell’originario titolare del trattamento e accompagnare l’informativa con una spiegazione concisa e chiara delle condizioni di raccolta e annotazione dei dati. Si veda: CNIL, ‘IA : Informer les personnes concernées’, citata.
[49] In caso di raccolta su siti web (‘web scraping’) o riutilizzo dei dati raccolti, se la raccolta riguarda pochi siti, la CNIL raccomanda informazioni precise sulle fonti utilizzate. Quando le fonti sono molto numerose, raccomanda di fornire le categorie di siti di origine interessati, almeno quelli che presentano il rischio maggiore per le persone. Questa raccomandazione si applica ai raccoglitori di dati, ma anche ai titolari del trattamento che riutilizzano set di dati creati a partire dai dati raccolti. Si veda: CNIL, ‘IA : Informer les personnes concernées’, citata.
[50] Si veda: Commissione europea, Comunicato stampa ‘Commission establishes AI Office to strengthen EU leadership in safe and trustworthy Artificial Intelligence’ del 29 maggio 2024.
[51] Si veda: CNIL, ‘IA : Respecter et faciliter l’exercice des droits des personnes concernées’, sopracitata.
[52] Si veda: CNIL, ‘AI and GDPR: the CNIL publishes new recommendations to support responsible innovation’, comunicato stampa del 7 febbraio 2025.
[53] Si veda: CNIL, ‘Développement des systèmes d’IA : les recommandations de la CNIL pour respecter le RGPD’, 8 aprile 2024.
[54] Direttiva (UE) 2016/680 del 27 aprile 2016, in GU L 119 del 4 maggio 2016.
[55] Si veda: CNIL, ‘AI how-to sheets’, su https://www.cnil.fr/.
[56] Si vedano: CNIL, ‘Artificial intelligence: the CNIL opens a new public consultation on the development of AI systems’, 2 luglio 2024, e ‘AI how-to sheets’, su https://www.cnil.fr/.