Il 21 maggio 2024, il Consiglio dell’Unione europea ha approvato in via definitiva il Regolamento sull’intelligenza artificiale (AI Act), la prima normativa volta a disciplinare in maniera onnicomprensiva i sistemi di intelligenza artificiale, che sarà applicabile in buona parte a partire dall’estate del 2026.
Pur contenendo alcune previsioni che possono in qualche modo sovrapporsi a quelle del GDPR (ad esempio in materia di informativa o valutazione di impatto), l’AI Act non affronta direttamente le tematiche centrali che pone la compliance con la normativa in materia di dati personali nel contesto dell’uso dell’intelligenza artificiale.
Gli esempi di problematiche sono numerosi e ne tratteremo alcuni di particolare rilievo qui di seguito.
Gli obblighi di trasparenza verso gli interessati nell’AI Act
Il principio di trasparenza nell’AI Act è inteso, in generale, come sviluppo e utilizzo dei sistemi di intelligenza artificiale in modo da consentirne un’adeguata tracciabilità e spiegabilità, rendendo le persone fisiche consapevoli del fatto di comunicare o interagire con un sistema di intelligenza artificiale e informando debitamente gli utilizzatori delle capacità e dei limiti di tale sistema nonché le persone interessate dei loro diritti (considerando 27).
L’art. 50 dell’AI Act si concentra su determinati sistemi di intelligenza artificiale, tenendo conto dei rischi specifici di manipolazione che essi possono comportare per le persone fisiche. Tale disposizione impone, di conseguenza, obblighi di trasparenza con riguardo ai sistemi che: (i) interagiscono direttamente con gli esseri umani; (ii) sono utilizzati per riconoscere emozioni o stabilire una categorizzazione sulla base di dati biometrici; oppure (iii) generano o manipolano contenuti. Viene prescritto, fra l’altro, di sviluppare i sistemi che interagiscono direttamente con le persone fisiche in modo tale che queste siano informate della circostanza che stanno interagendo con un sistema di intelligenza artificiale (salvo che ciò sia già evidente) e di rendere noto se i contenuti mostrati sono stati artificialmente creati o manipolati. Queste informazioni devono essere fornite in maniera chiara e distinguibile al più tardi al momento della prima interazione o esposizione delle persone fisiche al sistema.
La trasparenza nel GDPR
Il GDPR impone poi specifici ulteriori obblighi di trasparenza verso gli interessati e integra l’AI Act per quanto nello stesso non disciplinato (fra l’altro, con riguardo ai sistemi di intelligenza artificiale non contemplati dal citato art. 50)[1].
Ad esempio, in base al GDPR, oltre a dover informare gli interessati circa l’identità e i dati di contatto del titolare del trattamento, le finalità e le relative basi giuridiche, è necessario fornire loro informazioni sui tempi di conservazione dei dati, sulle terze parti eventualmente destinatarie dei dati e sulla circostanza che i dati sono trasferiti al di fuori dello Spazio economico europeo.
Inoltre, ex artt. 13(2)(f) e 14(2)(g) del GDPR), l’informativa deve contenere indicazioni circa l’esistenza di processi decisionali automatizzati (inclusa la profilazione) che producano effetti giuridici riguardanti gli interessati o che incidano significativamente su di loro. In questo caso, gli interessati devono ricevere informazioni significative sulla logica utilizzata nonché sull’importanza e sulle conseguenze che il trattamento può avere.
Quindi, quando (come spesso accade) il sistema di intelligenza artificiale è preordinato alla profilazione degli individui, è comunque importante fornire, con un linguaggio il più possibile semplice, informazioni rilevanti sotto questo aspetto. Sulla scorta di quanto indicato anche dal Gruppo di lavoro Articolo 29 (nelle Linee guida sul processo decisionale automatizzato relativo alle persone fisiche e sulla profilazione ai fini del Regolamento 2016/679), tali informazioni dovrebbero riguardare, fra l’altro: (i) le tipologie di dati che sono utilizzati dal sistema di intelligenza artificiale per creare il profilo; (ii) le modalità (in termini di logica, più che di processo tecnologico) mediante le quali dai dati si arriva alla creazione del profilo di un interessato; (iii) i motivi per cui i profili così creati sono pertinenti rispetto alle finalità del trattamento; (iv) come i profili possano essere eventualmente utilizzati per prendere decisioni che riguardano gli interessati.
Nel contesto dell’intelligenza artificiale, può non essere agevole osservare queste prescrizioni in materia di trasparenza, considerato che l’intelligenza artificiale si basa spesso su meccanismi per loro natura opachi.
Ciò posto, può escludersi che per essere compliant con il GDPR sia necessario (e utile) informare gli interessati circa gli aspetti più squisitamente tecnici dei meccanismi di funzionamento dell’intelligenza artificiale (compresi quelli connessi agli algoritmi), peraltro presumibilmente incomprensibili per la maggior parte delle persone.
Del resto, l’art. 12(1) del GDPR prescrive che l’informativa sia fornita in “forma concisa, trasparente, intelligibile e facilmente accessibile, con un linguaggio semplice e chiaro”[2].
Altra questione delicata concerne l’individuazione degli interessati a cui l’informativa deve essere fornita.
Infatti, un sistema di intelligenza artificiale può trattare dati personali di un numero imprecisato di interessati e può raccoglierli dalle fonti più variegate. Ciò può accadere, ad esempio, quando sono impiegate tecnologie di web scraping di dati da fonti pubblicamente accessibili come i siti web[3].
In questi casi, non è solitamente possibile informare del trattamento ogni interessato individualmente e, come ha chiarito lo European Data Protection Board (“EDPB”) nel Report of the work undertaken by the ChatGPT Taskforce del 23 maggio 2024, potrebbe applicarsi l’esenzione di cui all’articolo 14(5)(b) del GDPR, purché i requisiti di tale disposizione siano soddisfatti. Conseguentemente, ove fornire l’informativa direttamente ai singoli interessati risulti impossibile – o comunque comporti uno sforzo sproporzionato – tale informativa può essere omessa, fermo restando che le informazioni necessarie, fra cui quelle che spiegano da dove il sistema di intelligenza artificiale ottiene i dati che utilizza e come agli interessati è consentito opporsi al trattamento, possono essere diffuse pubblicamente[4].
Al contrario, quando i dati personali sono raccolti durante l’interazione diretta dell’interessato con il sistema di intelligenza artificiale, si applicano i requisiti di cui all’articolo 13 del GDPR e l’informativa va fornita individualmente all’interessato.
La base giuridica del trattamento
Il GDPR prevede, come condizione di liceità del trattamento, che questo si fondi su una base giuridica. Lo stesso GDPR contempla varie basi giuridiche, alternative fra loro, e per ciascun trattamento il titolare deve individuare quella corretta[5].
L’esecuzione del contratto
Nel contesto dell’intelligenza artificiale, il trattamento potrebbe a volte essere giustificato dalla necessità di eseguire il contratto di cui l’interessato è parte (o di adottare misure contrattuali su richiesta dell’interessato) ai sensi dell’art. 6(1)(b) del GDPR. Questo può accadere rispetto ai dati personali di interessati che si avvalgano di un servizio (come potenzialmente un chatbot, nella misura in cui il trattamento di dati personali sia necessario per rispondere alle richieste formulate dagli interessati) il quale, affinché la prestazione richiesta possa essere fornita, deve trattare questi dati per mezzo dell’intelligenza artificiale.
L’esecuzione di un compito di interesse pubblico o connesso all’esercizio di pubblici poteri
Particolarmente quando il titolare del trattamento è una Pubblica Amministrazione (ad esempio, con riguardo a una smart city) il trattamento potrebbe fondarsi sulla necessità di eseguire un compito di interesse pubblico o connesso all’esercizio di pubblici poteri di cui è investito il titolare (art. 6(1)(e) del GDPR).
Il consenso
In altri casi, il trattamento dovrà essere invece spesso fondato sul consenso degli interessati ai sensi dell’art. 6(1)(a) del GDPR. Fra l’altro, il consenso è nella maggior parte dei casi necessario quando vengano trattate categorie particolari di dati personali ex art. 9 del GDPR[6].
L’interessato può però revocare il consenso in qualsiasi momento e deve essere informato di tale facoltà (sebbene la revoca del consenso non pregiudichi la liceità del trattamento basata sul consenso prima della revoca).
Peraltro, il consenso potrebbe essere impossibile da raccogliere (e quindi non essere utilizzabile come base giuridica) con riguardo a dati raccolti non direttamente dagli interessati e utilizzati, ad esempio, per addestrare gli algoritmi (come nel caso di web scraping di cui si è parlato sopra).
Il legittimo interesse
In altre circostanze (fra cui quelle ora menzionate in cui il consenso degli interessati non possa essere raccolto), può soccorrere la base giuridica del legittimo interesse del titolare o di un terzo, se nel bilanciamento di interessi non prevalgono interessi, diritti e libertà degli interessati ai sensi dell’art. 6(1)(f) del GDPR[7].
In proposito, nel Report of the work undertaken by the ChatGPT Taskforce, con riguardo ai modelli linguistici di grandi dimensioni (LLM), l’EDPB ha specificamente distinto le diverse fasi del trattamento in (i) raccolta dei dati di addestramento (compreso l’uso di dati ottenuti mediante web scraping o il riutilizzo di set di dati; (ii) pre-elaborazione dei dati (compreso il filtraggio), (iii) addestramento, (iv) prompt e output del sistema, nonché (v) addestramento del sistema con prompt.
Ci soffermiamo sulle prime tre fasi che, secondo l’EDPB, comportano rischi caratteristici per i diritti e le libertà fondamentali degli interessati, particolarmente connessi all’attività di web scraping (attività che peraltro, a seconda della fonte utilizzata, potrebbe permettere di raccogliere anche dati particolari ex art. 9(1) del GDPR).
La valutazione circa la possibilità di ricorrere alla base giuridica del legittimo interesse con riguardo al web scraping implica, fra l’altro, che venga verificata l’adozione di adeguate misure di tutela degli interessati, che potrebbero consistere anche in misure tecniche, con la definizione di criteri di raccolta precisi e la garanzia che alcune categorie di dati non vengano raccolte o che alcune fonti (come i profili pubblici dei social media) siano escluse dalla raccolta. Inoltre, secondo l’EDPB, dovrebbero essere adottate misure per cancellare o rendere anonimi i dati personali raccolti tramite web scraping prima della fase di addestramento.
Web scraping e questioni relative al trattamento di dati particolari
Quanto ai dati particolari ex art. 9(1) del GDPR, secondo l’EDPB[8], che si esprime nel contesto della raccolta dei dati di addestramento, pre-elaborazione dei dati e addestramento, si può valutare l’applicazione dell’art. 9(2)(e) GDPR (disposizione che esime dal generale divieto di trattare dati particolari quando questi sono resi manifestamente pubblici dall’interessato). Tuttavia, la valutazione andrebbe fatta caso per caso. Infatti, la semplice circostanza che i dati personali siano accessibili al pubblico non implica di per sé che l’interessato li abbia manifestamente resi pubblici[9]. Dunque, secondo l’EDPB, andrebbe verificato volta per volta se gli interessati abbiano inteso, in modo esplicito e con una chiara azione affermativa, rendere accessibili al pubblico in generale i dati personali in questione[10].
Il problema è che, quando grandi quantità di dati personali vengono raccolte tramite web scraping, è ben difficile esaminare caso per caso, sotto questo profilo, ogni tipologia di dati. Per tale motivo, l’EDPB invita all’adozione di misure quali il filtraggio di dati particolari, da applicarsi sia alla raccolta dei dati (ad esempio, selezionando i criteri per la raccolta dei dati) sia immediatamente dopo tale raccolta (cancellazione dei dati).
Rilevare e correggere eventuali bias nei sistemi di IA ad alto rischio
L’art. 10(5) dell’AI Act interviene sul tema del trattamento dei dati particolari in relazione a una fattispecie specifica, consentendone il trattamento nella misura in cui sia necessario per rilevare e correggere eventuali bias nei sistemi di intelligenza artificiale ad alto rischio, purché siano rispettate determinate condizioni specificate dalla stessa disposizione (es., il rilevamento e la correzione dei bias non possano essere eseguiti con dati sintetici o anonimi, siano adottate limitazioni tecniche all’eventuale riutilizzo dei dati personali nonché misure di sicurezza, tra cui pseudonimizzazione e controllo degli accessi, i dati particolari non siano comunicati o trasferiti a terzi e vengano cancellati non appena i bias sono stati corretti). L’esenzione dal divieto generale di trattare dati particolari è individuata nel pubblico interesse ai sensi dell’art. 9(2)(g) del GDPR.
L’AI Act prescrive, inoltre, che il registro dei trattamenti ai sensi dell’art. 30 del GDPR deve includere i motivi per cui il trattamento di dati particolari è strettamente necessario per rilevare e correggere i bias nonché i motivi per cui non è possibile raggiungere lo stesso obiettivo trattando dati “comuni”.
L’accuratezza dei dati personali
Un principio cardine del GDPR è quello dell’accuratezza dei dati personali (“esattezza”, in base all’art. 5(1)(d)). Anche l’AI Act ribadisce la necessità che i sistemi di intelligenza artificiale, in particolare quelli ad alto rischio, assicurino un adeguato livello di accuratezza nel corso del loro intero ciclo di funzionamento.
Ebbene, è possibile che dati inaccurati siano presenti nei sistemi di intelligenza artificiale e che l’accuratezza sia un obiettivo che il sistema si propone di perseguire con il tempo e con l’uso, man mano che venga utilizzato.
Lo European Data Protection Supervisor (“EDPS”), nel documento Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems del 3 giugno 2024, ha però ribadito che nel contesto dei sistemi di intelligenza artificiale generativa i titolari del trattamento “devono garantire l’accuratezza dei dati in tutte le fasi dello sviluppo e dell’utilizzo [del sistema]. In effetti, devono implementare le misure necessarie per integrare la protezione dei dati nella progettazione che contribuirà ad aumentare l’accuratezza dei dati in tutte le fasi”. Ciò implica la verifica della struttura e del contenuto dei set di dati utilizzati per l’addestramento dei modelli, compresi quelli provenienti da terzi.
È altresì importante avere il controllo sui dati di output, comprese le inferenze fatte dal modello, il che richiede un monitoraggio regolare di tali informazioni, anche mediante la supervisione umana[11]. Ciò è tanto più importante in quanto – come è noto – i modelli, anche se addestrati con dati rappresentativi di alta qualità, possono generare output contenenti informazioni (compresi dati personali) imprecise o false (le cosiddette “allucinazioni”).
Nel Report of the work undertaken by the ChatGPT Taskforce l’EDPB ha comunque segnalato l’importanza che, in linea con il principio di trasparenza di cui all’art. 5(1)(a) del GDPR, il titolare del trattamento fornisca informazioni adeguate sul livello di affidabilità dei meccanismi di creazione di output probabilistici, compreso un riferimento esplicito al fatto che il risultato generato potrebbe essere incompleto o errato.
In ogni caso, le misure adottate per rispettare il principio di trasparenza non sono di per sé sufficienti per essere compliant con il principio di esattezza dei dati.
Al principio di esattezza è anche correlato il diritto degli interessati di ottenere la rettifica dei dati inesatti (art. 16 del GDPR). Stante la complessità dei sistemi di intelligenza artificiale, la rettifica potrebbe a volte non essere possibile. In questi casi, il diritto di ottenere che i dati inesatti siano rettificati, può trasformarsi nel diritto di vederli cancellati.
L’individuazione dei dati personali per l’esercizio dei diritti degli interessati
Garantire l’esercizio dei diritti degli interessati disciplinati dal GDPR (come ad esempio il diritto di accesso o il diritto alla portabilità dei dati, oltre al diritto di rettifica e di cancellazione a cui di è già fatto cenno) in relazione ai sistemi di intelligenza artificiale può non essere agevole, stante la complessità e la varietà delle fasi del ciclo di sviluppo e uso di tali sistemi, inclusa l’attività di addestramento[12].
Nel caso di sistemi di intelligenza artificiale, può risultare problematica la stessa identificazione, nel corso dell’elaborazione fatta dal sistema, di quali siano i dati che possano definirsi personali, perché fra input e output c’è un meccanismo complesso.
Come ricorda l’EDPS, nel documento Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems, nei modelli linguistici di grandi dimensioni, singole parole come “gatto” o “cane” non vengono memorizzate come stringhe di testo ma rappresentate come vettori numerici attraverso un processo chiamato word embedding. Questi vettori derivano dall’addestramento del modello su grandi quantità di dati testuali. La conseguenza è che l’accesso, l’aggiornamento o la cancellazione dei dati memorizzati in questi modelli, anche quando possibile, è molto difficile.
È dunque importante che i sistemi di intelligenza artificiale siano tecnicamente resi trasparenti sotto il profilo in discorso, impostandoli in modo tale da classificare i dati processati, permettendo di individuare, fra essi, i dati personali. Ciò tenendo anche presente che possono qualificarsi come dati personali anche i dati inferenziali o “derivati” (tra i quali rientrano i risultati prodotti da un algoritmo), in quanto, da soli o in combinazione con altri dati, siano riconducibili ad un interessato.
La valutazione d’impatto sulla protezione dei dati e la FRIA
L’art. 35 del GDPR prescrive che i trattamenti che presentano un rischio elevato per i diritti e le libertà delle persone fisiche devono essere sottoposti a una previa valutazione di impatto sulla protezione dei dati personali (DPIA), allorché prevedano in particolare l’uso di nuove tecnologie. I trattamenti di dati personali svolti mediante sistemi di intelligenza artificiale rientrano tipicamente tra quelli soggetti alla DPIA e, infatti, il Garante per la protezione dei dati personali li ha inclusi nell’elenco delle tipologie di trattamenti, soggetti al meccanismo di coerenza, da sottoporre a DPIA (Allegato 1 al provvedimento n. 467 dell’11 ottobre 2018).
Allo stesso tempo, in base all’art. 27 dell’AI Act, alcuni utilizzatori (“deployer”), fra cui quelli dei sistemi di intelligenza artificiale ad alto rischio elencati nei punti 5(b) e (c) dell’Allegato III all’AI Act (ossia, sistemi impiegati per finalità di credit score – con l’eccezione di quelli volti a identificare frodi finanziarie – e valutazione del rischio nel settore delle assicurazioni sanitarie e sulla vita), devono attuare un assessment dell’impatto che tali sistemi possono avere sui diritti fondamentali degli individui (FRIA).
La FRIA ha specificamente ad oggetto i processi in cui il sistema di IA sarà impiegato e le sue finalità, il periodo di tempo e la frequenza con cui il sistema sarà utilizzato, le categorie di individui e gruppi impattati da tale utilizzo, eventuali specifici rischi, i sistemi di controllo umano attivati nonché le misure da adottare qualora i rischi identificati si concretizzino.
L’AI Act richiama in proposito il GDPR, precisando che se tali profili sono già stati considerati nella DPIA, la FRIA integra tale DPIA. Dunque, ragionevolmente, gli utilizzatori possono rinviare alla DPIA per quanto già in essa illustrato e analizzato. Parallelamente, gli utilizzatori possono basarsi sule informazioni fornite dai provider (es., le istruzioni per decifrare gli output e, in generale, sul funzionamento del sistema di intelligenza artificiale) nell’effettuare la DPIA.
L’importanza dell’accountability
Da più parti si afferma che la piena conformità con il GDPR sarebbe di fatto impossibile nel contesto dell’intelligenza artificiale, stante la complessità di questa realtà, rispetto alla quale le norme europee in materia di data protection sarebbero già obsolete.
A nostro avviso, come descritto sopra con riguardo ad alcune problematiche tipiche, l’aporia è però spesso già oggi risolvibile, anche grazie alle utili indicazioni che provengono gradualmente – e sempre più frequentemente – dalle autorità europee[13].
Rimane comunque fondamentale, in termini di approccio alla compliance, il principio di accountability (artt. 5(2) e 24 del GDPR) [14], in base al quale i titolari del trattamento che impiegano sistemi di intelligenza artificiale devono prefigurare adeguate soluzioni,piuttosto che attendere puntuali prescrizioni dell’autorità[15].
Peraltro, come è accaduto nella vicenda dell’intervento del Garante italiano nel caso ChatGPT, ciò può ben tradursi, specialmente in questo momento storico in cui si stanno meglio definendo i confini applicativi delle norme in materia di data protection nel contesto dell’intelligenza artificiale, in un dialogo funzionale alla ricerca del consenso dell’autorità su soluzioni proposte dai titolari del trattamento che a tali norme sono soggetti.
Note
[1] Del resto, lo stesso art. 50(6) dell’AI Act fa salvi eventuali ulteriori obblighi di trasparenza imposti agli utilizzatori di sistemi di intelligenza artificiale da parte di diverse normative UE o nazionali.
[2] Coerentemente, l’Information Commissioner’s Office britannico, nella Guidance on AI and data protection del 15 marzo 2023, ha precisato che l’informativa in merito alle ragioni in base alle quali un sistema di intelligenza artificiale “prende una decisione” debba essere “fornita in modo accessibile e non tecnico”.
[3] Il web scraping consiste in un’attività di raccolta massiva di dati (anche personali) condotta attraverso tecniche di web crawling e combinata con un’attività consistente nella memorizzazione e conservazione dei dati raccolti dai bot per successive mirate analisi, elaborazioni ed utilizzi.
[4] Infatti, relativamente al caso di dati che non siano ottenuti presso l’interessato, in base all’art. 14(5)(b) del GDPR, quando fornire l’informativa risulti impossibile o implichi uno sforzo sproporzionato, il titolare del trattamento adotta misure appropriate per tutelare i diritti, le libertà e i legittimi interessi degli interessati, anche rendendo pubbliche le informazioni.
[5] Come ha ricordato anche di recente il Garante per la protezione dei dati personali (nel documento Web scraping ed intelligenza artificiale generativa: nota informativa e possibili azioni di contrasto del 20 maggio 2024), l’individuazione della base giuridica del trattamento va fatta sulla base di una valutazione di idoneità che il titolare deve essere in grado di comprovare, in base al principio di accountability di cui all’art. 5(2) del GDPR.
[6] Affronteremo più avanti il tema del trattamento di dati personali resi manifestamente pubblici dall’interessato ex art. 9(2)f) del GDPR.
[7] L’EDPS ha osservato al riguardo (nel menzionato documento Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems) che, nel caso del trattamento dei dati da parte di sistemi di intelligenza artificiale generativa, svariate circostanze possono influenzare negativamente il risultato del test di bilanciamento, portando a effetti quali l’imprevedibilità per gli interessati e l’incertezza giuridica per i titolari del trattamento.
Va anche segnalato al riguardo che, a parere del Gruppo di lavoro Articolo 29 (espresso nelle già citate Linee guida sul processo decisionale automatizzato relativo alle persone fisiche e sulla profilazione ai fini del Regolamento 2016/679), sarebbe difficile per un titolare del trattamento giustificare il ricorso al legittimo interesse come base giuridica per pratiche intrusive di profilazione e tracciamento per finalità di marketing, ad esempio quelle che comportano il tracciamento di persone fisiche su più siti web, ubicazioni, dispositivi, servizi o tramite l’intermediazione di dati.
[8] Si veda ancora il citato Report of the work undertaken by the ChatGPT Taskforce.
[9] Cfr. già il Parere 6/2014 del Gruppo di lavoro Articolo 29 sul concetto di interesse legittimo ai sensi dell’articolo 7 della direttiva 95/46/CE: “sarebbe inappropriato concludere per esempio che il fatto che qualcuno abbia reso alcune categorie particolari di dati manifestamente pubbliche ai sensi dell’articolo 8 [oggi art. 9 del GDPR], paragrafo 2, lettera e), sia (sempre in sé e per sé) una condizione sufficiente a consentire qualunque tipo di trattamento dei dati, senza effettuare un test comparativo degli interessi e dei diritti in gioco in conformità dell’articolo 7 [oggi art. 6 del GDPR], lettera f”.
[10] Con riguardo al trattamento mediante web scraping delle immagini di individui (peraltro, di per sé normalmente non configurabili come dati particolari), il Garante per la protezione dei dati personali, nell’ordinanza ingiunzione nei confronti di Clearview AI del 10 febbraio 2022 aveva già osservato che “l’eventuale natura pubblica delle immagini non è sufficiente a far ritenere che gli interessati possano ragionevolmente attendersi un utilizzo per finalità di riconoscimento facciale, per giunta da parte di una piattaforma privata, non stabilita nell’Unione e della cui esistenza ed attività la maggior parte degli interessati è ignaro. Dall’altro lato […], la stessa circostanza della natura pubblica delle immagini non autorizza automaticamente Clearview a poter riutilizzare legittimamente le stesse in modo libero”.
Nel citato documento Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems, l’EDPS ha recentemente ricordato che il trattamento dei dati personali rimane soggetto alla normativa in materia di protezione dei dati anche se tali dati siano stati resi pubblici e che, sotto questo profilo, l’uso di tecniche di web scraping per raccogliere dati da siti web e il loro utilizzo per addestrare sistemi di intelligenza artificiale potrebbe non essere conforme alle regole che presidiano la protezione dei dati, tra cui il principio di minimizzazione dei dati e il principio di accuratezza, nella misura in cui non vi sia una valutazione sull’affidabilità delle fonti.
[11] Secondo l’EDPS, gli sviluppatori dovrebbero utilizzare set di validazione durante l’addestramento e set di test separati per la valutazione finale, al fine di ottenere una stima delle prestazioni del sistema. Sebbene in genere non siano orientate alla protezione dei dati, le metriche sull’accuratezza statistica (la capacità dei modelli di produrre output o previsioni corrette in base ai dati su cui sono stati addestrati), quando disponibili, possono offrire un indicatore dell’accuratezza dei dati utilizzati dal modello e delle prestazioni previste.
Ai titolari del trattamento che utilizzino sistemi di intelligenza artificiale generativa o set di dati di addestramento, test o convalida forniti da terzi, l’EDPS raccomanda di ottenere garanzie contrattuali e documentazione sulle procedure utilizzate per assicurate l’accuratezza dei dati utilizzati per lo sviluppo del sistema. Ciò include le procedure di raccolta dei dati, le procedure di preparazione, come l’annotazione, l’etichettatura, la pulizia, l’arricchimento e l’aggregazione, nonché l’identificazione di eventuali lacune che possono influire sull’accuratezza dei dati. La documentazione tecnica e d’uso del sistema dovrebbe consentire al titolare del trattamento di effettuare regolarmente controlli e porre in essere azioni appropriate per garantire il rispetto del principio di esattezza dei dati.
[12] Peraltro, prima di essere utilizzati per l’addestramento di un modello statistico, i dati di training vengono normalmente sottoposti a trattamenti necessari a renderli più adatti agli algoritmi. Questi processi possono rendere molto più difficile collegare i dati a uno specifico individuo, senza che, però, questo escluda la lora natura di dati personali e, quindi, l’applicabilità della relativa normativa.
[13] Da ultimo, si ricordano, in particolare, i seguenti documenti sopra citati: il documento Web scraping ed intelligenza artificiale generativa: nota informativa e possibili azioni di contrasto, che il Garante per la protezione dei dati personali ha adottato il 20 maggio 2024; il Report of the work undertaken by the ChatGPT Taskforce dell’EDPB in data 23 maggio 2024; il documento dell’EDPS Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems, pubblicato il 3 giugno 2024, che, sebbene rivolto a istituzioni, organi, uffici e agenzie dell’UE, è chiaramente un utile riferimento anche per i soggetti privati che devono agire in conformità al GDPR.
[14] La prospettiva dell’accountability deve essere tenuta in debita considerazione da diversi soggetti che possono essere coinvolti negli scenari di funzionamento dei sistemi di intelligenza artificiale.
Recente manifestazione di questa necessità è il citato documento Web scraping ed intelligenza artificiale generativa: nota informativa e possibili azioni di contrasto. Con tale documento, il Garante per la protezione dei dati personali – al netto degli obblighi gravanti direttamente sui soggetti che, per addestrare sistemi di intelligenza artificiale generativa, raccolgono dati personali pubblicati su siti web e piattaforme online tramite web scraping – ha rivolto indicazioni di compliance a chi gestisce tali siti web e piattaforme online.
Questo perché il principio di accountability impone obblighi di protezione dei dati anche a tali ulteriori soggetti, particolarmente ove il web scraping operato da terze parti possa risultare incompatibile con le finalità e le basi giuridiche che presidiano la pubblicazione dei dati degli interessati sui loro siti web o piattaforme.
Il Garante osserva in proposito che i gestori di siti web e di piattaforme online che rivestano il ruolo di titolari del trattamento dovrebbero valutare, caso per caso, quando risulti necessario sottrarre i dati personali che trattano ai bot di terze parti mediante l’adozione di specifiche azioni di contrasto.
[15] La pietra angolare dell’approccio alla compliance sembra in ogni caso quella per cui, come ha precisato l’EDPB nel Report of the work undertaken by the ChatGPT Taskforce, non pare in principio plausibile invocare l’impossibilità tecnica per giustificare l’inosservanza degli obblighi del GDPR.