soft law

GenAI: le linee guida di Garante e EDPS per un uso sicuro dei dati

Con l’approvazione dell’AI Act e la pubblicazione imminente in Gazzetta Ufficiale, le Autorità hanno rilasciato documenti di soft law per guidare fornitori e utenti di IA. Tra maggio e giugno, il Garante e l’EDPS hanno pubblicato linee guida sul web scraping e sull’uso dei dati personali nell’IA generativa, evidenziando misure di protezione e compliance

Pubblicato il 13 giu 2024

Giacomo Borgognone

Avvocato Legal Consultant P4I – Partners4Innovation

Anna Cataleta

Senior Partner di P4I e Senior Advisor presso l’Osservatorio Cybersecurity & Data Protection (MIP)

Business,Data,Analytic,Interface,Fly,Over,Smart,City,Showing,Alteration

Mentre il Consiglio ha approvato il testo dell’AI Act e si attende entro breve la pubblicazione in Gazzetta Ufficiale, le Autorità continuano a produrre documenti di soft law per fornire indicazioni ai fornitori e agli utilizzatori dei sistemi di IA. In particolare, tra fine maggio e inizio giugno sono stati pubblicati due documenti con un focus sull’intelligenza artificiale generativa e l’utilizzo di dati personali: le indicazioni sul webscraping del Garante per la protezione dei dati personali e le linee guida per le Istituzioni sull’IA generativa dell’EDPS.

Scorza: “Dati pescati a strascico dall’intelligenza artificiale, perché la nostra indagine”

Ciò ribadisce l’importanza e l’attenzione che richiede l’intelligenza artificiale generativa, sempre più potente e diffusa, la quale necessita l’addestramento dei modelli sottesi al funzionamento della stessa tramite una grande quantità di dati, tra cui spesso rientrano anche i dati personali. Oggetto dell’attenzione è l’utilizzo dell’IA generativa sia da parte di privati che da parte delle Istituzioni. I documenti mirano, infatti, a fornire delle indicazioni a livello operativo, le quali possono essere utili nella generalità dei casi in cui si ha a che fare con l’IA generativa.

Indice degli argomenti

Le indicazioni del Garante privacy sul webscraping

Le indicazioni del Garante contenute nella nota informativa sul webscraping[1], analizzano la modalità di raccolta dei dati attraverso bot al fine di addestrare i sistemi di IA e forniscono delle indicazioni per poter proteggere i dati personali da tale pratica. Infatti, i dataset utilizzati dagli sviluppatori di intelligenza artificiale generativa hanno provenienze variegate, ma il web scraping costituisce un denominatore comune.

Il Garante riporta che nel 2023, il 49,6% di tutto il traffico Internet è stato generato dai bot con un aumento che è stato parzialmente ricondotto alla diffusione di sistemi di intelligenza artificiale e, in particolare, dei modelli linguistici di grandi dimensioni sottesi all’intelligenza artificiale generativa. Tra gli strumenti utilizzati per il webscraping il garante richiama i web crawler, o “spider”, i quali sono programmi che scansionano sistematicamente il web al fine di raccogliere i dati contenuti nelle pagine web al fine di indicizzarli, memorizzarli e conservarli per successive mirate analisi, elaborazioni ed utilizzi.

Il documento tiene conto dei contributi ricevuti dall’Autorità nell’ambito dell’indagine conoscitiva in materia di webscraping, deliberata con provvedimento del 21 dicembre 2023, pubblicato nella Gazzetta Ufficiale n. 14 del 18 gennaio 2024. In ogni caso, l’Autorità afferma che le indicazioni non sono vincolanti e sono rimesse ai titolari del trattamento le valutazioni da fare caso per caso.

Inoltre, la prospettiva del provvedimento si pone in un’ottica diversa rispetto a quella del soggetto che raccoglie i dati personali tramite webscraping. Infatti, il passaggio che il Garante opera è rispetto ai titolari del trattamento che rendono i dati disponibili al pubblico. Questi possono pubblicare i dati esclusivamente per finalità specifiche e sulla base di una o più condizioni di legittimità tra quelle previste all’art. 6 del Regolamento (es: obblighi di trasparenza, pubblicità legale, procedure a evidenza pubblica, diritto di cronaca, contratto in essere con gli interessati).

Le possibili azioni di contrasto al webscraping

Nel contesto descritto, l’Autorità ha individuato delle possibili azioni di contrasto al webscraping, tra cui:

Creazione di aree riservate, a cui si può accedere solo se registrati; ciò potrebbe sottrarre i dati dalla pubblica disponibilità. Il titolare deve comunque prestare attenzione, anche nell’adozione di tale misura, a non dare luogo ad un trattamento eccessivo di dati per la registrazione.
Inserimento di clausole ad hoc nei termini di servizio, al fine di introdurre il divieto di utilizzare tecniche di webscraping. In questo caso, la misura contrattuale potrebbe fungere da deterrente.
Monitoraggio del traffico di rete, al fine di individuare eventuali flussi anomali di dati in ingresso ed in uscita da un sito web o da una piattaforma online per porter adottare adeguate contromisure di protezione.
Interventi sui bot, ossia adottare degli accorgimenti tecnici per arginare l’attività automatizzata di raccolta dati che viene effettuata tramite i bot come, ad esempio, l’inserimento di verifiche CAPTCHA.

L’Autorità specifica che le azioni indicate nel documento devono essere valutate caso per caso e non garantiscono in tutti casi una effettiva difesa dal fenomeno del webscraping. Pertanto, i titolari dovranno comunque compiere delle valutazioni interne al fine di contrastare tale fenomeno.

Le indicazioni dell’EDPS sull’IA generativa

Sempre in riferimento all’IA generativa, il 3 giugno 2024 l’EDPS ha pubblicato le linee guida sull’intelligenza artificiale generativa e sui dati personali per le istituzioni, gli organi e gli organismi dell’UE (IUE)[2]. Il documento mira ad aiutare le Istituzioni a rispettare gli obblighi in materia di protezione dei dati di cui al regolamento (UE) 2018/1725 (“Regolamento”) quando utilizzano o sviluppano strumenti di IA generativa. È interessante notare che l’EDPS ha pubblicato il documenti in veste di Data protection supervisory authority.

L’uso di sistemi di IA nella fornitura di servizi pubblici

L’Autorità evidenzia sin da subito che per le Istituzioni dell’UE non vi è alcun ostacolo di principio nello sviluppare, implementare e utilizzare sistemi di intelligenza artificiale generativa nella fornitura di servizi pubblici, a condizione che le normative lo consentano e che siano rispettati tutti i requisiti imposti dalla normativa. Pertanto, le Istituzioni possono sia sviluppare e implementare proprie soluzioni di intelligenza artificiale generativa, sia utilizzare per le proprie finalità soluzioni disponibili sul mercato. In ogni caso, nel contesto così delineato, se sono trattati dei dati personali, devono determinare chiaramente i ruoli per le specifiche operazioni di trattamento effettuate e le loro implicazioni in termini di obblighi e responsabilità ai sensi del Regolamento.

L’importanza di coinvolgere il DPO

Un punto centrale evidenziato nel documento riguarda la verifica rispetto al caso in cui il sistema di IA generativa utilizzi o meno dati personali e, nel caso in cui questi ultimi siano trattati, evidenzia l’importanza di coinvolgere il DPO. Infatti, dal punto di vista organizzativo, l’implementazione di sistemi di IA generativa in conformità con il Regolamento presuppone un dialogo continuo tra tutte le parti interessate coinvolte durante l’intero ciclo di vita del prodotto. Pertanto, i titolari del trattamento dovrebbero collaborare con tutte le funzioni rilevanti all’interno dell’organizzazione e, in particolare il DPO, il servizio legale, il servizio IT e il responsabile della sicurezza informatica, per garantire che l’Istituzione operi entro i parametri dell’intelligenza artificiale generativa affidabile, della buona governance dei dati e della conformità al Regolamento. Per raggiungere l’obiettivo, l’EDPS afferma che possono essere utili alcuni accorgimenti come la creazione di una task force sull’IA, che includa il DPO, e la preparazione di un piano d’azione, comprensivo di azioni di sensibilizzazione a tutti i livelli dell’organizzazione, nonché la preparazione di linee guida interne.

Lo svolgimento della DPIA

Un altro elemento evidenziato dall’EDPS riguarda lo svolgimento della DPIA; infatti, è responsabilità dell’Istituzione gestire adeguatamente i rischi connessi all’uso dei sistemi di IA generativa durante tutto il ciclo di vita del sistema. Il monitoraggio dovrebbe essere regolare e sistematico per determinare, nel corso dell’evoluzione del sistema, l’eventuale aumento del rischio o l’insorgere di nuovi. Infine, se vengono identificati rischi che non possono essere mitigati con mezzi ragionevoli, vi è il suggerimento di consultare l’EDPS.

La base giuridica per il trattamento dei dati personali

Rispetto alla base giuridica per il trattamento dei dati personali, l’Autorità evidenzia che se il trattamento dei dati si basa su un obbligo legale o sull’esercizio di pubblici poteri, tale base giuridica deve essere chiaramente e precisamente stabilita nel diritto dell’UE; inoltre è evidenziato che l’uso del consenso richiede un’attenta considerazione per garantire che soddisfi i requisiti del Regolamento, affinché sia valido.

La minimizzazione dei dati

In relazione alla minimizzazione dei dati, l’EDPS afferma che le Istituzioni dovrebbero sviluppare e utilizzare modelli addestrati con dataset di alta qualità, limitati ai dati personali necessari per soddisfare le finalità del trattamento. Inoltre, nei casi in cui si utilizzino sistemi progettati o gestiti da fornitori di servizi terzi, dovrebbero includere nelle loro valutazioni anche considerazioni relative al principio di minimizzazione dei dati. Infatti, l’uso di grandi quantità di dati per addestrare un sistema di intelligenza artificiale generativa non implica necessariamente una maggiore efficacia o migliori risultati; pertanto, è necessario considerare attentamente la qualità dei dati oltre che la quantità. Quest’ultimo aspetto richiama anche il tema dell’accuratezza del dato poiché, nonostante gli sforzi compiuti, i sistemi di IA generativa potrebbero comunque generare degli output inaccurati. Infine, un ulteriore elemento da tenere in considerazione riguarda la messa a disposizione degli individui delle informazioni rispetto all’utilizzo dei loro dati personali da parte del sistema di IA, al fine di permettere agli interessati di essere adeguatamente informati e in controllo dei propri dati. Inoltre, quando i sistemi di IA generativa sono destinati a supportare le procedure decisionali, le Istituzioni devono valutare attentamente se metterli in funzione qualora l’utilizzo degli stessi sollevi dubbi sulla legalità o vi sia il rischio di generare decisioni ingiuste, non etiche o discriminatorie. E proprio in relazione al potenziale rischio discriminatorio, l’EDPS suggerisce l’applicazione di procedure e buone pratiche per la minimizzazione e la mitigazione dei bias al fine di garantire un trattamento equo ed evitare pratiche discriminatorie.

Conclusioni

I documenti delle due Autorità si inseriscono in un quadro complesso nel tentativo di fornire delle indicazioni pratiche ai soggetti, pubblici e privati, che si trovano a lavorare con strumenti di intelligenza artificiale generativa che trattano dati personali. Ciò denota la necessità di tenere sempre a mente la trasversalità degli aspetti che caratterizzano l’intelligenza artificiale e considerare gli adempimenti in ottica comprensiva senza tralasciare le normative hanno un impatto sui diversi aspetti di compliance dell’intelligenza artificiale.

Note

[1] Garante per la Protezione dei dati personali, Provvedimento n. 329 del 20 maggio 2024 [10020316]

[2] EDPS, Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems, 3 giugno 2024.