privacy

Modelli di IA e trattamenti di dati personali: come evitare errori

Una gestione attenta dei dati personali e una corretta comprensione del quadro normativo possono aiutare le aziende a sfruttare al meglio le potenzialità dell’IA evitando costosi errori. L’AI Act e le linee guida del Garante privacy aiutano a orientarsi e a identificare le corrette basi giuridiche da porre alla base dei diversi trattamenti dati

Pubblicato il 19 mar 2024

Marco Catalano

Avvocato

Alfredo Zallone

Avvocato

Non-disclosure agreement, Cyber,Security,And,Data,Privacy,Protection,Concept,With,Icon,Of

Non rappresenta più una novità il fatto che le organizzazioni stanno orientando i loro investimenti verso nuovi modelli di business, che sfruttano le opportunità offerte dai sistemi di intelligenza artificiale (“IA”), per essere maggiormente competitivi sul mercato, in termini di efficientamento dei processi e di miglioramento dei servizi resi.

Ma nel delicato equilibrio tra l’IA e la privacy è facile commettere errori potenzialmente costosi e dannosi. Le sanzioni e le linee guida del Garante per la protezione dei dati personali ci ricordano che nessuna innovazione può prescindere dal rispetto della privacy e dei diritti degli individui, mentre le regole dell’AI Act rappresentano un faro per gli operatori del settore.

Ricerca e AI, dalle sanzioni del Garante all’AI Act: quali tutele per i nostri dati

Indice degli argomenti

Intelligenza artificiale: opportunità o minaccia per la privacy?

Ma in questo scenario – in cui le informazioni costituiscono un patrimonio ed un valore (anche) economico – l’era dell’intelligenza artificiale rappresenta per i dati personali un’opportunità o una minaccia?

È un tema questo, ormai ben noto agli addetti ai lavori (e non solo), che sta interessando le istituzioni a livello mondiale e che sta sfociando non solo nella redazione di atti legislativi volti alla armonizzazione e regolamentazione della materia ma anche nel coinvolgimento, sempre più assiduo, delle autorità nazionali competenti. In materia di dati personali, oltre all’intervento mirato di singole autorità di controllo europee (e non solo, ad esempio l’autorità canadese), basti pensare come lo European Data Protection Board (anche “EDPB”), già il 13 aprile 2023, abbia deciso di lanciare una task force dedicata per promuovere la cooperazione e scambiare informazioni su eventuali azioni di applicazione condotte dalle autorità di protezione dei dati[1].

Trattamento dati: focus sulla liceità dei modelli di IA

Attualmente, i modelli di IA e la loro liceità sono sotto i riflettori, come si evince, ad esempio dal comunicato stampa del 29 gennaio 2024[2] dell’Autorità Garante per la protezione dei dati personali che ha notificato alla ormai nota piattaforma di intelligenza artificiale ChatGPT l’atto di contestazione per la violazione della normativa in materia di protezione dei dati personali oppure dal provvedimento n. 5 dell’11 gennaio 2024[3] [doc. web n. 9977020] con cui l’Autorità, nel sanzionare il Comune di Trento, ha imposto il divieto di trattare i dati personali degli interessati già raccolti nell’ambito dei progetti “Marvel” e “Protector”, mediante tecniche di intelligenza artificiale tra cui anche la raccolta di campioni utili all’allenamento/addestramento degli algoritmi.

Si premette che l’utilizzo di modelli di IA tocca da vicino, oltre alla normativa privacy, anche la normativa sul diritto d’autore (copyright), per il quale, ad esempio il New York Times ha citato in giudizio OpenAI e Microsoft, o al fenomeno del webscraping, per il quale il Garante italiano, con il comunicato stampa del 22 novembre 2023[4], ha avviato un’indagine conoscitiva sulla raccolta di dati personali a fini di addestramento degli algoritmi di intelligenza artificiale. L’argomento che si intende approfondire in questa sede non riguarderà la tematica della proprietà intellettuale e industriale.

Il quadro normativo dell’Intelligenza Artificiale: l’IA Act europeo

Il Regolamento Europeo sull’intelligenza artificiale (noto anche come “IA ACT”) è ormai nelle sue fasi conclusive ma appaiono già evidenti le attenzioni poste dalla nuova normativa: dalle regole di classificazione dei modelli di IA ai loro requisiti; dall’approccio basato sul rischio alle pratiche vietate; per non dimenticare il tema, fondamentale, degli obblighi di trasparenza nei confronti degli utenti e della sorveglianza umana nel ciclo di vita dei sistemi di IA.

Questi sono alcuni dei temi messi sul tavolo che meritano particolare attenzione: infatti i modelli di IA e le logiche sottese al funzionamento degli algoritmi adottati, sia nella fase di sviluppo che nel corso della loro implementazione, devono essere opportunamente esaminati in sinergia con la normativa in materia di protezione dei dati personali.

Ebbene sì, è appurato che tali sistemi, qualunque essi siano, necessitino di dati per poter “vivere”. Ed infatti sono proprio le informazioni raccolte, elaborate ed, in alcuni casi, anche usate per addestrare i sistemi, a rendere i modelli di intelligenza artificiale efficaci e, dunque, di valore. Ed è qui che subentrano i problemi: se tali informazioni rientrano nella definizione di dati personali, è applicabile la normativa in materia in materia di privacy e, in particolare, in primis ilRegolamento UE n. 2016/679[5] (nel prosieguo anche “GDPR”).

Dati sintetici e dati personali

L’utilizzo nei modelli di IA di “dati sintetici” (banalmente dei dati “inventati” che non riguardano persone fisiche), che potrebbe apparire come una soluzione per aggirare questi potenziali problemi, in realtà potrebbe esporre al rischio di creare modelli di IA altamente compromessi in termini di qualità e affidabilità.

Viceversa, i dati personali, di cui alla definizione dell’art. 4, n. 1) del GDPR, costituiscono la base perfetta per l’addestramento dei modelli e, in sostanza, per offrire servizi sempre più all’avanguardia. Basti pensare a ciò che generano tali modelli di IA nel campo della ricerca scientifica[6] e medica[7], con un inevitabile miglioramento degli standard qualitativi dei servizi resi, senza voler – con questo richiamo – tralasciare altri settori fondamentali della vita quotidiana.

I rischi di un addestramento sbagliato dell’IA

Ma quando parliamo di dati personali, occorre necessariamente che la creazione, lo sviluppo e l’implementazione di tali sistemi faccia i conti con la normativa di settore e con il fondamentale diritto alla protezione dei dati personali. È opportuno sapere che un addestramento sbagliato e non corretto del modello di IA, eseguito in assenza di sorveglianza umana, possa arrecare danni irreparabili (si pensi alle conseguenze che potrebbe causare un modello IA non sviluppato in modo conforme nel settore medico).

L’importanza dei principi di privacy by design e privacy by default

Ed è per questo che il Titolare del trattamento, nella individuazione e definizione del modello di IA nella sua interezza, deve rispettare il principio di accountability, mettere in capo ed adottare politiche interne e mettere in atto misure tecniche e organizzative per rispettare i principi di privacy by design e privacy by default, oltreché valutare, ai sensi dell’art. 35 del GDPR, se effettuare o meno la data protection impact assessment, attività quest’ultima di primaria importanza, così come indicato dal Garante nel provvedimento emesso nei confronti del Comune di Trento.

Adempimenti questi che, oltre ad essere dei presidi di base della normativa in materia di protezione dei dati personali, rappresentano gli strumenti più opportuni per capire quale sia il fondamento giuridico, dunque la base legale corretta ed appropriata, che consente l’esecuzione dell’attività di trattamento sottese all’utilizzo di tali modelli di IA.

Le sanzioni del Garante per la protezione dei dati personali

In tal senso è utile ricordare la sanzione emessa dal Garante, con il provvedimento n. 50 del 10 febbraio 2022[8] [doc. web n. 9751362], nei confronti della società statunitense Clearview AI Inc. la quale, oltre a raccogliere in modo indiscriminato immagini dal web mediante web scraping, le rendeva accessibili ai propri clienti attraverso un algoritmo proprietario di matching facciale, al fine di fornire un servizio di ricerca biometrica altamente qualificata su scala globale. In tale contesto il Garante aveva evidenziato, tra le altre numerose contestazioni, l’assenza di una valida base giuridica su cui fondare la liceità del trattamento di dati personali posto in essere, ricordando anche come “la pubblica disponibilità di dati in Internet non implica, per il solo fatto del loro pubblico stato, la legittimità della loro raccolta da parte di soggetti terzi. Infatti, ogni dato che viene pubblicato on-line subisce tale operazione di trattamento (segnatamente, la diffusione), sulla scorta di una base giuridica e per finalità determinate e legittime stabilite e perseguite dal titolare del trattamento che ne ha disposto la pubblicazione”.

Inoltre, non si può dimenticare il 30 marzo 2023, giorno questo in cui il Garante per la protezione dei dati personali aveva disposto, con effetto immediato, la limitazione provvisoria del trattamento dei dati degli utenti italiani nei confronti di OpenAI (società statunitense che ha sviluppato e che gestisce la piattaforma ChatGPT). Infatti, nel provvedimento n. 112 del 30 marzo 2023[9] [doc. web n. 9870832], l’Autorità Italiana aveva rilevato, tra le varie contestazioni: i) che il trattamento di dati personali degli interessati risultasse inesatto in quanto le informazioni fornite da ChatGPT non sempre corrispondevano al dato reale; ii) la mancanza di una informativa agli utenti e a tutti gli interessati i cui dati venivano raccolti da OpenAI; ma soprattutto iii) l’assenza di una base giuridica che giustificasse la raccolta e la conservazione massiccia di dati personali, allo scopo di “addestrare” gli algoritmi sottesi al funzionamento della piattaforma.

Stesse conclusione, sebbene con presupposti diversi, sono stati rilevati dal Garante nei confronti del progetto messo in campo dal Comune di Trento in cui tra i rilievi espressi, evidenziava proprio l’assenza di idonea base giuridica per i trattamenti svolti, in violazione degli artt. 6, 9 e 10 del Regolamento, nonché 2-ter, 2-sexies e 2-octies del Codice Privacy.

La corretta individuazione delle basi giuridiche nel trattamento dei dati attraverso l’IA

Non c’è scampo. Anche quando parliamo di liceità del trattamento effettuato con un sistema di IA, bisogna “passare” da un’attenta analisi della finalità perseguita al fine dell’individuazione della corretta base giuridica che legittima il trattamento di dati personali. In tal senso, oltre alle norme previste dalla legge nazionale applicabile, è il GDPR che individua quali siano le basi giuridiche sia per il trattamento di dati personali “comuni” all’art. 6, così come all’art. 9 per poter trattare le categorie particolari di dati, come anche l’art. 10 del GDPR[10] per il trattamento dei dati personali relativi a condanne penali e reati. Senza voler approfondire in questa sede tale tematica, l’art. 6, paragrafo 1, del GDPR elenca esaustivamente le basi giuridiche che si devono porre a fondamento del trattamento che possono essere riassunte nelle seguenti: il consenso, l’esecuzione di un contratto o misure precontrattuali, obbligo di legge, la salvaguardia degli interessi vitali dell’interessato, l’esecuzione di un compito di interesse pubblico o connesso all’esercizio di interessi pubblici e il legittimo interesse.

Nella valutazione della corretta base giuridica da applicare, è cosa buona e giusta fare affidamento ad esperti della materia o rivolgersi all’Ufficio privacy interno all’azienda, ove previsto, oppure al Data Protection Officer, ove designato, al fine di poter eseguire i dovuti controlli. Come è ben noto, è compito del Titolare del trattamento effettuare analisi ponderate e valutazioni specifiche al fine di individuare la base giuridica opportuna per il trattamento e, nella scelta della base giuridica selezionare quella più corretta al trattamento in concreto.

Ed infatti, come indicato in precedenza, proprio una delle contestazioni mosse dal Garante Italiano nei confronti di Clearview AI Inc concerneva proprio l’assenza di una idonea base giuridica, non avendo né richiesto il consenso dell’utente né adottato il legittimo interesse che, comunque, impone al titolare una valutazione nel bilanciamento degli interessi in gioco. Stesso discorso vale per OpenAI in quanto, nel provvedimento n. 114 dell’11 aprile 2023 [doc. web n. 9874702][11] il Garante ha richiesto di “modificare la base giuridica del trattamento dei dati personali degli utenti ai fini dell’addestramento degli algoritmi, eliminando ogni riferimento al contratto e assumendo come base giuridica del trattamento il consenso o il legittimo interesse in relazione alle valutazioni di competenza della società in una logica di accountability”.

A questo punto sorge una domanda spontanea: dunque, qual è la corretta ed idonea base giuridica per effettuare le attività di addestramento dell’algoritmo?

Senza voler giungere ad interpretazioni forzate, nel caso di OpenAI, il Garante italiano, nel valutare come inidonea la base giuridica derivante dal contratto (art. 6, paragrafo 1, lett. b), ha messo la società americana davanti ad una scelta: richiedere un consenso oppure basarsi sul legittimo interesse. In relazione all’adozione di quest’ultima base giuridica però il titolare deve effettuare un bilanciamento degli interessi contrapposti: individuare l’interesse legittimo che si intende perseguire, i vantaggi del trattamento dei dati personali e la necessità del trattamento, effettuando una valutazione comparativa degli stessi per comprendere se l’interesse legittimo del Titolare prevalga sugli interessi e i diritti e libertà dell’interessato.

Quanto detto però non significa che la scelta della base giuridica da parte del Titolare del trattamento sia solo tra il consenso e il legittimo interesse in quanto, a complicare le cose, occorre ricordare l’esistenza delle altre basi giuridiche, proprio del GDPR. Ed infatti nel provvedimento emesso nei confronti del Comune di Trento, l’Autorità nazionale ha rilevato, ad esempio, come “[…] Quanto alla base giuridica del trattamento, l’informativa riporta che “il trattamento è effettuato per l’esecuzione di un compito di interesse pubblico, ai sensi dell’art. 6 del regolamento UE n. 2016/679”, base giuridica che, per le ragioni sopra illustrate, non è applicabile in riferimento ai progetti di ricerca “Marvel” e “Protector”. […]”.

A confermare ulteriormente tali riflessioni, sono anche i chiarimenti forniti dal Garante per protezione dei dati personali nel “Decalogo per la realizzazione di servizi sanitari nazionali attraverso sistemi di Intelligenza Artificiale” condiviso nel mese di ottobre 2023[12]. Sebbene tale documento sia rivolto al sistema sanitario nazionale, il Garante, oltre ai principi enunciati di conoscibilità (“in base al quale l’interessato ha il diritto di conoscere l’esistenza di processi decisionali basati su trattamenti automatizzati e, in tal caso, di ricevere informazioni significative sulla logica utilizzata, sì da poterla comprendere”); di non esclusività della decisione algoritmica (“secondo cui deve comunque esistere nel processo decisionale un intervento umano capace di controllare, validare ovvero smentire la decisione automatica (c.d. human in the loop)”); e di non discriminazione algoritmica (“secondo cui è opportuno che il titolare del trattamento utilizzi sistemi di IA affidabili che riducano le opacità, gli errori dovuti a cause tecnologiche e/o umane, verificandone periodicamente l’efficacia anche alla luce della rapida evoluzione delle tecnologie impiegate, delle procedure matematiche o statistiche appropriate per la profilazione, mettendo in atto misure tecniche e organizzative adeguate”), pone particolare attenzione in merito all’idoneità della base giuridica per l’uso dell’intelligenza artificiale “Il trattamento di dati sulla salute attraverso tecniche di IA, effettuato per motivi di interesse pubblico in ambito sanitario, dovrà essere previsto da uno specifico quadro normativo, che individui misure adeguate a tutela dei diritti, delle libertà e dei legittimi interessi degli interessati”.

Certo è che nel Decalogo richiamato (aspetto non di poco conto), l’Autorità sottolinea l’importanza che la base giuridica del trattamento sia chiara, precisa, prevedibile per le persone che vi sono sottoposte e resa conoscibile agli interessati.

Quanto detto consente a ciascun Titolare di analizzare e verificare che il modello di IA sia stato impostato fin dalla progettazione nel modo più corretto e che le finalità dello stesso rispondano alle regole definite dall’organizzazione, evitando (o quanto meno limitando) di commettere errori. Tale valutazione dovrà essere effettuata caso per caso anche in ragione delle specificità del contesto del trattamento, quali, ad esempio, la fonte da cui provengono le informazioni, le finalità del trattamento, la rilevanza numerica della platea di interessati, il settore di riferimento, il luogo in cui avviene l’elaborazione del modello e la ricorrenza di specifiche situazioni di criticità.

Veniamo dunque ad un catalogo di riflessioni finali per non commettere errori:

prima della valutazione della base giuridica, sono stati individuate nel dettaglio le operazioni di trattamento eseguite dal sistema e dunque gli scopi e le finalità del trattamento perseguito?

Nel caso in cui il titolare abbia individuato il legittimo interesse come base giuridica, l’organizzazione ha valutato la necessità o meno della LIA (Legitimate Interest Assessment)?

Nel caso in cui i dati personali trattati dai modelli di IA si riferiscano ai propri dipendenti, è stata valutata l’applicazione o meno di ulteriori normative quali, ad esempio, gli obblighi informativi nel caso di utilizzo di sistemi decisionali che il lavoratore deve ricevere? È stata verificata nel caso la necessità di sentire o meno le rappresentanze sindacali?

L’interessato ha ricevuto informazioni precise e chiare, anche sulle logiche utilizzate dall’algoritmo?

L’organizzazione ha verificato da dove provengono le informazioni inserite nel sistema di machine learning per l’apprendimento? Nel caso in cui la fonte dei dati sia pubblica, è stata valutata la liceità di tale raccolta?

Nella definizione del modello di IA, sono stati tenuti in considerazione fin dalla progettazione i principi di minimizzazione dei dati, di correttezza e di aggiornamento delle informazioni elaborate?

Nella scelta di un partner commerciale o fornitore in grado di fornire il modello di IA commissionato, l’organizzazione ha valutato i ruoli privacy tra le parti? Nella definizione dei ruoli e delle responsabilità privacy, sono stati valutati i trattamenti eseguiti e se alcuni di essi vengono eseguiti in modo autonomo e indipendente da parte del fornitore?

Sono stati previsti accorgimenti e cautele al fine di non raccogliere dati personali che non siano necessari per la finalità del trattamento perseguita con l’intelligenza artificiale? È opportuno che l’organizzazione ab origine verifichi che i sistemi non raccolgano dati mediante form/moduli che richiedono informazioni non utili e che il personale sia istruito a richiedere le sole informazioni essenziali, distruggendo o eliminando tutto ciò che non sia necessario.

La finalità relativa al miglioramento dei servizi resi con i modelli di IA è insita nel trattamento relativo all’addestramento dell’algoritmo oppure no? È stato portato all’attenzione dell’ufficio privacy, oppure del DPO la tematica?

Conclusioni

In conclusione, a nostro parere ed in considerazione della transizione tecnologica cui stiamo assistendo, un’analisi dettagliata delle operazioni di trattamento effettuate prima mediante e come conseguenza dell’utilizzo dei modelli di IA è essenziale per un lecito utilizzo degli stessi, ed è necessario concentrarsi in particolare sulla corretta identificazione delle basi giuridiche che legittimano tutti i trattamenti sottesi: dalla raccolta dei dati, al loro utilizzo per addestramento, fino all’utilizzo dell’algoritmo così sviluppato per elaborare altri dati.

Note

[1] https://edpb.europa.eu/news/news/2023/edpb-resolves-dispute-transfers-meta-and-creates-task-force-chat-gpt_en

[2] Comunicato stampa del Garante per la protezione dei dati personali: https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/9978020

[3] https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9977020

[4] Comunicato stampa del Garante per la protezione dei dati personali: https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/9952078

[5] “REGOLAMENTO (UE) 2016/679 DEL PARLAMENTO EUROPEO E DEL CONSIGLIO del 27 aprile 2016 relativo alla protezione delle persone fisiche con riguardo al trattamento dei dati personali, nonché alla libera circolazione di tali dati e che abroga la direttiva 95/46/CE (regolamento generale sulla protezione dei dati)”.

[6] https://www.ibsafoundation.org/it/blog/intelligenza-artificiale-disegna-super-antibiotici

[7] https://www.wired.it/article/intelligenza-artificiale-deepmind-google-malattie-genetiche-alphamissense/

[8] https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9751362

[9] https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9870832

[10] L’art. 10 del Regolamento dispone che: “Il trattamento dei dati personali relativi alle condanne penali e ai reati o a connesse misure di sicurezza sulla base dell’articolo 6, paragrafo 1, deve avvenire soltanto sotto il controllo dell’autorità pubblica o se il trattamento è autorizzato dal diritto dell’Unione o degli Stati membri che preveda garanzie appropriate per i diritti e le libertà degli interessati. […]”.

[11] https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9874702

[12] Newsletter n. 511 del 10 ottobre 2023: https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/9937730

@RIPRODUZIONE RISERVATA