Lo scorso 4 settembre, l’Autorità per la protezione dei dati personali irlandese – la Data Protection Commission (DPC) – ha richiesto un parere allo European Data Protection Board (EDPB) ai sensi dell’articolo 64(2) del GDPR con l’obiettivo di raggiungere una posizione comune a livello europeo su alcune delle questioni fondamentali che emergono nel contesto del trattamento di dati personali ai fini dell’addestramento di un modello di IA (come ChatGPT). Si tratta di una notizia di pubblico dominio, della quale l’Autorità Irlandese ha dato annuncio nel proprio sito web[1].
Training IA, i motivi del coinvolgimento dell’EDPB
L’articolo 64(2) del GDPR stabilisce che qualsiasi Autorità di controllo, il Presidente dell’EDPB o la Commissione Europea possono richiedere che l’EDPB esamini una questione che abbia una rilevanza generale o che produca effetti in più di uno Stato Membro. In altre parole, quando c’è un tema che coinvolge più Paesi dell’Unione Europea o che riguarda l’applicazione del GDPR su scala ampia, le autorità competenti possono sollevare la questione a livello EDPB e ottenere una linea guida univoca o un parere condiviso su come interpretare e applicare le norme del GDPR in contesti che possono avere un impatto transnazionale. Il temine massimo per il completamento della procedura è 14 settimane dal momento di ricezione della richiesta.
In questo caso, la richiesta invita l’EDPB a considerare, tra le altre cose, la natura dei dati trattati nelle varie fasi del processo di training, dalla raccolta alla determinazione dei (miliardi di) parametri delle reti neurali tipicamente impiegate dagli algoritmi nei vari contesti in cui essi sono applicati (dai large language models, all’intelligenza artificiale generativa), alla valutazione della base giuridica prescelta dal titolare per fondare tale articolata catena di trattamenti.
Perché la questione riguarda tutti i cittadini e gli utenti dell’Unione Europea
All’apparenza sembrerebbe una questione nazionale, per la quale la DPC chiede il parere esperto dell’EDPB. In realtà, per ragioni legate alla maggiore capacità attrattiva dell’Irlanda rispetto agli altri Stati Membri dell’Unione, la questione riguarda tutti i cittadini e gli utenti dell’Unione Europea dal momento che molte (le principali) digital companies hanno il loro stabilimento principale in quel Paese e dunque sono soggette all’azione di supervisione di quella Autorità. Pertanto, le decisioni assunte dalla DPC si riverbereranno sul modo in cui tutti impiegheremo questi servizi in Europa.
Training dell’IA: Autorità Ue in ordine sparso
Questa richiesta è peraltro particolarmente tempestiva, considerate le varie (e talora discordanti) posizioni assunte di recente su questi temi da diverse Autorità europee. Giusto per dare un’idea della complessità (che genera tali differenze), vale la pena rilevare la seguente divergenza “antipodale”: da una parte, l’Autorità francese (CNIL) ritiene che i dati (anche personali) impiegati in fase di addestramento sono assorbiti nei valori dei parametri delle reti neurali, e possono, anche accidentalmente, essere rigenerati negli output (si pensi agli output di ChatGPT in presenza di specifici prompt di input)[2], dall’altra l’Autorità tedesca del Länder di Amburgo ha assunto una posizione che, considerata l’eccezionalità dell’emersione di dati personali nelle normali condizioni d’uso di un algoritmo basato su modello Transformer, esclude la possibilità di qualificare i parametri del modello stesso come dati personali[3].
I quesiti posti dall’Autorità irlandese
Come anticipato nella press release, i quesiti posti dall’Autorità irlandese riguardano la natura dei dati e la base giuridica del trattamento. Sul primo punto, la comunità scientifica è abbastanza concorde nell’affermare[4] che un processo di assorbimento dei dati è connaturato al training di un modello di deep learning con un numero elevato di parametri.
Il numero di parametri impiegati nella fase di training
L’AI Act, di recente entrata in vigore, stabilisce la soglia del miliardo di parametri per indicare un modello di intelligenza artificiale con scopi generali[5]. Questa soglia è già oggi obsoleta, se consideriamo che il numero di parametri impiegati da Open AI per il modello Transformer GPT-3 della precedente generazione di ChatGPT era pari a 175 miliardi, mentre si stima (partendo da fonti non ufficiali ma facilmente reperibili su internet) che l’attuale modello Transformer detto GPT-4 potrebbe impiegare un numero di parametri compreso tra i 500 miliardi e 1.000 miliardi[6].
Succede dunque un fenomeno nuovo rispetto al passato dell’intelligenza artificiale (che – lo ricordiamo – produce applicazioni di largo impiego da almeno una ventina di anni): il numero di parametri impiegati nella fase di training di un modello di intelligenza artificiale può essere significativamente superiore rispetto al numero di dati impiegati nel training set. In situazioni di questo tipo, il fenomeno che si sta osservando è che il modello non soltanto “impari un pattern” dai dati ma “impari i dati” tout court[7], soltanto che li rappresenta in una forma (i parametri del modello) nella quale i dati non risultano immediatamente visibili e intellegibili dall’occhio dell’uomo. In altri termini, i dati sono lì, ma non abbiamo (ancora) individuato strumenti per estrarli in modo efficace[8]. Al riguardo, però l’EDPB si è già espresso, nel report di maggio 2024 della cosiddetta ChatGPT Task force, sostenendo che “technical impossibility cannot be invoked to justify non-compliance”[9].
La questione della base giuridica
Sulla questione della base giuridica sembra profilarsi una sorta di “inevitabile attrazione” verso il legittimo interesse. Questa opzione, ammesso che sia giustificabile una “legittimità” dell’interesse dei soggetti privati che impiegano dati pubblicamente disponibili per il training (la cosiddetta pratica del web scraping) non è priva di salvaguardie per gli interessati. Innanzitutto, il titolare deve giustificare adeguatamente la necessità dei dati e dimostrare che l’uso di tali dati non lede i diritti e le libertà fondamentali degli interessati. Ciò richiede un bilanciamento degli interessi (detto legitimate interest assessment) che prevede come componente irrinunciabile una valutazione dei rischi per gli interessati e l’adozione di misure tecnico-organizzative che mitighino tali rischi e che rendano il trattamento ancora necessario e proporzionato.
Un ruolo attivo all’uomo nel funzionamento degli algoritmi
È dunque tutt’altro che una questione nazionale. I temi sul tavolo riguardano aspetti nodali delle nostre società digitali. Rispondere agli interrogativi posti dall’Autorità irlandese significa, in definitiva, cercare un modo per contemplare un ruolo attivo dell’uomo, un’ultima parola dell’uomo, sul funzionamento degli algoritmi di intelligenza artificiale. Non è una questione da liquidare con considerazioni veloci. Se dovessimo concludere che il funzionamento degli algoritmi di intelligenza artificiale non è compatibile con i valori umani ai quali i principi della protezione dei dati personali danno corpo, le conseguenze non sarebbero trascurabili: o questo determinerebbe un profondo cambiamento culturale, rendendoci sempre più disposti ad accettare l’assenza di valori e l’invasività di queste tecnologie nella nostra sfera privata, oppure potremmo modificare significativamente le nostre aspettative sul ruolo dell’intelligenza artificiale come strumento di conoscenza e di decisione.
E questo avrebbe un grande impatto sulle aspettative di sviluppo economico che vengono riposte in queste tecnologie e sullo sviluppo delle annunciate strategie digitali continentali.
[1] https://www.dataprotection.ie/en/news-media/press-releases/data-protection-commission-welcomes-conclusion-proceedings-relating-xs-ai-tool-grok#_ftnref3
[2] La CNIL ha definito questo fenomeno “data rigurgitation” https://www.cnil.fr/fr/definition/regurgitation
[3] https://datenschutz-hamburg.de/news/hamburger-thesen-zum-personenbezug-in-large-language-models
[4] Lukas, N., Salem, A., Sim, R., Tople, S., Wutschitz, L., & Zanella-Béguelin, S. (2023, May). Analyzing leakage of personally identifiable information in language models. In 2023 IEEE Symposium on Security and Privacy (pp. 346-363). IEEE.
[5] Mentre la generalità di un modello potrebbe, tra gli altri criteri, essere determinata anche da una serie di parametri, i modelli con almeno un miliardo di parametri e addestrati con grandi quantità di dati utilizzando l’autosupervisione su larga scala dovrebbero ritenersi caratterizzati da una generalità significativa e in grado di svolgere con competenza un’ampia gamma di compiti distinti (Considerando 98, AI Act).
[6] MIT Technology Review, GPT-4 is bigger and better than ChatGPT—but OpenAI won’t say why, March 14, 2023
[7] Belkin, M., Hsu, D., Ma, S., & Mandal, S. (2019), Reconciling modern machine-learning practice and the classical bias–variance trade-off. Proceedings of the National Academy of Sciences, 116(32)
[8] N. Carlini, F. Tramer, E. Wallace, M. Jagielski, A. Herbert-Voss, K. Lee, A. Roberts, T. Brown, D. Song, U. Erlingsson et al., Extracting training data from large language models in 30th USENIX Security Symposium. USENIX Association, 2021, pp. 2633–2650.
[9] EDPB Report of the work undertaken by the ChatGPT Taskforce, 24 May 2024.