ChatGPT: perché la mancanza di un approccio privacy by-design è un problema anche pro-futuro

ChatGPT è stato sviluppato ignorando l’approccio di privacy by-design che è la regola base per il trattamento dati in Europa. La domanda di fondo va allora oltre al caso concreto e riguarda il tipo di società digitale che vogliamo creare e in particolare il rapporto che vogliamo instaurare con la tecnologia

Molti sono stati i commenti ad ampio spettro sul provvedimento del Garante per la protezione dei dati personali riguardante ChatGPT. Proviamo allora a fornire un’analisi del tema soffermandoci sui punti cruciali per il futuro dell’applicazione AI in esame, lasciando a margine considerazioni di politica della tecnologia che sono di pertinenza dei regolatori cui compete individuare eventuali soluzioni ad hoc, come per altro sta accadendo sul tema nel dibattito a Bruxelles sull’AI Act.

Il provvedimento del 30 marzo, che ha chiari connotati d’urgenza, costituisce un’adeguata risposta di tutela a fronte del potenziale impatto che ha la tecnologia in esame, anche in considerazione dei suoi riconosciuti ed irrisolti limiti.

Garante e OpenAI, l’azione privacy non sia fuoco di paglia

Indice degli argomenti

La questione centrale

Questi i presupposti fattuali su cui il provvedimento si fonda: mancata informativa diretta agli utenti del servizio ed agli interessati i cui dati sono stati raccolti e trattati tramite ChatGPT; 2) assenza di idonea base giuridica per il trattamento dei dati personali allo scopo di addestramento dell’AI di ChatGPT; 3) inesatto trattamento dei dati conseguente ad erronee risposte fornite da ChatGPT; 4) assenza di meccanismi di verifica dell’età degli utenti con speciale riferimento ai minorenni.

Il Garante ha, dunque, preso in considerazione due distinti trattamenti: quello relativo ai dati degli utilizzatori del servizio, per le finalità di fruizione dello stesso, e quello inerente al trattamento dei dati usati da OpenAI L.L.C. per l’addestramento di ChatGPT. In termini di valutazione della conformità al GDPR di ChatGPT, è di tutta evidenza come i rilievi inerenti alla prima tipologia di trattamento (incluso con riferimento ai minori) possano trovare una soluzione sufficientemente agevole e non pongano in discussione il servizio nelle sue basi. Per questo non verranno qui esaminati.

Diversa la valutazione circa la legittimità del trattamento dei dati impiegati per il training di ChatGPT, laddove il riferimento è ad informazioni che ormai fanno parte del sistema AI creato ed il cui eventuale trattamento illecito intaccherebbe alla base l’utilizzabilità del servizio. Questo considerando che in un modello di AI contenente dati personali su larga scala non si ritiene possibile rimuovere la conoscenza acquisita, salvo procedere con un nuovo training impiegando un database che escluda i dati in questione.

La natura di dati e base legale

Per analizzare la questione della base legale, occorre prendere le mosse dalla natura ed origine dei dati trattati. Che i dati abbiano carattere personale è fuori di dubbio, posto che ChatGPT risponde a svariate domande riguardanti soggetti viventi ed anche include riferimenti a persone in risposte su temi vari. Occorre, però, chiedersi a riguardo se tali dati includano anche informazioni di cui all’art. 9 GDPR (categorie particolari). La risposta pare non poter che essere positiva considerando l’ampiezza di tale categoria, inclusiva per esempio delle informazioni inerenti agli orientamenti politici o religiosi dei singoli.

Definite le categorie di dati processati, l’applicabilità del GDPR ne consegue ai sensi dell’art. 3.2.a del Regolamento (trattamento di dati di soggetti nell’Unione per l’offerta di un servizio all’interno della stessa) in linea con il precedente specifico in tema di AI costituito dalla decisione del Garante sul caso Clearview AI, che – come si vedrà di seguito – è destinato a indirizzare l’Autorità nella soluzione coerente di questo ulteriore caso di un’AI creata con metodologie di web scraping.

Dalla natura dei dati in questione deriva una prima conseguenza circa la base legale del trattamento, con l’esclusione della possibilità del ricorso all’interesse legittimo per la generalità delle operazioni, non offrendo fondamento per i trattamenti ex art. 9 GDPR.

Origine dei dati e base giuridica del trattamento

Guardando all’origine dei dati, premesso che OpenAI non ha adottato un approccio orientato alla completa trasparenza circa il proprio modello di trattamento dati, risulta che ChatGPT abbia usato cinque basi di dati principali per le finalità di training. Fra queste, quella di maggior peso (60%) ed anche rilievo in termini di legittimità del trattamento è Common Crawl.

Il principale dataset di Common Crawl contiene 240 miliardi di pagine web scaricate da internet a livello globale, inclusive di relativi testi ed immagini a partire dal 2008 (Nagel, Sebastian. «Common Crawl: Data Collection and Use Cases for NLP», 6-8 febbraio 2023, l’autore è Crawl Engineer e Data Scientist presso Common Crawl). Il dataset non include social media e segue le istruzioni del file robot.txt usato per l’indicizzazione dei contenuti sul web.

Come in precedenza affermato dal Garante nel caso ClearviewAI, la raccolta di dati presenti in Internet ed ivi accessibili senza barriera alcuna non fa venir meno la necessità di una base giuridica per ogni ulteriore trattamento degli stessi. Va inoltre osservato, sempre in linea con il citato precedente del Garante, che le operazioni di web scraping ed il riuso dei contenuti così raccolti non sono paragonabili all’attività dei motori di ricerca, posto che i contenuti in questione sono fatti oggetto di specifica rielaborazione automatizzata per una finalità non accomunabile a quella dei motori di ricerca, consistente in questo caso nell’alimentare un large multimodal model in grado di elaborare immagini e testi e di produrre output testuali.

Con riguardo alla raccolta primaria effettuata da Common Crawl, la conformità al GDPR è quantomeno dubbia, poiché Common Crawl è una “non-profit organization dedicated to providing a copy of the internet to internet researchers, companies and individuals at no cost for the purpose of research and analysis” (https://commoncrawl.org/big-picture/frequently-asked-questions/, sottolineature aggiunte) non sembrando quindi avere la raccolta un’esclusiva finalità di ricerca tale da consentire l’applicazione del più favorevole regime di cui agli artt. 5 e 9.2.j del GDPR onde risolvere il problema del mancato consenso degli interessati.

Ugualmente difficile sarebbe argomentare il generico ri-uso ai sensi dell’art. 6.4 (che poi non escluderebbe il problema della legittimità del trattamento delle categorie particolari di dati), non ravvisandosi i presupposti di tale norma in termini di nesso tra le finalità e di “reasonable expectations” dell’interessato, ove quest’ultimo non può certo ad oggi immaginare che i contenuti che lo riguardano sul web diventino poi materiale per il training di ChatGPT e, conseguentemente, parte della conoscenza di tale AI. Anche sotto i profili delle possibili conseguenze, stanti i limiti di cui ancora soffre ChatGPT, e della mancanza di garanzie adeguate, paiono poi carenti gli argomenti per il ricorso all’art. 6.4.

Non da ultimo, sulla scorta del caso Clearview AI deciso dal Garante, il fatto che i dati appartenenti a categorie particolari siano stati resi pubblici dagli interessati non porterebbe di per sé all’immediata legittimità del trattamento, dovendosi comunque operare un bilanciamento di interessi. A questo si aggiunga che l’intenzione di rendere i dati pubblici è poi tutta da dimostrare in relazione a ciascuna delle fonti di dati usata nella raccolta, potendo accadere che dati di terze persone siano stati resi pubblici sul web senza il consenso di queste ultime ed in assenza di altra base legale.

Per altro, nel precedente Clearview AI, il Garante ha affermato che l’eventuale natura pubblica dei dati “non è sufficiente a far ritenere che gli interessati possano ragionevolmente attendersi un utilizzo per finalità di riconoscimento facciale, per giunta da parte di una piattaforma privata, non stabilita nell’Unione e della cui esistenza ed attività la maggior parte degli interessati è ignaro”, secondo una logica argomentativa che pare applicabile anche al caso di specie ed all’uso del database fatto poi da OpenaIAI con ChatGPT, per non menzionare i molteplici prodotti che possono derivarne mediante le API.

Nonostante questi rilievi, ove si ritenesse di considerare comunque legittima la raccolta operata da Common Crawl – cosa che andrebbe anche confrontata con la liceità dell’operazione di web scraping spesso esplicitamente vietata dai siti web – rimarrebbe da indagare l’uso ulteriore di tale base di dati ad opera di OpenAI in ChatGPT.

Rispetto a quest’ultimo trattamento, paiono non ravvisabili fini di ricerca legittimanti, posto che il servizio è offerto da un ente con finalità di lucro, OpenAI L.L.C., che usa ChatGPT secondo un modello di business. In assenza del ricorso alle finalità di ricerca ed escluso il ricorso all’interesse legittimo anche in combinazione con la natura pubblica del dato, per le ragioni sopra esposte, pare quindi mancare un’idonea base legale al trattamento per il caso di specie. Questo salvo impegnarsi in interpretazioni estensive in contrasto con i precedenti e con lo scoglio, sul piano tecnico, di garantire un’efficace implementazione del diritto di opposizione in un sistema di AI.

Rispetto dei principi dell’art. 5 GDPR

Sulla scorta del precedente Clearview AI, va poi rilevato come sia ravvisabile la violazione del principio di liceità, correttezza e trasparenza mancando anche qui “alcun contatto con la Società [titolare del trattamento]” da parte degli interessati non “direttamente informati dell’attività svolta dalla stessa”.

Anche sul piano dell’accuratezza, non si può che condividere il rilievo critico del Garante sia alla luce dei bias e limiti dei risultati offerti da ChatGPT (es. le cosiddette “allucinazioni”) sia in relazione al fatto che l’arresto dell’attività di training a fine 2021 inevitabilmente incide sulla correttezza ed aggiornamento dei dati personali forniti mediante tale servizio.

Infine, l’art. 5 GDPR meriterebbe poi maggiore attenzione in sede di indagine in relazione al data breach di cui OpenAI ha dato conto con riguardo al servizio qui in esame.

Conclusioni

Tra i molti punti critici che emergono nel servizio ChatGPT alla luce del provvedimento del Garante, se ne sono presi in esame alcuni, quelli più radicali e tali da mettere in crisi la legittimità del servizio stesso. Non sono però gli unici aspetti di attenzione; altrettanto rilevanti sono i profili inerenti all’informativa degli interessati ed al trattamento dei dati dei minori (non solo in quanto utenti).

È, quindi, del tutto evidente che ChatGPT sia stato sviluppato ignorando l’approccio di privacy by-design che è la regola base per il trattamento dati in Europa e che, va detto, è tutt’altro che ignota nella cultura della privacy nordamericana.

Certo il fascino del moderno oracolo digitale è forte e forti anche gli interessi di vari settori economici nel farne uso, nonostante i suoi evidenti ed ammessi limiti. Come spesso accade in questi tempi di cambio paradigmatico nel settore digitale – dalle piattaforme all’AI – la domanda di fondo va allora oltre al caso concreto e riguarda il tipo di società digitale che vogliamo creare ed in particolare il rapporto che vogliamo instaurare con la tecnologia.

Se guardiamo, ad esempio, a un altro sogno tecnologico, da anni si stanno sperimentando (anche con buoni risultati) auto a guida completamente autonoma, tuttavia la loro commercializzazione non è ancora possibile perché significativi rimangono i rischi. Perché, invece, l’oracolo digitale dovrebbe essere legittimato quando ne sono noti i limiti ed anche i rischi? Perché dovrebbe essere la base per un intero sistema di prodotti?

In proposito occorre ricordare che l’approccio alla tecnologia, non solo in Europa, si basa sulla valutazione dei rischi e sul principio di precauzione. Laddove le tecnologie non siano ancora sufficientemente mature e le conseguenze delle stesse ancora incerte non sarà possibile valutarne pianamente i rischi ed andranno non per questo bloccate, ma mantenute in una fase di ricerca sperimentale. È questo un approccio noto nella regolazione della tecnologia ed ora riflesso anche nella proposta dell’AI Act.

Alla luce di questo non sono le autorità di protezione dei dati personali o la “privacy” il problema nello sviluppo dell’innovazione, bensì coloro che creano innovazione in maniera non responsabile, immettendo sul mercato prodotti i cui livelli di conformità normativa, di accuratezza e di sicurezza sono inadeguati per desiderabili che siano i risultati promessi.

Nel corso del XIX secolo si sono sviluppate tecnologie ed il controllo su energie con alti costi sociali ed ancora oggi vi sono luoghi del globo in cui questo accade. In tempi più recenti, la scelta di molti Paesi e dell’UE è stata, però, diversa ed è quella di un’innovazione responsabile, in cui le imprese e chi fa ricerca e sviluppo sono chiamati a farsi carico della valutazione e soluzione delle potenziali problematiche correlate alle innovazioni che vogliono immettere nella società.

La mancanza di consapevolezza dell’importanza di un’innovazione responsabile, rispettosa dei diritti e delle norme, mostra un problema che affligge alcune culture d’impresa e non dovrebbe condurre ad un’illogica inversione di prospettiva secondo cui l’immaturità sarebbe delle autorità che chiedono tutele effettive.

Questo non esclude la presa di coscienza del fatto che nell’affrontare il tema dell’AI occorra guardare oltre la protezione dei dati, e che rimedi risalenti, come la cancellazione dei dati illecitamente trattati, mal si addicano al nuovo contesto del trattamento mediante AI, così come soluzioni ad hoc meriterebbero di essere elaborate per la realizzazione dei grandi dataset per il machine learning. Come in altri campi, si pensi a quello della genetica, soluzioni sono immaginabili.

Ugualmente sarebbe auspicabile guardare oltre alla mera sicurezza industriale ed elaborare modelli di valutazione di impatto che le imprese possano impiegare per meglio comprendere ed affrontare le ricadute dell’AI sui singoli e sulla società, rigettando una visione che tratta l’AI alla stregua di un frullino elettrico ed invoca standard tecnici quando servirebbero valutazioni di esperti chiamati ad esaminare caso per caso i vari complessi e contingenti impatti delle singole applicazioni di AI.

ChatGPT: perché la mancanza di un approccio privacy by-design è un problema anche pro-futuro

La questione centrale

La natura di dati e base legale

Origine dei dati e base giuridica del trattamento

Rispetto dei principi dell’art. 5 GDPR

Conclusioni

Articoli correlati

Governance dei dati: passa dalle competenze il percorso necessario

Sicurezza dei prodotti ICT: cosa sono i "protection profile" e perché sono il futuro

Codice Rss

Codice Rss