Se l’IA viola il copyright e la privacy: la ricerca

Secondo un recente studio è possibile capire se i modelli di Intelligenza Artificiale hanno copiato le immagini e misurare in che misura ciò è avvenuto; una scoperta che potrebbe rafforzare le azioni di tutela legale di diversi artisti. Restano però tutti da affrontare i problemi privacy

I più diffusi modelli di intelligenza artificiale per la generazione di immagini presenti sul mercato possono essere “indotti” a produrre foto identificabili di persone “reali”, determinando una potenziale minaccia per la privacy e i dati personali. È quanto emerge da una ricerca^[1] congiunta effettuata da professionisti di Google e della sua controllata DeepMind, nonché degli accademici del Politecnico di Zurigo (ETHZ) e delle università statunitensi di Princeton e di Berkeley.

La ricerca ha appurato che questi modelli possono essere in grado di produrre, ad esempio, copie esatte di immagini mediche (contenenti dati relativi alla salute) e di opere protette da copyright e dimostra che è possibile capire se i modelli di Intelligenza Artificiale hanno copiato le immagini e misurare in che misura ciò è avvenuto; due elementi molto preziosi a lungo termine, a detta dei ricercatori di cui allo studio in esame.

Intelligenza artificiale, perché gli artisti si sentono defraudati

Si tratta, infatti, di una scoperta che potrebbe rafforzare le azioni di tutela legale di diversi artisti che, attualmente, stanno facendo causa a diverse aziende proprietarie di modelli di Intelligenza Artificiale per violazione di copyright.

Indice degli argomenti

I risultati della ricerca

I ricercatori dello studio in esame hanno ottenuto i risultati “sollecitando” più volte il modello a licenza libera “Stable Diffusion” e il modello “Imagen” di Google mediante l’uso di alcune didascalie per le immagini, come i nomi propri di persona. L’eterogeneo gruppo di ricercatori ha poi appurato che le immagini generate corrispondessero a quelle originali presenti nel database del modello, riuscendo a estrarre oltre cento repliche di immagini presenti nei “training dataset” (contenente dati per l’addestramento dell’Intelligenza Artificiale).

Questi modelli che generano immagini vengono addestrati su vasti dataset costituiti da immagini con descrizioni testuali prelevate facilmente da Internet. L’ultima generazione della tecnologia in esame funziona prendendo le immagini da un determinato dataset e cambiando un pixel alla volta finché l’immagine originale non diventi altro che un insieme di “pixel casuali”. Il modello, in tal modo, “inverte” il processo per trasformare l’insieme di pixel in una nuova immagine.

Siamo dinanzi ad una “prima volta” in cui si riesce a dimostrare che i modelli di Intelligenza Artificiale possono memorizzare le immagini nei loro training dataset. Questo potrebbe avere implicazioni, ad esempio, per le startup che vogliono utilizzare modelli di Intelligenza Artificiale “generativa” in ambito sanitario, dimostrando al contempo che questi sistemi rischiano di far trapelare informazioni private “sensibili” e andando da un lato ad impattare sulla sfera privata dei cittadini (privacy), e dall’altro a violare diverse normative in materia di protezione dei dati personali (come il GDPR).

Prevenire i problemi di privacy

I potenziali “problemi di privacy” legati a questi modelli di Intelligenza Artificiale vanno affrontanti prima che essi vengano diffusi su larga scala in settori sensibili come la medicina. E se non giungeranno, quanto prima, approcci regolamentari all’utilizzo dell’Intelligenza Artificiale, le sole normative privacy potranno agire ben poco sulla materia (andando a “rincorrere” la tecnologia anziché “regolamentarla sul nascere”).

L’arte fatta dall’IA non ucciderà la creatività umana

La “faida” tra AI e artisti

Ma non c’è solo la questione della protezione dei dati a tenere banco in questo settore. La misura in cui i modelli di Intelligenza Artificiale memorizzano e producono immagini dai loro database è anche alla base di un’enorme “faida” tra aziende di Intelligenza Artificiale e il mondo degli artisti. Ad esempio, Stability.AI (che ha creato la già citata Stable Diffusion) ed il laboratorio di ricerca indipendente Midjourney, stanno affrontando diverse cause legali da parte di un gruppo di artisti, i quali sostengono che le aziende hanno illegittimamente elaborato il loro materiale protetto da copyright^[2].

Le scoperte dei ricercatori in esame potrebbero rafforzare la posizione degli artisti che accusano le aziende di Intelligenza Artificiale di violazioni del copyright. Se gli artisti in questione, le cui opere sono state utilizzate per addestrare Stable Diffusion e Midjourney, possono dimostrare che tali modelli hanno effettivamente copiato il loro lavoro senza autorizzazione, tali aziende potrebbero essere condannate ad esosi risarcimenti. Creando, peraltro, un interessante precedente giudiziario in materia. Quindi, appare lampante come non si debba prendere sottogamba la questione della proprietà intellettuale (e, men che meno, della protezione dei dati personali).

Conclusioni

Stable Diffusion, che è open source, permette a chiunque di poterla analizzare e studiarla, facendo tutte le indagini del caso. Strumenti proprietari come Imagen (by Google), invece, hanno necessità di un’autorizzazione da parte della casa madre (peraltro ottenuta nel presente caso, in quanto facente parte della ricerca). Tuttavia, sebbene i risultati siano impressionanti, vi sono alcune avvertenze da non sottovalutare. Le immagini che i ricercatori sono riusciti a estrarre comparivano più volte nei dati di addestramento o erano molto insolite rispetto ad altre immagini del dataset. Ad esempio, le persone dall’aspetto insolito o con nomi insoliti sono a maggior rischio “di essere memorizzate” nei sistemi. I ricercatori sono stati in grado di estrarre dal modello dell’Intelligenza Artificiale solo un numero relativamente basso di copie esatte delle foto degli individui: solo una su un milione di immagini era, in altri termini, una copia. Anche se la cosa rimane comunque preoccupante.^[3]

Extracting Training Data from Diffusion Models. ↑
AI art tools Stable Diffusion and Midjourney targeted with copyright lawsuit. The Verge. https://www.theverge.com/2023/1/16/23557098/generative-ai-art-copyright-legal-lawsuit-stable-diffusion-midjourney-deviantart ↑
AI models spit out photos of real people and copyrighted images. MIT Technology Review. https://www.technologyreview.com/2023/02/03/1067786/ai-models-spit-out-photos-of-real-people-and-copyrighted-images/ ↑