Immagini generate dall'IA: preoccupano i rischi per la privacy e per il copyright

È ormai chiaro che lo sviluppo continuo dell’intelligenza artificiale porterà a risultati sempre più sorprendenti nell’ambito della generazione di immagini. Questo ci porta a interrogarci sui rischi per i dati utilizzati da queste nuove tecnologie e come mitigarli

Uno degli strumenti che più sta suscitando meraviglia in tutto il mondo negli ultimi mesi è l’Intelligenza Artificiale generativa di immagini, oggi accessibile a qualsiasi utente dell’Internet mediante applicazioni come DALL-E 2, Stable Diffusion, Midjourney.

Di seguito, ad esempio, un’immagine generata dall’intelligenza artificiale che ha fatto molto discutere.

Il Papa col Moncler? Una foto creata dall'intelligenza artificiale - Gazzetta di Parma

Queste tecnologie attualmente si basano sui cosiddetti modelli di diffusione, un nuovo metodo di funzionamento dell’IA che si sta rivelando più efficace, almeno in questo settore, del precedente approccio GAN (Generative Adversarial Networks). Senza entrare troppo nel tecnico, la differenza si trova nel processo utilizzato per generare il contenuto, che nel GAN utilizza due reti neurali in competizione (una che crea un elemento verosimile e una che verifica se questo sia stato creato dall’altra, dove la prima è progettata per ingannare la seconda), mentre nei modelli di diffusione il funzionamento si fonda sulla rimozione di rumore da dati di input forniti al fine di creare una immagine plausibile e in linea con il prompt testuale fornito.

Arte generata dall’intelligenza artificiale, come tutelare la creatività umana

Se sembra ormai chiaro che i modelli di diffusione possono essere il trampolino di lancio per lo sviluppo di IA sempre più sorprendenti, di recente un gruppo di ricercatori ha pubblicato un paper^[1] in cui viene dimostrata la presenza di alcuni rischi per i dati utilizzati da queste nuove tecnologie.

Le questioni sollevate si aggiungono alle molte preoccupazioni che stanno suscitando le IA generative, portando l’attenzione su un aspetto ancora poco trattato nei dibattiti relativi a questo settore: la tutela della privacy dei dati di input e i pericoli legati alla loro conservazione nei modelli.

Indice degli argomenti

Modelli generativi e protezione dei dati: lo studio

Obiettivo dello studio succitato è quello di evidenziare i punti di tensione tra modelli generativi sempre più potenti e la protezione dei dati, sollevando interrogativi su come funzionano i modelli di diffusione e su come dovrebbero essere utilizzati in modo responsabile.

I rischi per la privacy

L’obiettivo fondamentale delle IA generative è quello di creare nuovi contenuti (nel caso qui in esame, immagini) diversi da quelli del dataset fornito come input per l’addestramento dell’algoritmo; per questo molti studiosi hanno ipotizzato che l’uso di questi strumenti possa essere funzionale alla tutela dei dati personali, perché consentono di sostituire le informazioni relative a persone realmente esistenti con altre del tutto sintetiche, ma verosimili. In questo modo si potrebbero ridurre i rischi legati alla privacy in quei settori particolarmente voraci di dati come, ad esempio, l’addestramento di IA di riconoscimento facciale, che hanno bisogno di enormi quantità di fotografie di persone per “imparare” a distinguere le caratteristiche dei volti.

Questo discorso, tuttavia, si basa su un presupposto imprescindibile: che i modelli di diffusione non memorizzino e non rigenerino i dati utilizzati nel loro addestramento. Insomma, se l’IA riceve come input la foto di Mario Rossi (che magari è stata reperita su Internet perché pubblicata da Mario come immagine del profilo pubblica su un sito) e poi genera una immagine del tutto identica (o quasi), la privacy di Mario Rossi sarà comunque messa a rischio, così come l’effettiva efficacia del modello di diffusione per quanto riguarda l’originalità dei suoi prodotti.

Il paper di cui dicevamo sopra dimostra proprio questo: che i modelli di diffusione attualmente esistenti memorizzano e rigenerano i dati che ricevono come input nel training. Lo studio utilizza alcuni attacchi volti ad accedere ai dataset utilizzati nell’addestramento dei modelli più famosi. Nel caso di Stable Diffusion, i ricercatori sono riusciti a recuperare numerose fotografie di persone riconoscibili (dunque dati personali, se vogliamo seguire la definizione del nostro Regolamento europeo 2016/679) che costituivano il 58% delle immagini raccolte, mentre il 17% rappresentavano prodotti in vendita e il 14% loghi. Oltre al problema della tutela della privacy, è interessante notare che per il 35% delle immagini del dataset era presente un avviso di copyright che non ne consentiva la riproduzione, ma anche molte delle altre probabilmente ricadevano sotto la tutela del diritto d’autore. In alcuni casi, invece, le immagini erano sottoposte a una licenza per la quale sarebbe stato necessario indicarne la fonte, un link alla licenza e segnalare eventuali modifiche. Tutte queste tutele sono riconosciute alle immagini originali utilizzate nel training, dunque il problema è duplice: capire se il loro inserimento nel dataset viola il diritto d’autore, ma anche verificare che l’output dell’IA generativa sia sufficientemente diverso dalle immagini di origine per evitare lesioni della proprietà intellettuale.

Tutela dei dati personali

Discorso simile si potrebbe fare per la tutela dei dati personali. I ricercatori sottolineano che, anche se al momento non sembra che nessuno sia ancora stato danneggiato direttamente dalla mancanza di riservatezza dei dati nei modelli di diffusione, è necessario essere consapevoli di questi rischi e adottare tutte le cautele possibili perché è probabile che questi strumenti, come sta già succedendo per molte altre IA, verranno impiegati in settori delicati, come quello sanitario. C’è insomma il pericolo che dati personali relativi alla salute, che nell’Unione Europea sono sottoposti a una tutela rafforzata, una volta inseriti nei dataset di training dei modelli di diffusione siano in essi memorizzati e resi vulnerabili rispetto a eventuali attacchi informatici.

Un ulteriore elemento allarmante dimostrato dallo studio è il fatto che i rischi per la privacy aumentano con la complessità del modello, per cui le IA più sofisticate saranno anche più pericolose da questo punto di vista. Si nota inoltre una differenza tra i modelli GAN e quelli di diffusione, perché i secondi si sono dimostrati più esposti agli attacchi effettuati nel corso della ricerca.

Sembra lecito ipotizzare quindi che, se non si adottano rimedi efficaci, la vulnerabilità delle IA generative aumenterà con il passare del tempo e con lo sviluppo tecnologico.

Indicazioni pratiche su come mitigare i rischi

Alla fine del paper, i ricercatori elencano una serie di possibili difese e raccomandazioni che potrebbero portare a una riduzione dei rischi legati al trattamento dei dati da parte dei modelli di diffusione:

Eliminare i dati duplicati nei set dei training e minimizzare il più possibile il trattamento;
Effettuare degli audit e degli attacchi simulati come quelli eseguiti nel corso di questo studio per valutare i rischi posti dai modelli;
Usare il più possibile tecniche di privacy-preserving;
Ridimensionare l’idea per cui l’utilizzo di contenuti creati con queste IA è in ogni caso un modo per tutelare i dati personali.

Problemi legati ai contenuti: le mosse per sviluppare pratiche responsabili per le IA generative

Le IA generative stanno facendo molto discutere anche per quanto riguarda i contenuti prodotti. Da questo punto di vista, un gruppo di società ha sottoscritto delle linee guida su come creare e diffondere contenuti “sintetici”, realizzati con le IA generative, in modo responsabile. Tra i promotori dell’iniziativa troviamo anche OpenAI, che ha sviluppato non solo l’ormai famigerato Chat-GPT ma anche DALL-E 2, che si fonda su un modello di diffusione.

Uno degli elementi chiave delle linee guida è la trasparenza, che deve essere assicurata con riferimento alle funzionalità della tecnologia, ai rischi dei contenuti sintetici (tra cui, appunto, quelli relativi alla privacy e al copyright), all’origine artificiale dei media prodotti (utilizzando appositi marcatori e disclaimer), alle modalità di ottenimento del consenso dei soggetti ritratti.

Le linee guida contengono indicazioni di best practices per gli sviluppatori delle tecnologie, per i creatori dei contenuti e per i distributori degli stessi, così come un elenco di potenziali rischi derivanti dai “media sintetici”.

L’iniziativa si inserisce in un settore che nell’Unione Europea è ancora in attesa di normative vincolanti, fornendo un mezzo di self regulation che potrà aumentare la fiducia nei confronti di queste nuove tecnologie e, quindi, la loro diffusione. Alcune pratiche raccomandate dalle linee guida ricordano misure inserite nella proposta dell’AI Act, il Regolamento europeo sull’Intelligenza Artificiale attualmente in fase di discussione presso le istituzioni dell’Unione Europea. Vedremo nei prossimi mesi se e quanto sarà ancora necessaria una autoregolamentazione proveniente da soggetti privati alla luce delle nuove norme che verranno emanate. È interessante notare che in Cina, invece, lo scorso gennaio è entrata in vigore una legge specifica sulle IA generative che prevede, tra le varie cose, proprio l’inserimento di contrassegni per segnalare che un contenuto è stato prodotto da una IA.

AI generativa, la Cina mette i paletti: luci e ombre delle nuove regole

Conclusioni

L’avvento delle IA generative sta creando delle vere e proprie rivoluzioni, non solo da un punto di vista tecnologico ma anche sociale. È ormai chiaro che questi sistemi sono destinati a diventare elementi importanti in moltissime attività e settori. Per questo motivo è fondamentale provare, per quanto possibile, ad anticipare i rischi che potrebbero porre, anche se adesso non ci sembrano davvero rilevanti. Il paper che abbiamo analizzato in questo contributo si pone proprio l’obiettivo di sollevare un problema oggi poco sentito, ma che l’utilizzo dei modelli di diffusione in settori delicati renderebbe allarmante.

Ancora una volta le soluzioni non sono a portata di mano, ma la consapevolezza è il punto di partenza per evitare danni e derive disastrose di queste nuove tecnologie… o almeno provarci.

Note

“Extracting Training Data from Diffusion Models”, di N. Carlini, J. Hayes, M. Nasr, M. Jagielski, V. Sehwag, F. Tramèr, B. Balle, D. Ippolito, E. Wallace, arXiv:2301.13188 [cs.CR] ↑