l’approfondimento

Dati sintetici: cosa sono, le applicazioni e i rischi da gestire

I dati sintetici offrono un’alternativa all’uso di dati personali, specialmente nell’addestramento di algoritmi di machine learning. Generati attraverso modelli matematici, imitano dati reali, riducendo rischi e superando vincoli normativi. Tuttavia, richiedono competenze specifiche e sollevano questioni su privacy e anonimato

Pubblicato il 6 mag 2024

Giuseppe D'Acquisto

Funzionario del Garante per la protezione dei dati personali, Titolare dell’insegnamento di intelligenza artificiale presso il Dipartimento di Giurisprudenza dell’Università LUISS Guido Carli

Governi e istituzioni in Europa [1] e negli Stati Uniti [2] stanno promuovendo i dati sintetici come alternativa all’uso di dati personali in diversi ambiti industriali, in particolare quelli che impiegano algoritmi di machine learning che necessitano di rilevanti moli di dati per la fase di addestramento, ma anche come strumento di regolamentazione (si pensi al caso dell’impiego di dati sintetici nell’ambito delle cosiddette sandbox regolatorie).

AI Act e dati sintetici: connubio perfetto per l’innovazione responsabile

Ciò in ragione di molti innegabili vantaggi associati all’impiego di tali dati: in primis, la loro versatilità, l’economicità e aderenza al “vero”. I dati sintetici, infatti, nascono con la promessa di imitare i dati prodotti dai fenomeni reali, riducendo i problemi di scarsità e accesso, consentendo di mitigare rischi di varia natura (dalla riservatezza alla safety) e di superare vincoli normativi (di protezione dei dati personali o di tutela della proprietà intellettuale), o persino scrupoli etici che talvolta impediscono la raccolta dei dati reali (si pensi a dati su eventi rari che possono essere raccolti in particolari condizioni contestuali nelle quali possono essere messe a repentaglio la salute o addirittura la vita delle persone, o a dati raccolti su soggetti fragili). Inoltre, fatto pressoché nuovo, essi consentono di simulare situazioni mai prima sperimentate, interamente configurabili dallo sperimentatore e persino prive di ogni tipo di bias umano (accidentale o deliberato), permettendo analisi controfattuali su un numero praticamente illimitato di ipotesi a costi marginali sostenibili.

Nonostante queste prospettive di indubbio interesse, l’impiego dei dati sintetici richiede ponderazione e cautela e deve essere affrontato accompagnati da solide competenze modellistico-matematiche e normative.

Indice degli argomenti

Come si generano i dati sintetici

I dati sintetici sono generati artificialmente attraverso programmi che impiegano una molteplicità di modelli matematici [3]. Senza voler essere esaustivi, un approccio molto comune alla generazione di dati sintetici prevede l’adattamento di una funzione input-output (di regressione o di classificazione) a un insieme di osservazioni, di modo che, dopo una fase di training su dati etichettati, il modello possa prevedere il valore o l’etichetta incognita in presenza di nuove osservazioni. Tecnicamente, questo adattamento consiste nella selezione di una funzione all’interno di una famiglia di funzioni parametriche secondo un criterio di minimizzazione degli scarti quadratici tra valori osservati e valori previsti. Una volta individuata, questa funzione svolge il ruolo di “sintetizzatore” capace di generare un numero illimitato di nuovi dati.

Un altro metodo, di natura probabilistica, si basa invece sulla “ricostruzione” a massima verosimiglianza di una distribuzione (o densità) di probabilità. In particolare, quella estratta da una famiglia di distribuzioni parametriche che meglio di altre (all’interno di quella famiglia) potrebbe avere generato i dati osservati. Anche questa distribuzione di probabilità agisce come sintetizzatore e consente la generazione di nuovi dati sintetici che riproducono i principali indicatori statistici dei dati osservati (valori medi, varianze, coefficienti di correlazione).

Più recentemente, gli algoritmi di intelligenza artificiale hanno introdotto nuovi approcci alla sintesi dei dati. Le reti generative avversarie (in inglese, Generative Adversarial Networks o GAN), ad esempio, utilizzano una coppia di reti neurali dette generator e discriminator che competono per produrre dati sintetici sempre più realistici. Il generator crea dati simulati per ingannare il discriminator, che a sua volta impara a distinguere tra dati reali e simulati. Attraverso questo processo, le GAN apprendono la distribuzione dei dati del mondo reale (distribuzione che può essere molto più complessa di quelle che si ottengono attraverso tecniche a massima verosimiglianza) e generano nuovi dati che appaiono naturali e realistici.

Quali applicazioni per i dati sintetici

Questo approccio “simulativo” si è imposto come uno strumento di analisi in vari settori. Ad esempio, nella diagnostica per immagini, i dati sintetici riproducono scansioni realistiche di immagini mediche, essendo di ausilio in radiologia senza la necessità di utilizzare dati dei pazienti.

I dati sintetici si stanno rivelando anche essenziali nello sviluppo di prodotti innovativi, facilitando, ad esempio, l’addestramento di veicoli a guida autonoma in diverse condizioni, anche molto rischiose e eccentriche, senza la necessità di costose e pericolose prove su strada, oppure nella comprensione del linguaggio naturale da parte degli assistenti vocali, generando modelli di discorso realistici in diverse lingue senza dover ricorrere a tracce registrate dal vivo durante l’uso degli assistenti da parte degli stessi utenti.

Nel settore assicurativo e in quello finanziario, i dati sintetici permettono l’affinamento dei modelli di valutazione del rischio, simulando varie condizioni di mercato, e consentono di perfezionare la rilevazione di frodi. Nel riconoscimento facciale essi contribuiscono al training di algoritmi su dataset più ampi e più diversificati, evitando pregiudizi tra le diverse fasce demografiche.

Nella sicurezza informatica, i dati sintetici consentono di realizzare stress test sui sistemi di rilevamento delle intrusioni attraverso la creazione di diversi scenari di attacco informatico, estendendo il perimetro di difesa. Nello sviluppo software, essi creano prototipi e digital twins realistici di prodotti e servizi per identificare e risolvere problemi prima della loro immissione nel mercato.

Tutte queste applicazioni sottolineano la versatilità e l’impatto dei dati sintetici nell’economia digitale. Resta però un interrogativo di fondo: possiamo considerare i dati sintetici come dati anonimi quando riproducono comportamenti o caratteristiche individuali?

La natura giuridica dei dati sintetici

La distinzione tra dati personali e anonimi non può essere determinata solo dal modo in cui i dati vengono generati. Nella giurisprudenza ormai più che decennale delle autorità di protezione di dati, la natura personale o anonima del dato dipende da una valutazione dei rischi basata su due elementi chiave: l’identificazione e l’impatto sugli individui.

L’identificazione si riferisce alla capacità di distinguere un singolo individuo all’interno di un gruppo in base alle informazioni di cui si dispone. Nel contesto dei dati sintetici, due fasi sono particolarmente esposte al rischio di identificazione. La fase di training dei sintetizzatori e la fase di generazione vera e propria. Infatti, se i dati originali utilizzati per addestrare un sintetizzatore si riferiscono a individui identificati (come è verosimile che sia per pervenire a sintetizzatori il più possibile realistici), qualsiasi operazione matematica su questi dati costituisce un trattamento di dati personali. Possiamo dunque considerare come estremamente probabile l’ipotesi che nel perfezionare un modello di regressione o di classificazione, o nell’individuare una distribuzione a massima verosimiglianza, o ancora nell’addestrare le due reti neurali di un’architettura GAN, tutta la fase di training non sia altro che una concatenazione di trattamenti di dati personali.

D’altro canto, se in fase di sintesi si genera un dato talmente realistico da essere vero, ossia coincidente con le caratteristiche di un individuo reale, ciò equivale a tutti gli effetti a un trattamento di un dato personale “riprodotto”, senza che lo si sia raccolto direttamente presso l’interessato. Si pensi, per semplificare, al caso di un numero di telefono generato sinteticamente: esso può ben coincidere con un numero reale, con tutto l’evidente, successivo impatto per la persona.

Dati sintetici: l’impatto sugli individui

L’impatto sugli individui è dunque un altro aspetto cruciale da considerare: i dati sintetici possono portare a decisioni che possono penalizzare, o esporre gli interessati oltre le loro aspettative, volontà o capacità di opporsi. E queste esposizioni possono condurre a esiti sui quali non ci si è ancora sufficientemente soffermati: dal disturbo (come nel caso dell’esempio del numero di telefono) fino a possibili sovraesposizioni indesiderate, o a forme di discriminazione o esclusione.

Le condizioni che devono verificarsi perché un dato possa essere considerato anonimo

Le condizioni che devono almeno verificarsi perché un dato (indipendentemente dal modo in cui esso è generato) possa essere considerato anonimo sono ormai da tempo ben definite. Esse valgono anche con riferimento all’impiego di dati sintetici.

Per garantire la conformità alla normativa sulla protezione dei dati, i tre criteri principali per l’anonimizzazione dei dati sono: l’assenza di singolarità, ovvero situazioni nelle quali combinazioni uniche di attributi (anche generati sinteticamente) si riferiscono a un singolo individuo reale, l’assenza di collegamenti, ovvero situazioni nelle quali sia possibile mediante l’impiego di chiavi condivise collegare record riferibili allo stesso interessato, anche se presenti in insiemi di dati distinti, l’assenza di (facili) inferenze, ovvero quelle situazioni nelle quali determinate caratteristiche di una persona possono essere previste in base alla conoscenza di altre caratteristiche fortemente correlate [4].

Dati sintetici e privacy by design

Considerata l’asimmetria informativa che esiste tra chi genera dati sintetici e gli interessati i cui dati sono impiegati in fase di training, o riprodotti in modo realistico nella fase di sintesi, l’uso di dati sintetici dovrebbe essere accompagnato da misure di privacy by design in grado di ribilanciare questa asimmetria. Il dibattito scientifico è molto attivo in quest’area e si profilano interessanti e concrete opzioni di tutela.

Due meritano particolare considerazione per la loro efficacia. Da una parte, è ormai un risultato consolidato della moderna data science, la certezza di poter offrire a chiunque una forma di opt-out universale da qualsiasi tipo di trattamento: questa forma di opt-out universale prende il nome di differential privacy e consiste nella randomizzazione (ottenuta mediante aggiunta di rumore statistico) dei risultati di qualsiasi computazione, di modo che osservando il risultato di una computazione non si possa stabilire con certezza se uno specifico dato personale sia stato impiegato per raggiungere quel risultato [5]. Questa tecnica consente di proteggere qualsiasi dato da possibili inferenze, ma presenta l’inconveniente che volendo proteggere dati anche molto eccentrici (c.d. outliers) il suo impiego può molto rallentare il training degli algoritmi, ovvero produrre dati sintetici non particolarmente accurati. Dall’altra, si annuncia l’interessante possibilità di forme di opt-out selettivo da offrire a chi volesse esercitare un diritto di opposizione al trattamento, senza tuttavia sacrificare l’accuratezza del risultato (come invece avviene per la differential privacy), attraverso il ricorso a meccanismi di machine unlearning. Queste tecniche “eliminano” l’effetto del dato singolo sul training di un sintetizzatore dopo che l’addestramento è stato completato. È un’ipotesi molto promettente, anche se siamo ancora in una fase iniziale di studio e di ricerca, che è senz’altro meritevole di attenzione da parte di chi si occupa di dati sintetici [6].

Impieghi non virtuosi dei dati sintetici

L’impiego malaccorto o doloso di dati sintetici può dare luogo ad abbagli, ovvero costituire una minaccia alla protezione dei dati personali.

Ad esempio, se si osserva un outlier nel mondo reale, è molto probabile che questo outlier non venga riprodotto con dati sintetici, e se c’è un outlier in un dataset sintetico, è molto probabile che questo outlier non rappresenti nessun individuo reale. Questo è un risultato molto semplice del calcolo delle probabilità. Non c’è (e non può esserci) creazione di informazioni con dati sintetici. Le situazioni estreme, che sono tipicamente quelle in cui l’umanità fa progressi scientifici, sono osservabili solo nel mondo reale. Dobbiamo essere consapevoli di questi vincoli. Pensare di poter “scoprire” nuovi fenomeni attraverso l’impiego di dati sintetici è un’ipotesi epistemologica quantomeno azzardata.

Impiegare dati sintetici per effettuare previsioni significa lavorare su un “mondo immaginario” anche molto simile al mondo reale, con tutti i possibili benefici di cui si è discusso, ma se nel lungo termine questo mondo immaginario diventa prevalente rispetto al mondo reale potrebbe ingenerarsi un fenomeno di model collapse, ossia una degradazione non ripristinabile della qualità delle previsioni. Anche questo è un risultato del calcolo delle probabilità. Se un algoritmo di machine learning è addestrato con gli output di un altro modello, e questo processo è ripetuto in cascata molte volte, viene a determinarsi un fenomeno di “distorsione della realtà”, i cui effetti sono stati già ben identificati dalla ricerca scientifica. Essi consistono nella progressiva perdita della diversità nel mondo sintetico (cioè, la perdita delle code delle distribuzioni), a cui fa seguito un mescolamento dei pattern (ossia, la perdita delle mode delle distribuzioni), fino al punto che, in assenza di dati reali, le previsioni effettuate sul mondo simulato tendono a essere molto simili tra loro e poco aderenti all’andamento dei fenomeni osservati in realtà. In altri termini, al beneficio iniziale, senza esercizio critico sui risultati, può fare seguito un costo di lungo termine (non facilmente recuperabile) della banalizzazione delle inferenze [7].

Vi è infine la possibilità di un impiego doloso dei dati sintetici, come forma di “privacy washing”. I dati sintetici possono infatti ben essere forme di “ricodifica” di dati personali attraverso modelli matematici di trasformazione, noti al codificatore e al de-codificatore, che rendono il dato sintetico apparentemente “diverso” dal dato di partenza, ma in realtà a quest’ultimo univocamente associato. Tanto che, nota la legge di trasformazione, attraverso la sua inversione applicata ai dati sintetici è possibile riottenere l’intero contenuto informativo dei dati originari. Bisogna non essere ingenui rispetto alla possibilità che simili forme di “elusione matematica” delle norme in materia di protezione dei dati vengano realizzate [8].

Alcune considerazioni sul concetto di inferenza

Siano consentite alcune riflessioni finali sul concetto di inferenza, che inevitabilmente l’impiego di dati sintetici suscita. Il dibattito sull’uso dei dati sintetici ha implicazioni più profonde rispetto alle questioni tecniche legate alla modalità realizzative o all’accuratezza dei sintetizzatori, e anche rispetto alla determinazione della natura personale o anonima degli stessi dati sintetici. Esso tocca questioni epistemologiche molto rilevanti sul modo in cui l’uomo ritiene di poter conoscere i fenomeni che osserva. La disponibilità di dati e la progressiva riduzione dei costi per trattarli ci induce a pensare che sia più vantaggioso, nel senso che produce un maggior numero di risultati benefici per l’uomo, un approccio alla conoscenza basato su simulazioni e su inferenze, piuttosto che un approccio basato sullo sviluppo di modelli matematici, spesso (in definitiva) semplici e di limitata validità. Oggi chiamiamo questo approccio inferenziale intelligenza artificiale.

L’inferenza, sia essa basata su osservazioni, su dati sintetici o su una loro combinazione, è una proiezione che riguarda un mondo che non esiste ancora. Potrà esistere, ma non vi è certezza che esisterà davvero nel modo in cui lo immaginiamo. All’elevata probabilità di successo di molte inferenze si contrappone la bassa probabilità che, talora, esse possano rivelarsi proiezioni fallaci. Nel mondo reale futuro l’inferenza errata effettuata al tempo presente può trasformarsi per taluni in una esposizione, una limitazione o una (piccola, grande) discriminazione.

Questo beneficio verosimile collettivo atteso, “pagato” dall’esclusione certa di pochi ci deve fare riflettere sulla correttezza di questo paradigma nuovo della conoscenza basato su simulazioni e inferenze e se questo sia un degno sostituto del metodo scientifico classico. L’approccio teorico del metodo scientifico prevedeva certamente la possibilità di errore, con la prospettiva della falsificazione di una teoria e dunque l’avanzamento della conoscenza, ma non la scorrettezza tra i suoi presupposti, ossia il beneficio di alcuni a spese di altri.

Ci apriamo con l’inferenza a uno scenario mai prima sperimentato: la possibilità di errori senza attribuzioni di responsabilità e la diluizione del costo dell’errore su una minoranza. Abbiamo strumenti normativi e regolamentari per evitare che ciò accada e per rendere più virtuose le inferenze, traendo da esse tutto il beneficio atteso, individuando comunque delle forme di responsabilità nel processo inferenziale ed evitando questa “scorrettezza”?

Oggi sembra che l’unica risposta a queste domande, se il mondo previsto non coincide con il mondo osservato futuro, è: “mi dispiace! È colpa del modello o dei dati”. Occorre una più accurata considerazione del tipo di errori a cui l’approccio inferenziale può dare luogo e delle conseguenze di questo errore a livello individuale.

Conclusioni

Stabilire dove in un’inferenza sbagliata finisce la stocasticità e dove comincia una responsabilità, o una negligenza da parte di chi effettua una previsione, e stabilire quando per effettuare un’inferenza non basta osservare una correlazione ma serve un accertamento di causalità, se dall’inferenza si determinano conseguenze giuridicamente rilevanti per la persona, è una delle principali sfide della futura protezione dei dati.

Ringraziamenti: L’autore ringrazia Fabio Ricciato di Eurostat per le frequenti e proficue discussioni su questi argomenti e deve a lui l’uso del termine “privacy washing” qui riportato.

*Giuseppe D’Acquisto è funzionario direttivo del Garante per la protezione dei dati personali e titolare dell’insegnamento di Intelligenza Artificiale nell’Università LUISS Guido Carli a Roma. È stato il relatore dell’Opinion sulle tecniche di anonimizzazione del Working Party Article 29. Le opinioni qui espresse sono unicamente dell’autore e possono non coincidere con quelle delle istituzioni o università in cui lavora.

Bibliografia

[1] Regulation of the European Parliament and of the Council laying down harmonised rules on Artificial Intelligence (Artificial Intelligence Act) (versione del 19 aprile 2024 disponibile al link https://www.europarl.europa.eu/doceo/document/TA-9-2024-0138-FNL-COR01_EN.pdf)

[2] Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence, October 30^th 2023 (disponibile al link https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/)

[3] K. El Emam, L. Mosquera, R. Hoptroff, Practical Synthetic Data Generation: Balancing Privacy and the Broad Availability of Data. O’Reilly Media, 2020

[4] Article 29 Working Party, Opinion 05/2014 on “Anonymisation Techniques”, 2014

[5] Workshop presso il Garante per la protezione dei dati personali: Data Protection Engineering. Integrating safeguards into the processing, 21 settembre 2022 (materiali formativi disponibili al link https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/9808184)

[6] T. T. Nguyen, T. T. Huynh, P. L. Nguyen, A. W.-C. Liew, H. Yin, Q. V. H. Nguyen. A survey of machine unlearning. arXiv preprint arXiv:2209.02299, 2022 (disponibile al link https://arxiv.org/abs/2209.02299)

[7] I. Shumailov, Z. Shumaylov, Y. Zhao, Y. Gal, N. Papernot, R. Anderson, The curse of recursion: training on generated data makes models forget, arXiv preprint arXiv:2305.17493, 2024 (disponibile al link https://arxiv.org/abs/2305.17493)

[8] M. Veale, R. Binns, L. Edwards. Algorithms that remember: model inversion attacks and data protection law. Philosophical Transactions of the Royal Society A: Mathematical‚ Physical and Engineering Sciences, (376), 2018.

@RIPRODUZIONE RISERVATA