L’interesse per i dati sintetici è in costante crescita. Ma cosa sono esattamente e a cosa servono?
Di cosa parliamo quando parliamo di dati sintetici
Sebbene rappresentino uno dei prodotti più interessanti dell’era dell’intelligenza artificiale, quello dei dati sintetici è un campo ancora in fase di sviluppo e manca di un consenso chiaro riguardo a una definizione univoca.
L’assenza di una definizione universalmente accettata di dati sintetici porta a un uso incoerente del termine e a interpretazioni variabili a seconda del contesto e del paese. Una proposta di definizione è stata avanzata dalla Royal Society e dall’Alan Turing Institute, che descrivono i dati sintetici come “dati generati utilizzando un modello matematico o un algoritmo appositamente creato, con lo scopo di risolvere un insieme di compiti“[1]. Questa definizione si concentra sull’essenza tecnologica dei dati sintetici, considerandoli come repliche delle proprietà statistiche di un’entità piuttosto che su divagazioni riguardanti le potenzialità della tecnologia.
Il ruolo dei dati sintetici nella protezione della privacy
I dati sintetici presentano aspetti funzionali significativi, con un potenziale utilizzo strategico per affrontare sfide scientifiche complesse. Tale potenziale rende i dati sintetici uno strumento prezioso sotto diversi punti di vista: dalla protezione della privacy alla creazione di dataset per l’addestramento di modelli di intelligenza artificiale, fino alla simulazione di scenari ipotetici. Infatti, il loro utilizzo sta emergendo come una soluzione innovativa per affrontare la necessità sempre maggiore di dati per l’addestramento dei modelli di machine learning e per far fronte alle incertezze normative legate alla protezione dei dati personali. Generati artificialmente e in grado di mantenere le proprietà statistiche dei dati raccolti, i dati sintetici offrono opportunità significative per migliorare la qualità delle analisi e facilitare la condivisione delle informazioni.
Ampliando i set di dati disponibili, i dati sintetici permettono di migliorare le prestazioni dei modelli, riducendo la necessità di raccolta dati, spesso difficili da ottenere. È fondamentale garantire la qualità dei dati sintetici generati; se contengono bias o mancano di variabilità e correlazione, possono produrre risultati distorti, ingannevoli o discriminatori. Per questo motivo, è essenziale utilizzare metodi rigorosi per la loro generazione e implementare tecniche di validazione per assicurarsi che riflettano accuratamente le proprietà statistiche dei dati raccolti senza introdurre pregiudizi.
I dati sintetici rappresentano allo stesso tempo una soluzione tecnologica promettente per affrontare le incertezze normative relative all’anonimizzazione dei dati personali. Il Regolamento generale sulla protezione dei dati (GDPR) definisce come “dato personale” qualsiasi informazione riguardante una persona fisica identificata o identificabile. Per escludere il trattamento dei dati dall’applicazione del GDPR, è necessario rimuovere il carattere “personale” del dato.
L’anonimizzazione dei dati
L’anonimizzazione dei dati implica trattarli in modo tale che l’interessato non possa più essere identificato, distinguendosi dalla pseudonimizzazione che, invece, permette re-identificazione tramite informazioni aggiuntive.
Secondo l’articolo 26 del GDPR, i dati sufficientemente anonimi non sono più considerati dati personali e quindi non soggetti al Regolamento. Questo significa che i dati devono essere trattati in modo tale da rendere l’identificazione dell’interessato praticamente impossibile, tenendo conto dei mezzi tecnologici disponibili. Questo criterio di ragionevolezza richiede una valutazione dei costi, del tempo e delle tecnologie necessarie per una eventuale re-identificazione. Tuttavia, la richiesta di un’anonimizzazione permanente ed irreversibile richiesta dall’interpretazione rigida del WP29 (ora European Data Protection Board) nel Parere 05/2014, ha creato incertezze su come gestire correttamente l’anonimizzazione, specialmente alla luce del rapido avanzamento delle capacità computazionali che rendono sempre più difficile garantire l’irreversibilità richiesta.
In questa cornice problematica, dove la rimozione di elementi identificativi, oltre che rappresentare un costo, compromette anche la qualità dei dati per scopi statistici o scientifici, emergono le potenzialità dei dati sintetici.
I dati sintetici sono dati generati ex novo attraverso la replica delle proprietà statistiche dei dati originali. Il risultato non è l’anonimizzazione diretta del dataset di partenza bensì un nuovo set di dati impersonale che rispecchia la distribuzione statistica del primo.
I dati sintetici rappresentano in questo modo una soluzione efficace per facilitare la condivisione delle informazioni, sottraendosi potenzialmente alla disciplina del GDPR, inquanto non riconducibili a nessuna persona “reale”. Questo approccio consente di preservare l’utilità dei dati per la ricerca e l’analisi, garantendo al contempo il rispetto delle normative sulla privacy.
Generazione dei dati sintetici: metodi e tecnologie
L’utilizzo di dati sintetici ha radici storiche che risalgono ai lavori di Stanislaw Ulam e John von Neumann negli anni Quaranta, che impiegarono il metodo Monte Carlo per simulazioni basate su campionamenti casuali.[2] Oggi, esistono diverse tecniche per generare dati sintetici, ognuna con applicazioni specifiche. Tra queste, le strutture di deep learning e i modelli econometrici basati su agenti[3] rappresentano metodologie avanzate, così come le equazioni differenziali stocastiche utilizzate per simulare sistemi fisici o economici.[4]
L‘uso di modelli generativi
Una delle tecniche più avanzate per la generazione di dati sintetici è l’uso di modelli generativi, come le Generative Adversarial Networks (GANs) e i Variational Autoencoders (VAE).[5] Le GANs impiegano reti neurali per produrre dati che imitano fedelmente i dati raccolti, mentre i VAE creano rappresentazioni latenti dei dati per generare nuove informazioni, contribuendo alla varietà e alla qualità dei dati sintetici prodotti.
I dati sintetici basati su regole
Un’altra categoria significativa è quella dei dati sintetici basati su regole dove i dati possono essere generati utilizzando specifiche regole o attraverso simulazioni basate su modelli matematici e fisici. La generazione di dati tramite regole di business è utile in contesti dove la logica del dominio è ben definita, mentre le simulazioni possono essere utilizzate per replicare scenari complessi.
I dati sintetici misti
È possibile sviluppare dati sintetici misti, che combinano dati raccolti e sintetici, mantenendo alcune caratteristiche dei dati primi e aggiungendo variabilità tramite dati sintetici. Questo approccio è utile per arricchire i dataset senza compromettere la privacy.[6]
I dati sintetici sono fondamentali per il test di software e la formazione di modelli di machine learning. Tecniche di augmentazione dei dati, come rotazioni e traslazioni, aumentano la quantità di dati di training, migliorando la robustezza dei modelli. La generazione di dati sintetici per classi rare è un’altra applicazione importante.[7]
Tipologie di dati sintetici
La classificazione dei dati sintetici può essere suddivisa in diverse categorie: in base alla fonte di generazione, al tipo di dati (numerici, categorici, testuali, immagini, audio), all’uso e al dominio di applicazione. Indipendentemente dalla metodologia utilizzata per la generazione e dal contesto applicativo, la classificazione dei dati sintetici comprende un ampio spettro che va da dati parzialmente sintetici a completamente sintetici.
La distinzione tra dati completamente sintetici e parzialmente sintetici
Per affrontare questioni giuridiche complesse, come l’applicazione del GDPR, la trasparenza e la spiegabilità dell’algoritmo, e la proprietà intellettuale, è importante distinguere tra dati completamente sintetici e parzialmente sintetici. I dati parzialmente sintetici incorporano dati del mondo fisico con dati sintetici[8], offrendo un compromesso tra riservatezza e utilità. Questo tipo di dati è particolarmente utile in ambito sanitario, dove possono proteggere la privacy dei pazienti consentendo ai ricercatori di condurre analisi significative.[9]
D’altra parte, i dati completamente sintetici vengono creati interamente ex novo sulla base di regole, modelli o simulazioni predefiniti.[10] Questi dati non rappresentano direttamente il mondo fisico, ma sono progettati per replicare la complessità e le variabili che potrebbero essere osservate in scenari del mondo. La generazione di dati completamente sintetici è particolarmente utile quando si desidera simulare sistemi complessi o quando i dati non sono disponibili o sono troppo sensibili per essere utilizzati.
Benefici dei dati sisntetici: innovazione e sperimentazione
L’uso dei dati sintetici offre notevoli vantaggi in termini di innovazione e sperimentazione. La capacità di generare grandi volumi di dati consente alle aziende di addestrare modelli di IA in modo più efficiente, facilitando la ricerca e lo sviluppo. Ad esempio, nell’attività di training del machine learning, l’uso di dati sintetici permette di ampliare significativamente il set di dati, migliorando la robustezza e l’accuratezza dei modelli. Nella fase di testing, i dati sintetici forniscono scenari diversi e variabili che possono aiutare a identificare e risolvere potenziali problemi prima del lancio del prodotto o servizio. Tuttavia, è fondamentale garantire che i dati sintetici generati siano di alta qualità e non contengano bias che potrebbero portare a risultati distorti, ingannevoli o discriminatori. La mancanza di variabilità e correlazione nei dati sintetici può compromettere l’affidabilità dei modelli di IA, rendendo cruciale un approccio attento e metodico nella loro generazione.
Miglioramento della sicurezza dei dati
Un altro beneficio significativo dei dati sintetici è il miglioramento della sicurezza dei dati: quando sono generati correttamente, essi non mantengono proprietà che potrebbero permettere la re-identificazione degli individui attraverso tecniche di reverse engineering. Utilizzando dati sintetici, le aziende possono facilitare la condivisione dei dati tra diversi dipartimenti o con terze parti, riducendo al minimo il rischio di violazioni della privacy. Questo approccio consente alle aziende di sfruttare il valore dei dati per analisi e decisioni strategiche senza compromettere la riservatezza delle informazioni sensibili.
Efficienza e risparmio
L’utilizzo di dati sintetici può portare a una significativa riduzione dei costi associati alla raccolta e gestione dei dati. La raccolta di dati spesso comporta spese elevate, sia in termini di risorse umane che tecnologiche, oltre a richiedere tempo e conformità a rigide normative sulla privacy. Generando dati sintetici, le aziende possono bypassare molti di questi ostacoli, ottenendo dataset ampi e diversificati senza le complessità logistiche e legali legate ai dati raccolti. Inoltre, i dati sintetici possono essere generati on-demand, permettendo un accesso immediato e scalabile a informazioni utili per vari progetti e analisi. Questo approccio non solo ottimizza i processi aziendali, ma libera anche risorse che possono essere reinvestite in altre aree strategiche, contribuendo così a una maggiore efficienza e competitività sul mercato.
Rischi dei dati sintetici: qualità e accuratezza
La generazione di dati sintetici rappresenta una sfida significativa in termini di qualità e accuratezza. Un aspetto cruciale è il delicato equilibrio che deve essere mantenuto tra l’accuratezza statistica e la protezione della privacy. Un’eccessiva sintetizzazione dei dati può infatti ridurre il loro valore analitico, compromettendo la capacità dei modelli di IA di fare previsioni accurate e utili. Questo rischio è amplificato dalla possibilità di introdurre bias nei modelli di IA se i dati sintetici non sono ben progettati. I bias possono derivare da una mancanza di variabilità e correlazione nei dati sintetici portando a risultati distorti.
Per mitigare questi rischi, è fondamentale stabilire degli standard di qualità rigorosi nella generazione dei dati sintetici. Questi standard devono includere metriche per valutare l’accuratezza statistica dei dati sintetici rispetto ai dati raccolti, nonché metodologie per garantire che i dati generati siano sufficientemente diversi da proteggere la privacy degli individui, senza però perdere le caratteristiche essenziali necessarie per l’analisi.
È altresì importante implementare pratiche di validazione e verifica continue durante il processo di generazione dei dati sintetici. Questo include l’uso di tecniche di benchmark per confrontare le prestazioni dei modelli di IA addestrati con dati sintetici rispetto a quelli addestrati con dati raccolti. Solo attraverso un approccio metodico e ben strutturato le aziende possono garantire che i dati sintetici siano non solo sicuri, ma anche di alta qualità e accurati, massimizzando così il loro valore per l’analisi e la decisione strategica.
La questione della responsabilità nella generazione di dati sintetici
Come per l’IA in generale, la questione della responsabilità nella generazione di dati sintetici è di cruciale importanza, particolarmente in settori sensibili come la ricerca clinica e l’ambito sanitario. Per affrontare adeguatamente questo tema, è necessaria una trasparenza dell’algoritmo e la spiegabilità del modello che genera i dati sintetici. Gli algoritmi devono essere spiegabili in modo tale da permettere alla persona di comprendere il percorso che, partendo dal dataset iniziato, ha portato alla generazione dei dati sintetici. Questo è essenziale per affrontare il problema della “scatola nera”, dove il funzionamento interno dell’algoritmo non è comprensibile agli utenti finali.
Sebbene la spiegabilità dell’intero processo che genera i dati sintetici possa essere complessa e, in alcuni casi, irraggiungibile, è fondamentale almeno la spiegazione del procedimento o della formula che permette il funzionamento del modello di generazione. Questo livello di trasparenza non solo aumenterebbe la fiducia degli utenti nei dati sintetici, ma consentirebbe anche una valutazione indipendente della qualità e dell’affidabilità degli algoritmi utilizzati. Per garantire questa trasparenza, si potrebbe pensare all’implementazione di meccanismi di valutazione della spiegabilità degli algoritmi, possibilmente anche in modalità open source. La disponibilità di tali meccanismi permetterebbe una revisione continua e indipendente da parte di autorità di controllo e della comunità scientifica, contribuendo a migliorare la fiducia nel processo di generazione dei dati sintetici. Tali autorità potrebbero stabilire linee guida e standard per la spiegabilità, assicurando che gli algoritmi non solo siano tecnicamente validi, ma anche eticamente responsabili.
Impatto dei dati sintetici sulle normative privacy
La generazione di dati sintetici, intesa come il processo di sintetizzazione, rientra nella definizione di “trattamento” ai sensi dell’art. 4 del GDPR. Pertanto, è un errore comune pensare che i dati sintetici siano automaticamente esenti dalla regolamentazione del GDPR per loro natura. Il GDPR non si applica ai dati completamente sintetici o generati da dataset contenenti esclusivamente dati non personali. Tuttavia, la situazione cambia se questi dati sono stati generati a partire da dati personali e non possono essere considerati “totalmente” anonimi.
L’applicabilità del GDPR ai dati sintetici
Per determinare l’applicabilità del GDPR ai dati sintetici, è fondamentale innanzitutto esaminare la natura dati trattati. Se sono stati generati interamente sulla base di regole predefinite e non derivano da dati, il GDPR non si applica, poiché tali non sono collegabili a persone fisiche e non contengono informazioni che possano condurre all’identificazione di individui. Se, invece, i dati sintetici sono stati generati a partire da dati esistenti, è necessario un ulteriore livello di analisi. A questo punto, bisogna determinare se i dati di partenza utilizzati per la generazione siano dati personali. Se i dati di partenza non sono dati personali, il GDPR non si applica. Tuttavia, se i dati originali sono dati personali, è indispensabile considerare la spiegabilità dell’algoritmo utilizzato per generare i dati sintetici.
Se l’algoritmo non è spiegabile, ovvero se non è possibile comprendere come i dati originali abbiano influenzato la generazione dei dati sintetici, allora non è possibile ottenere la ri-identificazione dell’interessato. In questo caso, il GDPR non si applica, ma sorge il problema della “scatola nera”: tali dati potrebbero essere inutilizzabili in contesti che richiedono la trasparenza del modello.
Se l’algoritmo è spiegabile, ovvero se è comprensibile il procedimento di sintetizzazione, il passaggio finale è determinare se il processo di spiegabilità identifichi il carattere personale del dato. Se il processo non lo identifica, i dati sintetici possono considerarsi anonimi e il GDPR non si applica. Se il processo di spiegabilità rivela che i dati sintetici contengono informazioni personali, allora i dati sono considerati pseudoanonimi e il GDPR si applica.
Dati sintetici e proprietà intellettuale
La natura dei dati sintetici solleva questioni su chi detiene i diritti sui dati stessi. A differenza dei dati personali, che sono soggetti a rigide regolamentazioni legali riguardanti la loro raccolta e utilizzo, i dati sintetici non rappresentano direttamente individui “reali”. La legge non è ancora chiara su come trattare i dati sintetici in termini di proprietà intellettuale, rendendo la questione di chi detiene i diritti su questi dati un’area grigia. La generazione di dati sintetici avviene tramite l’uso di software e algoritmi che possono essere protetti da diritti d’autore, brevetti o altri diritti di proprietà intellettuale. È possibile che il proprietario della licenza abbia diritti sulla proprietà intellettuale riguardante il processo di creazione dei dati sintetici. L’uso di algoritmi proprietari comporta il rispetto delle condizioni di licenza del software, che possono imporre restrizioni su come i dati sintetici possono essere utilizzati o condivisi.
Allo stesso tempo, se la generazione dei dati sintetici coinvolge un significativo contributo intellettuale umano, questo può influenzare la determinazione dei diritti di proprietà intellettuale sui dati stessi. È chiaro che, se gli algoritmi impiegati per generare dati sintetici fossero open source, l’uso e la distribuzione dei dati generati sarebbe facilitato.
In ogni caso, le organizzazioni che utilizzano dati sintetici devono considerare attentamente sia le licenze associate ai software utilizzati per la generazione dei dati che alla proprietà dei dati originali da cui derivano i dati sintetici, specialmente se questi ultimi si basano su dati reali.
Conclusioni
I dati sintetici rappresentano un’opportunità senza precedenti per sfruttare appieno il potenziale inespresso dei dati senza compromettere la privacy e la sicurezza. Attraverso il loro utilizzo le imprese possono continuare a trarre vantaggio dall’analisi dei dati senza doversi preoccupare delle implicazioni legali e etiche legate alla gestione dei dati sensibili. È importante sottolineare che l’adozione di questa tecnologia non è priva di rischi: è necessario che le aziende comprendano appieno le limitazioni e le potenziali criticità, soprattutto nel contesto dell’intelligenza artificiale e del machine learning è cruciale garantire la qualità e l’affidabilità dei dati sintetici per evitare decisioni errate o dannose.
Per le aziende che stanno valutando l’implementazione dei dati sintetici nei loro processi decisionali, è consigliabile investire in formazione e consulenza specializzata per massimizzare i benefici e mitigare i rischi associati. Solo attraverso una strategia olistica e ben ponderata, è possibile capitalizzare appieno il potenziale dei dati sintetici: una risorsa preziosa per chi cerca di bilanciare l’innovazione tecnologica con la tutela della privacy e della sicurezza dei dati.
[1] Jordon J., Weller Adrian. “Synthetic Data – what, why and how?” arXiv: 2205.03257 [cs], (2022).
[2] Metropolis, N. & Ulam, S. The Monte Carlo method. J. Am. Stat. Assoc. 44, 335–341 (1949).
[3] Bonabeau, E. Agent-based modeling: Methods and techniques for simulating human systems. Proc. Natl Acad. Sci. 99, 7280–7287 (2002).
[4] Carmona, R. and Delarue, F. Probabilistic Theory of Mean Field Games with Applications, volume 84. Springer (2018).
[5] Xu, L., Skoularidou, M., Cuesta-Infante, A. & Veeramachaneni, K. Synthesizing Tabular Data using Conditional GAN. arXiv:1907.00503 (2019).
[6] Assefa, S., Le, T., & Glicksberg, B. Model-based synthetic data generation for machine learning. arXiv:2003.09043 (2020).
[7] Hilderman, R. J. & Hamilton, H. J. Generating Synthetic Data to Match Data Mining Patterns. IEEE International Conference on Data Mining (2001).
[8] Reiter, J. Inference for partially synthetic, public use microdata sets. Surv. Methodol. 29, 181–188 (2003).
[9] Loong, B., Zaslavsky, A. M., He, Y. & Harrington, D. P. Disclosure control using partially synthetic data for large-scale health surveys, with applications to CanCORS. Stat. Med 32, 4139–4161 (2013).
[10] Raghunathan, T., Reiter, J. & Rubin, D. Multiple imputation for statistical disclosure limitation. J. Stat. 19, 1–16 (2003).