I dati sintetici, generati da algoritmi di intelligenza artificiale, replicano le caratteristiche dei dati reali senza ricondurli a individui specifici. Fondamentali in vari settori, come quello finanziario e sanitario, non solo mimano la realtà, ma la amplificano, aprendo le porte a scenari e a innovazioni che fino a qualche decennio fa erano totalmente inimmaginabili.
Non mancano tuttavia le questioni legate ai bias, alla privacy e alla proprietà intellettuale. Ecco perché una regolamentazione adeguata è cruciale per sfruttarne le loro potenzialità minimizzando i rischi.
Di cosa parliamo quando parliamo di dati sintetici
I dati sintetici sono frutto di un processo generativo basato su algoritmi di intelligenza artificiale che manipolano dati reali, inclusi quelli di tipo statistico, e restituiscono set di dati totalmente svincolati e non riconducibili a individui reali.
L’intento sotteso alla creazione di dati sintetici è replicare le caratteristiche e la struttura dei dati originali, consentendo di ottenere risultati precisi senza la necessità di replicare o risalire agli elementi identificativi di partenza.
I dati generati presentano le stesse caratteristiche statistiche del dataset originale e sono notevolmente realistici e dettagliati. Ecco come possono essere classificati.
Media data
Comprendono informazioni relative a immagini, audio e video tipiche dei contesti multimediali associati ai dati non strutturati. Questi dati vengono utilizzati dagli algoritmi di elaborazione delle immagini per generare immagini sintetiche, inclusi i famosi deepfake.
Text data
Consistono in contenuti di testo comunemente utilizzati in applicazioni come chatbot, traduttori simultanei e altre interfacce conversazionali basate su tecniche di elaborazione del linguaggio naturale (NLP). Questi dati sintetici sono spesso impiegati nelle applicazioni di analisi del sentiment.
Dati strutturati
Comprendono dati organizzati in forma tabellare, tipicamente utilizzati nel contesto dell’analisi aziendale e nella formazione dei modelli di machine learning.
Dati non strutturati
Includono media data e altri dati utilizzati in molte applicazioni, anche in tempo reale, come la computer vision, il riconoscimento vocale e tecnologie associate ai sistemi di guida autonoma.
Dati finanziari
Ampiamente utilizzati nel rilevamento delle frodi, nella gestione del rischio e nella valutazione delle richieste di finanziamento.
Dati di produzione
Tipici delle attività di manutenzione predittiva e del controllo di qualità nel contesto della produzione manifatturiera.
I dati sintetici soddisfano la necessità di ottenere set di dati adeguati ad alimentare gli algoritmi, numericamente e qualitativamente superiori ai reali, rispetto ai quali superano i limiti legati alla loro scarsità e alla qualità. Invero, l’addestramento dei modelli di intelligenza artificiale richiede un volume di dati enorme, sia in termini di quantità che di qualità, che siano pertinenti rispetto all’analisi desiderata e ai risultati che si intendono raggiungere (“Data Quality”).
Gli algoritmi generativi
Esistono diversi approcci di algoritmi per la generazione di dati sintetici, ciascuno con un funzionamento specifico:
- algoritmi basati su regole fisse;
- algoritmi fondati su metodi statistici ovvero fondati sulle c.d. “GANs” (“Generative Adversarial Network”), per tale intendendosi un metodo di “deep learning” che utilizza due modelli avversari: il “generatore” che ricrea la distribuzione statistica del dato originale, e il “Discriminator” che verifica se il dato presentato è reale o sintetico. Tali modelli consentono di generare immagini realistiche di volti, oggetti, scrittura a mano libera, video, audio e dati tabellati.
Il potenziale dei dati sintetici
I dati sintetici rappresentano un’opportunità per lo sviluppo e l’avanzamento dei sistemi di intelligenza artificiale, sia perché consentono di ridurre notevolmente i tempi e i costi relativi alle fasi di analisi e ricerca dei dataset, sia perché riescono a raggiungere un grado di accuratezza e precisione maggiore rispetto ai dati reali. I dati sintetici consentono inoltre di generare dataset comprensivi dei c.d. outlier, cioè quelle situazioni che, nella realtà, si verificano con scarsa frequenza.
Peraltro, poiché i dati sintetici, frutto dell’elaborazione da parte dell’algoritmo di intelligenza artificiale, costituiscono dati nuovi creati dall’AI, slegati dal dataset originario, il loro impiego consentirebbe di superare le difficoltà legate al processo di anonimizzazione dei dati personali, che risente dell’incertezza sull’irreversibilità dei dati (e conseguente non identificabilità delle persone fisiche a cui i dati sono riferiti).
Come vengono usati i dati sintetici
Attualmente i dati sintetici sono già molto utilizzati: nel settore finanziario, per lo sviluppo di sistemi predittivi antifrode e sull’andamento del mercato; nel settore assicurativo, per predire il rischio frodi; nel mondo dell’automotive per lo sviluppo di sistemi a guida autonoma e, in particolar modo, in ambito sanitario, per lo sviluppo di cure e terapie, con l’evidente vantaggio di ridurre i tempi e i costi rispetto alle tradizionali tecniche di mascheramento dei dati applicate all’informazione dei pazienti reali.
Persistono ancora, tuttavia, dei rischi legati ai “pregiudizi” con i quali vengono istruiti gli algoritmi di intelligenza artificiale (i c.d. “bias”) che possono compromettere la veridicità dei risultati ottenuti in termini di accuratezza e veridicità.
Dati sintetici: i rischi connessi al trattamento dei dati
I dati sintetici, in quanto generati ex novo dai sistemi di IA, non consentono, tendenzialmente, di risalire alle informazioni contenute nel dataset reale originario. Proprio per questa ragione, il loro trattamento non è affatto esente da rischi, sia in fase di allenamento dell’algoritmo per la generazione dei dati sintetici, sia tramite gli stessi dati sintetici.
È bene, pertanto, che gli interessati siano ben informati, in modo semplice e chiaro, che i propri dati personali potrebbero essere utilizzati per l’allenamento o per lo sviluppo di modelli di intelligenza artificiale di tipo generativo, secondo i criteri e fornendo tutte le informazioni di cui all’art. 13 del GDPR, in particolare sulle modalità e le finalità del trattamento. A tale aspetto si lega l’impossibilità, dunque, di identificare gli interessati i cui dati hanno contribuito alla generazione dei dati sintetici. Il titolare dovrebbe, pertanto, garantire che i dati generati dall’AI siano “anonimi”: perché non vi sia, invero, un trattamento di dati personali, è necessario che sia impossibile risalire all’identità degli interessati i cui dati hanno contribuito alla generazione del dato sintetico. Ma in un mondo in continua evoluzione, nel quale gli sviluppi tecnologici sono sempre più rapidi e inaspettati, prestare tali garanzie è una sfida di non poco conto.
Sul punto si è espresso anche lo European Data Protection Supervisor (“EDPS”), il Garante Europeo per la protezione dei dati, che ha invitato i titolari del trattamento ad effettuare una valutazione preliminare sulla garanzia del trattamento (“privacy assurance assessment”) volta a valutare, in modo oggettivo, il rischio di re-identificazione e rivelazione degli interessati e dei dati loro riferibili.
Ulteriore criticità, da tenere in debito conto, è quella legata al rischio di un utilizzo distorsivo di dati personali tramite i dati sintetici che possono condurre a furti d’identità o alla realizzazione di contenuti audio/video illegali. Basti pensare al fenomeno dei c.d. deepfake, con la diffusione esponenziale di app e software che ne rendono possibile la realizzazione in maniera elaborata e sofisticata, anche mediante l’utilizzo di un semplice smartphone.
I problemi dei dati sintetici con la proprietà intellettuale
L’intelligenza artificiale e gli algoritmi generativi di dati sintetici aprono a non poche questioni legate al rispetto dei diritti di proprietà intellettuale. Accade con frequenza che, in fase di traning dell’IA, siano illecitamente utilizzate fonti protette dal diritto d’autore, da accordi di riservatezza o da altri termini di utilizzo, il cui sfruttamento illecito risulterebbe altresì difficile da provare in sede giudiziaria.
Prospettive future
Il mercato dei dati sintetici ha subito, a partire dal 2021, una crescita esponenziale e si presume che, entro la fine di quest’anno, il 60% dei dati utilizzati per lo sviluppo di algoritmi di intelligenza artificiale saranno di tipo sintetico.
Tuttavia, come spesso accade, l’inarrestabile progresso tecnologico si contrappone all’immobilismo degli istituti giuridici che tentano di regolare, in assenza di definizioni puntuali e ad hoc, le nuove istanze sociali attraverso gli strumenti normativi di cui dispongono.
In assenza di una definizione tecnico-giuridica dei dati sintetici capace di colmare le notevoli lacune riscontrate presso le autorità europee per la protezione dei dati, la rilevanza strategica dei dati sintetici è tanto certa quanto meramente potenziale. Appare di cruciale importanza adottare una regolamentazione dei sistemi di intelligenza artificiale (IA) adeguata che comprenda appieno i rischi associati e le potenzialità di questa tipologia di dati. In tale ottica, per l’Europa sarà cruciale l’AI Act.