I dati sintetici costituiscono quell’insieme di dati creati “artificialmente” dalle macchine (intelligenza artificiale) imitando il “mondo reale”. Tempo fa tale tipologia di dati era vista come meno desiderabile della tipologia dei dati “reali” la quale, in ogni caso, detiene ancora la “leadership mondiale”. Recentemente però, i dati sintetici stanno scalando la classifica, con un indice di appetibilità ai massimi storici.
Privacy, così i dati “sintetici” risolvono i problemi dell’intelligenza artificiale: i vantaggi
Per intendersi, i dati reali “soffrono” nell’essere “disordinati e pieni di distorsioni”; e le nuove regolamentazioni sulla protezione dei dati (come il GDPR), che interessano sempre più nazioni, rendono alcune volte difficoltoso il loro trattamento. Al contrario, i dati sintetici sono “incontaminati” e possono essere utilizzati per costruire i dataset più disparati. Si possono produrre volti perfettamente etichettati, ad esempio, di diverse età, forme ed etnie per costruire un sistema di riconoscimento facciale che funzioni nelle più svariate parti del mondo.
Tuttavia, i dati sintetici hanno i loro limiti. Ove non rispecchiassero fedelmente la realtà, potrebbero finire per produrre un’intelligenza artificiale ancora peggiore (se possibile!) dei dati reali, oppure – più semplicemente – potrebbero ereditarne gli stessi problemi (si pensi ai diffusissimi “bias” o pregiudizi).
Le applicazioni dei dati sintetici
Tra le applicazioni più curiose dei dati sintetici, quella dell’azienda israeliana Datagen spicca su tutte. Si pensi alla creazione di identità “umane” in tutto e per tutto simili alla realtà. Si può vedere un uomo (che uomo non è) con una leggera barba, le rughe sulla fronte e le macchie sulla pelle. Non è una persona reale, ma ha lo scopo di imitarla alla perfezione. Questi umani “artificiali” però, non sono avatar di un gioco o cartoni animati. Sono dati sintetici progettati per alimentare il crescente “appetito” degli algoritmi di intelligenza artificiale.
Aziende come Datagen offrono un’alternativa convincente ed economica al costoso e lungo processo di raccolta dei dati del mondo reale. Per generare i suoi “esseri umani sintetici”, Datagen scansiona esseri umani “reali”. Sul punto tale azienda collabora con alcuni fornitori che, dietro pagamento, reclutano alcune persone per farsi “esaminare” da giganteschi body-scanner che catturano ogni dettaglio dell’essere umano, dall’iride alla struttura della pelle, sino alla curvatura delle dita. Successivamente l’azienda di Tel Aviv prende i dati grezzi e li “pompa” attraverso una serie di algoritmi che sviluppano rappresentazioni 3D del corpo, del viso, degli occhi e delle mani di una persona. Altre aziende concorrenti di Datagen, invece, generano dati da utilizzare nel campo della finanza, nel mondo delle assicurazioni e dell’assistenza sanitaria.
Anche nei dati la qualità batte la quantità
Negli ultimi anni, gli esperti di intelligenza artificiale hanno imparato che i dati di buona qualità (Good Data) sono più importanti dei dati “di grande quantità” (Big Data). In soldoni, piccole quantità di dati esatti, etichettati nel modo giusto, possono migliorare le prestazioni di un sistema di intelligenza artificiale fino a dieci volte di più che con l’utilizzo di una maggiore quantità di dati inesatti, anche se questi ultimi dovessero essere trattati con l’utilizzo di algoritmi più avanzati. Tuttavia, raccogliere dati del mondo reale per eseguire questo tipo di “sperimentazione” è costoso e richiede del tempo.
Ed è qui che entra in gioco Datagen. Con un generatore di dati sintetici, il team di Tel Aviv può creare e testare decine di nuovi dataset al giorno per identificare quale tra i tanti massimizza le prestazioni di un modello. Scartando gli altri. Per garantire che i suoi dati sintetici siano i più realistici possibile, Datagen dà ai suoi fornitori istruzioni dettagliate sul numero di individui da scansionare in ogni fascia d’età, con relativo indice di massa corporea ed etnia, così come un elenco di azioni da eseguire, come camminare in una stanza o bere una bibita. I fornitori mandano a Datagen sia immagini statiche ad alta fedeltà che dati relativi ai movimenti e alle azioni degli esseri umani interessati.
Gli algoritmi dell’azienda israeliana espandono successivamente questi dati in centinaia di migliaia di combinazioni. I dati sintetizzati vengono controllati di continuo, con – ad esempio – i volti artificiali continuamente confrontati con i volti sintetici, per testarne la realisticità. Ultimamente, Datagen sta generando espressioni facciali per monitorare l’allerta del guidatore nelle auto intelligenti (Smart Car), i movimenti del corpo per tracciare i clienti nei negozi senza addetti alle casse, e l’iride e i movimenti delle mani per migliorare le capacità di tracciamento degli occhi e delle mani nell’uso dei visori per la realtà aumentata. L’azienda israeliana ha affermato che i suoi dati sono già stati utilizzati per sviluppare sistemi di computer-vision in passato, rendendo il tutto una sorta di continuo esercizio applicativo.
Ma non sono solo gli esseri umani “artificiali” a essere prodotti in massa. Un’altra azienda israeliana, Click-Ins, utilizza l’intelligenza artificiale “sintetica” per eseguire ispezioni automatizzate delle Smart Car. Utilizzando un software ad hoc, l’azienda di Netanya ricrea tutte le marche e i modelli di auto che la sua Intelligenza Artificiale deve riconoscere, con i diversi colori, i danni e le deformazioni che possono interessare i veicoli in diverse condizioni di luce e di ambiente. Questo permette a Click-Ins di aggiornare la sua tecnologia di intelligenza artificiale quando le case automobilistiche mettono in circolazione nuovi modelli, evitando violazioni della normativa in materia di protezione dei dati personali nei paesi in cui le targhe sono considerate dati personali (si pensi al diverso approccio sul tema dei paesi UE riguardo le dashcam[1]). Recentemente alcuni ricercatori hanno dimostrato come le tecniche di generazione dei dati potrebbero essere utilizzate per estrapolare diverse categorie di pazienti da un singolo dataset. Questo potrebbe essere utile se, per esempio, un’azienda fosse in possesso dei soli dati della popolazione più giovane di New York City e, al contempo, volesse capire come la sua tecnologia di intelligenza artificiale si comporti su una popolazione anziana a maggior prevalenza di diabete.
La nostra privacy è davvero al sicuro?
Quando si tratta di protezione dei dati personali, il fatto che i dati siano sintetici e non corrispondano direttamente ai dati “reali” degli utenti non significa che non contengano informazioni sensibili relative a persone effettivamente esistenti. Ad esempio, alcune tecniche di generazione di dati hanno dimostrato di poter riprodurre da vicino immagini e testi presenti nei training data, con la possibilità concreta di risalire all’identità della persona reale. Questo potrebbe andare bene per un’azienda come Datagen, i cui dati sintetici non sono destinati a nascondere l’identità degli individui che hanno acconsentito a essere scansionati. Ma sarebbe una cattiva notizia per le aziende che offrono la loro soluzione come un modo per proteggere le informazioni finanziarie o l’identità di particolari categorie di pazienti. Tuttavia, secondo alcuni ricercatori, la combinazione di due tecniche abbinate ai dati sintetici (privacy differenziale e reti generative avversarie) può produrre una forte protezione dei dati personali degli utenti. Ma gli scettici si preoccupano che questa sfumatura possa essere persa nel gergo del “marketing dei fornitori di dati sintetici”, che non saranno sempre disponibili a comprendere quali tecniche stanno utilizzando in quel dato momento.
Conclusioni
Nel frattempo, alcune prove suggeriscono che i dati sintetici possano mitigare efficacemente la distorsione dei sistemi di intelligenza artificiale. Per prima cosa, estrapolare nuovi dati da un dataset esistente che è distorto non produce necessariamente dati che siano più rappresentativi. I dati grezzi di Datagen, per esempio, contengono proporzionalmente meno dati relativi alle minoranze etniche, il che significa che utilizza meno dati reali per generare “falsi umani” da quei gruppi. Anche se il processo di generazione non è del tutto preciso però, questi “falsi umani” potrebbero comunque avere maggiori probabilità di divergere dalla realtà.
D’altro canto, i dataset perfettamente bilanciati non si traducono automaticamente in sistemi di intelligenza artificiale perfettamente equi. Se un’azienda di servizi di carte di credito stesse cercando di sviluppare un algoritmo di intelligenza artificiale per valutare i potenziali mutuatari, non eliminerebbe tutte le possibili discriminazioni relative alle persone di etnia caucasica o alle persone di etnia afroamericana. La (potenziale) discriminazione è sempre dietro l’angolo. Per complicare ulteriormente le cose, le prime ricerche mostrano che, in alcuni casi, potrebbe anche non essere possibile ottenere un’intelligenza artificiale equa partendo dai dati sintetici. Alcuni ricercatori hanno recentemente scoperto di non essere stati in grado di creare un accurato sistema di IA applicata al campo medico quando hanno cercato di creare un dataset “sintetico” diverso attraverso la combinazione di privacy differenziale e reti generative avversarie. Niente di tutto ciò, però, sta a significare che i dati sintetici non dovrebbero essere utilizzati tout court. In effetti, come si può percepire, potrebbe diventare presto una necessità.[2]
Note
- Dashcam e Gdpr: il punto sugli interventi delle autorità privacy europee. Agenda Digitale. https://www.agendadigitale.eu/sicurezza/privacy/dashcam-e-gdpr-il-punto-sugli-interventi-delle-autorita-privacy-europee/ ↑
- These creepy fake humans herald a new age in AI. MIT Technology Review. https://www.technologyreview.com/2021/06/11/1026135/ai-synthetic-data/ ↑