Privacy, così i dati “sintetici” risolvono i problemi dell’intelligenza artificiale: i vantaggi

I dati sintetici sono dati generati da algoritmi che riproducono in maniera fedele (sotto il profilo matematico e statistico) dataset del mondo reale, senza però rappresentare persone esistenti o elementi a esse riferibili. La tecnologia consente così di ottenere prestazioni migliori, correggendo i bias tipici dell’AI

Con l’introduzione dei dati sintetici nello sviluppo dei nuovi sistemi intelligenza artificiale potrebbe scriversi la parola fine al conflitto di interessi contrapposti tra la normativa privacy da una parte – che limita l’accesso di terzi ai dati personali richiedendo alti standard di anonimizzazione – e dall’altra le aziende che avrebbero bisogno di dati integri nelle loro proprietà per allenare al meglio i loro algoritmi.

La nuova tecnologia ha l’ambizione di risolvere il problema alla fonte.

Indice degli argomenti

Le sfide poste dall’intelligenza artificiale

La diffusione dell’intelligenza artificiale è sotto gli occhi di tutti, alla pari delle sfide che pone sotto numerosi aspetti, tecnici ed organizzativi da un lato, giuridici ed etici dall’altro.
Come noto, gli algoritmi hanno bisogno di una quantità di dati elevata per ottenere risultati accurati; un principio in chiaro conflitto con quello di minimizzazione dei dati imposto dagli alti standard del GDPR. Allo stesso modo, crescono le preoccupazioni etiche connesse all’uso di dati affetti da bias, cioè quei pregiudizi o discriminazioni proprie di una società o gruppo sociale, che l’intelligenza artificiale ha l’effetto di veicolare con una velocità ed ampiezza senza precedenti.

Quello descritto è certamente un quadro allarmante e di difficile soluzione, ma negli ultimi mesi sta aumentando, tra gli operatori del settore, la fiducia nei confronti di una industria emergente che promette di essere in questo senso salvifica. È l’industria dei dati sintetici.

Dati sintetici: cosa sono

Per dati sintetici si intendono dati, a loro volta generati da algoritmi, che riproducono in maniera fedele (sotto il profilo matematico e statistico) data set del mondo reale, senza tuttavia rappresentare persone esistenti oppure elementi ad esse riferibili.

In questo modo, siamo ad esempio in grado di ricreare un ambiente virtuale che riflette (statisticamente) il mondo in cui viviamo, come se fosse uno specchio digitale di dati reali.

L’importanza di questa novità è confermata dal gran fermento che ruota attorno al settore; sono oltre 50 le start-up che hanno già sviluppato applicazioni di dati sintetici e non manca certo l’interesse degli investitori. Datagen, startup con base a Tel Aviv, che offre una piattaforma per la creazione di modelli di computer vision, ha da poco annunciato di aver chiuso un round di finanziamento da 18,5 milioni di dollari.

Il motivo di tutto questo interesse è semplice: i dati sintetici sembrano avere il potenziale di risolvere alla radice alcuni problemi connessi alla fase di training e di sviluppo dei sistemi di intelligenza artificiale, oltre a mitigare – e in alcuni casi addirittura annullare – la portata delle questioni etiche e giuridiche di cui si è fatto cenno all’inizio.

Ma vediamo quali sono nel dettaglio i vantaggi relativi all’utilizzo di dati sintetici.

Vantaggi tecnici e organizzativi dei dati sintetici

I benefici nella fase di training dell’algoritmo sono tangibili, soprattutto con riguardo a modelli complessi, come quelli utilizzati per i sistemi di guida autonoma.

Si tratta di modelli di computer vision che necessitano di una enorme quantità di dati per essere adeguatamente allenati, perché devono essere capaci di interagire con molti fattori in tempo reale (pedoni, veicoli, incroci, situazioni di rischio), che a loro volta possono mutare in relazione al contesto di riferimento.
Anche la nostra condotta di guida cambia se, ad esempio, percorriamo la stessa strada in pieno sole o sotto una forte pioggia; è ragionevole supporre che nel secondo caso saremo portati ad adottare maggiori cautele, perché la nostra esperienza ci aiuta a riconoscere i rischi connessi alle peggiori condizioni atmosferiche.
Allo stesso modo, l’algoritmo dovrà essere allenato in ogni possibile contesto per acquisire quella “esperienza” necessaria a reagire adeguatamente di fronte ad ogni scenario, anche di rischio.

Ma non è sempre facile reperire certi dati dal mondo reale, soprattutto se si tratta di dati collegati ad eventi poco frequenti.

Restando all’esempio di prima, i modelli di guida autonoma devono chiaramente imparare da eventi stradali come gli incidenti che – fortunatamente – sono rari, rendendo complesso l’addestramento degli stessi modelli. L’industria dei dati sintetici, invece, permette di riprodurre facilmente ambienti virtuali in cui aggiungere pedoni e auto ad un incrocio, fino a simulare intenzionalmente incidenti automobilistici o situazioni di rischio, allo scopo di allenare l’algoritmo in contesti estremi, sia pure verosimili.

Dataset illimitati

Cesar Romero, capo ingegnere di Unity Technologies, un’altra società molto attiva sul fronte dei dati sintetici, ha evidenziato la grande duttilità di questa tecnologia nel corso del suo intervento alla conferenza “Tranform2020” di qualche mese fa.
Riferendosi più tecnicamente al concetto di “Limitless Domain Randomization” ha illustrato quanti e quali variazioni siano possibili all’interno di una stessa scena ambientata in un incrocio cittadino. Ad esempio, si potrebbe cambiare l’illuminazione, per simulare il giorno o la notte, oppure ricreare eventi nefasti (incidenti) o imprevedibili (come un pedone che attraversa la strada in maniera incauta), producendo ogni volta dati aggiuntivi con grande risparmio di tempo e di soldi e, ovviamente, senza effettivi danni a cose o persone.
“Quando raccogli dati nel mondo reale – spiega Romero – sei limitato alla visualizzazione di un oggetto in una determinata scena; vale a dire il mondo come è in quel momento. Inoltre, occorre investire tempo per etichettare gli oggetti presenti e annotare cosa è successo, e questo va ripetuto per ogni singola scena del mondo reale. Creando invece una scena artificiale, questa viene renderizzata dall’applicazione utilizzata per la simulazione; il che significa che tutti gli oggetti, anzi tutti i pixel della scena sono già conosciuti dall’applicazione e queste informazioni possono essere utilizzate per generare in breve tempo variazioni pressoché illimitate di data set”.
Nell’ultima parte dell’intervento, Romero illustra poi alcune applicazioni pratiche: “partendo da un singolo modello 3D di un oggetto, come ad esempio un veicolo, è possibile ruotarlo all’interno della scena, cambiare lo sfondo, la distanza tra il veicolo e la video camera che lo sta inquadrando, modificare i colori o la messa a fuoco. Insomma – conclude Romero – potresti collezionare in breve tempo milioni di immagini”.

Il risparmio dei costi

L’ingegnere ha infine mostrato, con un grafico, la differenza di costo fra un’immagine estratta da un database di dati reali e quella raccolta da un database di dati sintetici.

Nonostante il primo database fosse di dimensioni molto più contenute (1.500 immagini reali rispetto ad oltre 1 milione di immagini “sintetiche”), il suo costo per immagine è comunque superiore (3,20 $ per immagine reale, contro la cifra inferiore di 0,0072 $ per immagine sintetica).

Questo importo sarebbe la risultante di una serie di costi precedenti, necessari per la preparazione del relativo database. È stato infatti calcolato che per acquisire 1 milioni di immagini sintetiche sono necessarie circa 5 ore di lavoro, mentre ne servono il doppio (10 ore), per raccoglierne solo 1500 dal mondo reale.
La proporzione è ancora più impressionante se si confrontano le ore impiegate per la cosiddetta etichettatura dei dati (8 ore per i dati sintetici, addirittura 110 per quelli reali); dall’altra, le ore spese nella creazione di scenari simulati (13) di certo non è un valore che può intaccare l’enorme risparmio di tempo e costi in rapporto al volume di dati sintetici raccolti.

Un risparmio che aumenta considerevolmente con riguardo ad algoritmi del genere “supervised learning”, che richiedono dati etichettati (labeled data), cioè già identificati sulla base di determinate proprietà o caratteristiche. Come si è detto, il processo di renderizzazione dell’ambiente virtuale implica di per sé una “etichettatura” degli elementi in esso presenti; questo abbatte considerevolmente tutti i costi relativi ad un processo di annotazione manuale, oltre al tempo necessario per modellare i data set in modo da includere la corretta proporzione di esempi in relazione all’output e alla performance che si richiede all’algoritmo.

Ma vi è di più.

Non è detto che siano sempre necessari ingenti investimenti per raggiungere elevati livelli di fotorealismo.

Ad esempio, per migliorare la precisione nella capacità di presa di un braccio robotico, è sufficiente concentrarsi su quel singolo task: se l’obiettivo è infatti quello di raccogliere oggetti di forma cubica, allora non servirà cambiare il colore dell’oggetto. Un cubo resta un cubo, qualunque sia il suo colore. Una flessibilità che si traduce in ulteriori risparmi per chi sviluppa, potendo acquisire solo i dati necessari, già etichettati e pronti all’uso.

Vantaggi in termini di privacy ed etica

Non c’è dubbio che il GDPR abbia imposto un nuovo standard di tutela dei dati, obbligando le imprese a responsabilizzarsi su questo fronte come mai prima d’ora. La normativa ha avuto inoltre il grande merito di offrire ai consumatori un maggiore controllo sui propri dati, con l’affermazione di importanti diritti, dal diritto di accesso a quello di opposizione, fino alla novità del diritto alla portabilità dei dati.

È però altrettanto innegabile che gli adempimenti e i limiti imposti sull’uso dei dati rappresentano un ostacolo ad una loro raccolta massiva, se visti dalla prospettiva di chi deve allenare algoritmi complessi con data set qualitativamente rappresentativi.

Da giurista sensibile a questi temi non posso certo rimpiangere la tutela frammentaria e anacronistica dell’era pre-GDPR. Il punto, però, è un altro: un’acquisizione di dati personali su larga scala, effettuata nel rispetto delle normative privacy odierne, può risultare complicata.
E questo, come detto, a scapito dell’efficacia dell’algoritmo, che ha bisogno di più dati possibili per apprendere e dare vita a risultati accurati.

In questi casi si sente spesso parlare di anonimizzazione dei dati come possibile soluzione al problema. In realtà, vi sono ambiti di ricerca come quello medico o socio-demografico, per i quali un dato reso anonimo è statisticamente meno efficace di un dato personale intatto nelle sue proprietà e caratteristiche.
Inoltre, i più recenti studi dimostrano che livelli anche profondi di anonimizzazione non riescono ad offrire le garanzie di protezione sperate, in virtù delle possibili correlazioni con dati provenienti da altre fonti. Basti pensare che, con l’aiuto di algoritmi, il processo di re-identificazione di una persona può essere raggiunto anche combinando il dato anonimizzato con altri dati accessibili da fonti pubbliche, senza che sia necessario una violazione di sicurezza (data breach).

Nel 2019 alcuni ricercatori di uno studio inglese hanno sviluppato un modello di machine learning che, partendo da dati anonimizzati, è in grado di identificare correttamente il 99,98% degli americani utilizzando 15 attributi demografici.

Un altro studio, questa volta tedesco, dimostra come sia possibile identificare un guidatore, tra una rosa di altri 15, soltanto acquisendo i dati sull’utilizzo del freno per un periodo limitato (15 minuti), con una precisione che si avvicina al 90%.

Risultati come questi ci fanno capire quanto sia improbabile oggi raggiungere gli standard di anonimizzazione stabiliti dal GDPR, anche all’interno di un set di dati aggregati.

In questo senso, i dati sintetici rappresentano una vera svolta, non ponendo, per ovvi motivi, alcuna questione privacy, data la loro natura “artificiale”.
Un tema, questo, che inevitabilmente si ricollega a quello etico oramai divenuto centrale nelle discussioni (tutt’ora aperte) per una Intelligenza più equa e trasparente.

Ogni settimana veniamo a conoscenza di episodi che ci raccontano i potenziali effetti discriminatori di algoritmi affetti da bias, come ad esempio quelli di genere. È recente la notizia secondo cui un algoritmo avrebbe assegnato un limite di credito più elevato a favore del marito, nonostante la moglie avesse ricevuto un maggiore punteggio in termini di affidabilità creditizia.

L’intelligenza artificiale sta rendendo più visibili questi ed altri bias, ma allo stesso tempo le sue logiche Black-box e di apprendimento automatico, ne facilitano la loro diffusione all’interno di un sistema poco trasparente che si autoalimenta, rafforzando i suoi pregiudizi e stereotipi.
I dati sintetici sono quindi un rimedio efficace per ri-bilanciare alla radice i set di dati raccolti, correggendo i bias esistenti, ma anche le eventuali anomalie storiche. Così facendo potremo allenare, e quindi plasmare, un’IA capace di produrre risultati sempre più equi.

E i dati reali?
Sarà sempre necessario raccoglierli e analizzarli. Anzi, ad oggi, è la combinazione fra dati reali e dati sintetici a sortire i maggiori effetti in fase di training. È infatti importante introdurre “pezzi di realismo” all’interno del puzzle virtuale, perché solo così è possibile capire quanto effettivamente si è vicini alla realtà.