Se è vero che stiamo passando da una società archiviale – che apprende dal proprio passato per capire il presente – a una società oracolare – che guarda il presente per predire il futuro[1], è altrettanto vero che i moderni oracoli hanno bisogno di poter leggere e capire i dati per dare i loro responsi.
E oggi – come al tempo di Plutarco – gli oracoli sono resi “muti come strumenti trascurati dai suonatori” dalla paradossale “scarsità indotta” di dati con cui poter confrontarsi.
Per questo occorre trovare soluzioni tecnologiche che abilitino un più deciso scambio di dati, risolvendo le questioni aperte che ora andremo a esaminare.
Uno di questi strumenti, che si sta facendo sempre più largo nel mondo tecnologico, è rappresentato dai dati sintetici.
Vediamo come possono aiutare a liberare il potenziale dei dati oggi rinchiusi in silos isolati.
Dati da tutte le parti, ma non sappiamo sfruttarli
Un articolo dell’Economist datato 24 febbraio 2010 titolava “The Data deluge”. Il sottotitolo “Businesses, governments and society are only starting to tap its vast potential” rendeva conto di uno scenario in cui enti pubblici, imprese, cittadini non fossero in grado che di utilizzare una minima parte dell’enorme quantità di dati prodotta ogni giorno, mettendola al servizio dell’ottimizzazione di processi, sviluppo di nuovi prodotti o servizi, creazione di esperienze personalizzate.
Era il 2010, Facebook aveva appena varcato la soglia di 500 milioni di utenti (dei suoi attuali 3 miliardi), Whatsapp e Instagram erano appena nati, e Amazon Web Service era già considerato un business di grande successo, con il suo fatturato di 500 milioni di dollari nel 2010 (il 2023 si è chiuso con un fatturato di 80 miliardi di dollari). Non si parlava ancora di Large Language Model e il mondo avrebbe dovuto aspettare ancora il 2014 per conoscere meraviglie e insidie delle Generative Adversarial Networks (GANs), alla base di falsi artistici d’autore, deep fakes (p.es, il papa con il piumino), e dati sintetici.
Tornando al 2023, alcune stime rivelano che il 99% dei dati è stato generato negli ultimi 10 anni, e ben oltre il 90% negli ultimi due: il diluvio non accenna a volersi interrompere e non c’è traccia di terra in questa enorme massa d’acqua che sommerge il pianeta. A dieci anni di distanza, il paradosso rimane: acqua dappertutto ma non una goccia da bere.
Limiti tecnologici, regolatori, organizzativi, culturali all’utilizzo coerente dei dati
La quantità di dati prodotta anno per anno rimane impressionante. Le stime della Commissione Europea per il 2025 parlano di un incremento del 530% dei dati a livello globale (da 33 zettabytes nel 2018 a 175 zettabytes del 2025), e un valore complessivo dell’economia dei dati nella sola EU27 che passerà dai 301 miliardi del 2018 a 829 miliardi del 2025. Tuttavia, la capacità di aziende, persone, enti pubblici, di utilizzare in modo coerente questi dati è ostacolata da una serie di limiti tecnologici, regolatori, organizzativi, culturali, che rendono questo enorme e sempre più grande ammasso di dati – sempre più generati in tempo reale – ancora una bestia troppo difficile da domare e mettere al servizio delle persone e della società.
Paradossalmente, viviamo anche in un’epoca di sviluppo dell’intelligenza artificiale mai sperimentato finora. Le attività di sviluppo dei Large Language Model come GPT-4 sembrano estrarre con successo valore da una grande mole di dati, eppure l’intero training di GPT-4 ha richiesto l’uso di “appena” un petabyte di dati (assieme naturalmente all’applicazione di diverse tecniche di apprendimento e ben 175 miliardi di parametri). Ma se i dati sembrano quasi scomparire nel calderone di questi sistemi così avanzati (ma anche capaci di importanti sviste), rimane difficile per aziende, enti pubblici, e cittadini, trovare senso e utilità in moli di dati ben più contenute.
Come è noto, gli algoritmi di intelligenza artificiale richiedono, per garantire utilità, accuratezza, e pertinenza dei loro risultati, grandi quantità di dati, corredati – a seconda del metodo di apprendimento adottato – di metadati, etichette e strutture, così da poter “dare in pasto” agli algoritmi una base di dati di grandi dimensioni e allo stesso tempo di buona qualità. Diverse destinazioni d’uso degli algoritmi possono richiedere diverse quantità di dati, e con i modelli LLM l’attenzione potrebbe progressivamente spostarsi sulla capacità del dato di consentire all’algoritmo di trovare nuove correlazioni piuttosto che di consolidare quelle già note. In ogni caso, rimane vera – per quanto imprecisa – l’affermazione secondo cui i dati sono il “nuovo petrolio” (petrolio appunto, non benzina), ovvero l’elemento essenziale per alimentare la nuova rivoluzione industriale targata intelligenza artificiale.
Resistenze e limiti alla condivisione libera dei dati
Nonostante questo fondamentale ruolo dei dati nello sviluppo della nuova “economia digitale algoritmica”, le resistenze e i limiti alla condivisione libera dei dati sono ancora significative. Se è vero, come la stessa Commissione Europea afferma nella sua Comunicazione del 2020 “A European Union Fit for the digital age”[2] – una maggiore propensione alla condivisione dei dati potrebbe contribuire ad affrontare importanti sfide sociali ed economiche, la realtà dei fatti è che la condivisione e l’usabilità dei dati è ancora assai ridotta e, nonostante la continua crescita dei dati disponibili, questi rimangono essenzialmente inutilizzati, tenuti sotto stretto controllo delle aziende che li generano (in particolare le big tech ma non solo), chiusi in database isolati e frammentati, e tipicamente gestiti con grande cautela dai Titolari del trattamento (i famosi data controllers del GDPR) per evitare di esporsi al pagamento di multe assai salate.
Proprio la compliance con il GDPR è spesso addotta a motivazione per non consentire l’utilizzo e lo scambio di dati – pure all’interno di dipartimenti afferenti alla medesima organizzazione. E il trend generale, forse anche dovuto a una certa “pigrizia” dei DPO, è quello di evitare laddove possibile utilizzi di dati che non siano già considerati assolutamente inattaccabili dal punto di vista legale. Questo avviene anche contro l’interesse delle aziende stesse che si trovano nella titolarità di dati, che potrebbero trarre vantaggio da una condivisione controllata dei dati all’interno della filiera – in un’ottica pre-competitiva e di ottimizzazione della value chain – anche tramite piattaforme di data clean room di cui andremo a dire più avanti.
Il problema posto dal GDPR riguarda – come è noto – i dati “personali”, ovvero quei dati che espongono informazioni sensibili e private di cittadini europei – e il cui utilizzo è condizionato dalla presenza di specifiche condizioni, in primis (ma non in via esclusiva) il consenso specifico ed esplicito dell’interessato al trattamento (da cui idealmente deriva il diritto del cittadino di non vedere i propri dati processati tramite sistemi automatici). Ma sono proprio i dati personali dei cittadini che – se utilizzati in modo appropriato (pur nel rispetto del fondamentale diritto alla privacy) – potrebbero consentire l’addestramento di algoritmi sempre più performanti per comprendere e soddisfare i bisogni dei cittadini, creare esperienze, servizi e prodotti personalizzati, creare percorsi attorno alle specifiche caratteristiche di ciascun individuo, andando ben oltre l’ambito commerciale per spaziare anche in campi di grande importanza come la salute, per passare alla mobilità sostenibile e alla creazione di modelli dedicati per l’ottimizzazione del consumo energetico.
Oltre al GDPR, importanti resistenze culturali e limitazioni tecniche-organizzative rappresentano ancora una importante pietra d’inciampo per l’utilizzo dei dati che siedono immobili nel ventre delle tante balene industriali o pubbliche, in fiduciosa attesa di poter esprimere appieno il proprio potenziale.
I dati sintetici, un possibile strumento per lo sfruttamento intensivo dei dati
Secondo la Stanford Technology Law Review, i dati sintetici sono “a viable, next-step solution to the database-privacy problem”[3], mentre lo UK Government Statistical Service li ha definiti come una ” unprecedented opportunity to innovate with data, while safeguarding privacy and fostering public trust”[4].
Il Joint Research Centre della Commissione Europea – nel suo report conclusivo sui dati sintetici (Multipurpose synthetic population for policy applications[5]) ha indicato i dati sintetici come a key enabler per l’intelligenza artificiale, consentendo di liberare il potenziale dei dati oggi rinchiusi in silos isolati. Il JRC osserva nel report, come i dati sintetici non solo possono essere condivisi liberamente, ma possono anche supportare un ribilanciamento dei dataset aumentando la numerosità di classi di dati con scarsa rappresentatività nei dataset reali, rappresentando così un “perfect input into machine learning and AI models”. Lo stesso report afferma che i dati sintetici possono cambiare tutto dalla privacy alla governance dei dati, eliminando tutte le procedure burocratiche associate all’accesso a dati sensibili, posizionandosi tra i metodi di privacy-preservation più efficienti.
Di cosa parliamo quando parliamo di dati sintetici
Ma di cosa si tratta? I dati sintetici altro non sono che dati creati a partire da dati reali, ma creati in maniera interamente artificiale tramite algoritmi di machine learning. I dati generati hanno le medesime caratteristiche statistiche del dataset originario, sono altamente realistici e granulari (a differenza di quanto accade con l’anonimizzazione, come vedremo poco oltre) ma non contengono nessun dato sensibile individuale. Offrono dunque la qualità informativa del dataset originario, eliminando però tutta la parte potenzialmente a rischio privacy. Le feature statistiche del dataset originario vengono apprese nel processo di sintetizzazione, mentre allo stesso tempo vengono “rimossi” i dati sensibili. Le virgolette sono d’obbligo, giacché in realtà i dati sintetizzati sono del tutto nuovi, e sono completamente privi della componente “privata” connaturata al dato proveniente da persone fisiche. In questo senso, i dati sintetici appaiono come una soluzione superiore all’anonimizzazione o alla pseudo-anonimizzazione, laddove da un lato l’anonimizzazione comporta la perdita di ricchezza informativa del dataset (fino alla completa inutilità del dato stesso) e dall’altro la pseudo-anonimizzazione comporta importanti rischi di re-identificazione (anche “grazie” all’emergere di nuove tecniche di re-identificazione basate proprio su IA).
Le tecniche per generare dati sintetici
Esistono varie tecniche per generare dati sintetici, dall’uso di sistemi basati su regole fisse (i c.d. dummy data già noti da molto tempo ) o su metodi statistici (come il Monte Carlo) ma i risultati più interessanti si sono sperimentati con le già citate GANs, tramite le quali si possono generare dati sintetici di alta qualità senza il bisogno di sviluppare dataset di apprendimento con laboriosi processi di etichettatura. Come è probabilmente noto alla maggioranza dei lettori, le GANs si basano sull’uso di due modelli “avversari” che da un lato vedono un “Generator” intento a ricreare la distribuzione statistica del dato originale, e un “Discriminator” intento a verificare se il dato presentatogli è in effetti reale o appartenente al set di dati generati sinteticamente. Il processo si conclude quando la discriminazione tra reale e sintetico non è più possibile.
Di particolare interesse nel settore dell’intelligenza artificiale è la capacità – nel processo di sintetizzazione – di “ribilanciare” il dataset, offrendo maggiore rappresentatività a quegli “outlier” che – nel dataset reale – compongono solo una minima parte del dataset complessivo. Facciamo un esempio: immaginiamo di voler sviluppare un algoritmo in grado di riconoscere con grande precisione transazioni fraudolente in un dato contesto commerciale. Per forza di cose, nel dataset originale, le transazioni fraudolente rappresenteranno (sperabilmente) una parte molto limitata del campione complessivo. Con questo dataset di base, le performance dell’algoritmo non potranno che essere scadenti. Se utilizzassimo invece un dataset sintetico, potremmo intervenire a monte – per aumentare (nei limiti della validità statistica del dataset complessivo) la numerosità delle transazioni fraudolente, rendendo così possibile lo sviluppo di un algoritmo molto più performante, preciso e attendibile nelle sue analisi. Questo consente di mitigare l’annoso problema dei bias nello sviluppo di algoritmi basati su intelligenza artificiale, riducendo il rischio che il nostro sistema abbia “pregiudizi” derivanti dallo scarso bilanciamento dei dataset di addestramento.
Visto il potenziale, non sembra un caso se Gartner, in un articolo del 2021 – ha affermato che il 60% dei dati che verranno utilizzati per l’addestramento di algoritmi di intelligenza artificiale saranno sintetici entro il 2024.
Dati sintetici, come sfruttarli in azienda
Ma i dati sintetici trovano applicazione anche oltre il solo ambito dell’intelligenza artificiale: ad esempio, l’utilizzo dei dati sintetici può abilitare le imprese – come già accennato – a fare di più con i dati in loro possesso, consentendo attività di analisi di dettaglio difficili da svolgere su dati sensibili e ancor più ardue da svolgere su dati anonimizzati. Un altro caso d’uso riguarda le attività di test per nuovi servizi, prodotti o funzionalità: non essendo (almeno teoricamente) consentito svolgere attività di testing partendo da dati di produzione, gli ambienti di testing sono tipicamente popolati con i già citati dummy data, ovvero set di dati generati a partire da regole fisse, che hanno il solo scopo di riempire i vari campi di un determinato dataset, senza tenere in alcun conto – se non in minima parte – realisticità ed eventuale valore informativo dei dati. I dati sintetici possono rappresentare un eccellente alternativa ai dummy data, rendendo così possibile il popolamento degli ambienti di testing con dati in tutto simili a quelli di produzione, esponendo dunque i nuovi sistemi a situazioni real-world, e così aumentando il valore e l’attendibilità dei test.
Dati sintetici, un’offerta ancora in fieri
Date le premesse, il mercato e gli investimenti sui dati sintetici hanno visto una crescita importante negli ultimi anni.
Secondo alcune stime, il mercato globale dei dati sintetici – valutato complessivamente in 168.9 milioni di dollari nel 2021, potrebbe raggiungere i 3,5 miliardi di dollari entro il 2031. Pur trattandosi di stime, alcune indicazioni potrebbero derivare dall’osservazione degli investimenti in società che si occupano di sintetizzazione. Le dieci più importanti società di sviluppo di dati sintetici hanno raccolto in finanziamenti (Funding Series A e B) qualcosa come 200 milioni di dollari. Allo steso tempo, anche le big tech hanno effettuato importanti investimenti nel settore: Meta, Amazon, Microsoft, IBM hanno tutte lanciato progetti nel settore.
Al netto del significativo interesse in soluzioni per lo sviluppo di dataset sintetici, una più accurata analisi del mercato (svolta con interviste dirette con diversi dei summenzionati operatori), rivela un’offerta ancora in fieri: all’offerta “standard” di sintetizzazione (con diverse formule ed esperienze utente disponibili, alcune con interfacce utente avanzate), tutto ciò che richiede di andare oltre una sintetizzazione di base di singole tabelle di file sembra richiedere un intervento extra e lo sviluppo di soluzioni o progetti specificamente concepiti per il richiedente. Tuttavia, questa rilevazione non può essere considerata come un limite connaturato alla tecnologia, ma è da interpretarsi semmai come indicatore del grado di maturità del mercato. Tempo e risorse economiche porteranno – nel medio periodo – allo sviluppo di soluzioni robuste e performanti nella maggior parte dei casi di potenziale interesse per gli utenti finali.
Conclusioni
Al di là dell’osservazione dello stato dell’arte, a conclusione di questa disamina, appare di qualche interesse valutare le prospettive future del mercato dei dati sintetici, in combinazione con altre tecnologie emergenti che potrebbero inserirsi in un percorso di convergenza tecnologica assai promettente.
A ben vedere, rispetto allo scenario delineato all’inizio, i dati sintetici dovrebbero essere in grado di abilitare uno sfruttamento più intensivo di dati già ora a disposizione delle aziende ma in qualche modo bloccati da timori di utilizzo non legale dei dati, o per limitazioni logistiche e tecnologiche all’interno delle imprese. La sintetizzazione dei dati costituirebbe un primo essenziale passo per la condivisione e l’utilizzo dei dati ben oltre i limiti di utilizzo determinati in sede di raccolta (e relativo consenso). A questo primo passo, si potrebbero abbinare sistemi di condivisione automatizzata all’interno di una data filiera, per il tramite di apposite data clean room ovvero database condivisi, multi-operatore, adibiti alla raccolta e condivisione di dati per scopi di business intelligence all’interno di una determinata filiera. In un simile contesto, l’aggregazione di dati da più operatori funge da elemento moltiplicatore del valore informativo dei singoli dataset, e consente di sviluppare insight e analisi – anche per il tramite di algoritmi dedicati – impossibili da ottenere con in singoli database aziendali.
Di più, combinando tale soluzione con tecnologie blockchain, sviluppando quindi una data clean room “distribuita” si consentirebbe a ciascun operatore non solo di mantenere pieno controllo e titolarità del dato (sintetico) che viene messo a disposizione dell’ecosistema, ma anche di ottenere incentivi (economici o di altra natura) in grado di promuovere lo sviluppo di data clean room ricche e dinamiche, a loro volta in grado di offrire una base dati sufficiente allo sviluppo di algoritmi in grado di portare valore alla filiera nel suo insieme, rimuovendo le barriere all’ingresso per operatori senza accesso diretto a grandi moli di dati (come le big tech).
Il successo di questo tipo di iniziative sarà comunque solo parzialmente dovuto all’avanzare della tecnologia: ci sarà bisogno di un importante sforzo per promuovere una cultura dello scambio e della condivisione dei dati che faccia maturare una diversa attitudine nei confronti di questo fondamentale asset dell’economia digitale. Senza una profonda evoluzione culturale, supportata dalle sempre più numerose evidenze dei vantaggi dell’utilizzo intensivo dei dati, la tecnologia da sola non potrà portarci nella prossima tappa dell’evoluzione digitale.
Note
[1] Accoto, C. (2017). Il mondo dato: cinque brevi lezioni di filosofia digitale. EGEA spa.
[2] Communication from the Commission to the European Parliament, the Council, the European Economic and Social Committee and the Committee of the Regions. Europe fit for New Sol ution s to Biomedica l Data Sharing: Secure Computation and Synthetic Data 187 the digital age: Towards a truly European digital society. https://www.euractiv.com/wp-content/uploads/sites/2/2020/02/Europe-fit-for-the-digital-age-LEAK.pdf.
[3] Bellovin, Steven M., Preetam K. Dutta, and Nathan Reitinger. 2019. Privacy and synthetic datasets. Stanford Technology Law Review 22 (1): 2-52.
[4] Quality Centre. 2018. Government Statistical Service, Privacy and data confidentiality methods: A National Statistician ‘s Quality Review (NSQR). https://gss.civilservice.gov.uk/policystore/privacy-and-data-confidentiality-methods-a-national-statisticians-quality-review-nsqr/
[5] Hradec, J., Craglia, M., Di Leo, M., De Nigris, S., Ostlaender, N. and Nicholson, N., Multipurpose synthetic population for policy applications, EUR 31116 EN, Publications Office of the European Union, Luxembourg, 2022, ISBN 978-92-76-53478-5, doi:10.2760/50072, JRC128595.