I dati sintetici nell’Intelligenza Artificiale rappresentano una soluzione promettente per superare i limiti dei dati reali e le problematiche di privacy, offrendo nuove possibilità di sviluppo in un contesto di crescente domanda computazionale. Questa risorsa artificiale, tuttavia, porta con sé sfide significative che richiedono un’attenta valutazione da parte delle aziende.
Proviamo pertanto ad analizzare le problematiche inerenti all’impiego dei dati sintetici nell’addestramento dei modelli di IA, ponendo un focus sulle misure di sicurezza che, in un’ottica di cybersecurity, possono essere adottate dalle aziende e dagli addetti ai lavori per mitigare i rischi emergenti e assicurare un adeguato livello di protezione delle informazioni, in linea con il quadro normativo e regolamentare di riferimento.
Ma andiamo per gradi.
Indice degli argomenti
I limiti dei dati empirici nell’intelligenza artificiale
Il crescente ricorso a tecnologie e soluzioni equipaggiate con componenti di Intelligenza Artificiale (“IA”) pone svariati interrogativi per gli utenti finali e, in particolare, per le aziende, e gli stessi possono assumere connotati sia giuridici che pratici.
Dal primo punto di vista, ad esempio, è indubbio che l’utilizzo dell’IA generi temi considerevoli in ambito di compliance regolamentare. Un esempio? Certamente il trattamento di dati personali sotteso all’utilizzo di queste soluzioni, che molto spesso – per non dire nella totalità dei casi – hanno bisogno dei dati personali – quali informazioni in grado di rendere identificabile, direttamente o indirettamente, una persona fisica, secondo quella che è la definizione fornita dal Regolamento (UE) 679/2016 GDPR – per poter essere alimentate e fornire i risultati attesi. Ma non solo, perché dal punto di vista regolamentare non può non rilevare il Regolamento (UE) 1689/2024, meglio noto come AI Act, che rappresenta la prima storica regolamentazione in materia che mira a mitigare, in particolare, i rischi legati a particolari soluzioni di IA definite “ad alto rischio”.
Non solo la componente giuridica. Perché anche a livello pratico e applicativo lo sviluppo frenetico dell’IA pone interrogativi rispetto ad un tema forse, ad oggi, ancora poco sentito: ma cosa potrebbe accadere nell’estrema eventualità in cui, alla luce della crescente capacità computazionale dell’IA, le informazioni cosiddette empiriche – ossia i dati e le informazioni tangibili su cui si fonda la realtà delle cose e degli eventi per come li conosciamo – non siano più sufficienti perché, per loro natura, sono “finite” di numero?
In tale contesto, l’utilizzo dei dati sintetici – ossia dati generati artificialmente per emulare le caratteristiche statistiche dei dati reali – può rappresentare una soluzione ideale e promettente per superare le empasse che emergono a livello giuridico e, in particolare, pratico, considerando che lo sviluppo esponenziale e la velocità a cui tali tecnologie di IA progrediscono rischia di determinare un esaurimento delle informazioni “reali” e, pertanto, la necessità di utilizzare fonti informative diverse come “benzina” per il loro funzionamento.
Vantaggi e svantaggi dei dati sintetici nell’intelligence artificiale
Non è tutto oro quello che luccica.
L’utilizzo dei dati sintetici a beneficio delle soluzioni di IA, rispetto in particolare all’utilizzo di informazioni reali, comporta senz’altro una serie di aspetti positivi. Nello specifico:
- maggior tutela della riservatezza: i dati sintetici, a differenza dei c.d. dati personali, non contengono informazioni riconducibili – direttamente o indirettamente – a persone reali. In tal senso, la conformità alle normative privacy applicabili – quale ne è, ad esempio, il GDPR richiamato in apertura – è decisamente più semplice da raggiungere;
- flessibilità operativa: i dati sintetici, quando innestati nelle soluzioni di IA come loro carburante, consentono di creare dataset personalizzati in grado di rispondere a specifiche esigenze di addestramento dei modelli IA senza incorrere in problematiche legate alla raccolta o al trattamento di dati personali, con le annesse difficoltà legate ai vincoli di compliance sopra rappresentati;
- mitigazione dei rischi di sicurezza: utilizzando dati sintetici è possibile limitare l’esposizione di dati reali in contesti di testing e sviluppo, con un conseguente rischio di c.d. data breach (ossia di violazione di dati personali) sensibilmente ridotto se non azzerato;
- continuità di addestramento: a livello di sviluppo, l’utilizzo di dati sintetici consente di generare continuamente nuove informazioni per evitare il c.d. overfitting dei modelli di IA e garantire che gli stessi mantengano la loro capacità predittiva nel tempo.
Allo stesso tempo, tuttavia, l’utilizzo dei dati sintetici nel campo delle tecnologie di IA potrebbe comportare alcuni limiti che è bene segnalare. In particolare:
- qualità e affidabilità: se i dati sintetici non riflettessero accuratamente le caratteristiche statistiche dei dati reali, il modello di IA potrebbe generare output imprecisi o incoerenti;
- rischio di bias: i dati sintetici potrebbero introdurre distorsioni nei modelli, specialmente se i dataset generati rispecchiassero pregiudizi presenti nei dati originali o se in caso di loro sviluppo sulla base di ipotesi statistiche errate;
- mancanza di rappresentatività: un utilizzo eccessivo di dati sintetici rispetto ai dati reali potrebbe portare alla costruzione di modelli di apprendimento non allineati con la realtà empirica del mondo che conosciamo, con la conseguenza che l’attendibilità e correttezza delle previsioni fatte dalla soluzione di IA verrebbe inevitabilmente disattesa;
- integrità del modello di apprendimento: dati sintetici non sufficientemente verificati a monte potrebbero determinare un’alterazione dei parametri di apprendimento del modello di IA, mettendo a rischio la stabilità e l’efficacia dello stesso.
Fatte queste premesse, possiamo concentrarci su quattro macroaree di interesse in cui proporre alcune soluzioni tecniche che possano consentire di mitigare i rischi legati all’utilizzo di dati sintetici nel contesto di apprendimento e struttura dei modello di IA.
Protezione dei parametri di apprendimento dei dati sintetici
L’integrità del modello è un aspetto fondamentale da considerare per evitare alterazioni dei parametri di apprendimento che potrebbero compromettere il funzionamento del modello stesso.
In un contesto di utilizzo di dati sintetici, è essenziale prevenire manipolazioni o errori nei parametri che possano derivare da modifiche non autorizzate o da disallineamenti tra i dati sintetici e quelli reali; ciò è particolarmente importante vista la natura sintetica del dato, il quale può mascherare difformità o irregolarità. Per garantire la protezione contro queste minacce, è necessario adottare misure di cybersecurity specifiche.
Alcuni esempi potrebbero essere i seguenti:
- implementazione di sistemi di monitoraggio continuo: utilizzare software di monitoraggio in tempo reale per rilevare modifiche sospette nei parametri di apprendimento del modello. Questi strumenti possono identificare alterazioni nel comportamento del modello e avvisare gli amministratori in caso di anomalie;
- tutela dei dati di addestramento: applicare soluzioni a tutela della sicurezza dei dati sintetici utilizzati in input, quale è ad esempio la crittografia end-to-end adottata sui dati sintetici in sé e, più in generale, sui modelli di IA, può essere alquanto utile al fine di prevenire manomissioni. La cifratura dei dati e dei modelli assicura che le informazioni sensibili non vengano intercettate o alterate durante l’addestramento, contribuendo in tal senso a rafforzare anche la compliance sulla data protection;
- verifica di integrità con algoritmi di hashing: utilizzare algoritmi di hashing per verificare l’integrità dei dati sintetici e dei parametri del modello, generando una “impronta digitale” univoca dei dati e dei modelli che può essere confrontata in qualsiasi momento con la versione originale al fine di monitorare e, se necessario, rilevare modifiche inattese.
Tecniche di monitoraggio dei risultati dei dati sintetici
Poiché l’affidabilità del modello dipende dalla qualità degli output generati, è essenziale disporre di strumenti per identificare in maniera puntuale risposte errate o incoerenti. Questo tema assume connotati particolarmente critici ove si utilizzino dati sintetici, poiché la loro componente artificiale potrebbe condurre a risultati distorti e, pertanto, non attendibili. Per mitigare questi rischi, alcune delle seguenti misure potrebbero fornire un valido supporto:
- sistema di validazione automatizzato degli output: integrare un sistema di validazione automatica che confronti gli output del modello con dati di riferimento, sia reali che sintetici. Gli algoritmi di machine learning, ad esempio, possono essere utilizzati per monitorare le risposte del modello e identificare discrepanze significative;
- sistemi di feedback in tempo reale: implementare sistemi di feedback che permettano agli utenti finali di segnalare eventuali risposte errate o incoerenti. Questi sistemi possono includere, ad esempio, pulsanti di valutazione, commenti testuali o classificazioni basate sul punteggio. Il contributo collettivo può contribuire al miglioramento continuo del modello, indirizzando la correzione dei problemi e il rafforzamento delle risposte;
- tecniche di verifica multi-fonte: verificare gli output del modello utilizzando diverse fonti di dati, per esempio incrociando i dati sintetici con set di dati reali o con modelli di IA alternativi, al fine di garantire che le risposte siano coerenti e prive di errori.
Riduzione dei bias nei dati sintetici per l’IA
Una delle problematiche principali dei dati sintetici è il rischio di introdurre bias, ovvero distorsioni sistematiche e ripetitive nel modello di IA che potrebbero influenzarne negativamente la qualità degli output prodotti. Qualora il processo di addestramento utilizzasse dati generati sinteticamente e “portatori” di bias, per poi riutilizzarli nella creazione di nuovi set di dati, si potrebbe assistere ad un progressivo deterioramento della qualità del modello stesso, fino a provocarne, nei casi più estremi, un’irreversibile compromissione (fenomeno noto anche come “collasso del modello”).
Per scongiurare questa evenienza, è necessario integrare pratiche di validazione incrociata tra dati reali e sintetici. Di seguito vengono proposte alcune misure tecniche per garantire la qualità e l’integrità dei dati al fine di mitigare i rischi appena rappresentati:
- validazione statistica automatica: implementare strumenti di validazione statistica che analizzano e confrontano le distribuzioni di dati sintetici e reali. Questi strumenti possono essere programmati per eseguire test di coerenza statistica (ad esempio, test di normalità, correlazione, e distribuzioni) per verificare se i dati sintetici conservano le proprietà statistiche dei dati reali;
- analisi dei bias con algoritmi di machine learning: utilizzare algoritmi di machine learning per identificare e correggere i bias presenti nei dati sintetici. Modelli di deep learning possono essere applicati per rilevare pattern anomali e ridurre la possibilità che i dati sintetici influenzino negativamente le prestazioni del modello, al fine di salvaguardare, nel complesso, la correttezza degli output prodotti.
- automazione del bilanciamento dei dati: adottare algoritmi automatizzati che equilibrino i dati sintetici e reali, per evitare che un eccessivo uso di dati sintetici porti alla realizzazione di un modello che si discosta troppo dalla realtà empirica. Questi algoritmi possono anche aiutare a mantenere una rappresentazione fedele dei dati reali nel processo di addestramento, facilitando in tal senso l’intero processo.
Strategie di bilanciamento tra dati sintetici e reali
Il bilanciamento tra dati sintetici e reali è una delle componenti cruciali da attenzionare per prevenire la distorsione e il degrado delle performance offerte dal modello di IA. L’utilizzo eccessivo di dati sintetici potrebbe compromettere la capacità del modello di rispecchiare fedelmente il comportamento del “mondo reale”. Per garantire un bilanciamento efficace, alcune delle seguenti proposte pratiche potrebbero supportare in maniera efficiente:
- sistemi di monitoraggio dinamico del bilanciamento: implementare soluzioni di monitoraggio che analizzano in tempo reale il rapporto tra dati sintetici e reali. Questi sistemi possono segnalare quando il bilanciamento tra le due fonti di dati viene compromesso, consentendo ai responsabili dell’addestramento di intervenire tempestivamente.
- ottimizzazione del processo di apprendimento: sviluppare algoritmi di ottimizzazione per regolare dinamicamente la proporzione di dati sintetici e reali in base alla fase di addestramento del modello. Durante le prime fasi, potrebbe essere necessario un maggiore utilizzo di dati reali, mentre nelle fasi successive si possono introdurre più dati sintetici per evitare il sovraccarico di informazioni.
- automazione del controllo delle prestazioni del modello di IA: utilizzare sistemi automatizzati che monitorano le prestazioni del modello durante il suo ciclo di vita. Questi sistemi dovrebbero essere in grado di rilevare la progressiva perdita di qualità nel modello, con il conseguente bisogno di un aggiustamento dei dati utilizzati.
Il futuro dei dati sintetici nell’evoluzione dell’intelligenza artificiale
Il ricorso ai dati sintetici nell’addestramento dei modelli di IA offre indubbi vantaggi, come la possibilità di aggirare problematiche legate alla privacy, ad esempio, e alla scarsità di dati, ma comporta anche rischi significativi per la sicurezza e l’affidabilità del modello. Adottando misure tecniche adeguate in termini di monitoraggio dell’integrità del modello, verificando gli output prodotti, validando a livello incrociato e bilanciando i dati, è possibile mitigarne i rischi come sopra rappresentato.
La cybersecurity gioca un ruolo fondamentale nella protezione dei modelli di IA da manipolazioni e errori, garantendo così che i dati sintetici non compromettano la qualità e la sicurezza dei modelli stessi. L’approccio proposto consente di sfruttare appieno i benefici dei dati sintetici senza compromettere l’affidabilità e l’efficacia del sistema IA, fornendo soluzioni pratiche in grado di limitare gli impatti negativi che possono scaturire dagli scenari descritti.
Vedremo a stretto giro se i progressi su questo fronte meriteranno un’attenzione maggiore – come pare essere testimoniato anche dalle recenti dichiarazioni sul punto di Elon Musk, secondo cui addirittura la disponibilità di informazioni reali nell’addestramento delle soluzioni di IA sarebbe esaurita da circa un anno – al fine di considerare la prospettiva del dato sintetico come un valido alleato nello sviluppo di nuovi modelli di IA. Il rischio concreto è quello di arrivare ad una sorta di “punto di non ritorno” ove le informazioni materialmente disponibili non risulterebbero più sufficienti, da sole, a contribuire nella crescita di tali soluzioni.