Il Data Act costituisce uno degli elementi chiave delle normative introdotte dall’Unione Europea per assicurare la competitività nel settore dell’intelligenza artificiale a livello mondiale.
La possibilità di aprire e condividere i dati porta benefici non solo alla ricerca ma anche alla comprensione dell’avanzata intelligenza artificiale che stiamo creando.
Però, per sfruttare appieno i dati generati dagli oggetti interconnessi, sarà necessario trovare un giusto compromesso tra la condivisione delle informazioni e la tutela della privacy delle persone.
Le privacy preserving technologies (PPT) emergono come risposta a queste sfide, rivoluzionando il modo in cui gestiamo e proteggiamo le informazioni.
Data Act: genesi e obiettivi
Il percorso che ha portato all’adozione del Data Act ha radici profonde nella constatazione dell’Unione Europea che più dell’80% dei dati industriali prodotti rimane inutilizzato. Questa situazione è dovuta alla mancanza di un framework adeguato che regolamenti l’accesso a tali dati. Di conseguenza, l’Unione Europea ha deciso di introdurre il Data Act come pilastro fondamentale della sua strategia sui dati, al fine di consentire l’accesso ai dati generati da tutti gli oggetti connessi.
Con l’entrata in vigore di questo nuovo regolamento, ci si aspetta un notevole aumento dei dati (sia personali che non) che potranno essere analizzati per sviluppare nuovi prodotti, creare servizi più convenienti e migliorare la gestione delle emergenze.
Il Data Act rappresenta l’equivalente industriale del GDPR ed ha l’obiettivo di garantire all’Europa una posizione competitiva a livello globale nella sfida dell’intelligenza artificiale.
Il Data Act e il fenomeno degli open data
Per comprendere appieno l’importanza di questo regolamento, è essenziale considerare il fenomeno degli open data. Openmined, un’organizzazione fondata da un ricercatore di Google e Deep Mind che si occupa di fornire accesso ai dati per scopi di ricerca, spiega nel proprio manifesto che negli ultimi 20 anni alcuni algoritmi di intelligenza artificiale hanno influenzato direttamente oltre 12 miliardi di ore al giorno del tempo delle persone. Si stanno sviluppando sistemi di intelligenza artificiale con il potenziale di migliorare o automatizzare il lavoro in tutto il mondo, fornendo capacità super intelligenti.
La condivisione dei dati prevista dal Data Act risulta quindi fondamentale per due motivi. In primo luogo, permette di continuare a creare nuovi e migliori prodotti e servizi. In secondo luogo, aiuta a comprendere l’impatto che questa super intelligenza avrà sulle nostre vite. Infatti, poiché i ricercatori non hanno accesso sufficiente ai modelli o ai set di dati di intelligenza artificiale, siamo in gran parte nell’oscurità riguardo all’effetto completo dell’intelligenza artificiale sul mondo. In altre parole, non disponiamo di dati sufficienti per comprendere i dati stessi. Il Data Act è destinato a cambiare radicalmente questa situazione.
Le principali caratteristiche del Data Act
Il Data Act è stato promulgato il 11 gennaio 2024 e diventerà pienamente operativo il 12 settembre 2025. Questo regolamento si applica sia ai dati personali che a quelli non personali, ma nel caso dei primi prevale il GDPR. L’attenzione del regolamento è incentrata sulle funzionalità dei dati raccolti dai dispositivi connessi, distinguendo tra dati di prodotto e relativi dati di servizio da cui possono essere tratti dati prontamente disponibili.
Secondo gli obblighi del Data Act, produttori e fornitori di servizi sono tenuti a consentire ai loro utenti di accedere, riutilizzare e condividere gratuitamente i dati raccolti attraverso i loro prodotti e servizi correlati. Questo significa che i prodotti e i servizi devono essere progettati per consentire agli utenti di accedere ai dati senza ostacoli, e i titolari dei dati devono fornire i dati all’utente su richiesta. Inoltre, devono permettere l’accesso ai dati a terzi su richiesta dell’utente o per obblighi legali, inclusi dati prontamente disponibili e metadati pertinenti. A meno di specifiche garanzie, limitazioni e divieti per l’utilizzo dei dati da parte dei destinatari (per esempio, per proteggere segreti commerciali), i titolari dei dati non possono negare l’accesso. Infine, i dati devono essere resi disponibili a terzi secondo termini e condizioni equi, ragionevoli e non discriminatori, e in modo trasparente.
Inoltre, il Data Act stabilisce norme per agevolare il passaggio tra fornitori di servizi cloud e altri servizi di elaborazione dati, eliminando ostacoli pre-commerciali, commerciali, tecnici e organizzativi.
Quali sono i vantaggi evidenti del Data Act
Ogni oggetto che può essere collegato a Internet – automobili, camion, mulini a vento, robot industriali, lavastoviglie, macchine da caffè, altoparlanti intelligenti, orologi – sarà coinvolto dalla legge, il che significa che ogni settore in Europa sarà interessato.
Per molti, questo regolamento promette i cambiamenti tanto attesi. Tra i principali sostenitori c’è l’Unione Internazionale dei Trasporti Stradali (IRU), che rappresenta varie società di mobilità e logistica, tra cui camion, autobus e compagnie di taxi. Per loro, i dati generati dall’uso dei veicoli hanno un’enorme rilevanza commerciale. Informazioni come il consumo di carburante, l’usura e il comportamento dei conducenti vengono utilizzate per l’addestramento dei conducenti e per garantire la sicurezza.
L’opportunità per gli operatori del trasporto di accedere ai dati senza dover negoziare continuamente con i produttori dei veicoli porterà a diversi vantaggi, tra cui l’eliminazione della necessità di installare dispositivi separati per la raccolta dei dati. Un altro esempio sono le turbine eoliche, che generano una grande quantità di dati industriali non personali, come la velocità e la direzione del vento, i quali possono essere utilizzati per fornire servizi aggiuntivi, come la gestione remota della posizione delle pale.
Diffusione massiccia di dati, i rischi evidenti
La liberazione dell’80% dei dati comporterà inevitabilmente dei rischi, alcuni dei quali più evidenti di altri. Tra i rischi evidenti vi è la preoccupazione che la condivisione possa esporre dati commercialmente sensibili, stimolando la creazione di imitazioni che competano direttamente con le grandi aziende europee.
Un esempio significativo è fornito dalla divisione Healthcare di Siemens, nota per la produzione di scanner TC e macchine per la risonanza magnetica. Per generare immagini, questi scanner devono acquisire dati grezzi, come i dati dei raggi X per le scansioni TC e i dati delle pulsazioni per le scansioni MRI. La condivisione di tali dati potrebbe, nelle mani sbagliate, facilitare il reverse engineering di innovazioni cruciali. Date le attuali tensioni geopolitiche, il rischio di sfruttamento è ancor più accentuato.
La “clausola sui segreti industriali“
Il regolamento sembra affrontare questo problema attraverso la “clausola sui segreti industriali“. Secondo gli articoli 4 e 5, il titolare dei dati generati dall’uso di prodotti o servizi potrà invocare la tutela del segreto commerciale come difesa contro richieste di accesso ai dati eccessivamente ampie. Questa, tuttavia, rappresenta solo un’eccezione alla regola che impone la fornitura dei dati ai sensi del Data Act. In sostanza, il regolamento sembra garantire la protezione dei segreti industriali. Infatti, se ciò non accadesse, si comprometterebbe l’obiettivo stesso del regolamento, che è quello di conferire un vantaggio competitivo alle aziende europee.
I rischi occulti del Regolamento
Il rischio meno evidente è invece quello della ri-identificazione dei soggetti a cui appartengono i dati o che ne sono in qualche modo legati. Anche in assenza di problemi legati al segreto industriale, persiste la minaccia della ri-identificazione. Ritornando all’esempio nel settore medico, i dati grezzi relativi alle radiografie o al battito cardiaco possono, una volta accoppiati ad altri dati già disponibili, consentire di identificare gli individui.
Guardiamo ad esempio a quanto accade nel settore medico. Già nel 2019, un esperimento condotto dalla Mayo Clinic è stato riportato dal New York Times, in cui tecnologie di imaging e riconoscimento facciale sono state utilizzate per collegare i soggetti di una ricerca alle loro risonanze magnetiche. Le scansioni cerebrali di 84 volontari sono state utilizzate per creare ricostruzioni dei loro volti e successivamente confrontate con fotografie. Un programma di riconoscimento facciale ha correttamente associato 70 soggetti.
Anche se le scansioni possono essere anonimizzate eliminando dati personali e sensibili, le reti neurali possono ricostruire le caratteristiche facciali dei volti rimossi e de-anonimizzare le immagini.
La vera anonimizzazione dei dati è difficile da ottenere perché possono essere combinati con altri set di dati pubblici e de-anonimizzati (un esempio noto è quando due studenti sono stati in grado di ri-identificare alcuni utenti da un vasto database anonimizzato di Netflix). Inoltre, alcuni ricercatori dell’Università di Oxford hanno dimostrato che età e sesso possono essere dedotti anche da un’immagine strutturale del cervello o direttamente identificati dal battito cardiaco.
Ed è proprio questo il rischio occulto portato dal regolamento. Il rilascio dell’80% dei dati delle macchine, anche se apparentemente impersonali o anonimizzati, potrebbe causare la ri-identificazione in situazioni in cui non si poteva minimamente concepire che un dato ne avrebbe rivelato un altro. Attualmente, infatti, non è sempre chiaro come funzionino gli algoritmi e cosa possano effettivamente fare. La ri-identificazione è già un rischio reale oggi ed è inevitabile che il flusso di dati derivante dal regolamento aumenterà esponenzialmente questo rischio. Maggiori dati a disposizione non significano automaticamente maggiori benefici.
Le nuove tecnologie di protezione della privacy
Mantenere i dati al sicuro è oggi più importante che mai. Le privacy preserving technologies (PPT) emergono come risposta a queste sfide, rivoluzionando il modo in cui gestiamo e proteggiamo le informazioni. Queste tecnologie mirano a consentire la gestione, la condivisione e l’elaborazione sicura dei dati, minimizzando il rischio di accesso, divulgazione o compromissione non autorizzati.
Tra le principali PPT troviamo.
Federated Learning
Un approccio di apprendimento automatico che permette di addestrare modelli su dispositivi decentralizzati, mantenendo i dati locali. Ciò avviene senza centralizzare i dati grezzi, riducendo così la necessità di trasferire informazioni sensibili a un server centrale. Questa tecnologia ha applicazioni pratiche in ambiti come la sanità (per la privacy dei dati dei pazienti) e la finanza (per il rilevamento delle frodi senza centralizzare i dettagli delle transazioni).
Secure Multiparty Computation (SMPC)
Una tecnica crittografica che consente a più parti di calcolare congiuntamente una funzione sui propri input mantenendo tali input privati. Fondamentalmente, SMPC distribuisce il calcolo tra le parti in modo che nessuna di esse possa apprendere altro oltre l’output finale.
Homomorphic Encryption
Una tecnica crittografica che permette di eseguire calcoli su dati crittografati senza decriptarli. In altre parole, consente di mantenere i dati crittografati mentre si eseguono operazioni matematiche su di essi. Ad esempio, potrebbe consentire di elaborare dati su persone affette da artrite senza mai decriptare i dati personali.
Differential Privacy
Introduce casualità nei dati o “rumore” per proteggere la privacy individuale, consentendo comunque un’analisi statistica accurata. Questa tecnica cerca di trovare un equilibrio tra l’utilità dei dati e la tutela della privacy individuale, particolarmente importante nell’analisi dei dati aggregati.
Le PPT hanno dimostrato la loro efficacia in vari settori. Nel campo della sanità, ad esempio, l’omomorphic encryption consente una collaborazione sicura tra ricercatori e operatori sanitari senza compromettere la privacy dei pazienti. Gli istituti finanziari le utilizzano per analizzare i dati transazionali in modo sicuro, mentre le piattaforme di e-commerce le sfruttano per migliorare la personalizzazione degli utenti senza esporre le abitudini di acquisto individuali.
Conclusioni
Il Data Act rappresenta uno dei pilastri fondamentali dei regolamenti promossi dall’Unione Europea per mantenere la competitività nel contesto globale dell’intelligenza artificiale. L’apertura e la condivisione dei dati offrono vantaggi sia per la ricerca che per la comprensione della super intelligenza che stiamo sviluppando.
Tuttavia, sfruttare al meglio il flusso di dati proveniente dagli oggetti connessi richiederà un equilibrio delicato tra lo scambio di informazioni e il rispetto della privacy individuale. I rischi legati alla concorrenza tra le aziende e al contesto geopolitico, in particolare la minaccia di reverse engineering per la creazione di prodotti simili, devono essere affrontati con attenzione.
Ma il rischio più significativo rimane la ri-identificazione, come abbiamo visto. Le normative del regolamento forniscono una cornice per la condivisione dei dati, ma saranno le “misure tecniche ed organizzative” a fare la vera differenza.
Le Privacy Preserving Technologies (PPT) stanno dimostrando di avere un impatto significativo in diversi settori, garantendo la gestione sicura dei dati e promuovendo la collaborazione e l’innovazione.
Dal momento che i dati non personali saranno disciplinati allo stesso modo dei dati personali, ha senso applicare ai primi le stesse attenzioni. Le tecnologie di PPT probabilmente vedranno un forte sviluppo, poiché rappresentano attualmente il miglior strumento per gestire il delicato equilibrio tra il “sapere di più” ed il proteggere “a scapito del sapere”.