AI e Federated Learning, il mix ideale "salva privacy"

Il Federated Learning consente ai modelli di Machine Learning di operare senza trasferire i dati personali per l’addestramento su un server centrale. In combinazione con la “privacy differenziale” e altre tecnologie come la crittografia omomorfa, può supportare sistemi di IA rispettosi della privacy e della sicurezza

Il Federated Learning, combinato con la cosiddetta “privacy differenziale” (Differential Privacy), permette di ottenere sia la minimizzazione che l’anonimizzazione dei dati, supportando così sistemi rispettosi della privacy che possono apprendere in modo sicuro il comportamento dei consumatori e fornire servizi cruciali come il supporto alle attività di marketing.

Privacy: ecco perché è cruciale per un’AI etica e responsabile

Indice degli argomenti

Cos’è il Federated Learning

Per “funzionare” al meglio, l’Intelligenza Artificiale e le sue diverse declinazioni (come il Deep Learning, apprendimento profondo) richiedono, in genere, corposi e validi insiemi di dati “su larga scala”. Si pensi all’addestramento dei modelli di apprendimento automatico (il Machine Learning) ad alte prestazioni come le reti neurali artificiali (ispirate a quelle umane). Tuttavia, non sempre è possibile addestrare dei modelli in “piena libertà”.

Questo succede, ad esempio, se gli insiemi di dati (i cosiddetti “dataset”) non possono essere liberamente condivisi. Sul punto, un aiuto fondamentale arriva dal cosiddetto apprendimento federato (o “Federated Learning”). Grazie alla capacità di addestrare gli algoritmi su diversi dataset senza scambiare i cosiddetti “dati grezzi” (non ancora elaborati), l’apprendimento federato è una tra quelle tecnologie emergenti che riescono ad essere, con le dovute accortezze, “privacy-friendly”.

Introdotto dai ricercatori di Google nel 2016^[1], il Federated Learning si riferisce a una forma di Machine Learning che elabora i dati “alla fonte” (i già citati dati grezzi), consentendo agli utenti interessati di ottenere approfondimenti dalle informazioni combinate in insiemi di dati (dataset) decentralizzati. In genere, i modelli di Machine Learning vengono addestrati su un singolo dataset tramite il più tradizionale “apprendimento centralizzato” (Centralized Learning). Con tale tipo di apprendimento, come il suo nome lascia intuire, tutti i dati di formazione (cosiddetti “training data”) vengono inviati a un server “centralizzato” che addestra e ospita il modello.

Il modello “addestrato” e aggiornato viene poi inviato a tutti i partecipanti alla rete del Centralized Learning. Poiché questo approccio si basa sulla duplicazione dei dataset “locali” per eseguire l’addestramento in una posizione centrale, l’uso del Machine Learning centralizzato può aumentare i rischi per la sicurezza e la protezione dei dati personali. Il Federated Learning, invece, consente ai modelli di Machine Learning di operare senza trasferire i dati personali necessari per l’addestramento su un server centrale. I dati grezzi non lasciano mai il dispositivo e non vengono mai raccolti in una posizione centrale. Il modello di Centralized Learning, invece, per essere addestrato viene inviato a dispositivi come smartphone, laptop e server privati, esponendo i dati a diversi rischi di sicurezza e privacy. Il modello di Centralized Learning viene aggiornato localmente sui dispositivi e poi inviato a un server centrale. Qui gli aggiornamenti vengono aggregati e incorporati in un “modello globale” condiviso. In molti casi, i parametri del modello, che fanno “avanti e indietro” tra il server centrale e il dispositivo”, sono criptati prima di essere scambiati. Questo processo continua per più iterazioni finché il modello non è completamente addestrato. A questo punto può essere ridistribuito ai dispositivi per condividere i diversi risultati delle analisi effettuate.

Federated Learning “orizzontale” e “verticale”

Il Federated Learning si può dividere in “Horizontal” e “Vertical”. Quello Horizontal (orizzontale ed omogeneo) viene utilizzato per insiemi di dati omogenei che contengono casi diversi e che condividono un insieme coerente di caratteristiche, come ad esempio gli stessi tipi di punti di dati per clienti diversi. Il Vertical Federated Learning (verticale ed eterogeneo), invece, viene utilizzato quando gli insiemi di dati contengono almeno alcuni degli stessi casi ma hanno set di caratteristiche diverse, ad esempio quando le organizzazioni condividono alcuni clienti con punti di dati divergenti. Il Federated Transfer Learning, invece, combina i due approcci orizzontali e verticali, consentendo a un modello già addestrato di risolvere nuovi problemi con set di caratteristiche diverse e casi diversi (pur con obiettivi simili). Strettamente correlato al Federated Learning è la Federated Analytics che, come il primo, funziona eseguendo calcoli “in locale” condividendo solo i risultati aggregati. A differenza dell’apprendimento federato, però, l’obiettivo di calcolo della Federated Analytics non è l’addestramento di un modello di Machine Learning, bensì il calcolo di metriche o altre statistiche aggregate sui dati degli utenti.

Federated Learning e la minimizzazione dei dati

Ma torniamo al rapporto tra Federated Learning e la protezione dei dati personali. Sin dalla sua comparsa sulle scene mondiali, il Federated Learning possiede architetture che supportano strutturalmente il principio della minimizzazione dei dati. Questo principio a noi europei, peraltro, non è affatto nuovo. L’Art. 5.1 lett. c) del GDPR afferma che “[i dati personali debbano essere] adeguati, pertinenti e limitati a quanto necessario rispetto alle finalità per le quali sono trattati”.

Un principio, quello della minimizzazione, che si ritrova anche in altre legislazioni sparse per il mondo. Minimizzazione dei dati che garantisce che vengano raccolti e conservati solo i dati personali necessari per uno specifico scopo legittimo. In pratica, la minimizzazione dei dati include la restrizione dell’accesso ai dati utilizzando meccanismi di sicurezza come la crittografia e le liste di controllo degli accessi, oltre a garantire l’esistenza di politiche e procedure per identificare e rimuovere i dati raccolti superflui. Il Federated Learning supporta questo aspetto limitando intrinsecamente l’accesso diretto ai dati personali elaborati e utilizzando solo i dati necessari per garantire l’efficacia del modello. Gli aggiornamenti del modello provenienti dal dispositivo possono ancora contenere informazioni private, ma ne contengono meno rispetto ai “dati di formazione grezzi”. Inoltre, i modelli comunicati non vengono archiviati regolarmente su server cloud, ma scartati immediatamente dopo essere stati integrati nel modello globale. Il Federated Learning, inoltre, limita “la superficie di attacco” al solo dispositivo, piuttosto che al dispositivo e al server cloud in coppia tra loro. Pertanto, l’apprendimento federato è stato indicato come un controllo di sicurezza per ridurre al minimo il rischio di violazione dei dati personali.

Lato pratico, il Federated Learning è sempre più utilizzato nel “mondo reale” da diversi produttori e Big Tech. Tra gli altri esempi che si possono citare, Google ha utilizzato l’apprendimento federato per la previsione delle parole successive e i suggerimenti di emoji nella sua tastiera (la sua “Gboard”), per alimentare la funzione musicale sui suoi smartphone “Pixel” e per personalizzare la funzione “Smart Reply” nella sua APP di messaggistica. Analogamente, Apple ha sviluppato soluzioni di Federated Learning per personalizzare i suoi dispositivi e le sue piattaforme, tra cui Siri e QuickType. Ma le speranze di un suo utilizzo “di successo” sono particolarmente alte per i settori della sanità, della tecnologia medica e nel settore farmaceutico, i quali potrebbero trarre grandi benefici dall’uso dell’apprendimento federato, fornendo nuove conoscenze e mettendo in piedi ecosistemi sanitari multicentrici. Il Federated Learning viene discusso come soluzione per le opportunità della sanità digitale, in particolare per l’assistenza sanitaria “intelligente”. Alcuni esempi concreti includono lo sviluppo di sistemi di classificazione dei tumori cerebrali e del cancro al seno, la ricerca in oncologia e la collaborazione per la scoperta di nuovi farmaci.

Il Federated Learning ha anche dei difetti

Nonostante i numerosi vantaggi però, il Federated Learning non è esente da problemi di privacy e sicurezza. I modelli di apprendimento federato addestrati con i dati personali delle persone, tra cui numeri di telefono, indirizzi e numeri di carte di credito, possono essere oggetto di attacchi di inferenza (si parla anche di “Machine Learning Hacking”^[2]).

Attraverso questi attacchi, i “server maligni” possono sapere se determinati dati sono stati utilizzati durante il processo di formazione. Questi attacchi sono chiamati rispettivamente “membership attacks” e “reconstruction attacks”. Alcuni di questi attacchi possono anche essere orchestrati da altri client che partecipano alla stessa rete. Anche l’addestramento dei modelli può essere “avvelenato”, sia tramite “attacchi di avvelenamento dei dati” (data poisoning attacks) sia tramite “attacchi di avvelenamento dei modelli” (model poisoning attacks). L’avvelenamento dei dati altera i training data, portando a una riduzione complessiva delle prestazioni del modello a causa di input sbagliati. L’avvelenamento dei modelli, invece, costituisce un approccio più attivo e aggressivo, perché gli aggressori si concentrano sugli aggiornamenti del modello, piuttosto che sui training data.

L’obiettivo di questi attacchi è far sì che il modello classifichi o interpreti in modo errato i dati di input a causa di aggiornamenti del modello “avvelenati”. Influenzare gli aggiornamenti può portare a cambiamenti fondamentali nell’efficacia e nel funzionamento del modello. Inoltre, gli aggressori possono prendere di mira il metodo utilizzato per comunicare tra il server centrale e gli utenti. Il Federated Learning richiede che una moltitudine di dispositivi si scambino frequentemente gli aggiornamenti dei modelli appresi, portando così ad un “sovraccarico di comunicazione”. Ciò impone una sfida importante per il Federated Learning su reti realistiche che sono limitate nelle risorse computazionali e di comunicazione. Gli attacchi possono sfruttare questi colli di bottiglia e costringere alcuni dispositivi a disconnettersi dal sistema, introducendo errori nel modello. Inoltre, la comunicazione non sicura tra il modello e i suoi utenti può essere sfruttata sotto forma di attacchi man-in-the-middle (attacco informatico in cui qualcuno segretamente si intromette tra due persone che credono di comunicare direttamente tra di loro), in cui gli aggiornamenti del modello vengono dirottati per rubare dati sensibili o alterati prima che vengano trasmessi al server centrale. Detto ciò, è chiaro come nel futuro prossimo sarà necessario concentrarsi sullo sviluppo di controlli e verifiche di sicurezza e privacy più efficaci.

Federated Learning e privacy differenziale

A differenza del principio di minimizzazione dei dati, punta di diamante della tecnologia in esame, il Federated Learning non affronta direttamente il problema dell’anonimizzazione o della de-identificazione dei dati degli utenti.

Per risolvere questo problema, l’apprendimento federato può essere, appunto, combinato con la cosiddetta “privacy differenziale” (Differential Privacy), un approccio presentato da Google, Meta e Apple. Tale “potente” combinazione permette di ottenere sia la minimizzazione che l’anonimizzazione dei dati, supportando sistemi di Federated Learning rispettosi della privacy che possono apprendere in modo sicuro il comportamento dei consumatori e fornire servizi cruciali come il supporto alle attività di marketing. Allo stesso modo, il Federated Learning è sempre più combinato con altre tecnologie emergenti, come la crittografia omomorfa, il calcolo multipartitico o i dati sintetici.

Il numero crescente di casi d’uso del Federated Learning e la prospettiva di una migliore protezione della privacy e della sicurezza attraverso queste tecnologie sono stati recentemente notati dalle autorità di regolamentazione di tutto il mondo. Ad esempio, all’inizio di quest’anno, l’esecutivo statunitense ha annunciato la prima collaborazione tra Stati Uniti e Unione Europea in materia di Intelligenza Artificiale^[3]. In questo contesto e con l’attesa di nuove e più complete iniziative normative sull’Intelligenza Artificiale a livello globale (aspettiamo ancora quella dell’Unione Europea in “cantiere perpetuo”^[4]), il settore è da tenere sotto stretta osservazione.^[5]

Note

Federated Learning: Strategies for Improving Communication Efficiency. Google Research. https://research.google/pubs/pub45648/ ↑
Machine Learning Hacking: gli attacchi di inferenza sull’appartenenza.Red Hot Cyber. https://www.redhotcyber.com/post/machine-learning-hacking-gli-attacchi-di-inferenza-sull-appartenenza/ ↑
Statement by National Security Advisor Jake Sullivan on the New U.S.-EU Artificial Intelligence Collaboration. The White House. https://www.whitehouse.gov/briefing-room/statements-releases/2023/01/27/statement-by-national-security-advisor-jake-sullivan-on-the-new-u-s-eu-artificial-intelligence-collaboration/ ↑
Regulatory framework proposal on artificial intelligence. European Commission. https://digital-strategy.ec.europa.eu/en/policies/regulatory-framework-ai ↑
Federated learning: Supporting data minimization in AI. IAPP. https://iapp.org/news/a/federated-learning-supporting-data-minimization-in-ai/ ↑