machine learning

Federated learning, come coniugare intelligenza artificiale e privacy

Cos’è il Federated learning, come funziona, perché si propone come una delle principali soluzioni ai problemi di privacy nel mondo del Machine learning e quali sono i problemi aperti

Pubblicato il 11 Gen 2023

Marco Aldinucci

Dip. di Informatica, Università di Torino e CINI HPC-KTT

Bruno Casella

Dip. di Informatica, Università di Torino e CINI HPC-KTT

Roberto Esposito

Dip. di Informatica, Università di Torino e CINI HPC-KTT

Gianluca Mittone

Dip. di Informatica, Università di Torino e CINI HPC-KTT

Mirko Polato

Dip. di Informatica, Università di Torino e CINI HPC-KTT

Machine Learning

La caratteristica fondamentale degli algoritmi di Machine learning è la capacità di apprendere autonomamente come risolvere un problema, basandosi unicamente sui dati loro forniti. Questa branca dell’Intelligenza artificiale ha già dato più volte prova delle sue immense potenzialità in moltissimi ambiti della nostra vita, dal gioco degli scacchi alla diagnosi medica, passando per la biologia.

Ognuno di noi ha a che fare con questi sistemi ogni giorno, anche se a volte può essere difficile rendersene conto: sarebbe sufficiente richiamare Siri, Google, Alexa, o anche solamente prestare attenzione ai suggerimenti di digitazione forniti dalla propria tastiera per accorgersi di quanto questi sistemi siano ormai parte integrante della nostra società.

Intelligenza artificiale e digital pathology: cosa cambia per diagnosi, prognosi e cura

L’apporto dei Big Data

Un’altra caratteristica fondamentale dei modelli di Machine learning è che necessitano di una enorme mole di dati per essere addestrati a risolvere i problemi cui vengono sottoposti, non a caso viviamo attualmente nella cosiddetta epoca dei Big data, sconfinate raccolte di dati mantenute da grandi aziende e organizzazioni statali.

È infatti possibile affermare che, maggiore è la quantità di dati messi a disposizione, più è alta la loro qualità, migliore saranno le capacità predittive del modello allenato. In tal senso, la categoria di algoritmi di Machine learning considerata in grado di consumare la più alta quantità di dati è quella delle Reti neurali profonde. Questa dipendenza dai dati è in realtà una delle colonne portanti di tutto il mondo del Machine learning, insieme alla potenza di calcolo richiesta per attuare il processo di addestramento.

Big Data e privacy

Non tutte le organizzazioni, però, hanno a disposizione raccolte di dati sufficientemente vaste da permettere un addestramento efficace di un modello di Machine learning. In tal caso, una possibile soluzione consiste nell’unire più basi di dati riguardanti lo stesso problema da risolvere. Questo processo di aggregazione dei dati non è però esente da problemi. Spesso le norme sulla sicurezza e/o sulla privacy impediscono ciò, basti pensare all’ambito medico in cui non è assolutamente possibile condividere informazioni relative ai pazienti, come previsto dal Regolamento Ue 2016/679, noto come GDPR.

Inoltre, i dati hanno spesso un enorme valore economico e strategico e l’atto di condivisione ne porterebbe ad una possibile svalutazione.

Il Federated Learning

È da queste premesse che emerge il Federated learning, una tecnica di Machine learning collaborativo capace di sfruttare la conoscenza presente in più dataset senza la necessità di metterli in comune.

L’idea alla base del Federated learning è semplice: i soggetti che possiedono i dati hanno la possibilità di creare una federazione in cui l’informazione scambiata non comprende i dati su cui si sta allenando il modello, bensì dai parametri appresi dai modelli allenati sui dati posseduti dai singoli soggetti.

In questo modo i dati rimangono all’interno delle organizzazioni che li possiedono e i veicoli di scambio dell’informazione diventano i parametri del modello allenato (nel caso delle reti neurali: i pesi). Questo approccio è stato proposto per la prima volta dai ricercatori di Google nel 2016, applicato al suggeritore automatico delle tastiere degli smartphone dotati di sistema operativo Android.

Ma come è possibile aggregare questi parametri ottenendo un modello federato unico, comprendente la conoscenza di tutti i vari dataset?

Come funziona il Federated learning

Nella sua accezione più classica, prevede due tipi di attori: i siti che posseggono i dati (client) e l’aggregatore (server) che inizializza il modello federato e orchestra l’esecuzione dell’apprendimento.

Tale processo avviene in modo iterativo, ed ogni iterazione è detta round. All’inizio di ogni round il server invia il modello globale attuale ai client (tutti o un loro sottoinsieme), i quali lo allenano sui dati locali, per poi restituirlo al server, che termina il round aggregando i modelli ricevuti e ottenendo così un nuovo modello globale. La strategia di aggregazione base del server, denominata FedAvg, consiste nell’effettuare la media pesata dei modelli ricevuti. Il processo si ripete quindi dal principio, questo meccanismo è rappresentato schematicamente nella Figura 1.

Federated learning

(Immagine: Il ciclo di vita di un modello allenato tramite FL e tutti gli attori coinvolti nel processo)

L’aggiornamento locale del modello avviene solitamente con algoritmi di ottimizzazione in grado di trovare un minimo (locale) di una funzione differenziabile. In particolare, si considera la funzione di loss del modello, che restituisce la distanza esistente tra l’output predetto dal modello attuale e l’output atteso (ottimo).

Minimizzare la funzione di loss permette l’aggiornamento dei parametri del modello nella direzione che minimizza l’errore commesso sui dati di allenamento. Due fra gli algoritmi di ottimizzazione più usati sono Sgd (Stocastic Gradient Descent) e Adam (Adaptive Moment Estimation), ma ne esiste una vasta gamma, di cui alcuni specificamente ideati per il Federated learning.

Il machine (federated) learning in Sanità, per coniugare intelligenza artificiale e privacy

Le criticità del Federated Learning

È importante sottolineare come in questo meccanismo i dati non lasciano mai il sito di appartenenza, permettendo quindi ai partecipanti alla federazione di rispettare sia le normative sulla privacy sia la privacy stessa degli utenti a cui i dati si riferiscono.

Tuttavia, il modello che i client condividono con l’aggregatore contiene informazioni riguardanti i dati su cui è stato allenato. Questo fatto rappresenta una vulnerabilità che attaccanti / malintenzionati possono sfruttare per ricavare informazioni sui dati privati dei partecipanti (Model Inversion).

Per questo motivo, gli algoritmi di Federated learning sono spesso affiancati a tecniche come la Differential Privacy, la crittografia omomorfica e/o la Secure Multiparty Computation.

Sfortunatamente, tutti questi meccanismi per garantire la privacy portano al degrado della qualità dell’apprendimento o dell’efficienza del protocollo. Per questo motivo, molti studi mirano al superamento di questi limiti mantenendo però un alto livello di privacy.

Un altro degli aspetti critici del Federated learning è conseguenza diretta della sua stessa struttura: le performance del modello federato sono pesantemente influenzate dalla distribuzione dei dati sui vari client.

Nello scenario ideale si ipotizza che i dati siano distribuiti in maniera indipendente e identicamente distribuita (Independent and Identically Distributed) tra i client, dando luogo ad una situazione in cui la distribuzione delle informazioni associate ad ogni partecipante sia congruente con quella globale.

Questa assunzione, chiaramente irrealistica, ha dato vita ad un filone di ricerca attualmente molto attivo, ricco di studi volti ad indagare in quali scenari sia vantaggioso applicare il Federated learning e quali tecniche possano essere sfruttate per ottenere buone performance di apprendimento anche in situazioni teoricamente svantaggiose.

Il motivo per cui distribuzioni non Independent and Identically Distributed (IID) rendono difficile l’apprendimento è insito nel modo in cui avviene l’apprendimento federato. Come accennato in precedenza, al termine di ogni round, il server (in FedAvg, per esempio) aggiorna il modello globale mediando i pesi dei modelli ricevuti dai client. Questa operazione assume che le diverse funzioni di loss ottimizzate lato client (tramite discesa del gradiente) siano “simili” tra loro e che quindi la direzione dei diversi gradienti sia “compatibile”. Tuttavia, essendo le funzioni di loss definite sui dati di apprendimento, questa assunzione vale se le distribuzioni dei dati locali sono Iid. In caso contrario, può accadere che le funzioni di loss siano molto diverse tra loro (ovvero i client stanno ottimizzando un problema diverso) fuorviando l’intero algoritmo di apprendimento.

Un terzo problema del Federated learning (FL), più strutturale, è dato dalla sua architettura centralizzata: il server è un’unica entità, centrale e privilegiata, dal quale dipende tutto il sistema. Questo approccio comporta una moltitudine di criticità, di cui di seguito discuteremo solo le principali.

Innanzitutto, in quanto entità centrale e organizzatrice, il server rappresenta un single point of failure per l’intero sistema, un attacco mirato verso questo singolo nodo risulterebbe critico per l’intera struttura. Inoltre, in caso di un elevato numero di client, la capacità limitata del server di recepire i modelli locali formerebbe un collo di bottiglia per l’intero sistema, intaccando pesantemente le prestazioni.

Infine, data la sua posizione privilegiata, il server ha accesso a tutti i modelli locali inviati dai client: un attacco a questa struttura potrebbe quindi comportare un rischio per la privacy di tutti i partecipanti alla federazione, come discusso in precedenza.

Questi problemi, e molti altri, costituiscono attualmente un florido campo di ricerca per i ricercatori interessati al Federated learning. Dagli approcci più orientati alla tutela della privacy, a quelli che puntano alla decentralizzazione del sistema, fino ad arrivare a quelli che puntano ad algoritmi di federazione che siano agnostici rispetto al modello utilizzato, i ricercatori stanno attivamente cercando di migliorare e generalizzare il più possibile questo approccio che, nonostante sia nato da pochi anni, ha già impattato fortemente la comunità scientifica e, sicuramente, continuerà a farlo anche nei prossimi anni.

Bibliografia

Silver, David, et al. “A general reinforcement learning algorithm that masters chess, shogi, and Go through self-play.” Science362.6419 (2018): 1140-1144

D’Ascenzo, Fabrizio, et al. “Machine learning-based prediction of adverse events following an acute coronary syndrome (PRAISE): a modelling study of pooled datasets.” The Lancet 397.10270 (2021): 199-207

Jumper, John, et al. “Highly accurate protein structure prediction with AlphaFold.” Nature 596.7873 (2021): 583-589

McMahan, Brendan, et al. “Communication-efficient learning of deep networks from decentralized data.” Artificial intelligence and statistics. AISTATS, 2017

Kairouz, Peter, et al. “Advances and open problems in federated learning.” Foundations and Trends® in Machine Learning 14.1–2 (2021): 1-210

Amari, Shun-ichi. “Backpropagation and stochastic gradient descent method.” Neurocomputing 5.4-5 (1993): 185-196

Kingma, Diederik P., and Jimmy Ba. “Adam: A method for stochastic optimization.” arXiv preprint arXiv:1412.6980 (2014)

Jonas Geiping, et al.. “Inverting Gradients – How easy is it to break privacy in federated learning?”. NeurIPS 2020

Cynthia, Dwork. “Differential privacy.” Automata, languages and programming (2006): 1-12

Gentry, Craig. A fully homomorphic encryption scheme. Stanford University, 2009

Cramer, Ronald, and Ivan Bjerre Damgård. Secure multiparty computation. Cambridge University Press, 2015

Bo Zhao, et al. “FedInv: Byzantine-Robust Federated Learning by Inversing Local Model Updates”. AAAI 2022

Bruno, Casella, et al. “Benchmarking FedAvg and FedCurv for Image Classification Tasks.” Proceedings of the 1st Italian Conference on Big Data and Data Science, ITADATA2022. Marco Anisetti, Angela Bonifati, Nicola Bena, Claudio A. Ardagna, Donato Malerba, 2022

Yin, Xuefei, Yanming Zhu, and Jiankun Hu. “A comprehensive survey of privacy-preserving federated learning: A taxonomy, review, and future directions.” ACM Computing Surveys (CSUR)54.6 (2021): 1-36

Warnat-Herresthal, Stefanie, et al. “Swarm learning for decentralized and confidential clinical machine learning.” Nature594.7862 (2021): 265-270

Polato, Mirko, Roberto Esposito, and Marco Aldinucci. “Boosting the federation: Cross-silo federated learning without gradient descent.” 2022 International Joint Conference on Neural Networks (IJCNN). IEEE, 2022

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

EU Stories - La coesione innova l'Italia

Tutti
Analisi
Video
Iniziative
Social
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 3