Nel corso degli ultimi mesi, la crescita esponenziale dell’utilizzo di piattaforme di Intelligenza Artificiale (AI) generativa sta sollevando anche qualche preoccupazione riguardo alla sicurezza dei dati.
Alcuni attori del panorama imprenditoriale stanno allora decidendo di adottare soluzioni di AI private, riconoscendone la strategicità: esse permettono di elaborare enormi quantità di dati con una maggiore protezione della privacy e un più elevato livello di personalizzazione, garantendo così un vantaggio competitivo significativo.
AI generativa e sicurezza dei dati: cresce la consapevolezza delle aziende
Partiamo da uno dei casi più eclatanti. A metà del 2023, nel pieno del periodo di boom delle chat AI, un’importante azienda come la Samsung ha deciso di vietare ai propri dipendenti l’uso di strumenti di AI generativa internet based, una scelta successivamente adottata anche da altre importanti compagnie come Apple.
Secondo quanto riportato dalla stampa, la decisione di Samsung di vietare l’utilizzo di piattaforme di AI generativa esterne all’azienda è stata supportata da un’indagine interna che ha coinvolto il personale. I risultati del sondaggio hanno evidenziato che una significativa maggioranza dei dipendenti, pari al 65%, percepiva questi strumenti di intelligenza artificiale come una potenziale minaccia per la sicurezza dei dati aziendali. Questa diffusa percezione tra il personale ha influito in modo determinante sulla scelta della compagnia di adottare misure restrittive, al fine di tutelare l’integrità delle informazioni sensibili e prevenire potenziali violazioni della privacy.
La preoccupazione per la sicurezza dei dati aziendali, esemplificata da episodi come questo, sta spingendo molte organizzazioni pubbliche e private a livello globale a valutare l’adozione di sistemi privati di AI basati su Language Model (LM). Questi sistemi, integrati all’interno delle infrastrutture IT delle stesse organizzazioni, offrirebbero un maggior controllo sulla gestione e la protezione delle informazioni sensibili. Pertanto, sempre più organizzazioni pubbliche e private stanno considerando diverse opzioni di implementazione, tra cui l’installazione di AI private nei propri data center o il ricorso a soluzioni di housing (co-location), che consentano di mantenere il controllo sull’hardware e sulla sicurezza fisica dei server.
Questa tendenza evidenzia la crescente consapevolezza delle organizzazioni riguardo all’importanza di trovare un equilibrio tra i benefici offerti dall’AI generativa e la necessità di garantire la riservatezza e l’integrità dei propri dati.
Le vulnerabilità delle AI pubbliche
Il ricorso ad API di terze parti per accedere a strumenti di AI generativa, può comportare anche potenziali rischi per la sicurezza dei dati di una organizzazione. Quando si utilizza un’API esterna, le informazioni escono inevitabilmente dai confini sicuri dell’infrastruttura di rete privata.
La trasmissione di tali dati riservati a sistemi esterni per l’elaborazione, in particolare attraverso il web pubblico, aumenta notevolmente i rischi di violazioni dei dati, accesso non autorizzato, re-identificazione e non conformità alle normative sulla protezione dei dati. Inoltre, le API esterne rappresentano obiettivi primari per gli attacchi informatici volti a sottrarre dati sensibili ed anche i dati anonimizzati possono potenzialmente essere de-anonimizzati combinando informazioni provenienti da diverse fonti
Il funzionamento di una AI privata
In questo contesto, emerge il concetto di AI privata, consistente in architetture proprietarie progettate per operare interamente all’interno dell’infrastruttura IT di un’organizzazione, senza la necessità di trasmettere dati a sistemi esterni. A differenza dei modelli pubblici, che richiedono l’invio di informazioni a sistemi di terze parti, un LM su AI privata lavora esclusivamente sui server e sui data center dell’organizzazione. Questa peculiarità garantisce che nessun dato esca mai dai confini sicuri della rete privata e/o virtuale (VPN) dell’organizzazione.
Dal punto di vista tecnico, un’AI privata si basa solitamente su un’architettura decentralizzata, in cui il modello di linguaggio viene addestrato localmente utilizzando i dati proprietari dell’organizzazione. Questo approccio consente di personalizzare il modello in base alle esigenze specifiche, migliorando peraltro l’accuratezza e la pertinenza delle risposte generate dall’AI. Su una AI privata, è quindi possibile personalizzare il livello di sicurezza informatica implementando i più avanzati meccanismi di sicurezza già in uso nell’organizzazione, come ad es. la crittografia end-to-end dei dati, il controllo degli accessi basato sui ruoli (RBAC) e l’autenticazione a più fattori (MFA). Questi strumenti garantiscono che solo il personale autorizzato possa accedere al sistema e che i dati sensibili siano protetti da accessi non autorizzati o violazioni. Un altro vantaggio delle AI private è la loro scalabilità. L’architettura modulare consente, infatti, di adattare facilmente il sistema alle crescenti esigenze di elaborazione e storage dell’organizzazione. Inoltre, le AI private possono essere opportunamente integrate con altre tecnologie, come la computer vision, lo speech-to-text e l’IoT per favorire l’analisi dei dati e per creare soluzioni personalizzate ad alte prestazioni.
Un’AI privata può supportare modelli proprietari e/o opensource. Le organizzazioni possono installare questi modelli sui propri server senza fare affidamento su API e cloud esterni, garantendo il controllo sui dati e sulla privacy. Inoltre, i Language Model (LM) possono essere addestrati e perfezionati su dati interni per adattarsi meglio al dominio dell’organizzazione, migliorando l’accuratezza e la pertinenza delle risposte. I contenuti testuali provenienti da queste fonti vengono generalmente convertiti in rappresentazioni vettoriali anonimizzate utilizzando tecniche come il word embedding. Questo processo preserva la privacy consentendo al contempo al modello di apprendere dai dati.
Le rappresentazioni vettoriali fungono da base per l’addestramento del LM e consentono di rispondere alle query degli utenti con informazioni pertinenti. Il database vettoriale funge da indice che il LM può ricercare rapidamente per recuperare contenuti simili quando risponde alle query degli utenti. Le query possono essere inviate tramite API o attraverso un’interfaccia utente conversazionale (chatbot). L’interfaccia utilizza l’indice vettoriale per fornire al LM un contesto pertinente dai dati dell’organizzazione, senza esporre documenti reali. Per garantire la massima sicurezza, tutte le comunicazioni tra le varie componenti delle AI private sono crittografate, prevenendo qualsiasi perdita di dati durante l’elaborazione.
La crittografia omomorfica
Il sistema di crittografia dei dati più indicato all’utilizzo nelle AI private è generalmente quello omomorfico. A differenza dei tradizionali metodi di crittografia, che richiedono di decifrare i dati prima di poter eseguire qualsiasi calcolo, questo sistema consente di eseguire operazioni direttamente sui dati crittografati. Il vantaggio principale della crittografia omomorfica è che permette di preservare la privacy e la sicurezza dei dati originali mentre si eseguono calcoli su di essi. Ciò è particolarmente utile in scenari come il cloud computing. Con la crittografia omomorfica, i dati possono rimanere crittografati durante tutto il processo di elaborazione, garantendo che rimangano riservati. Esistono diversi schemi di crittografia omomorfica, ognuno con diverse capacità. La crittografia omomorfica parziale (PHE) consente di eseguire solo operazioni specifiche sui dati crittografati. La crittografia completamente omomorfica (FHE) è la forma più potente e flessibile, che consente di eseguire qualsiasi operazione sui dati crittografati, anche se attualmente è computazionalmente onerosa.
Politiche di accesso granulari, ruoli utente e permessi completano poi il contesto di sicurezza di una Private AI inibendo l’accesso non autorizzato all’LLM e ai dati sottostanti, mentre l’auditing fornisce visibilità sull’accesso al sistema. Queste misure di sicurezza assicurano che i dati sensibili rimangano protetti durante l’utilizzo in AI private.
I vantaggi delle AI private
Uno dei vantaggi più significativi delle AI private consiste, quindi, nella loro capacità di garantire una maggior sicurezza dei dati. Mantenendo tutti i dati nei propri server e data center, le organizzazioni possono ridurre drasticamente il rischio di violazioni, accessi non autorizzati e altre minacce alla sicurezza. Evitando la trasmissione di informazioni sensibili a sistemi esterni, esse possono inoltre garantire la conformità alle disposizioni sulla localizzazione dei dati e sulla privacy. Questo è particolarmente indicato per i settori altamente regolamentati come sanità, finanza e pubblica amministrazione, in cui la non conformità può comportare severe sanzioni e/o danni alla reputazione.
Gli LM privati offrono, inoltre, il vantaggio di poter essere addestrati su dati specifici dell’azienda, consentendo risultati più accurati e pertinenti per il contesto dell’organizzazione. A differenza dei modelli pubblici di LLM, che sono addestrati su vasti corpus di dati generici, una AI privata può essere ottimizzata utilizzando informazioni proprietarie, terminologia aziendale e casi d’uso specifici del settore. Questa personalizzazione migliora la qualità delle analisi e previsioni, fornendo insight più efficaci e migliorando l’esperienza degli utenti.
In termini organizzativi, con le AI private le organizzazioni mantengono il pieno controllo sui propri modelli, potendo implementare politiche di governance dei dati e monitorarne l’utilizzo all’interno dell’organizzazione. Questo livello di controllo consente alle imprese di allineare l’implementazione dell’AI con i propri valori, obiettivi e requisiti normativi. Inoltre, l’AI privata permette di effettuare audit e monitorare l’uso dei modelli di linguaggio, garantendo trasparenza e accountability nell’applicazione dell’AI all’interno dell’organizzazione.
Le sfide: risorse, competenze e aggiornamento
Oltre agli indubbi vantaggi, l’implementazione di modelli di LM privati presenta naturalmente diverse sfide che le organizzazioni devono affrontare:
- Risorse computazionali – Una delle sfide più significative nell’implementazione delle AI private è il fabbisogno di risorse computazionali. L’addestramento e l’esecuzione di LM richiedono una notevole potenza di calcolo, che può essere costosa da acquisire e mantenere internamente. A differenza delle API pubbliche, che sfruttano l’infrastruttura del provider, le organizzazioni che adottano la Private AI devono investire in hardware e software specializzati per supportare i loro modelli. Questo può comportare costi significativi per l’acquisto di server, GPU e altre risorse computazionali, oltre alle spese operative dei data center.
- Competenze tecniche – Lo sviluppo e la gestione di modelli di AI privati richiedono competenze specialistiche che potrebbero non essere immediatamente disponibili all’interno dell’organizzazione. L’implementazione delle AI private richiede un team di data scientist, ingegneri esperti in machine learning ed esperti di infrastrutture con conoscenze approfondite degli LM e delle best practice per la loro ottimizzazione. Trovare e trattenere talenti con queste competenze può essere difficile, soprattutto in un mercato del lavoro competitivo come quello attuale. Le organizzazioni potrebbero dover investire in formazione e sviluppo del personale o ricorrere a consulenti esterni per colmare le lacune di competenze, aumentando ulteriormente i costi e i tempi di implementazione.
- Aggiornamenti e manutenzione – Mantenere un LM privato aggiornato richiede un investimento continuo in termini di tempo e risorse. Il campo dell’intelligenza artificiale è in rapida evoluzione, con frequenti miglioramenti agli algoritmi, alle architetture dei modelli e alle tecniche di addestramento. Per rimanere all’avanguardia, le organizzazioni devono allocare risorse dedicate per monitorare gli sviluppi del settore, aggiornare i propri modelli e ottimizzare le prestazioni. Questo processo continuo di aggiornamento e manutenzione può essere impegnativo, richiedendo un impegno a lungo termine per l’innovazione e il miglioramento.
Il “nodo” dell’addestramento di una Private AI
L’addestramento di una AI privata offre sicuramente numerosi benefici. Addestrando un’AI sui propri dati, le organizzazioni possono garantire che le informazioni sensibili rimangano all’interno dei confini aziendali, riducendo i rischi di violazione della privacy e di accessi non autorizzati. Inoltre, un’AI privata può essere personalizzata attraverso l’addestramento su dati specifici del dominio, consentendo di ottenere risultati più accurati e pertinenti per le esigenze dell’organizzazione. Non da ultimo, un’AI privata ben addestrata può fornire alle organizzazioni un vantaggio competitivo, permettendo di automatizzare i processi, migliorare l’efficienza e prendere decisioni basate sui dati.
Tuttavia, l’addestramento di un’AI privata presenta anche alcune criticità da affrontare. In primo luogo, richiede investimenti significativi, quantomeno nella fase iniziale di implementazione, in termini di costi e risorse, sia per quanto riguarda l’hardware e le infrastrutture, sia per le competenze tecniche necessarie. Le organizzazioni devono essere preparate a dedicare le risorse adeguate per sviluppare e mantenere il sistema. Inoltre, l’efficacia di un’AI privata dipende strettamente dalla qualità dei dati utilizzati per l’addestramento. È, pertanto, fondamentale garantire che i dati siano accurati, completi e privi di bias per ottenere risultati affidabili. Un altro aspetto da considerare è la necessità di un aggiornamento continuo: le AI private richiedono un addestramento e un aggiornamento costanti per rimanere efficaci nel tempo, implicando un impegno a lungo termine per mantenere e migliorare il sistema. Le organizzazioni devono quindi investire in maniera permanente nella formazione del personale o nell’assunzione di esperti per garantire il funzionamento del sistema sul lungo termine.
Nonostante le sfide, per molte organizzazioni i vantaggi dell’addestramento di un’AI privata possono però superare gli svantaggi. La possibilità di sfruttare i benefici dell’AI generativa mantenendone il completo controllo è un fattore chiave ma è fondamentale valutare attentamente i costi, le risorse e le competenze necessarie prima di intraprendere un progetto di questo tipo.
Conclusioni
Se le AI private offrono molteplici vantaggi, le organizzazioni devono considerare attentamente le sfide legate alle risorse computazionali, alle competenze tecniche e agli aggiornamenti e manutenzione. L’implementazione di LM privati richiede investimenti significativi in hardware, software e personale specializzato, oltre a un impegno continuo per rimanere al passo con gli ultimi progressi dell’AI.
Solo affrontando proattivamente queste sfide, le organizzazioni possono sfruttare appieno il potenziale delle AI private, ottenendo vantaggi competitivi attraverso piattaforme proprietarie, sicure e personalizzate. Con un’attenta pianificazione della strategia, quindi, le organizzazioni possono superare le complessità dell’adozione delle AI private e sbloccare nuove opportunità di innovazione e crescita.