L’intelligenza artificiale (AI) generativa è atterrata come una meteora nelle nostre vite. Tutti siamo corsi a fare parte dell’evoluto club degli utenti di ChatGPT. Ma in questa fase ancora sperimentale è naturale che ogni giorno venga scoperto un nuovo profilo di rischio e di vulnerabilità generato da questa tecnologia, con la conseguente corsa ai ripari da parte delle aziende interessate e l’introduzione di possibili rimedi.
Così, dopo avere messo in evidenza il pericolo di violazione del copyright, il potenziale manipolativo dei deepfake e la fallibilità dell’output di ChatGPT, ecco che i fatti di cronaca delle ultime settimane ci parlano di una nuova minaccia: i cosiddetti Data Leaks, ossia la perdita di dati ed informazioni confidenziali.
AI generativa e violazione di segreti commerciali
Da un lato, vi è la possibilità di un’involontaria violazione di segreti commerciali ed informazioni riservate in ambito aziendale, come testimoniato da un recente caso avvenuto presso la multinazionale coreana Samsung. In particolare, si sarebbero verificati tre diversi episodi di utilizzo pregiudizievole della piattaforma ChatGPT: in un caso, un dipendente avrebbe copiato ed incollato delle stringhe di codice sorgente protetto da segreto aziendale nella chat per verificare la presenza di errori; un altro impiegato avrebbe condiviso con ChatGPT una sequenza di test per i chip ai fini della sua ottimizzazione; mentre un terzo avrebbe condiviso una registrazione di una riunione per convertirla in appunti per una presentazione.
Dall’altro, anche il recente provvedimento del Garante italiano per la protezione dei dati personali nei confronti di ChatGPT – al quale accenneremo in seguito – ha puntato i riflettori sui dati personali catturati ed utilizzati dai sistemi di AI al di fuori del quadro di garanzie definito dal GDPR.
Proprio in questi giorni si segnalano importanti novità riguardanti ChatGPT su entrambi i fronti, ma naturalmente la piattaforma fornita da Open AI è soltanto la più nota tra le soluzioni di intelligenza artificiale generativa che, nei prossimi mesi e nei prossimi anni, saranno sempre più presenti nella vita di famiglie ed aziende.
La minaccia per i segreti aziendali
L’intelligenza artificiale generativa di testi fa uso di una complessa formulazione matematica e computazionale che è stata creata esaminando i modelli nei testi scritti e sul web. Come risultato dell’esame di milioni di passaggi scritti, l’intelligenza artificiale produce in pochi secondi nuovi contenuti che mescolano sapientemente ciò che è stato immesso nel sistema. Aggiungendo varie funzionalità probabilistiche, il testo risultante è praticamente inedito ma reimpiega i dati e le informazioni forniti in fase di addestramento.
I sistemi di deep learning, per impostazione predefinita utilizzano i dati immessi negli stessi ai fini di apprendimento e miglioramento degli algoritmi, prevedendo soltanto come opt out la possibilità di escludere i dati inseriti da tale processo, con possibili ricadute in termini di efficienza.
Termini e condizioni generali di ChatGPT
Esaminiamo, ad esempio, i termini e condizioni generali di ChatGPT.[1] Traducendo l’art. 3 (Content) si legge: “È possibile fornire input ai Servizi (“Input”) e ricevere output generato e restituito dai Servizi in base all’Input (“Output”). Input e Output sono collettivamente “Contenuti”. […] OpenAI può utilizzare i Contenuti per fornire e mantenere i Servizi, rispettare la legge applicabile e applicare le nostre policy. L’utente è responsabile dei Contenuti, anche per garantire che non violi alcuna legge applicabile o questi Termini.”
Alla luce dei recenti accadimenti, questo testo sembra responsabilizzare l’utente in caso di perdita di dati. Interessante è anche un riferimento alla policy “How your data is used to improve model performance[2]“, cui si rinvia più avanti nello stesso articolo[3], dal quale chiaramente si evince che le conversazioni potranno essere reimpiegate per il training del sistema. Segue un invito a disattivare l’addestramento nelle impostazioni di ChatGPT, anche mediante un apposito modulo di opt out, se si desidera che le nuove conversazioni non siano utilizzate per addestrare i modelli.
Le misure a tutela del patrimonio informativo aziendale
Ora, in Italia e nella Unione Europea il patrimonio informativo aziendale, generato internamente e dotato di un valore economico, riceve tutela a condizione che siano state adottate idonee misure per mantenerne la segretezza: a livello nazionale il principio è incorporato nel Codice della Proprietà Industriale, all’art. 98 e ss.. Pertanto, l’inserimento di informazioni e dati preziosi (come può essere un codice sorgente) che costituiscono segreto aziendale nei sistemi di AI determina necessariamente una perdita di confidenzialità e, quindi, dei relativi rimedi giudiziali. Ove poi venissero accidentalmente introdotti documenti finalizzati alla brevettazione di un trovato o di un processo ne verrebbero meno i presupposti di tutela.
Vi è, infine, un ulteriore rischio che è rappresentato dallo sfruttamento delle vulnerabilità sistemiche effettuato da cybercriminali con la finalità di carpire preziose informazioni. Come evidenziato dal recente report pubblicato da Cloud Security Alliance[4], visono infatti diverse modalità tramite le quali tali soggetti possono cercare di ingerirsi nell’utilizzo dei sistemi di generative AI.
La tutela dei dati personali
Altra area di attenzione non meno rilevante per i possibili impatti, anche sotto il profilo sanzionatorio, è rappresentata dalla protezione dei dati personali trattati nell’ambito della organizzazione aziendale attraverso i sistemi di intelligenza artificiale.
Grande risonanza mediatica hanno generato nei mesi scorsi il provvedimento adottato dal Garante per la protezione dei dati personali nei confronti della società Open AI, con il quale è stata disposta la limitazione provvisoria del trattamento dei dati personali degli interessati stabiliti nel territorio italiano attraverso la piattaforma di intelligenza artificiale ChatGPT[5] ed il dialogo successivamente avviato, che ha portato, a fine aprile 2023, all’adozione da parte della società statunitense di misure di maggior tutela per i diritti degli interessati in ottemperanza alle indicazioni dell’Autorità[6].
Le criticità evidenziate hanno anche indotto lo European Data Protection Board alla istituzione di una task force volta a favorire la cooperazione ed un maggior scambio di informazioni tra le diverse autorità europee con riguardo alle indagini avviate in relazione alla piattaforma ChatGPT[7].
Le verifiche necessarie per assicurare che il trattamento dati personali avvenga in conformità alla normativa applicabile
Anche alla luce di tali recenti iniziative, il rapporto tra intelligenza artificiale e protezione dei dati personali impone ad ogni organizzazione che intenda integrare nei propri processi aziendali simili tecnologie di condurre in via preliminare tutte le verifiche necessarie al fine di assicurare che l’eventuale trattamento di dati personali avvenga in modo pienamente conforme alla normativa applicabile.
Sarà, dunque, necessaria una scrupolosa attività di due diligence – in osservanza di quanto già prescritto dagli articoli 28 e 32 del GDPR – volta ad individuare le tecnologie ed i partner che consentono un trattamento di dati personali in osservanza dei limiti e degli obblighi prescritti dal GDPR e dalla normativa nazionale in materia di protezione dei dati personali. Di particolare importante sarà l’implementazione di misure tecniche ed organizzative, volte a limitare al minimo i possibili rischi per i diritti e le libertà delle persone connessi al trattamento di dati di natura personale.
Il tema andrà presidiato da ciascuna organizzazione sotto una duplice prospettiva: in primo luogo andranno assolti tutti gli adempimenti necessari all’integrazione di sistemi di AI nei processi aziendali secondo una logica di privacy by design; in secondo luogo, andranno adottate le necessarie misure volte ad evitare un utilizzo di tali strumenti da parte dei dipendenti al di fuori dei perimetri autorizzati e governati da parte dell’azienda.
Rispetto al primo punto – al di là degli obblighi di compliance comuni a tutti i trattamenti di dati personali – l’argine specificamente definito dal GDPR con riguardo ai sistemi di AI, è rappresentato dall’articolo 22, che vieta i processi decisionali automatizzati, ivi inclusa la profilazione, che possano produrre sull’interessato effetti rilevanti giuridicamente o, comunque, effetti capaci di incidere significativamente sullo stesso, a meno che tale decisione non sia necessaria per la conclusione o l’esecuzione di un contratto di cui è parte l’interessato, sia autorizzata dalla legge o si basi sul consenso esplicito dell’’interessato. Anche in tali ipotesi, peraltro, all’interessato dovrà essere garantito il diritto di ottenere l’intervento umano da parte del titolare del trattamento, di esprimere la propria opinione e di contestare la decisione.
Il trattamento di dati personali attraverso sistemi di AI potrà, dunque, avvenire solo a determinate condizioni ed in presenza di specifiche garanzie, in coerenza con le informazioni relative al trattamento di dati personali fornite alle diverse categorie di interessati coinvolte nel trattamento.
Come evitare i Data Leaks
Alla luce di tali rischi, tutt’altro che trascurabili, che coinvolgono sia la protezione del patrimonio informativo aziendale, sia la compliance con gli obblighi prescritti in materia di privacy, ciascuna organizzazione sarà chiamata ad un approccio consapevole e responsabile; dovrà quindi:
- stabilire se consentire o meno ai propri dipendenti l’utilizzo di sistemi di AI nello svolgimento delle mansioni lavorative,
- definire quali categorie di informazioni possano essere processate attraverso tali sistemi
- disciplinare in modo dettagliato modalità e limiti d utilizzo, prevedendo i necessari presidi a tutela dei dati personali o di altre informazioni confidenziali.
Per non vanificare gli investimenti cospicui effettuati dalle aziende in termini di cybersecurity, diventa quindi fondamentale regolare l’utilizzo da parte dei dipendenti di sistemi di AI con adeguati strumenti organizzativi, quali policy e procedure interne, da affiancare ad idonee misure di sicurezza di tipo tecnico, quali canali di comunicazione crittografati e modalità di autenticazione sicura per il solo personale autorizzato.
Sotto il profilo organizzativo, ai sistemi di AI potrà essere riservata una specifica sezione della policy aziendale relativa all’utilizzo degli strumenti informatici, disciplinata dal Garante per la protezione dei dati personali sin dal 2007[8].
Nelle organizzazioni più strutturate o che prevedono un ampio uso dell’intelligenza artificiale, andrà adottato anche un modello di governance, con l’individuazione di team dedicati, capaci di combinare le competenze in ambito cyber e data protection con la protezione della proprietà intellettuale.
Sarà, infatti, sempre più frequente l’esigenza di validare l’adozione di nuovi sistemi di intelligenza artificiale, attraverso una adeguata verifica dei rischi che essi possono comportare in ambito aziendale sotto il profilo della sicurezza, della privacy dei segreti e della proprietà intellettuale, così come di garantirne l’aggiornamento ed il costante monitoraggio.
La potenziale pervasività di tali sistemi suggerisce di adottare, anche sotto il profilo tecnologico, misure volte a contenere al minimo l’utilizzo di informazioni confidenziali e di dati personali.
Le misure introdotte da OpenAI
Mentre stanno già comparendo sul mercato programmi che promettono di impedire ai dipendenti il caricamento di informazioni aziendali segrete o limitarlo significativamente, proprio in questi giorni Open AI ha introdotto la possibilità di disattivare la cronologia della chat in ChatGPT[9]. Le conversazioni avviate quando la cronologia chat è disabilitata non verranno utilizzate per addestrare e migliorare i modelli e non verranno visualizzate nella barra laterale della cronologia. Questa funzione sarà gestibile nelle impostazioni di ChatGPT: quando la cronologia chat è disabilitata, le nuove conversazioni saranno conservate per trenta giorni ed esaminate al solo fine di monitorare eventuali abusi, prima di eliminarle definitivamente.
Non stupisce, inoltre, l’annuncio da parte di Open AI dell’imminente lancio di una versione “business” di ChatGPT che garantisce un maggiore controllo dei dati immessi dagli utenti ed un’impostazione di default che esclude l’utilizzo di tali dati per finalità di training dei modelli utilizzati dalla piattaforma.
Salvaguardie ulteriori
Ma, anche all’interno dell’azienda che intenda utilizzare un sistema di AI, potranno essere previste salvaguardie ulteriori, volte a rinforzare le misure messa a disposizione del fornitore della piattaforma. Ad esempio, sotto il profilo della protezione dei dati personali, assume particolare importanza una corretta adozione delle cosiddette Privacy Enhancing Technology, favorendo per quanto possibile l’utilizzo di dati anonimizzati o quanto meno pseudonimizzati.
Altra misura sicuramente raccomandabile, in particolare nel caso di integrazione di sistemi di intelligenza artificiale attraverso API, è l’impiego di set di dati sintetici[10]: dati non riferibili a persone realmente esistenti – e, quindi, non sottoposti ai vincoli normativi imposti dalla protezione dei dati personali – ma capaci di replicare, sotto il profilo matematico e statistico, i medesimi modelli generati da dati ed eventi reali.
L’auspicio è che l’adozione di tali soluzioni tecnologiche, a tutela delle informazioni aziendali e dei dati di natura personale, possa subire un’accelerazione analoga a quella, straordinaria, che in questi ultimi mesi sta favorendo un impiego sempre più diffuso dei sistemi di intelligenza artificiale.
[1] Alla data del 30 aprile 2023
[2] https://help.openai.com/en/articles/5722486-how-your-data-is-used-to-improve-model-performance
[3] La traduzione è nostra: “Una delle caratteristiche più utili e promettenti dei modelli di intelligenza artificiale è che possono migliorare nel tempo. Miglioriamo continuamente i nostri modelli attraverso le scoperte della ricerca e l’esposizione a problemi e dati del mondo reale. Quando condividi i tuoi dati con noi, aiuta i nostri modelli a diventare più accurati e migliori nel risolvere i tuoi problemi specifici e aiuta anche a migliorare le loro capacità generali e sicurezza. Non utilizziamo i dati per vendere i nostri servizi, pubblicità o creare profili di persone: utilizziamo i dati per rendere i nostri modelli più utili per le persone. ChatGPT, ad esempio, migliora con un ulteriore training sulle conversazioni che le persone hanno con esso, a meno che tu non scelga di disabilitare la formazione.”
[4] https://cloudsecurityalliance.org/artifacts/security-implications-of-chatgpt/
[5] Si veda Provvedimento dell’Autorità Garante per la protezione dei dati personali del 30 marzo 2023 [9870832] su https://www.garanteprivacy.it/web/guest/home/docweb/-/docweb-display/docweb/9870832;
[6] Si veda comunicato “ChatGPT: OpenAI riapre la piattaforma in Italia garantendo più trasparenza e più diritti a utenti e non utenti europei” – https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/9881490.
[7] Si veda https://edpb.europa.eu/news/news/2023/edpb-resolves-dispute-transfers-meta-and-creates-task-force-chat-gpt_en;
[8] Si vedano le linee guida del Garante per posta elettronica e internet del 1° marzo 2007 – https://www.garanteprivacy.it/home/docweb/-/docweb-display/docweb/1387522.
[9] https://openai.com/blog/new-ways-to-manage-your-data-in-chatgpt
[10] https://edps.europa.eu/press-publications/publications/techsonar/synthetic-data_en