intelligenza artificiale

Web scraping, l’assalto dell’IA ai dati personali: sfide etiche e legali



Indirizzo copiato

L’addestramento delle IA richiede dati di qualità, ma la privacy è a rischio. La gestione dei dati personali, specialmente quelli raccolti tramite web scraping, pone sfide legali e morali, come dimostrato dall’accordo controverso tra Gedi e OpenAI

Pubblicato il 12 dic 2024



web scraping

Nel contesto dell’addestramento delle intelligenze artificiali, è fondamentale disporre di una base di dati ampia e qualitativamente adeguata per garantire performance affidabili ed efficaci.

Tuttavia, questa esigenza si scontra con le complesse dinamiche della gestione dei dati personali, soprattutto quando si tratta di informazioni raccolte attraverso il web scraping.

Il tema dei dati per addestrare le IA

Recentemente, ad esempio, sono emerse problematiche significative relative al trattamento dei dati pubblicati da testate giornalistiche online. Nonostante le aree riservate ai soli utenti paganti siano considerate una misura di protezione, il dilemma sorge se tali contenuti possano essere liberamente ceduti agli sviluppatori di sistemi di IA per scopi di addestramento. Così ha fatto, ad esempio, ha fatto il Gruppo Editoriale Gedi, con un accordo che ha suscitato la preoccupazione del Garante per la protezione dei dati personali.

Si tratta di un tema molto complesso, che proveremo a esplorare nei dettagli analizzando le implicazioni legali, tecniche e etiche dell’addestramento delle IA con dati personali, esaminando casi concreti e le normative vigenti che regolano tali pratiche.

Come abbiamo già evcidenziato, un sistema di intelligenza artificiale, quale che ne sia la natura, può garantire un adeguato livello di performance solo se opportunamente e correttamente addestrato: senza una base di dati sufficientemente ampia in termini quantitativi, e qualitativamente “pulita”, ogni output inferenziale (che si tratti di “previsioni, contenuti, raccomandazioni o decisioni” – art. 3 par. 1 n. 1 AI Act) non potrebbe che rivelarsi alterato, o poco affidabile.

Misurarsi con questa ineludibile realtà, significa accettare il fatto che, se all’IA stiamo affidando il ruolo decisivo di cui tanto si parla, non possiamo pretendere che i risultati arrivino senza garantire ai sistemi di lavorare compiutamente nella decisiva fase preliminare dell’apprendimento. Sarebbe come lamentarsi del fatto che il nostro cellulare non ha campo, ed al contempo pretendere che nelle nostre città non ci siano le antenne per portare il segnale!  

Ecco allora che, quando i dati oggetto della raccolta finalizzata all’addestramento rientrano nella categoria dei dati personali, si profila una sfida decisiva: reperire un punto di equilibrio tra una collazione a strascico incontrollata (come mettere le antenne su ogni palazzo di Roma) e dei lacci finalizzati a proteggere i dati tanto stretti da sabotare a monte la efficacia del sistema (come mettere le antenne solo… fuori dal Grande Raccordo Anulare).

Per arrivare ad un punto di sintesi virtuoso, l’unico modo è cercare di guardare al fenomeno dai diversi punti di prospettiva.

Web scraping e dati personali

L’addestramento di un sistema di IA postula da un lato una raccolta massiva di dati e dall’altro la loro memorizzazione e conservazione funzionali alla generazione del risultato elaborato dal sistema.  La raccolta, come prima componente di questo complesso fenomeno denominato web scraping, si concretizza nell’azione necessariamente massiva svolta dai Bot (o Web Robot), che scandagliano indiscriminatamente il web (o, in casi specifici, pescano in una sorta di supermercato di dati preconfezionato, i data lake messi a disposizione da soggetti specializzati).

È inevitabile, dunque, che venga in questione il tema della raccolta, tra gli altri, anche di dati personali diffusi tramite siti web di qualsiasi genere (o affogati nei lakes di cui sopra).

Ciò posto, e come noto, la relazione tra le nuove disposizioni in materia di IA e quelle nazionali e comunitarie in materia di protezione dei dati personali è chiarita dall’art. 2 par. 7 dell’AI Act che, senza mezzi termini,  lascia “impregiudicate” le regole privacy: trovano quindi piena applicazione anche in sede di web scraping gli obblighi posti dal GDPR e dal Codice Privacy a carico dei titolari del trattamento, e speculamente i diritti degli interessati consacrati nell’attuale assetto normativo.

Addestramento e vincoli per gli operatori (ChatGpt e Replika)

Il Garante Italiano (che a ciò sarà legittimato in esito alla entrata in vigore dell’AI Act anche sulla sola base della norma appena richiamata) ha iniziato già dallo scorso anno a scoperchiare la pentola partendo innanzitutto da chi già eroga servizi facilmente accessibili, e segnatamente OpenAI L.L.C. (che sviluppa e gestisce ChatGpt) e Luka ink (per l’avveniristico servizio Replika, che si assume esser “in grado di migliorare l’umore ad il benessere emotivo dell’utente” !). Passando prima attraverso dei provvedimenti di “limitazione provvisoria” (e cioè di sostanziale blocco del servizio per gli utenti italiani) e poi per dei provvedimenti di più ampio respiro (rispettivamente, doc. web n. 9874702 del 11.04.23 e doc. web 9852214 del 02.02.23), l’Autorità, oltre ad affrontare una serie di temi spinosissimi (es: age verification a tutela dei minorenni), ha puntato al  bersaglio grosso, affrontando proprio il tema della legittimazione a monte delle attività di web scraping, guardate con riferimento agli interessati i cui dati siano stati “raccolti e trattati ai fini dell’addestramento degli algoritmi”: l’obbligo imposto ai gestori, in qualità di titolari del trattamento, di predisporre una informativa coerente con i dettami dell’art. 12 del GDPR, non riguarda infatti soltanto gli utenti del servizio (come è naturale), ma anche chiunque abbia visto i propri dati inopinatamente raccolti dai Bot, riconoscendogli il diritto di conoscere le modalità del trattamento, la logica alla base dello stesso  e ogni altra informazione prevista dal GDPR.

Addestramento e prerogative dei gestori di siti web

Pubblicare un dato personale su un sito web, e dunque diffonderlo, è una forma di trattamento che postula la sussistenza di una base giuridica spendibile. Se, nell’esempio che riprenderemo in coda, una testata online propala un articolo che racconta delle gesta più o meno commendevoli di un interessato, lo fa sulla base di un “legittimo interesse” integrato dall’esercizio del diritto di cronaca. Bene. Ma la domanda è: una diffusione con queste finalità rende il dato automaticamente suscettibile di web scraping da parte degli sviluppatori di un sistema di IA? La raccolta massiva può legittimamente riguardare qualsiasi cosa sia pubblicata sul web, per il solo fatto di essere suscettibile tecnicamente di esse intercettata dai Bot?

La risposta, in esito ad una precipua indagine conoscitiva, l’ha data il Garante, con il provvedimento del 20.05.24 (doc web 10020316) e l’allegata nota informativa nella quale il primo invito ai gestori di siti web/titolari del trattamento, è proprio a chiedersi se la raccolta da parte di terzi per finalità di addestramento dei modelli di intelligenza artificiale sia “compatibile con le basi giuridiche e le finalità della pubblicazione” dei dati diffusi on line. In linea teorica, quindi, chiunque e per qualsiasi ragione gestisca un sito, dovrebbe innanzitutto effettuare questa valutazione per decidere se intervenire o meno. Nel dubbio (nel serissimo dubbio!) che il messaggio sia passato, e che questa gigantesca operazione (culturale prima ancora che tecnica) sia effettivamente in corso, il documento del Garante presenta dei tratti di grande interesse, nel momento in cui suggerisce una serie di “possibili cautele” che, sulla scorta di una valutazione da effettuarsi caso per caso, i titolari del trattamento di dati personali possono implementare “al fine di prevenire o mitigare, in maniera selettiva, l’attività di web scraping per finalità di addestramento di modelli di intelligenza artificiale generativa”. Spiccano, per quanto qui interessa, due misure:

  • innanzitutto la creazione di aree riservate, a cui si può accedere solo previa registrazione, rappresenta secondo l’Autorità una “valida cautela in quanto sottrae dati dalla ritenuta pubblica disponibilità”;
  • la de-indicizzazione, e cioè a dire (si perdoni la banalizzazione a livello tecnico) l’uso dei cosiddetti file robot.txt che se inseriti in una pagina web, impediscono (o meglio, dovrebbero impedire) ai bot scatenati dagli sviluppatori di sistemi di IA di intercettarne il contenuto.

Come già sottolineato, l’adozione di queste misure dovrebbe esser decisa dal gestore del sito web “caso per caso”: una dinamica che in qualche modo rimette al titolare, sotto lo scomodo cappello dell’accountability, l’onere di concorrere a reperire il citato punto di equilibrio tra razzia dei dati ed eccessiva limitazione delle attività di web scraping.

Addestramento e diritti degli interessati (opposizione e oblio)

Se si sposta il punto di prospettiva dal lato degli interessati (e cioè, nel caso di specie, di chiunque veda un proprio dato personale pubblicato on line, in quanto tale soggetto ad esser acquisito dai Bot degli sviluppatori di IA), mettendo insieme i principi generali del GDPR con i richiami che il Garante ha consacrato nei citati provvedimenti, il quadro si può così sintetizzare:

  • esisteva ed esiste il diritto all’oblio (oggi, art. 17 GDPR), e quindi la possibilità di richiedere al gestore di un sito di cancellare i propri dati se sussistono determinate condizioni. È noto come la ormai consolidata e risalente giurisprudenza del Garante, abbia fatto in modo lungimirante ed in qualche modo profetico, ricorso proprio alla misura della de-indicizzazione, come strumento per comporre i diversi interessi in gioco soprattutto in ambito giornalistico (salvando quindi dalla cancellazione gli articoli di stampa contenuti negli archivi on line, e tutelando gli interessati dal fatto che potessero essere “agganciati” dai motori di ricerca). Ecco allora che la misura della de-indicizzazione torna attuale, nel momento in cui nel citato provvedimento sul web scraping il Garante la pone come cautela adottabile dal gestore del sito web per impedire la raccolta a fini di addestramento di un sistema di IA. Quella che il Garante ha previsto come una “cautela” adottabile dal gestore del sito, si può infatti girare al contrario, ed esser vissuta come un diritto dell’interessato che presenti una ben costruita istanza, lamentando il difetto di coincidenza tra finalità perseguite da chi ha diffuso il dato, ed utilizzabilità dello stesso come strumento di addestramento.;
  • c’è poi una diversa via: l’Autorità, nelle prescrizioni impartite nei casi ChatGpt e Replika, ha espressamente richiamato a più riprese il diritto di opposizione (art. 21 GDPR), in particolare onerando gli sviluppatori di “mettere a disposizione, sul proprio sito Internet, almeno agli utenti del servizio, che si collegano dall’Italia, uno strumento facilmente accessibile attraverso il quale esercitare il diritto di opposizione al trattamento dei propri dati acquisiti in sede di utilizzo del servizio per l’addestramento degli algoritmi qualora la base giuridica prescelta sia il legittimo interesse”.  La locuzione “almeno agli utenti”, non esclude dal novero gli interessati che utenti non siano!

Sembrano esistere, quindi, per diverse vie, nuovi e potenzialmente illimitati filoni di contenzioso, legati alla possibilità per gli interessati di richiedere “a monte” o “a valle”, che i propri dati non finiscano nel calderone dei sistemi addestrativi di IA

Un caso d’uso: addestramento e testate giornalistiche on line

Tutti i temi appena trattati, trovano nelle testate giornalistiche online un terreno di sfida particolarmente rilevante, per tante e diverse ragioni. Non sembra esserci nessun dubbio, infatti, sul fatto che un dato diffuso nell’esercizio del diritto di cronaca non possa considerarsi ex se suscettibile di esser trattato per una finalità così diversa come l’addestramento di un sistema di IA.

E, come le recenti cronache dimostrano, se si guarda alle pubblicazioni delle testate giornalistiche on line (che siano correnti o in forma di archivi storici), la criticità non viene meno: da un lato, si potrebbe infatti affermare che la esistenza delle aree riservate ai soli utenti paganti (o che paghino… dando il consenso all’uso dei loro dati per finalità di marketing!) rappresentino di per sé sole una misura utile, come evidenziato dal Garante nel provvedimento sul web scraping che come abbiamo visto indica come prima misura di contenimento della problematica proprio la “creazione di aree riservate”. Ma che succede, appunto, se un gestore decide di mettere proprio quei contenuti a disposizione degli sviluppatori di un sistema di IA? Può farlo liberamente?

Il Garante non ne è affatto certo: e per rendersene conto, è sufficiente leggere il duro ”avvertimento” impartito dall’Autorità al Gruppo Editoriale Gedi (doc web 10077129 del 27.11.24), che dopo aver appena negoziato un accordo con Open AI per mettergli a disposizione a fini di addestramento di ChatGpt i propri archivi storici e correnti, è chiamata ad una serie di valutazioni di eccezionale difficoltà e rilevanza.

EU Stories - La coesione innova l'Italia

Tutti
Analisi
Video
Iniziative
Social
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4