intelligenza artificiale

Web scraping per allenare l’IA: come proteggere privacy e diritti IP?

Il web scraping, ovvero l’estrazione automatizzata di dati online, è sempre più diffuso, soprattutto per l’allenamento delle intelligenze artificiali. Tuttavia, solleva questioni legali e etiche significative, come la violazione della privacy, dei diritti di proprietà intellettuale e dei termini di servizio dei siti web

Pubblicato il 3 set 2024

Fabia Cairoli

Data and Privacy, Legal Counsel

Il ricorso al web scraping, cioè a tecniche automatizzate che consentono di estrarre informazioni da ambienti online, è sempre più diffuso. Il processo si basa sulla ricerca ed estrazione di contenuti, per gli utilizzi più disparati. Il Garante per la protezione dei dati italiano (“Garante”) lo descrive come una “…attività di raccolta massiva ed indiscriminata di dati (anche personali) condotta attraverso tecniche di web crawling [che] è combinata con un’attività consistente nella memorizzazione e conservazione dei dati raccolti dai bot per successive mirate analisi, elaborazioni ed utilizzi” (più avanti approfondiremo il concetto).

AI e diritto d’autore: vantaggi e limiti legali dei sistemi anti-web scraping

Indice degli argomenti

Come avviene il processo di web scraping

Data la moltitudine di ambienti da “scansionare” e la grande quantità di informazioni, il processo viene attuato avvalendosi di sistemi automatizzati quali l’analisi dei codici HTML e l’uso di API (application programming interfaces): spesso viene persino simulato l’intervento umano (sebbene si tratti di una tecnologia a tutti gli effetti).

Queste tecniche esistono da tempo ma l’attenzione mediatica – e del regolatore – è significativamente aumentata di recente, dato che il web scraping viene impiegato per allenare le intelligenze artificiali. Uno degli effetti dell’incremento nello sviluppo di queste tecnologie è la “fame” di informazioni: allo scopo di perfezionare la loro abilità nello svolgere i compiti affidati oltre che per fornire risultati accurati. Quanto più saranno accurati i risultati, tanto più queste tecnologie verranno considerate insostituibili assistenti.

Il ricorso al web scraping solleva, tuttavia, numerosi interrogativi: tra questi, il rischio di violazione dei diritti di proprietà intellettuale e delle normative sulla privacy nonchè dei termini di servizio dei siti web. Non è solo difficile garantire un approccio in linea con la normativa, ma diventa anche fondamentale interrogarsi sulle ripercussioni di natura etica.

Le principali criticità legali del web scraping

L’incremento del ricorso al web scraping (che ha reso impossibile ignorare il fenomeno), una crescente pressione mediatica, la coscienza che è proprio un grande volume di dati ad accrescere i rischi di abusi (come in generale riconosciuto nel caso dei cd big data), sono tra le ragioni di un sempre maggiore interesse rispetto al web scraping.

I principali rischi connessi al suo impiego riguardano:

Privacy degli utenti – Lo scraping spesso comporta la raccolta di grandi quantità di dati personali. Questo può portare a violazioni della privacy, poiché le informazioni possono essere raccolte e utilizzate in modo improprio.
Diritti di proprietà intellettuale – La raccolta di contenuti avviene senza riconoscerne la paternità agli autori, i quali cosi’ perdono il controllo sugli impieghi delle loro creazioni ma anche sui propri dati (profilo che si sovrappone alle criticità privacy).
Termini contrattuali degli editori degli ambienti online – La legalità dello scraping dipende dai termini di servizio che regolano l’ambiente online, che ospita il contributo che si intende raccogliere.
Misure di sicurezza – La raccolta indistinta di informazioni potrebbe comportare rischi di compromissione incontrollata dei dati.
Controllo sulla bontà dei contenuti – Un fattore che potrebbe inficiare l’attendibilità dei contenuti poi prodotti dalle intelligenze artificiali.

Al fine di mitigare tali rischi, si assiste a ripetuti interventi da parte del legislatore e della giurisprudenza, chiamate a prendere posizioni spesso difficili, poichè il contesto normativo di riferimento è in continua evoluzione.

I rischi connessi alla violazione dei dati personali

Per quanto riguarda i rischi di una incompatibilità del web scraping con la normativa privacy (pensando prevalentemente al Regolamento (UE) 2016/679, anche noto come “GDPR”), gli aspetti principali da considerare sono “trasparenza” e “sicurezza”. Gli sviluppatori di sistemi di AI, ad esempio, stanno affrontando diversi procedimenti per asserite violazioni della normativa privacy (uno dei più noti è stato intentato da parte di noyb ad aprile 2024 nei confronti di OpenAI).

I vari procedimenti in corso evidenziano che i requisiti per rendere le operazioni di web scraping compatibili con la normativa del GDPR sono molteplici e ricadono in parte sulla società che opera tale raccolta e in parte su quella che dovrebbe proteggere i contenuti. Ed è proprio con questa ripartizione di responsabilità che devono essere considerati i seguenti requisiti:

La qualificazione privacy dei soggetti coinvolti

Il Garante olandese (con le proprie Linee guida dello scorso maggio 2024) ha fornito pratici spunti, anche suggerendo i ruoli privacy che le parti coinvolte assumerebbero. Il sito che ospita i contenuti e la società che effettua lo scraping assumerebbero il ruolo di titolari (l’uno o l’altro o entrambi, a seconda del tipo di relazione contrattuale che li lega), fermo restando che la fase successiva alla raccolta – laddove i dati siano processati per determinati fini – sarebbe realizzata dalla società che effettua lo scraping, come titolare appunto. Se, invece, il fine è condiviso, le parti potrebbero operare come contitolari. In ogni caso, la corretta qualificazione dei ruoli consente di comprendere anche a quale parte spettino determinate obbligazioni, tra cui la individuazione della base giuridica e la fornitura di un’informativa.

La trasparenza e la base giuridica

È necessario assicurarsi che gli utenti siano a conoscenza dei trattamenti cui i loro dati verranno sottoposti e della base giuridica applicabile: questa posizione pare intuitiva, dato che ogni trattamento è soggetto all’applicazione degli Articoli 6 – 14 GDPR ma di non facile realizzazione. In un caso riguardante il “rastrellamento” di dati da siti web della metà 2023, il Garante italiano ha ricordato che si tratta di requisiti imprescindibili.

Il provvedimento appena menzionato offre la possibilità di riflettere su un tema altrettanto dibattuto: la mera presenza di dati online non può dirsi sufficiente per effettuare una raccolta indistinta. I dati, anche se pubblici, devono essere impiegati nel rispetto del fine di utilizzo e rientrare nella aspettativa degli interessati. Un aspetto rimarcato più volte: ad esempio, (i) dall’Avvocato Generale nel procedimento C‑446/21, in cui si sottolinea come la diffusione di dati di natura sensibile è idonea a integrare una delle eccezioni ex Articolo 9 GDPR peraltro che, per il loro effettivo utilizzo, è anche necessaria la presenza di una delle condizioni previste dall’Articolo 6 GDPR, (ii) nel procedimento C-252/21, dove la Corte di Giustizia afferma che “ai fini dell’applicazione dell’eccezione prevista all’articolo 9, paragrafo 2, lettera e), del GDPR, si deve verificare se l’interessato abbia inteso, in modo esplicito e con un atto positivo chiaro, rendere accessibili al pubblico i dati personali in questione” e (iii) il provvedimento dello scorso agosto 2023, con cui il Garante ricorda che le informazioni (anche quelle pubblicamente accessibili) non possono essere utilizzate in modo sproporzionato – nel caso di specie, viene soppesato il diritto all’informazione e la libertà di attività giornalistica con i diritti del soggetto i cui dati venivano pubblicati.

Individuare la base giuridica applicabile

Oltre, dunque, ad una informativa che indichi gli utilizzi dei dati (e.g. IA training), la vera sfida è individuare la base giuridica applicabile:

La base contrattuale – Lo European Data Protection Board (“EDPB”) ricorda che non è possibile trasferire il rischio di un trattamento dei dati sugli utenti, adducendo la motivazione che avrebbero accettato le T&C del sito. Per tale ragione, questa base giuridica difficilmente potrebbe trovare applicazione.
Il consenso – Preferibile al fine di lasciare all’utente il massimo controllo sui propri dati ma difficile da applicare. In parte per la difficoltà di raccogliere consensi informati (dato che spesso gli utenti non comprendono fino in fondo i trattamenti) e in parte in quanto tale consenso andrebbe richiesto a tutti gli utenti.
Il legittimo interesse – Il Garante olandese ricorda che lo scraping non è un further processing, in quanto viene operato da terzi rispetto al titolare dei dati originari (mentre l’Articolo 6(4) GDPR si applica a nuovi trattamenti entro le operazioni dello stesso titolare). Una lettura del tutto condivisibile che ricorda che anche il legittimo interesse “resta in pista”, tra le basi giuridiche applicabili.

Il report Edpb sulle attività di Chatgpt e la posizione del Garante olandese

Lo EDPB, con un report sulle attività di ChatGPT pubblicato lo scorso maggio 2024 appare però scettico, considerando che parte del bilanciamento è dato dalla presenza di idonee misure di sicurezza che proteggono i dati e dalle misure preventive per evitare di raccogliere certe informazioni (e.g. su minori o dati sensibili). Anche il Garante olandese, nelle menzionate Linee guida, adotta una simile posizione: il legittimo interesse richiede un rigoroso “test di bilanciamento”. In breve, quello necessario a individuare se ricorra: (1) un interesse legittimo, (2) la necessità di trattare i dati per il fine che si persegue, (3) un equilibrio con gli interessi e le libertà degli interessati. Questi aspetti, tuttavia, renderebbero complesso poter svolgere un test di bilanciamento, principalmente in quanto:

non è chiaro se l’interesse perseguito debba anche consistere in un diritto codificato: non entriamo nel merito ma si tratta di una tematica dibattuta, attualmente al vaglio della Corte di Giustizia dell’UE (“CJEU”). La questione nasce da una posizione molto restrittiva assunta dal Garante privacy olandese, che ha sostanzialmente negato ad un interesse commerciale la possibilità di annoverarsi tra i legittimi interessi (con buona pace del diritto all’iniziativa economica). Anche volendo superare questo primo ostacolo, si pone comunque un altro aspetto difficile da interpretare: come ricorda l’ICO (il Garante privacy UK) in una recente consultazione pubblica sul tema, il primo dei requisiti del test di bilanciamento richiede che l’ente che effettua lo scraping sia consapevole dell’impiego che intende farne. Il che non è scontato. D’altra parte, in assenza di tale consapevolezza, non sarebbe certo possibile riconoscere la sussistenza di un interesse “legittimo”, visto che parrebbe più che altro un interesse ballerino. La questione diventa ancora più complessa, peraltro, se si pensa che spesso chi effettua il web scraping sviluppa sistemi AI a disposizione di terze parti: l’impiego di tali informazioni da parte di queste ultime potrà rientrare ancora nel medesimo interesse (legittimo) della parte che ha sviluppato il modello?
la quantità di dati e degli interessati, che rende il trattamento ad alto rischio;
la presenza di dati sensibili o giudiziari (e, si aggiunge, quelli su minori), che incrementano le difficoltà nella individuazione della base giuridica e incrementano il rischio;
il rispetto delle aspettative degli utenti.
I diritti privacy – Dato che le basi giuridiche più utilizzate per fini di allenamento delle AI sono il legittimo interesse e il consenso, si renderà necessario assicurare adeguatamente la possibilità di ricorrere al diritto di opposizione o revoca del consenso.

I rischi connessi alla violazione dei diritti IP

Al fine di gestire correttamente i diritti IP, invece, tocca agli operatori mettersi d’accordo. Sapendo che le pratiche di scraping sono sempre più frequenti e difficili da limitare, aumentano i negoziati tra titolari dei diritti IP e i produttori di soluzioni di IA. Lo sforzo nel conseguire degli accordi deriva da sempre più accuse degli operatori su una collazione non autorizzata di contenuti protetti da diritti IP e di dati che risultano anche protetti dal diritto civile in senso lato.

I casi più eclatanti

E’ il caso di alcuni attori che hanno lamentato un utilizzo improprio, ad esempio, della propria voce (si veda, e.g., il recente caso della Johansson) o di alcune azioni intentate da parte di autori (si veda, e.g., questa notizia). Forse uno dei casi più eclatanti è quello del New York Times che, nel dicembre 2023, ha intentato un’azione contro OpenAI, lamentando un utilizzo non autorizzato dei propri contenuti e ha chiesto la cancellazione dei dati raccolti in violazione del copyright. Pare interessante anche perché, almeno secondo OpenAI, il NYT avrebbe sostanzialmente hackerato l’algoritmo per collazionare elementi probatori a sostegno della propria tesi. Possiamo solo immaginare le notti insonni dei consulenti legali delle due parti coinvolte: da un utilizzo improprio di diritti IP ad un reato informatico, senza passare dal via.

Ed è quindi uno sforzo comune di tutti gli operatori quello che sta portando ad alcuni accordi tra gli sviluppatori delle soluzioni IA e taluni editori. Ad esempio, quello tra OpenAI e la tedesca Axel Springer.

Non è comunque questa la sede per analizzare le implicazioni IP nel dettaglio, data la loro complessità si rinvia ai contributi redatti dagli esperti della materia.

I rischi connessi alla violazione dei termini contrattuali

Il rischio di violare i termini contrattuali è piuttosto elevato: ben prima del proliferare di operazioni di scraping, gli editori già imponevano divieti sulla raccolta indiscriminata delle informazioni presenti online. Queste limitazioni si sono rese ancora più stringenti: una raccolta in violazione dei termini di utilizzo comporterebbe una violazione contrattuale a tutti gli effetti, con le possibili conseguenze in termini di risarcimento dei danni.

Le criticità in termini di sicurezza: quali misure adottare

Lo scraping può esporre i siti web a rischi di sicurezza. I bot automatizzati possono sfruttare le vulnerabilità nelle applicazioni web, portando alla violazione dei dati o alla compromissione dell’integrità del sito. Lo scraping eccessivo può comportare anche un carico significativo sui server del sito, portando a riduzioni delle prestazioni o causando tempi di inattività. Questo non solo influisce sul suo funzionamento, ma può anche penalizzare l’esperienza dell’utente.

Le ultime linee guida del Garante

A giugno 2024, il Garante per la protezione dei dati italiano ha reso note le proprie linee guida, per cui: “In attesa di pronunciarsi, all’esito di alcune istruttorie già avviate tra le quali quella nei confronti di OpenAI, sulla liceità del web scraping di dati personali effettuato sulla base del legittimo interesse, l’Autorità ha ritenuto necessario fornire a quanti pubblicano online dati personali in qualità di titolari del trattamento talune prime indicazioni sull’esigenza di compiere alcune valutazioni in ordine all’esigenza di adottare accorgimenti idonei a impedire o, almeno, ostacolare il web scraping”.

Le misure da rispettare rispetto allo specifico trattamento

Si tratta di misure che ciascun titolare deve valutare rispetto allo specifico trattamento. Le misure includono:

la creazione di aree riservate, a cui si può accedere solo previa registrazione, per sottrarre dati dalla ritenuta pubblica disponibilità;
l’inserimento nei termini di un sito web o di una piattaforma online dell’espresso divieto di utilizzare tecniche di web scraping;
il monitoraggio delle richieste HTTP ricevute da un sito web o da una piattaforma e l’applicazione di un rate limiting;
l’adozione di tecniche per limitare l’uso dei bot.

Le misure suggerite riprendono la posizione comune espressa da alcune Autorità garanti per la protezione dei dati personali con il Joint statement pubblicato ad agosto 2023: si tratta di un documento interessante perché esprime il timore che il web scraping comporti un data breach e che si rendano quindi necessarie misure di contenimento degli effetti (tra queste il ricorso a lettere di cease and desist).

L’assenza di misure di sicurezza volte a proteggere i dati degli utenti comporta responsabilità per il gestore del sito web o del dominio. Questa aspettativa è interessante, in particolare, poiché rafforza la responsabilizzazione di questi operatori rispetto a condotte che sono poste in essere da altri, esasperando il disposto dell’art. 32 GDPR. Ricorda in qualche modo la posizione che già in altri contesti le Autorità hanno adottato: pensiamo al caso di Cambridge Analytica, alla responsabilità del titolare per l’azione del responsabile, insomma ai casi in cui non è sufficiente ritenere che la condotta dipendesse da altri. Il GDPR applica il principio di accountability in modo molto esteso: fin troppo, almeno dal punto di vista degli operatori. Un concetto comunque già espresso dal Garante di San Marino nel 2021.

Altre criticità del web scraping

Raccogliere informazioni senza verificarne la fonte e spesso decontestualizzandole, comporta un forte rischio per chi se ne avvale. Se si pensa, ad esempio, alle risposte fornite dai più diffusi sistemi di IA impiegati dal pubblico non professionale, la verità è che non si è in grado di verificare l’iter che ha portato ad un determinato risultato. Ciò comporta che sia difficile potersi fidare delle risposte fornite da un sistema IA fornisce e che sia potenzialmente problematico potersi avvalere delle suddette risposte (e.g. in ambito sanitario, dove un professionista deve poter comprendere il “perchè”e il “come” di un percorso logico, per poter supportare la propria attività di ricercatore scientifico). Non solo.

La raccolta di informazioni da fonti indistinte comporta il fatto che un sistema di IA produrrà come risultato quello più diffuso o comunque si orienterà verso quella direzione. Questo significa che se la fonte delle informazioni è corrotta, deviata o estremista, i risultati che il sistema di IA proporrà lo saranno altrettanto, rafforzando i bias che già polarizzano la società (vediamo quanto accaduto con Tay, che ha portato Microsoft ad interrompere l’esperimento).

La dimensione etica dello scraping dei dati

Infine, non meno importante, esiste una dimensione etica dello scraping dei dati: l’accumulo di grandi quantità di dati aiuta a rafforzare il controllo sugli utenti. Peraltro, i fornitori delle soluzioni di IA spesso non si assumono responsabilità (ChatGPT, a espressa domanda, risponde che “No, ChatGPT non si assume la responsabilità per i contenuti che pubblica. ChatGPT è un’intelligenza artificiale progettata per fornire informazioni e assistenza basate sui dati con cui è stata addestrata. Tuttavia, le risposte generate potrebbero non essere sempre accurate o aggiornate, e non costituiscono consulenza legale, medica, finanziaria o professionale di altro tipo. È sempre consigliabile consultare un esperto umano qualificato per questioni critiche o decisioni importanti”, come poi ricordano i suoi termini di servizio). In un contesto in cui non è poi chiaro se ciò che rileva sia il dato originario oppure il risultato della elaborazione che ne consegue, non è immediato saper collocare le responsabilità; stando alle posizioni espresse da parte dei diversi sviluppatori, ad esempio, di sistemi IA, questa non potrebbe essere su di loro allocata. Ovviamente il tema è molto discusso e oggetto di normative che – in parte già finalizzate in parte in corso d’opera – intendono dare una certezza di interpretazione.

L’AI Act e il ruolo della giurisprudenza

Il progressivo imporsi di sistemi avanzati di AI ha portato ad un deciso cambio di rotta da parte delle Autorità, ad esempio con l’elaborazione del AI Act. L’intento è di imporre regole stringenti e di farle rispettare. Il problema di fondo pare essere che queste tecnologie presuppongono un impiego di informazioni che pare “by default” in violazione di diverse disposizioni normative e di sicurezza. Dove quindi il legislatore non è forse riuscito pienamente ad arrivare, dovrà arrivare la giurisprudenza, chiamata nuovamente a dare vita alla lettera della norma. I numerosi casi di cui si è accennato sono solo un esempio. Peraltro, l’opinione pubblica viene continuamente sollecitata dai contributi di associazioni a protezione dei diritti digitali: un recente intervento di noyb pare, ad esempio, aver bloccato gli intenti di Meta di avviare in Europa i primi utilizzi di dati degli utenti per fini di allenamento di AI.

Le misure per ridurre i rischi connessi all’uso di sistemi di AI

Viene anche da chiedersi quali possano essere le misure opportune per ridurre i rischi connessi all’uso di sistemi di AI, come anche se in effetti vi sia margine di convivenza tra questi sistemi e il quadro normativo: inoltre, a fronte della richiesta di cancellazione di dati raccolti impropriamente, ci si interroga su quali siano le informazioni che debbono essere rimosse.

Il ruolo dei dati sintetici

I potenziali pericoli sono evidenti: la potenziale perdita di controllo sui propri dati, che affligge gli utenti, fino alla poca affidabilità rispetto ai contenuti elaborati dai sistemi di AI (aspetti che vengono ricordati dallo European Data Protection Supervisor in un suo recente intervento, le Orientations on the use of generative AI). Peraltro, proprio alla luce delle complessità nel disporre di informazioni e anche in considerazione dell’abuso di quelle disponibili, è molto probabile che si renderanno sempre più importanti i cd dati sintetici, ovvero quelle informazioni di creazione artificiale. In quanto tali, questi ultimi si alimentano però di bias che si cristallizzano di utilizzo in utilizzo.

Il contributo riflette opinioni personali dell’autrice, che non rappresentano necessariamente la posizione della realtà professionale di appartenenza. Il contributo non è da considerarsi un parere legale né una descrizione esaustiva della tematica in oggetto.

@RIPRODUZIONE RISERVATA