Intelligenza artificiale

Addestrare l’AI senza violare il diritto d’autore: i nodi del Text e Data Mining

Il diritto d’autore fornisce l’eccezione di Text e Data Mining per distinguere tra violazione di copyright e libera utilizzazione con riferimento all’addestramento della intelligenza artificiale generativa. Ma la Direttiva Copyright nel Mercato Unico Digitale è stata scritta prima dell’avvento dell’AI e non è la soluzione di tutti i mali

Pubblicato il 13 dic 2023

Daniela De Pasquale

avvocato, partner studio legale Ughi e Nunziante

Technology,Blue,Background.,Binary,Code,Cyber,Texture.,Seamless,Binary,Code

L’eterna contrapposizione tra i titolari del diritto d’autore e l’industria delle tecnologie digitali oggi tiene luogo intorno all’addestramento dei sistemi di Intelligenza Artificiale generativa mediante l’utilizzo di grandi dataset: massive quantità di dati vengono elaborate dai cosiddetti Foundation Models, categoria cui appartengono i Large Language Models come ChatGPT, Bard etc..

Il” text and data mining” nella direttiva Ue copyright: i nodi tecnici, giuridici e linguistici

Indice degli argomenti

Il diritto d’autore nell’epoca della AI generativa

In particolare, l’addestramento dei modelli di intelligenza artificiale si trova al centro di un acceso dibattito: rappresenta una violazione del copyright o può beneficiare del trattamento riservato ad una libera utilizzazione?

Addestramento dell’AI gen: violazione di copyright o libera utilizzazione?

Coloro che promuovono la crescita dell’AI tendono ad escludere una violazione di copyright con vari argomenti. Ad esempio, recentemente mi è stata riportata una immagine suggestiva: l’intelligenza artificiale sarebbe come la mente di uno studente che legge tanti libri per poi trarne un insegnamento che non si tradurrà mai nella riproduzione delle opere lette ma in un livello di conoscenza superiore.

I giuristi utilizzano l’argomento delle libere utilizzazioni, atte a scriminare lo sfruttamento da parte dei sistemi AI di opere protette dal diritto d’autore.

È tuttavia un po’ semplicistico il ragionamento per cui questa massiva attività di addestramento, tanto dibattuta e contestata negli ultimi mesi, sarebbe possibile in virtù di una generalizzata facoltà di libera utilizzazione delle opere protette dal diritto d’autore, introdotta dal legislatore euro-unitario con riferimento alla cosiddetta attività di “data mining”.

Mentre, invece, è necessario qualificare di volta in vota l’attività svolta in sede di analisi computazionale, applicando diversi criteri in sede di valutazione.

Soccorre innanzitutto una prima distinzione. Non tutti i dati oggetto di addestramento sono protetti da diritti d’autore e spesso il valore risiede nelle informazioni che se ne possono trarre, più che nei dati intrinsecamente considerati.

Allorché, tuttavia, sia provato che l’addestramento è stato effettuato sulla base di articoli giornalistici, testi scientifici, libri, opere musicali, opere figurative o audiovisive, software, data base si pone il tema della tutela autorale. Sappiamo che in questo momento pendono numerosi procedimenti giudiziali aventi ad oggetto il training di questi sistemi proprio in relazione al largo impiego di dataset contenenti opere protette, con i limiti probatori del caso.

La definizione e l’applicazione del Text e Data Mining

Ma è interessante notare come il dibattito si sia ormai spostato sul piano della definizione di attività di addestramento e sulla possibilità di invocare eccezioni di legge all’obbligo di ottenere l’autorizzazione dal titolare dei diritti d’autore.

In particolare, come si diceva, viene fatto riferimento all’eccezione prevista per il Text e Data Mining (TDM) dalla Direttiva 790/2019 (Direttiva Copyright nel Mercato Unico Digitale) che disciplina le condizioni per la libera utilizzazione delle opere oggetto di riproduzione ed estrazione.

L’articolo 4 della Direttiva 790/2019/UE è rubricato, appunto, “Eccezioni o limitazioni ai fini dell’estrazione di testo e di dati” e introduce una eccezione in favore di soggetti sia pubblici che privati per le riproduzioni e le estrazioni di opere o altri materiali, a scopo di estrazione di testo e di dati (data mining) e consente di conservare le copie realizzate per il tempo necessario ai fini dell’estrazione di testo e di dati.[1] Essa rappresenta una grande opportunità per i fornitori di sistemi di intelligenza artificiale. Al punto che in UK si è dibattuto recentemente sulla possibilità di estendere lo spettro di azione della eccezione TDM per favorire lo sviluppo della industria AI, ma ad oggi non è accaduto.

Nei paesi di Common Law viene, invece, invocata la cosiddetta Fair Use doctrine, una clausola generale più duttile delle nostre “libere utilizzazioni” che consente ai giudici di modulare la tutela con maggiore libertà, caso per caso.

Siamo quindi pronti per una seconda verifica. Nella Unione Europea l’esercizio dell’eccezione TDM è condizionato al fatto che l’utilizzatore abbia avuto accesso legittimo al contenuto ai fini dell’estrazione di testo e di dati e che l’utilizzo non sia stato espressamente riservato dai titolari dei diritti in modo appropriato.

Il sistema di opt-out previsto in Ue

Il legislatore ha quindi impostato tale eccezione mediante un sistema di opt-out per cui il titolare dei diritti avrà sempre facoltà di impedire a terzi di sfruttare i propri contenuti per attività di TDM in forza dell’eccezione, riservandosene i diritti.

Circa il metodo “appropriato” per la riserva dei diritti, viene in aiuto il Considerando 19 della Direttiva 790/2019/UE che specifica che nel caso dei contenuti resi disponibili al pubblico online, si ritiene una modalità appropriata solo l’uso di strumenti che consentano una lettura automatizzata, inclusi i metadati e i termini e le condizioni di un sito web o di un servizio. Pertanto, una dichiarazione di riserva adeguata potrà consistere, ad esempio, nell’utilizzo di protocolli di esclusione contenuti nei metadati dell’opera digitale (ad esempio nel file robots.txt dei siti web), oppure nell’utilizzo di un sistema di digital rights management (“DRM”) le cui opzioni siano rilevabili dagli strumenti utilizzati per il data mining.

In tutti gli altri casi, è considerato adeguato riservare i diritti con strumenti legali più adatti al contesto, quali accordi contrattuali o una dichiarazione unilaterale. Ad esempio, all’indomani della entrata in vigore dello strumento di recepimento della Direttiva 790/2019 nei vari Stati Membri UE, le più importanti piattaforme social si sono premurate di fare esercitare il diritto all’opt-out al mondo dell’editoria mediante apposito modulo on line.

A questo punto occorre applicare un terzo filtro.

Sarebbe sbagliato ritenere che qualunque forma di addestramento di una AI, mediante elaborazione di un contenuto protetto rappresenti un utilizzo “qualificante”, nel senso di dare luogo ad uno sfruttamento di un’opera protetta rilevante giuridicamente. L’analisi dei dati svolta dalla AI generativa deve realizzare una riproduzione di un’opera o una estrazione di un database, secondo quanto previsto nella relativa Direttiva 96/9/CE.

Questo comporta che l’assoggettamento al regime di autorizzazione del diritto d’autore e la possibile applicazione dell’eccezione per le attività di TDM, debba essere valutata in concreto e caso per caso, guardando allo specifico procedimento tecnico-informatico messo in atto. Nei casi in cui il funzionamento del software di apprendimento non richieda la creazione anche solo temporanea di una copia dell’opera, ci si trova di fronte a un atto non rilevante per il diritto d’autore che, come tale, deve essere considerato come una attività libera, non normata, senza la necessità di applicare l’eccezione.

Siamo quindi sicuri che l’addestramento delle macchine comporti necessariamente una azione che ricade nell’ambito applicativo della TDM exception? Ora, citando una fonte accademica a me cara[2] “la parola “mining” (in inglese) è una parola che il legislatore europeo ha tratto dalla prassi, ed è riconosciuto che si tratti di una parola impiegata nel campo della scienza informatica più per la sua forza suggestiva che per la sua capacità di evocare un campo di significato pregnante e coerente all’attività che si intende con essa designare e che consiste in una “analisi automatizzata” di testi e di dati in formato digitale «avente lo scopo di generare informazioni inclusi, a titolo non esaustivo, modelli, tendenze e correlazioni».” Non si può confondere l’estrazione di cui alla direttiva banche dati 96/9/CE con l’estrazione (mining) dell’acronimo TDM di cui alla Direttiva 790/2019/UE, perché in quest’ultimo contesto la parola estrazione individua una attività ed una tecnica di analisi automatizzata di dati in formato digitale aventi un determinato scopo. Ma soprattutto l’analisi automatizzata di dati non integra di per sé una attività di riproduzione, nel senso tecnico-giuridico inteso dalle norme che contemplano tale diritto esclusivo nella legislazione euro-unitaria, laddove essa abbia ad oggetto dati in formato digitale esclusivamente machine readable (ossia dati leggibili solo da elaboratori elettronici).

Ecco quindi che non vi è una sovrapposizione concettuale perfetta tra il funzionamento dei sistemi di AI e l’eccezione TDM: di volta in volta sarà necessario capire non solo quali dati siano stati impiegati e se sia stato effettuato un accesso legittimo ad essi, ma anche come vengano processati e come si svolga l’analisi computazionale dei dataset.

Viene a questo punto in evidenza un aspetto determinante. Le considerazioni che precedono si poggiano su fonti non destinate espressamente a disciplinare l’Intelligenza Artificiale (qualcuno ricorderà il lungo percorso compiuto dalla direttiva 790/2019/UE prima di essere adottata). Poi come sappiamo è arrivata la grande accelerazione della storia con l’avvento della AI generativa ed immediatamente lo sguardo si è proteso verso le nuove fonti di matrice euro-unitaria, destinate a regolare più organicamente e specificamente la materia.

La lettura dell’eccezione per il TDM alla luce dell’AI Act

Ora quindi la lettura dell’eccezione per il TDM contenuta nella Direttiva 790/2019/UE deve essere fatta considerando i procedimenti di apprendimento dei sistemi di intelligenza artificiali che sono stati, pochi giorni fa, oggetto di un accordo provvisorio all’esito del trilogo sulla proposta di Regolamento dell’AI ACT. Fermi quindi gli obblighi già cristallizzati nell’accordo, le istituzioni europee continueranno a lavorare sugli aspetti tecnici delle norme per addivenire al testo definitivo.

In particolare, gli ultimi emendamenti in tema di Foundation Model (ossia quei modelli di intelligenza artificiale generativi addestrati su una grande quantità di dati) paiono finalizzati alla adozione di misure adeguate per garantire che l’apprendimento del modello sia avvenuta nel rispetto del diritto d’autore verificando, in particolare, se i titolari dei diritti sui contenuti pubblicamente disponibili online abbiano rinunciato all’eccezione sul diritto d’autore per l’estrazione di testo e dati e, di conseguenza, mettendo in atto un sistema per rispettare le decisioni di opt-out dei creatori di contenuti[3].

Inoltre, i fornitori di tali sistemi saranno tenuti a pubblicare un riepilogo sufficientemente dettagliato dei contenuti utilizzati per la formazione sul modello di fondazione e di come il fornitore gestisce gli aspetti relativi al diritto d’autore, ai fini della trasparenza nei confronti dei titolari dei diritti.

Ora, non è semplice inseguire il mutevole scenario normativo con riferimento all’AI Act: quando sarà pubblicato questo articolo esso potrebbe essere evoluto ulteriormente. Ma, fermo restando che mi pare di avere dimostrato che l’eccezione di TDM non possa automaticamente invocarsi nei casi di addestramento della AI generativa per le ragioni che precedono, vorrei concludere la trattazione con due riflessioni.

Il three step test

La prima: secondo i principi generali in materia di copyright qualsiasi eccezione al diritto dell’autore deve superare il cosiddetto “three step test”, introdotto dalla Convenzione di Berna e successivamente richiamato, tra le altre, dalla Direttiva 29/2001/CE (art. 5): le eccezioni e limitazioni devono trovare applicazione solo in (i) determinati casi speciali che (ii) non contrastino con il normale sfruttamento dell’opera e che (iii) non arrechino ingiustificato pregiudizio ai titolari dei diritti. È lecito chiedersi se queste condizioni siano assicurate nell’attuale fase di sviluppo travolgente della AI ed in presenza di uno sfruttamento quantitativamente inimmaginabile sino a poco tempo fa. E, malgrado la proverbiale resilienza del diritto d’autore, siamo di fronte ad un cambio di paradigma radicale dove la potenza delle capacità computazionali ci pone davanti ad inedito rapporto uomo/macchina.

Il valore dei contenuti protetti dal diritto d’autore

La seconda considerazione attiene al valore dei contenuti protetti dal diritto d’autore. La recente esperienza attuativa dei principi della Direttiva 790/2019/UE è stata deludente sotto il profilo economico, nel senso che i meccanismi compensativi in essa previsti non sembrano avere rimediato al cd. “Value gap” tra content providers e piattaforme. L’industria dei contenuti risulterà ulteriormente impoverita o sarà invece la prima a beneficiare delle nuove tecnologie? E quali conseguenze avrà lo sfruttamento (già avvenuto) di sconfinati giacimenti di dati – inclusivi di opere protette – con riferimento alle opere rispetto alle quali non è stato effettuato un accesso legittimo?

Conclusioni

In conclusione, si prospetta una stagione interessante per gli appassionati di questa materia ma vi è un unico aspetto su cui parrebbe essere stato raggiunto un consenso universale: la necessità di garantire completa trasparenza sull’intero ciclo di funzionamento dei modelli di intelligenza artificiale generativa, a cominciare dal procedimento tecnico utilizzato per l’addestramento fino alla pubblicità dei dataset utilizzati.

Note

[1] In Italia la situazione è resa più complicata da una infelice scelta lessicale del legislatore nazionale che usa la parola “estrazione” in una duplice accezione. Ai sensi dell’art. 70 – quater della Legge sul Diritto d’Autore che ha recepito tale direttiva: “1. Fermo restando quanto previsto dall’articolo 70-ter, sono consentite le riproduzioni e le estrazioni da opere o da altri materiali contenuti in reti o in banche di dati cui si ha legittimamente accesso ai fini dell’estrazione di testo e di dati. L’estrazione di testo e di dati è consentita quando l’utilizzo delle opere e degli altri materiali non è stato espressamente riservato dai titolari del diritto d’autore e dei diritti connessi nonché dai titolari delle banche dati. 2. Le riproduzioni e le estrazioni eseguite ai sensi del comma 1 possono essere conservate solo per il tempo necessario ai fini dell’estrazione di testo e di dati”.

[2] Orlando, S. 2023. Il diritto di Text and Data Mining (TDM) non esiste. Rivista italiana di informatica e diritto. 5, 1 (feb. 2023), 67-81.

[3] Secondo alcune informazioni reperite sulla stampa, l’ultima proposta del Consiglio UE, attualmente presieduto dalla Spagna, è stata di introdurre un articolo in questi termini: “Providers of foundation models and AI systems generating synthetic audio, image, video o text content, based on correlation and patterns learnt from data shall: […] c) demostrate that adequate measures have been taken to ensure the training of the model or system is carried out in compliance with Union law on copyright and related right, in particular, with regard to Article 4(3) of Directive (EU) 2019/790; d) draw up and make publicly available a [sufficiently detailed] summary about the content used for training of the model or system an information about the provider’s internal policy to manage copyright-related aspects.”

@RIPRODUZIONE RISERVATA