Le intelligenze artificiali generative vengono istruite attraverso l’uso di dati, immagini e contenuti estrapolati da Internet senza che si conoscano né il come né il quanto. Negli ultimi mesi le industrie creative hanno attirato l’attenzione di legislatori, istituzioni, policy makers e giudici sulla potenziale violazione del diritto d’autore, sollecitando la definizione di linee guida e/o l’adozione di norme specifiche.
L’Unione Europea è la prima a proporre una regolamentazione dell’Intelligenza Artificiale che consideri anche gli aspetti del diritto d’autore, ma da una prima analisi emergono lacune e problematiche che non sono state né affrontate né risolte.
La proposta dell’articolo 28b (4c.) dell’AI Act dell’Unione Europea
Con l’adozione da parte del Parlamento Europeo della posizione comune sull’AI Act, si intravedono i primi approcci legislativi per chiarire gli ambiti di rispetto del diritto d’autore da parte dei modelli di intelligenza artificiale generative, che non erano stati affrontati nelle precedenti proposte dell’AI Act. La classificazione tra i sistemi ad alto rischio fa sorgere rigorosi obblighi di trasparenza. In particolare, l’articolo 28b (4c.) dell’AI Act prevede che i fornitori di modelli generativi di Intelligenza Artificiale debbano “documentare e rendere disponibile al pubblico una sintesi dell’uso dei dati di addestramento protetti dalla legge sul diritto d’autore”. Inoltre, i fornitori devono garantire che i sistemi di IA destinati a interagire con le persone fisiche siano progettati e sviluppati in modo tale che le persone fisiche siano informate del fatto di stare interagendo con un sistema di IA e dare salvaguardie per evitare la generazione di contenuti illegali.
Problemi pratici di applicazione
Nonostante le buone intenzioni del Parlamento Europeo, questi obblighi non sembrano sufficienti ad introdurre un efficace strumento di protezione della propieta’ intellettuale. I sistemi di intelligenza artificiale generativa vengono spesso addestrati estraendo una quantità molto elevata di dati/opere da Internet. Inoltre, la concessione in licenza dei diritti al di fuori di sistemi di intelligenza artificiale presenta già una complessità intrinseca a causa del numero di diritti d’autore e di titolari coinvolti. Pertanto, può essere tecnicamente molto difficile o impossibile identificare chiaramente le opere utilizzate o il modo in cui i dati vengono utilizzati per output specifici.
Si presume che l’obbligo di trasparenza si traduca in un obbligo di clearance preventivo, ma non è specificato cosa debba essere incluso nei riepiloghi dei dati protetti da diritto d’autore, il livello di specificità e granularità, sollevando potenziali problemi sull’ ambito di applicazione territoriale, esaustività e completezza delle fonti. Come minimo, i titolari di diritti d’autore avrebbero bisogno di un elenco dettagliato ed analitico del materiale protetto incluso nei set di dati di formazione con una chiara identificazione della proprietà dei diritti, ma esistono già problemi relativi alla completezza e alla qualità dei dati nei regimi esistenti applicabili alla musica e opere audiovisive (ad esempio, vi sono numerosi titolari di quote diverse di una stessa opera musicale, che può avere uno o più compositori, uno o più autori, uno o più arrangiatori, qualificabili o meno come autori, e uno o più editori).
Dal punto di vista pratico è già complesso identificare i titolari di diritti (non esiste un database universale nel campo della musica o delle opere audiovisive, ad esempio) per cui l’adempimento di tale obbligo sembra essere estremante difficile, se non impossibile. Le informazioni sugli autori, i proprietari o persino i titoli dei materiali protetti da diritto d’autore utilizzati come dati di addestramento nei sistemi di intelligenza artificiale semplicemente non esistono per la maggioranza delle opere protette. Il diritto d’autore e la sua titolarità sono territorialmente frammentati; non vi è obbligo di registrazione delle opere; e, in generale, i metadati di proprietà dei diritti non sono esaustivi. Si può immaginare che tale compito sia più semplice per immagini, opere letterarie e giornalistiche rispetto all’elaborazione di opere d’arte o audiovisive.
Una questione centrale da definire caso per caso riguarda la qualificazione dell’output dell’intelligenza artificiale generativa come un’opera derivate o trasformativa. Si può immaginare che tale compito sia più semplice per immagini, opere letterarie e giornalistiche rispetto all’elaborazione di opere d’arte o audiovisive.
L’assenza di una espressa previsione applicativa del “text and data mining exemption” della Direttiva Copyright nell’addestramento dei sistemi di IA sembra escludere che si possa fare affidamento su questa eccezione per limitare i rischi di contenzioso per violazione del diritto d’autore.
Il progetto di legge sull’IA non tratta espressamente le eccezioni relative all’estrazione di dati e di testo e la possibilità dei titolari di “opt out” (non partecipare). Il regolamento lascia espressamente impregiudicata la direttiva 2019/790 sul diritto d’autore per il mercato unico digitale dell’UE e in base all’articolo 28 ter, paragrafo 4, lettera c) è espressamente “fatta salva la legislazione nazionale o dell’Unione in materia di diritto d’autore”. Poiché l’articolo 28 ter, paragrafo 4, lettera c), si riferisce ai dati di formazione “protetti dalla legge sul diritto d’autore”, sembrerebbe richiedere dettagli sulle opere in cui sussiste il diritto d’autore, indipendentemente dal fatto che si applichi un’eccezione all’uso da parte del fornitore di IA.
Precedenti giurisprudenziali
La causa intentata da Getty Images contro Stability AI in Inghilterra e negli Stati Uniti si basa sulla rilevazione che Stable Diffusion abbia usato immagini d’archivio di Getty Images tra i dati di addestramento senza autorizzazione preventiva. Getty Images ha affermato che Stability AI ha “copiato ed elaborato illegalmente milioni di immagini protette dal [suo] copyright . . . a vantaggio degli interessi commerciali di Stability AI e a scapito dei creatori di contenuti”. D’altro canto, i giudici dovranno valutare se Stability possa contare sulla nozione del fair dealing nel Regno Unito o del fair use negli Stati Uniti per giustificare l’uso legittimo di tali contenuti. La definizione di questa controversia sarà un precedente importante per l’interpretazione e l’applicazione del diritto d’autore attualmente in vigore, a prescindere dalla proposta regolamentare dell’Unione Europea.
Recentemente anche nel settore dell’editoria è stata intentata una causa contro Open Ai da parte di due autori, sostenendo che la capacità di ChatGPT di produrre riassunti dettagliati dei loro lavori indica che i loro libri sono stati inclusi nei set di dati utilizzati per addestrare ChatGPT senza il loro consenso.
Soluzioni negoziali
Infine, l’AI Act non dice nulla sul tipo di licenza e sulla remunerazione per lo sfruttamento di tali contenuti, lasciando il campo aperto alla negoziazione individuale tra le parti, né è menzionato quale ruolo possano avere le società di gestione collettiva. È stato recentemente riportato che sono in corso negoziazioni tra OpenAI, Google, Microsoft e Adobe da una parte, ed editori come News Corp, Axel Springer, The New York Times e The Guardian dall’altra, per eventuali accordi di remunerazione simile ad un abbonamento per i loro contenuti al fine di sviluppare la tecnologia alla base di chatbot come ChatGPT di OpenAI e Bard di Google. Non è detto che queste discussioni vadano a buon fine e non è chiaro quale modello di remunerazione potrebbe essere adottato: ad esempio, si potrebbe prendere a modello l’industria musicale in cui le stazioni radio, i locali e i servizi di streaming remunerare i titolari ogni volta che viene riprodotto un brano sulla base di un reporting dettagliato dei contenuti usati dai fornitori di intelligenza artificiale, oppure tramite accordo annuale per l’uso illimitato dei contenuti.
Conclusioni
In assenza di chiarimenti nell’AI Act, sarà inevitabile che molte risposte pratiche siano affidate alle legislazioni e giurisprudenze nazionali, generando un’indesiderabile frammentarietà che è inadeguata a gestire tecnologie globali. È dunque fondamentale sviluppare un Codice di Condotta e un AI Pact, che potrebbero accelerare l’adozione di auto-regolamentazione da parte delle aziende su base volontaria. Il G7 potrebbe allargare l’ambito di applicazione di regole uniformi incoraggiandone il rispetto su scala globale.
*Questo articolo è parte della rubrica “Innovation Policy: Quo vadis?” a cura dell’ICPC-Innovation, Regulation and Competition Policy Centre