Le notizie sugli sviluppi giudiziari che negli Stati Uniti vedono in crescente conflitto i titolari dei diritti e i gestori degli apparati di intelligenza artificiale si stanno arricchendo in questi giorni di colpi di scena che non sono solamente il frutto di contestate violazioni del copyright.
Infatti, i disequilibri economici giuridicamente rilevanti che si affacciano sul mercato digitale sono anche l’effetto dello sviluppo e dell’interazione dell’intelligenza artificiale con il possesso da parte delle Big Tech[1] di strumenti capaci di operare in sinergia con tali apparati, ponendo a rischio una vasta schiera di prerogative delle imprese del settore della comunicazione, le quali sostengono che alcuni nuovi prodotti generati dall’intelligenza artificiale minacciano la stessa sopravvivenza di molti comparti editoriali.
A.I. Overviews di Google: innovazione o violazione?
Il riferimento va in particolare al tema del nuovo prodotto digitale di Google, “A.I. Overviews”[2], annunciato durante la conferenza annuale degli sviluppatori legati al colosso di Cupertino, che sarà dapprima messo a disposizione degli utenti negli Stati Uniti e poi nel resto del mondo con la previsione di un’offerta che riguarderà, per fine di quest’anno, un miliardo di utenti.
Attraverso l’impiego del sistema “Gemini A.I.” di Google, nella parte superiore della pagina riservata alle risposte ai “prompts”, verranno visualizzati i suggerimenti collegati alle domande poste dagli utenti. Ad esempio, alla richiesta “Cosa faccio oggi in visita a New Orleans?”, “A.I. Overviews” offrirà agli utenti una risposta concisa, fornendo al contempo, insieme con essa, un elenco di collegamenti ipertestuali che riguarderanno i suggerimenti della nuova applicazione che consentiranno di allargare la prospettiva offerta dalla semplice replica.
L’aggiunta di queste risposte, cioè il suggerimento proposto da Google ai suoi clienti circa le possibili opzioni disponibili, a fronte di una domanda che permette svariati riscontri, implica che questo servizio possa essere sostitutivo delle ricerche che normalmente ciascuno degli utenti svolge autonomamente utilizzando il motore di ricerca. Questa sinergia fra intelligenza artificiale e search engine viene da taluni considerata come suscettibile di alterare l’equilibrio che attualmente consente la coesistenza fra gli editori dei giornali e l’impresa di Cupertino, bilanciamento che consiste in uno scambio fra i risultati delle ricerche che conducono alle pagine delle testate che si occupano dell’argomento desiderato dai fruitori, e il traffico generato a vantaggio del gruppo Alphabet.
Gli accordi e le cause tra editori e OpenAi: il quadro
- News Corp (Wall Street Journal e NyPost):
- Ha firmato un accordo di licenza di contenuti con OpenAI, del valore di oltre 250 milioni di dollari in cinque anni.
- OpenAI utilizzerà i contenuti delle pubblicazioni di News Corp, inclusi gli archivi, per rispondere alle query degli utenti dentro il proprio chatbot e addestrare la sua tecnologia.
- L’accordo garantisce che i contenuti non saranno disponibili su ChatGPT immediatamente dopo la pubblicazione.
- News Corp condividerà anche competenze giornalistiche con OpenAI.
- Axel Springer (proprietario di Politico e Business Insider):
- Ha un accordo triennale del valore di almeno 25-30 milioni di dollari.
- L’accordo prevede l’uso dei contenuti sia per l’addestramento che per la visualizzazione.
- Financial Times (FT):
- Il valore dell’accordo è di 5-10 milioni di dollari all’anno.
- Include l’uso dei contenuti per l’addestramento e la visualizzazione.
- Associated Press (AP):
- L’accordo si concentra sull’uso degli archivi di testo per l’addestramento, con un valore di milioni di dollari all’anno.
- AP è in trattative con OpenAI per l’uso dei suoi contenuti anche per la visualizzazione delle sue notizie nel chatbot.
- Le Monde:
- Ha raggiunto un accordo con OpenAI, ma i dettagli specifici non sono stati forniti.
- IAC’s Dotdash Meredith (proprietario di pubblicazioni come People e Better Homes & Gardens):
- Ha firmato un accordo con OpenAI, ma i dettagli specifici non sono stati forniti.
- New York Times:
- Ha deciso di affrontare OpenAI e Microsoft in tribunale, sostenendo che i loro contenuti sono stati usati senza permesso per addestrare strumenti di intelligenza artificiale.
- Le trattative per un accordo di licenza erano in corso, ma sono fallite a causa di una clausola legale proposta da OpenAI.
- Mashable e BabyCenter
- Hanno discusso con diverse aziende di AI, inclusa OpenAI, ma non ha ancora raggiunto un accordo.
- Washington Post:
- È in cerca di partnership significative con aziende di AI.
Redazione
Le preoccupazioni del settore editoriale
I vertici di Google hanno minimizzato il problema evidenziando il lato positivo di questo prodotto che evita noiose e lunghe consultazioni sui motori di ricerca. Gli editori sono di contro preoccupati perché questa attività di ricerca personale degli utenti non pare loro superflua, bensì necessaria, in quanto permette la sopravvivenza di testate, blog e siti specializzati in assenza dei quali la rete ne uscirebbe impoverita. L’articolo del New York Times evidenzia che, nel corso di un briefing tenutosi prima della conferenza degli sviluppatori di Google, i delegati dell’impresa di Mountain View hanno asserito che i test dell’azienda dimostrerebbero che gli utenti cui era stata fornita in prova “A.I. Overviews” tendevano a effettuare più ricerche, diversificate su numerosi ulteriori siti web oltre a quelli suggeriti dalla nuova applicazione, portando a migliori risultati. Questo non significa – osserva il giornalista del Times – che per effetto di questa applicazione non ci sarà una diminuzione, progressiva e inesorabile, dell’uso delle search engine e sotto questo profilo le preoccupazioni dei gestori delle testate di informazione appaiono lecite.
Non appare escluso che la posizione dominante di Google nel settore dei motori di ricerca on-line possa essere oggetto di ricorsi ed iniziative giudiziarie anche in esito del lancio dell’applicazione “A.I. Overviews”, cause che – peraltro – il gruppo Alphabet sopporta con disinvoltura e vi si oppone sistematicamente, come dimostrano le diverse cause pendenti nei suoi confronti[3] e quelle pendenti nei confronti dei suoi competitor[4]. Una di esse, la più recente che ci sia nota, è quella che è stata instaurata con il deposito, avvenuto il 26 aprile 2024, di una class-action guidata, da numerosi artisti delle arti visive, capeggiati da Sarah Andersen.[5]
Il ruolo del copyright nell’addestramento dell’IA
Secondo le tesi dei ricorrenti, Google e Alphabet avrebbero addestrato il loro software di intelligenza artificiale LAION[6] con un set di dati contenenti immagini delle loro opere protette da diritto d’autore. Fra i servizi offerti da Google vi è “Imagen[7]” che avrebbe selezionato e riprodotto “un’enorme quantità di immagini digitali”, traendo ed elaborando dai medesimi file ulteriori opere derivate, mettendole a disposizione del pubblico e distribuendole senza autorizzazione, secondo quanto affermano in atti gli autori dell’azione collettiva intrapresa contro Google. A dire degli attori, la trasformazione dell’espressione artistica protetta contenuta nel set di dati di addestramento, si configurerebbe come un’opera derivata da un’altra che è stata riprodotta in violazione del diritto d’autore. Inoltre, Google avrebbe mutato il proprio iniziale intendimento, in quanto essa avrebbe costruito un modello di intelligenza artificiale per la diffusione di testi e immagini disponibili al pubblico, nonostante avesse in precedenza dichiarato di non volere rendere accessibile tale strumento alla generalità degli utenti, almeno fino a che venissero adottate misure in grado di rendere sicuro da possibili violazioni il modello algoritmico sviluppato dall’impresa di Cupertino.
Le azioni legali contro Google e Alphabet
Di analogo segno e di non minore portata sono altre iniziative giudiziarie attualmente al vaglio dei tribunali d’oltre oceano in materia di diritto d’autore e di intelligenza artificiale.
In particolare, lungo la linea già tracciata dal New York Times[8], si pone la causa avviata il 30 aprile 2024 da alcune testate giornalistiche[9] (Daily News e altre facenti parte dell’Alden Portfolio) nei confronti di Microsoft e di OPEN AI, di cui la prima ha acquisito il controllo, in un momento in cui le pretese di risarcimenti del danno da violazione del copyright, mosse da altre testate del settore della stampa si erano arenate, avendo le prime conchiuso accordi transattivi con i gestori delle piattaforme di intelligenza artificiale, accusate di raschiare la rete per raccogliere i contenuti degli articoli da esse pubblicati[10]. Le transazioni, a definizione delle cause pendenti in questione, hanno riguardato in particolare il “Financial Times”, l’agenzia “Associated Press”, il gruppo “Axel Springer”. Di esse non sono noti i termini economici, anche se è noto si tratti di cifre che ammontano a centinaia di milioni di dollari.
La decisione di non transigere le pretese risarcitorie eventualmente trattando con le imprese del crescente business del settore dell’artificial intelligence conduce a ritenere che si dovranno affrontare di fronte ai tribunali gli ancora irrisolti nodi concernenti la sussistenza o meno dell’eccezione del fair use in riferimento all’appropriazione degli articoli dei giornali[11] e alle opere tutelate più in generale.
Questa causa conferisce alla nostra discussione un argomento di particolare rilevanza: la sussistenza o meno dell’avvenuta rimozione delle misure tecnologiche di protezione[12] dagli articoli rastrellati sulla rete da parte dei fornitori dei servizi di intelligenza artificiale: in tal modo sarebbero stati dissociati dai pezzi acquisiti dal motore di intelligenza artificiale i nomi dei giornalisti violando il diritto alla paternità dell’opera e al susseguente “equo compenso”[13], cui andrebbero ad aggiungersi il danno all’immagine delle testate giornalistiche derivante loro dagli atti di concorrenza sleale asseritamente posti in essere attraverso l’appropriazione abusiva dei loro contenuti e dall’indebolimento del loro segno distintivo (c.d. Trademark Dilution), commesso tramite l’uso dei contenuti delle testate, attribuendo all’algoritmo di intelligenza artificiale di Chat-GPT il risultato dell’opera di altri, i quali oltretutto ne detengono i diritti[14].
La disputa sui dataset per l’addestramento dell’IA
Le brevi notazioni sopra svolte ci conducono, ancora una volta, di fronte al tema centrale della liceità o meno dell’uso dei dataset collazionati dai gestori degli apparati di intelligenza artificiale per addestrare i loro modelli a dare risposte sempre più aggiornate e complete ai prompts, cioè alle domande poste loro dagli utenti.
In linea generale si è potuto appurare che l’insieme dei contenuti che vengono rastrellati sulla rete hanno nella maggior parte dei casi origine da diverse fonti: non mancano le library di provenienza illecita[15], le opere in pubblico dominio[16] e – in gran parte – da opere tuttora protette. Non si è ancora chiarito, invece, se i dataset acquisiti per il training dei modelli di intelligenza artificiale permangano nel possesso dei gestori di tali sistemi, ovvero essi siano solo temporaneamente presenti nei loro computer, quali copie temporanee o “cache”.
L’AI Act dell’Unione Europea: obblighi e limiti
Questa è una delle ragioni per cui l’AI Act, varato nell’Unione Europea, prevede un obbligo di disclosure dei dati utilizzati per implementare gli algoritmi di intelligenza artificiale[17] e pure negli Stati Uniti vi sono tensioni in questa direzione, ad esempio attraverso la recente proposta di legge denominata “Generative AI Copyright Disclosure Act of 2024”[18] a firma dell’House Representative, Mr. Adam Schiff (California).[19]
Nell’Unione Europea l’AI Act[20] prevede, agli articoli da 50 a 53, taluni obblighi generali per tutti i modelli di IA, seppure dal tenore letterale delle norme non si desume la cogenza di detti obblighi di trasparenza e di accesso del pubblico ai set di dati utilizzato per il training degli apparati di intelligenza artificiale. I fornitori di sistemi di intelligenza artificiale per scopi generali, infatti, sono obbligati a predisporre le informazioni sui loro dataset e a condividerle pubblicamente (articolo 53 lett. c) ma tale vincolo riguarda con certezza solo i sistemi ad alto livello di rischio.
Fra le prescrizioni della norma vi è infatti un obbligo di natura generale [lett. c) dell’art. 53] di “attuare una politica volta a rispettare il diritto d’autore dell’Unione, in particolare per identificare e conformarsi, anche mediante tecnologie all’avanguardia, la riserva di diritto espressa ai sensi dell’articolo 4, comma 3, della Direttiva (UE) 2019/790” (c.d. diritto di opt-out), ma la presenza di una policy non equivale a un obbligo diretto e vincolante per i soggetti cui essa si rivolge.
Alla lett. d), la stessa disposizione dell’art. 53 dell’AI Act impone ai fornitori degli apparati in argomento di “redigere e di rendere pubblica una sintesi sufficientemente dettagliata dei contenuti utilizzati per la formazione del modello di intelligenza artificiale generale”. Il vincolo di consegna di queste informazioni (il termine “sintesi dettagliata” suona come un’enantiosemia) da parte dei soggetti obbligati, fa salva in ogni caso l’esigenza del rispetto e della tutela dei diritti di proprietà intellettuale, come pure quelli a difesa delle informazioni commerciali riservate e dei segreti commerciali dei fornitori dei modelli di intelligenza artificiale per uso generale (lett. b), sempre in conformità al diritto dell’Unione Europea e a quello applicabile a livello nazionale dai singoli stati, tanto da fare ritenere che un vero obbligo di disclosure dei dati previsti dalla disposizione faccia capo solo ai gestori dei sistemi di intelligenza artificiale ad alto rischio, come definiti e disciplinati dal Regolamento, essendo da tale obbligo comunque esclusi i sistemi open-source.
Fatte queste brevi notazioni legali e posti dianzi a chi legge taluni spunti di riflessione emergenti dall’implementazione degli apparati di intelligenza artificiale, va osservato che stante la difficoltà di superare gli ostacoli frapposti all’applicazione delle norme a tutela dei diritti di proprietà intellettuale da parte dei gestori delle piattaforme che forniscono servizi di intelligenza artificiale[21], negli Stati Uniti lo stesso U.S.C.O., già dal mese di agosto dell’anno 2023, ha redatto un’interessante nota su “Intelligenza Artificiale e Copyright[22]”.
Il Copyright Office, pur evidenziando le criticità e le potenziali responsabilità che derivano ai loro gestori dall’uso dei sistemi di intelligenza artificiale, non ha nascosto nella stesura dei quesiti che l’ufficio ha portato in consultazione pubblica ai titolari dei diritti e ai gestori dei servizi di I.A. il quesito di quale possa essere il criterio di remunerazione derivante dalla corretta e trasparente acquisizione dei contenuti tutelati utilizzati per addestrare i modelli di intelligenza artificiale, anche tenuto conto della ritenzione o meno dei medesimi nel dataset di ciascun fornitore di servizi di intelligenza artificiale.
Verso una soluzione: il revenue sharing proposto dalle università
Senza che si possa considerare una soluzione auspicabile o da rinnegare in toto, vi è stato chi ha ipotizzato di effettuare una valutazione economica matematica dei contenuti protetti in senno agli apparati di intelligenza artificiale.[23]
Il lavoro in questione, pubblicato collettivamente dalle Università di Princeton, Columbia, Harvard e Pennsylvania riporta modelli algoritmici che propongono un sistema di revenue sharing che potrebbe costituire l’ultima spiaggia per un potenziale accordo nella guerra fra titolari dei diritti e imprese tecnologiche, coinvolti gli uni nella difesa del proprio patrimonio e gli altri nella corsa all’oro dell’era delle tecnologie innovative.
Note
[1] Sul tema generale dell’espansione incontrollata delle Big Tech: https://www.agendadigitale.eu/cultura-digitale/big-tech-e-nuovi-monopoli-opportunita-e-problemi-da-affrontare-gli-scenari/
[2] Questo argomento è stato oggetto di un’interessante analisi da parte del New York Times. L’articolo di Kevin Roose si trova a questo collegamento ipertestuale: https://www.nytimes.com/2024/05/14/technology/google-ai-answers.html
[3] Il caso Epic Games fornisce una interessante prospettiva dei problemi derivanti dall’abuso concorrenziale: https://www.agendadigitale.eu/mercati-digitali/antitrust-le-accuse-contro-google-travolgeranno-il-mercato-tech-gli-scenari/
[4] Fra le più recenti controversie giudiziali pendenti in materia di intelligenza artificiale va ricordata la class-action che vede opposti alcuni noti autori di opere letterarie e la NVIDIA Corp. L’atto introduttivo del giudizio è stato depositato alla Corte del Northern District of California lo scorso 2 maggio 2024 (4:24-cv-02655). Andre Dubus III e altri chiedono il Jury Trial nei confronti dell’impresa del Delaware sopra ricordata, la quale si sarebbe impossessata del testo di migliaia di opere letterarie protette, facendo uso della tecnologia NeMo Megatron che fa parte dei sistemi LLM (Large Language Models). In tal modo, NVIDIA genererebbe attraverso i propri sistemi di I.A. opere chiaramente derivate da quelle degli attori, fra cui vi è il libro “The Garden of Last Days” scritto dal Dubus III.
[5] La scrittrice e artista Sarah Andersen è nota per essere parte di una controversia mossa nei confronti di OPEN AI, che si è chiusa, seppure senza alcuna decisione in merito al riconoscimento del fair use nell’acquisizione delle immagini delle opere dell’arte visiva condotta tramite l’apparato di intelligenza artificiale “Stability AI”, con esito non favorevole per gli artisti per non essere state da essi adeguatamente provate le violazioni contestate. L’azione di cui qui ci occupiamo qui porta i nomi, oltre che di Sarah Andersen, anche di Jingna Zhang, Hope Larson e Jessica Fink, i quali sostengono che “Imagen”, uno degli apparati di intelligenza artificiale sviluppati da Google, utilizzerebbe senza la loro autorizzazione immagini protette da diritto d’autore.
[6] LAION fornisce la seguente indicazione circa il trattamento delle immagini condotto dal suo algoritmo: “Scarichiamo le immagini grezze dagli URL che abbiamo analizzato, (con provenienza) da Common Crawl attraverso richieste asincrone effettuate utilizzando le library dei siti web “Trio” e “Asks” (…)”.
[7] Qui si trova il link alla pagina ufficiale di Google su “Imagen”: https://imagen.research.google/
La big tech statunitense ricorda che il suo algoritmo rappresenta un modello IA testo – immagine con un grado di fotorealismo senza precedenti e un profondo livello di comprensione del linguaggio.
[8] Sul punto si suggerisce questa lettura: https://www.agendadigitale.eu/mercati-digitali/ia-e-diritto-dautore-regole-e-accordi-per-il-futuro-dei-media-le-tendenze-in-atto/
[9] La causa è stata radicata di fronte alla Corte del Southern District di New York con richiesta di Jury Trial con il N. 24-3285; il tribunale è il medesimo che si occupa della causa radicata dal New York Times nei confronti di Microsoft e Open AI.
[10] Secondo alcuni esperti queste intese, di cui si ipotizza la dimensione multimilionaria, minano il valore economico delle richieste avanzate nella sopra citata causa del New York Times.
[11] Per una breve analisi dei pros and cons delle posizioni dei contendenti e in merito alla differenza fra il regime giuridico di common-law e di civil-law in tema di libere utilizzazioni si può leggere questo contributo: https://www.agendadigitale.eu/mercati-digitali/le-opere-creative-dellia-gli-esiti-del-confronto-fra-copyright-e-diritto-dautore/
[12] Nel nostro ordinamento giuridico la fattispecie è regolata dall’art. 102-quater L. 633/1941 per gli effetti di cui all’art. 171-ter lett. h) della medesima legge.
[13] Per una rapida survey sull’equa remunerazione degli autori di articoli pubblicati sulla rete dalle testate giornalistiche si può leggere: https://www.agendadigitale.eu/mercati-digitali/google-paghera-gli-editori-in-francia-come-ci-siamo-arrivati-e-cosa-succede-ora-anche-in-italia/
[14] Nell’atto introduttivo del giudizio, gli editori rilevano che mentre il funzionamento degli apparati di intelligenza artificiale generativa sostengono costi elevati per mettere in funzione i software diretti a ottenere prodotti altamente sofisticati, né Microsoft, né OPEN AI sono disposti a pagare il lavoro dei reporter, dei giornalisti, degli autori e degli editor che contribuiscono a realizzare i giornali, pur essendo perfettamente consapevoli – come ha dichiarato di fronte alla House of Lords il fondatore di OPEN AI, Sam Altman, avuto riguardo alla causa pendente fra Getty Images e la stessa Open AI (qui: https://www.agendadigitale.eu/mercati-digitali/le-opere-creative-dellia-gli-esiti-del-confronto-fra-copyright-e-diritto-dautore/) – che la sua società non potesse fare a meno di utilizzare opere protette dal diritto d’autore per testare i modelli di intelligenza artificiale.
[15] Nell’articolo indicato in nota 4, con le inerenti fonti, avevamo ricordato che Chat GPT3, una versione ormai superata di Chat-GPT, disponeva di 175 miliardi di parametri che sono stati testati attraverso:
i) una scansione ordinaria della rete Internet (“common crawl”) per il 60% dei dati raccolti,
ii) da “Web Text 2” per il 22% della raccolta,
iii) dai siti web “Books1” e “Books2” (siti web in parte “pirata”) per il 16% complessivo e
iv) da “Wikipedia” per il restante 3%. In totale si trattava di 499 miliardi di “tokens”.
[16] Sul tema del pubblico dominio, si può trovare qualche spunto qui: https://www.agendadigitale.eu/cultura-digitale/dai-diritti-dautore-al-pubblico-dominio-quale-equilibrio-tra-copyright-e-cultura/
[17] Sulle principali disposizioni e principi applicabili nell’UE in materia di IA si trova un utile approfondimento in questo articolo: https://www.agendadigitale.eu/cultura-digitale/ai-act-ci-siamo-ecco-come-plasmera-il-futuro-dellintelligenza-artificiale-in-europa/
[18] Il collegamento ipertestuale al disegno di legge dell’8 gennaio 2024, modificativo del Regolamento dell’U.S.C.O. (United States Copyright Office) in tema di deposito delle opere protette al Copyright Office, condizione per la tutela giudiziaria dei diritti d’autore negli U.S.A. si trova qui: https://schiff.house.gov/imo/media/doc/the_generative_ai_copyright_disclosure_act.pdf
[19] Qui si trova il comunicato stampa sulla proposta di legge, redatto dall’ufficio di Adam Schiff: https://schiff.house.gov/news/press-releases/rep-schiff-introduces-groundbreaking-bill-to-create-ai-transparency-between-creators-and-companies
[20] La versione più recente dell’AI Act è rinvenibile qui: https://www.europarl.europa.eu/doceo/document/TA-9-2024-0138-FNL-COR01_EN.pdf
[21] La risposta alla consultazione pubblica avviata dall’U.S.P.T.O. (United States Patent and Trademark Office) in materia di innovazione derivante dall’intelligenza artificiale ci fornisce la chiara visione della posizione dei gestori degli apparati e dei modelli di I.A. Essi argomentino che si tratti di “fair Use” e tale posizione si riverbera nei contenziosi più volte illustrati da questa pubblicazione. Sul punto si può leggere quanto ha affermato nella sopra descritta sede l’azienda OPEN AI: https://www.uspto.gov/sites/default/files/documents/OpenAI_RFC-84-FR-58141.pdf
[22] Alcune informazioni sull’intervento dell’U.S.C.O. del 30 agosto 2023 si trovano qui: https://newsroom.loc.gov/news/copyright-office-issues-notice-of-inquiry-on-copyright-and-artificial-intelligence/s/63272ceb-6663-43ca-bccd-4d01a2cfca47
[23] Lo studio “An Economic Solution to Copyright Challenges of Generative AI” è stato di recente pubblicato qui https://arxiv.org/html/2404.13964v1