La recente causa intentata dal New York Times contro Microsoft e Open AI ha riacceso il dibattito sull’uso dei dati e dei contenuti nell’intelligenza artificiale. L’accusa principale, ovvero la violazione del diritto d’autore e concorrenza sleale, solleva questioni complesse sul confine tra l’apprendimento delle macchine e l’utilizzo illecito di informazioni. In risposta, Microsoft e Open AI difendono il loro comportamento come legittimo, alimentando ulteriormente la controversia.
La questione si inserisce in un contesto più ampio di trattative tra le grandi imprese dei media e i detentori degli apparati di IA, come dimostra il caso Getty Images contro Stability AI.
Un quadro complesso che sottolinea l’importanza della collaborazione tra grandi operatori e mondo dei media per garantire un utilizzo etico e rispettoso dei contenuti nell’era dell’intelligenza artificiale.
La causa del New York Times contro Microsoft e Open AI
La causa incardinata di fronte alla Corte Distrettuale Sud di New York il 27 dicembre 2023 dal “New York Times” (“NYT”) nei confronti di Microsoft Corporation e del gruppo di imprese note sotto la denominazione di “Open AI”[1], proprietarie dei modelli di intelligenza artificiale connotati dal segno distintivo “ChatGPT” nelle diverse versioni esistenti dell’algoritmo di intelligenza artificiale, pone questioni nuove e problemi finora inusitati che riguardano gli effetti dell’impiego di questo rivoluzionario strumento tecnologico sul sistema economico, giuridico e sociale della nostra epoca.
Seppure il NYT ponga principalmente all’attenzione dei magistrati sia le ragioni della sopravvivenza del giornalismo indipendente che la necessità della difesa dei contenuti da esso creati, nei confronti di dimostrati atti di appropriazione abusiva del lavoro delle imprese dei media operanti nel settore digitale, le questioni indotte da questa vicenda travalicano tali ambiti, certamente fondamentali, per andare a toccare le regole che debbono presidiare lo sviluppo dell’intelligenza artificiale, impedendo che la loro carenza possa incidere negativamente, o ancor peggio, svalorizzare il patrimonio di contenuti e di dati che appartengono alle imprese del settore.
Il ruolo dei dati e dei contenuti nel funzionamento dell’intelligenza artificiale
Alla base del problema c’è un elemento fondamentale: la necessità da parte delle aziende che dispongono degli apparati di intelligenza artificiale di utilizzare un sempre crescente volume di dati e di contenuti di elevata qualità per “allenare” e alimentare gli algoritmi che permettono di generare output precisi e affidabili.
Fa parte delle conoscenze consolidate dell’industria dell’IA il fatto che i learning models dell’IA debbono essere “totalmente allenati, caratterizzati, testati e compresi” per potere fornire risposte corrette ed esaurienti e che maggiore è la quantità di dati di elevata qualità trattati dai sistemi, più accurato è il risultato ottenibile.[2]
Le accuse del New York Times: violazione del diritto d’autore e concorrenza sleale
In tal senso, come vedremo di seguito, le evidenze che si desumono dall’atto introduttivo del giudizio predisposto dai legali del NYT appaiono sufficienti a provare l’avvenuta acquisizione da parte di Open AI di un rilevante numero di contenuti del quotidiano. Riporta infatti in atti l’impresa editoriale statunitense che GPT-3, il modello oggi meno evoluto di piattaforma di IA del gruppo Open AI, dispone di 175 miliardi di parametri[3] che sono stati testati attraverso:
i) una scansione ordinaria della rete Internet (“common crawl”) per il 60% dei dati raccolti,
ii) da “Web Text 2” per il 22% dalla raccolta[4],
iii) dai siti web “Books1” e “Books2” per il 16% complessivo e iv) da “Wikipedia” per il restante 3%. In totale si tratta di 499 miliardi di “tokens”[5].
Secondo il NYT, i contenuti di sua proprietà fanno parte nella misura dell’1,23% di tutte le fonti derivate da “OpenWebText2” e il nome di dominio www.nytimes.com è la fonte più rappresentativa di dati raccolti nel “common crawl”, la terza dopo Wikipedia e la banca di dati dei brevetti. Il dataset del “common crawl” raccoglie 16 milioni di contenuti del NYT incluse le “News”, la pagina sulla “Cucina”, il “Wirecutter”[6], “The Athletic”[7] e più di 66 milioni di ulteriori dati tratti dalla library della stessa testata.
A sostegno della circostanza che Open AI eserciti il proprio algoritmo e fornisca gli inerenti output anche attraverso l’impiego dei contenuti del NYT, la ricorrente ha portato all’attenzione dei giudici, in questa che è una delle numerose cause pendenti in materia di violazione dei diritti d’autore avviate nei confronti delle imprese che gestiscono servizi di IA[8], alcune delle pagine di dialogo fra un utente anonimo e Chat-GPT-4.
Dall’esame di tali evidenze si desume come parti rilevanti e sostanziali dei contenuti, fra i più pregiati, pubblicati dal prestigioso giornale siano state incluse testualmente nelle risposte fornite in diversi contesti e in differenti materie dal servizio di IA. Si tratta di risposte a prompt[9]che pubblicano brani del quotidiano, i quali riprendono, fra l’altro, scoop e indagini su fatti di pubblico interesse che hanno impegnato a lungo i giornalisti del NYT, con centinaia di interviste, la raccolta di informazioni riservate, documenti e analisi di approfondimento. Tale asset aziendale è divenuto parte delle risposte che l’intelligenza artificiale generativa GPT possiede e pone a disposizione dei propri utenti.
Inoltre, il NYT rimprovera a Open AI di fornire ai propri utenti il testo delle notizie sui fatti del giorno, non limitandosi ai semplici “snippet”[10], cioè a brani di sintesi dei contenuti offerti dal giornale, ma operando una parafrasi del testo letterale del pezzo alla quale spesso si accompagnano collegamenti ipertestuali alle fonti da cui i contenuti sono tratti. La similarità, per non dire l’identità, fra le risposte di GPT e la pubblicazione delle notizie che fanno parte del lavoro dei giornalisti del NYT trova nell’atto introduttivo del giudizio una rassegna di casi, corredata dalla comparazione fra testo originale e output del motore di IA, che appare talvolta imbarazzante per la loro coincidenza, consolidando l’opinione circa la natura di appropriazione sistematica di dati e di comportamento anticoncorrenziale che la parte attrice contesta alle convenute.
La risposta di Microsoft e Open AI
Queste ultime, già prima di costituirsi in giudizio, lo scorso 8 gennaio, hanno criticato il contenuto dell’atto giudiziario loro notificato sostenendo che il proprio comportamento sia legittimo e che il NYT “non abbia raccontato l’intera storia”, asserendo che molti articoli oggetto di contestazione sarebbero risalenti nel tempo oltre ad essere stati ripresi in precedenza da molteplici altri siti web e che le risposte di GPT sarebbero state manipolate dalla parte attrice. Inoltre, l’inserimento nelle domande poste a GPT di lunghi brani degli articoli del NYT avrebbe portato il sistema a “rigurgitare” il contenuto originale che fa parte del dataset di contenuti raccolti[11]. A tali affermazioni i legali del NYT – in una pubblica dichiarazione – hanno replicato facendo osservare alla controparte che essa, con tali affermazioni, ha indubitabilmente ammesso di avere utilizzato il lavoro dei giornalisti del NYT e di volere usufruire gratuitamente della proprietà di terzi per rafforzare il funzionamento e il dataset del proprio apparato di intelligenza artificiale.
Ovviamente, i fatti come sono stati rappresentati e portati all’attenzione della Corte Distrettuale Sud di New York da parte degli attori saranno oggetto di esame e valutazione in tale sede per le contestate violazioni del diritto d’autore, la concorrenza sleale, l’indebolimento del marchio, il danno reputazionale e di immagine, et cetera.
Da parte nostra, nei precedenti interventi su questa testata abbiamo tratteggiato alcuni casi già al vaglio dei giudici statunitensi il cui fondamento giuridico è sostanzialmente assimilabile a quello che il NYT fa valere nei confronti di Open AI[12]: tale indagine è stata svolta nella consapevolezza che, qualunque possa essere l’esito delle controversie giudiziali in corso, l’emergenza e lo sviluppo della tecnologia legata agli algoritmi di IA non potrà essere impedita, forse neppure frenata.
La necessità di regole precise per l’intelligenza artificiale
Questa constatazione non può peraltro farci trascurare gli aspetti più rilevanti che vanno a incidere sulla tutela dei molti diritti che rischiano di essere coinvolti da una troppo frettolosa e rapida crescita dell’intelligenza artificiale. Sono a tutti noti i problemi – senza ovviamente trascurare i benefici –sorti dalla nascita della rete Internet: ci riferiamo alle mille controversie non ancora sopite in materia di tutela del diritto d’autore, a causa della disseminazione di miriadi di file di opere tutelate presenti abusivamente sulla rete, alle questioni afferenti alla tutela della privacy, alle minacce alla cybersecurity, alle annose questioni sui contenuti pornografici e a quelli che istigano all’odio e alla violenza anche razziale.
Molte delle problematiche generate dall’uso improprio di Internet sono state oggetto di disciplina giuridica, seppure spesso tardiva; anche in materia di intelligenza artificiale si rende necessario adottare regole precise[13].
La lettera rivolta al direttore del Consumer Financial Protection Bureau di Washington D.C. il 6 luglio 2023, con cui vengono poste, da parte di quattro senatori del Congresso U.S.A., le tematiche delle truffe informatiche finanziarie legate all’uso del clone della voce di ciascun individuo che può essere creata attraverso gli algoritmi di intelligenza artificiale, rappresenta un ulteriore tassello dei problemi che possono sorgere da un uso improprio dell’IA[14].
L’intervento dell’Unione Europea sulle tematiche dell’IA
Anche l’Unione Europea, nel testo dell’accordo provvisorio sull’AI Act approvato lo scorso dicembre[15], ha tracciato alcuni principi che devono essere presi in considerazione sin dal momento dello sviluppo dei software che danno vita ai founding models di questi apparati, soprattutto se classificati come a rischio elevato: si fa riferimento – senza limitazione alla generalità – a paletti e divieti afferenti alla raccolta di dati biometrici, al riconoscimento delle emozioni, alla classificazione del ruolo e dell’ambito sociale delle persone in base al comportamento e alle caratteristiche individuali. In base a tale provvedimento, i sistemi di IA destinati ad uso generale devono sottostare inoltre a requisiti di trasparenza, essendo assoggettati a test preventivi e successivi all’implementazione degli apparati che li governano, in grado di mitigare il rischio di errori o di loro malfunzionamento, nel rispetto del requisito di efficienza energetica dei sistemi stessi.
Verso un accordo tra le imprese proprietarie dei media e i detentori degli apparati di IA
Mentre si stanno gettando le basi per il varo di regole in materia di IA, molte delle quali, di per sé stesse, per le diversità culturali e per gli stessi interessi economici coinvolti, non appaiono facilmente condivisibili da tutti i paesi del mondo occidentale, si sta profilando il raggiungimento di una serie di accordi fra le imprese proprietarie dei media delle comunicazioni e i detentori degli apparati di IA. Il 17 giugno 2023 il “Financial Times” ha dato notizia dell’esistenza di trattative riguardanti l’utilizzazione degli articoli dei giornali, digitali e audiovisivi, al fine di utilizzarli per l’esercizio delle tecnologie di intelligenza artificiale[16].
Fra i soggetti coinvolti in dette trattative, secondo il quotidiano finanziario inglese, vi sarebbe la “News Corp.” della famiglia Murdoch, la tedesca “Axel Springer”, la testata “The Guardian” e lo stesso “New York Times”, che – come abbiamo visto – è attualmente in causa con Microsoft e Open AI. Si è parlato, da parte dei titolari dei diritti, della necessità di ottenere un compenso per lo sfruttamento dei contenuti da parte dei proprietari degli apparati di IA, facendo riferimento a un “modello quantitativo” simile a quello sviluppato dal settore musicale attraverso le piattaforme di distribuzione del loro prodotto.
Questa notizia, che va di pari passo con quella pubblicata dal New York Times il 22 dicembre 2023, con cui il quotidiano annunciava l’avvio di trattative condotte da “Apple Inc.” con imprese del calibro di “Condé Nast”, “NBC News” e “IAC – Inter Active Corp.”, fa pensare che i giganti del web – da un lato – si preparino a un’offensiva sul piano giudiziario, innalzando la bandiera del “Fair-use” (sulla questione si veda l’articolo di cui alla nota n. 8) – dall’altro – avendo già preparato il terreno per una trattativa di tipo finanziario che, in gran parte, convaliderebbe la massiva acquisizione di dati in precedenza accumulati senza il consenso dei titolari dei diritti, aprendo le porte a un’“equa remunerazione” dei contenuti protetti.
C’è da sperare che la cessione dei diritti sui contenuti tutelati dalle privative non assuma le sembianze delle c.d. “licenze obbligatorie[17]” di cui nessuno dei titolari dei diritti avrebbe voluto sentire parlare fino a pochi anni fa.
Non dovrebbe essere ragionevolmente sostenibile, infatti, che i diritti esclusivi d’autore, per potere essere tutelati, debbano essere ceduti secondo logiche avulse da quelle del libero mercato, per soddisfare le iniziative di funzionamento di strumenti, gli apparati di IA, atti a sostituirsi in futuro a molte delle piattaforme esistenti di distribuzione dei contenuti legittimi.
Il caso Getty Images vs Stability AI
A tale proposito, merita di essere ricordato in questo contesto un altro caso giudiziario che ha ad oggetto il trattamento massivo di immagini fotografiche da parte di un apparato di intelligenza artificiale. Ci riferiamo alla controversia giudiziale che vede coinvolta l’agenzia fotografica Getty Images Inc., la quale ha convenuto in giudizio il motore di intelligenza artificiale, “Stability AI”, in due separate cause in corso di fronte rispettivamente all’High Court di Londra (EWHC) e ai giudici del Delaware[18].
Al momento attuale la controversia pendente di fronte all’EWHC include, fra le domande avanzate da Getty Images, oltre alle violazioni dei diritti d’autore e dei diritti connessi anche la violazione della propria “banca di dati” (di cui alla Direttiva dell’UE 96/9/CE[19]) e gli atti di concorrenza sleale susseguenti all’appropriazione e alla messa a disposizione del pubblico della loro elaborazione. Tali domande sono state oggetto di emendamento dell’originario atto introduttivo, che ricalcava quello presentato in precedenza di fronte alle Corti statunitensi, e sono state ammesse dalla giudice inglese all’udienza del 1° dicembre 2023, la quale ha altresì rigettato le eccezioni di carenza di giurisdizione sollevate da Stability AI[20].
In questo caso, l’appropriazione e l’uso delle immagini fotografiche commesse dall’apparato di intelligenza artificiale della convenuta (“Stable Diffusion”) pone con evidenza il sussistere di un “uso trasformativo” dei contenuti che in molti casi si risolve in minime variazioni, riconoscibili solo dopo un confronto attento dei file digitali contestati[21].
Come si è spesso dimostrato in passato, l’intervento dei tribunali non può risolvere problemi di questa portata senza il coinvolgimento del legislatore e senza la collaborazione dei colossi che sono coinvolti in questa complessa e articolata materia. A tale proposito, l’osservazione secondo cui gli apparati di intelligenza artificiale non solo altro che una trasformazione della tecnologia fotografica digitale[22], ci pone di fronte alla constatazione che senza opere creative non possono esistere gli strumenti che le divulgano o le elaborano, come non si può sostituire l’intelligenza umana con quella di una macchina, per le ragioni che anche il più sciocco degli esseri pensanti è in grado di comprendere.
Conclusioni
I grandi operatori che detengono gli apparati di intelligenza artificiale saranno quindi chiamati, non tanto e non solo a una “corsa all’oro” per il possesso dei dati che alimentano i loro algoritmi, ma a una collaborazione con il mondo dei media e con la stessa comunità globale per addivenire allo sviluppo di una tecnologia utile a tutti che rispetti i valori fondamentali che hanno sempre contraddistinto il progresso dell’uomo.
Note
[1] Qui si trova il complaint depositato dal NYT di fronte alla District Court di New York: https://nytco-assets.nytimes.com/2023/12/NYT_Complaint_Dec2023.pdf
[2] Sul punto si rinvia al manuale di Ronald T. Kneusel: “How AI Works”, pag. 21 e successive – Editore “No Starch Press” USA, 2024 © ISBN: 978-1-7185-0372-4[3] I parametri nell’intelligenza artificiale sono le variabili che il learning model apprende durante l’addestramento. Esse sono le variabili interne che il modello utilizza per fare previsioni o per assumere decisioni.
[4] “OpenWebText2” è una versione migliorata dell’originale “OpenWebTextCorpus” che copre tutti gli invii di contenuti indirizzati alla piattaforma di condivisione “Reddit” dall’anno 2005 fino all’aprile del 2022. “Reddit ospita migliaia di comunità, conversazioni infinite e autentica connessione umana”.
Si veda sul punto quanto riportato dalla tabella qui raggiungibile che fornisce dati leggermente differenti: https://gregoreite.com/drilling-down-details-on-the-ai-training-datasets/
[5] Secondo la definizione tratta da Google il “token” è l’unità fondamentale di dati che viene elaborata dagli algoritmi, in particolare nell’elaborazione del linguaggio naturale (NLP) e nei servizi di apprendimento automatico. il “token” è essenzialmente una componente di un set di dati più ampio, che può rappresentare parole, caratteri o frasi.
[6] Si tratta di un inserto del NYT e di un’applicazione digitale del medesimo che forniscono agli utenti suggerimenti su come meglio acquistare le cose necessarie al loro stile di vita.
[7] Il riferimento è a un servizio a pagamento del NYT che offre la copertura sugli eventi sportivi nazionali e internazionali.
[8] Alcune di esse sono state passate in rassegna in questo articolo: https://www.agendadigitale.eu/mercati-digitali/diritto-dautore-e-opere-create-dallai-prove-tecniche-di-tutela-le-questioni-aperte/
[9] Google ne fornisce una definizione precisa: Il “prompt” è una modalità di interazione tra un essere umano e un modello linguistico di grandi dimensioni (LLM) che consente al modello di generare l’output previsto.
[10] Su questo argomento si può leggere l’articolo pubblicato da “Agenda Digitale” pubblicato qui: https://www.agendadigitale.eu/mercati-digitali/giornali-e-piattaforme-digitali-verso-nuove-tutele-per-leditoria/
[11] Sul punto la posizione dei vertici di Open AI è riportata in questo articolo riguardante la vertenza pubblicato da “Computer World”: https://www.computerworld.com/article/3712121/openai-claims-nyt-is-not-telling-the-full-story-in-its-copyright-lawsuit.html
[12] Qui viene pubblicata una breve panoramica sui casi emergenti in tema di copyright e AI: https://www.agendadigitale.eu/mercati-digitali/le-opere-creative-dellia-gli-esiti-del-confronto-fra-copyright-e-diritto-dautore/
[13] Alcune riflessioni sono frutto del lavoro già compiuto negli Stati Uniti e nell’Unione Europea: Al collegamento ipertestuale sotto riportato si trova qualche spunto: https://www.hbritalia.it/homepage/2023/06/26/news/intelligenza-artificiale-le-regole-limitano-lo-sviluppo-tecnologico-15591/
[14] Il link a questo articolo ci permette di comprendere l’ampiezza del problema e di visionare il testo della lettera citata: https://www.brown.senate.gov/newsroom/press/release/sherrod-brown-colleagues-cfpb-protect-consumers-scams-ai
[15] Il sito dell’UE offre informazioni di dettaglio sui contenuti di tali disposizioni: https://www.europarl.europa.eu/news/en/headlines/society/20230601STO93804/eu-ai-act-first-regulation-on-artificial-intelligence
[16] Qui la pagina del “Financial Times” in argomento: https://www.ft.com/content/79eb89ce-cea2-4f27-9d87-e8e312c8601d
[17] Il termine “licenza obbligatoria”, derivato dall’istituto giuridico introdotto per la prima volta dalla Convenzione di Parigi del 1883 sui diritti di proprietà intellettuale, che lo ha riferito ai casi delle licenze imposte per impedire abusi da parte dei soggetti che operavano in posizione dominante, soprattutto nel mercato dei brevetti, è stato successivamente ripreso dai TRIPs all’art. 31 (e poi all’art. 31-bis) del testo del trattato di Marrakech. Esso sembra dovere essere ragionevolmente implementato solo per la produzione e distribuzione di prodotti farmaceutici destinati ai paesi non in grado di operare localmente nelle suddette attività.
[18] Della causa si forniscono le informazioni essenziali nell’articolo di cui alla nota n. 9 di questo articolo.
[19] Il testo della Direttiva, implementata nel Regno Unito prima della sua uscita dall’Unione, è raggiungibile al seguente link: https://eur-lex.europa.eu/legal-content/IT/TXT/PDF/?uri=CELEX:01996L0009-20190606&rid=9
[20] Segnaliamo, in tema di violazioni del diritto d’autore contestate ai detentori degli algoritmi di IA da parte dei Right-holders queste interessanti controversie. La prima di esse è stata avviata con atto di citazione emendato il 4 dicembre 2023 di fronte al Southern District di New York da parte di alcuni autori di opere letterarie (fra essi vi sono: John Grisham, David Baldacci, Scott Turow, Sylvia Day), che agiscono assieme all’“Authors Guild of America” contro il gruppo Open AI, impresa proprietaria di Chat-GPT. Nell’atto di citazione https://authorsguild.org/app/uploads/2023/12/Authors-Guild-OpenAI-Microsoft-Class-Action-Complaint-Dec-2023.pdf viene contestata dagli attori alla controparte l’appropriazione dei contenuti tutelati dal diritto d’autore da essi posseduti, allo scopo illecito di realizzare opere simili a quelle originali, ovvero derivate dalle prime, per creare sequel o prequel da porre a disposizione degli abbonati al servizio, con grave danno agli autori. Inoltre, le imprese chiamate in giudizio avrebbero addestrato le loro Large Language Models (LLM) sui set di dati di EleutherAI, piattaforma che avrebbe violato i diritti d’autore su 183.000 e-book, comprese le opere dei ricorrenti.
Un’ulteriore azione legale nell’ambito delle violazioni al diritto d’autore contestate ai detentori degli apparati di IA è stata mossa da Mike Hackabee (ex governatore dell’Arkansas che agisce con altri autori) contro Meta Platforms, Bloomberg e Microsoft in data 17 ottobre 2023 pendente di fronte al Southern District di New York. In tale atto si attribuisce agli apparati di IA detenuti dalle imprese convenute la responsabilità della violazione dei propri diritti d’autore, attraverso la produzione dell’elenco delle fonti di provenienza delle opere sfruttate dagli apparati di IA i cui utenti hanno addirittura posto in vendita sulla piattaforma digitale di Amazon alcuni libri di basso livello elaborati attraverso gli algoritmi di IA, attribuendone la paternità a noti autori del tutto ignari dell’esistenza di tali opere e delle relative operazioni commerciali.
[21] Avuto riguardo alle fotografie, va rimarcato che esse, contrariamente a quanto avviene per le altre opere dell’ingegno tutelate non esiste nei paesi di civil law il diritto alla copia privata che permetterebbe ai titolari dei diritti almeno un parziale recupero derivanti dalla riproduzione dei file su milioni di supporti. Sul tema delle fotografie si può leggere questo articolo: https://www.agendadigitale.eu/cultura-digitale/come-cambia-il-diritto-dautore-sulle-fotografie-nel-mondo-digitale/
[22] Cfr. “Competing in the age of AI” di Marco Iansiti e Kharim R. Lakhani – Harvard Business Review Press- 2020, pag. 7 nel capitolo “The Age of AI” – ISBN: 13: 978-1-63369-762-1