New york times contro Open AI e Microsoft per ChatGpt. Abbiamo così ora un “leading case” in materia di intelligenza artificiale generativa, diritto d’autore e diritto all’informazione che coinvolge alcuni dei temi giuridici al cuore dello sviluppo dell’intelligenza artificiale generativa responsabile.
La denuncia del New York Times contro Open AI e Microsoft
Val quindi bene la pena di analizzare la citazione (PDF) sporta il 27 dicembre 2023 dal New York Times davanti alla Corte di New York riguardo a diverse società appartenenti al gruppo OpenAI e Microsoft per violazione dei diritti d’autore sulle proprie pubblicazioni giornalistiche, oltre che per concorrenza sleale e per diluzione del marchio.
Ha chiesto il risarcimento dei danni (da quantificarsi), oltre che l’inibitoria dalla continuazione della violazione e la distruzione di tutti i modelli GPT (e di ogni altro “Large Language Models”) che abusivamente contengano opere dell’ingegno di titolarità del New York Times.
Secondo il complaint depositato dal New York Times, ChatGPT è stato costruita copiando massivamente ed abusivamente le pubblicazioni giornalistiche del Times (utilizzato più di altre fonti per la particolare qualità dei suoi contributi), al punto che utilizzando il sistema di intelligenza artificiale in questione qualunque utente può generare output che riportano in modo letterale parti rilevanti delle opere del Times, oppure le sintetizzano in modo ravvicinato, o ancora possono riprodurre lo stile espressivo tipico del Times stesso.
Inoltre, lamenta il New York Times, in molti casi ChatGPT produce output che erroneamente attribuiscono al Times informazioni del tutto scorrette o false. In questo modo gli utenti possono accedere ai contenuti del Times, o alle informazioni comunque in esso presenti, senza dover pagare alcunché all’editore – che gestisce un sito web a pagamento – e senza neppure visitare i contenuti presenti gratuitamente sul sito stesso, ove si genererebbe traffico per le visualizzazioni pubblicitarie.
I danni
Il comportamento abusivo ora descritto da un lato priverebbe il Times delle risorse per sostenere gli investimenti necessari ad un giornalismo di investigazione e di qualità (incluso il fact checking), e dall’altro lato consentirebbe a OpenAI e Microsoft di ottenere enormi vantaggi, come dimostrato dall’aumento della capitalizzazione sul mercato di entrambe le società (un trilione di dollari per Microsoft e 90 miliardi di dollari per OpenAI).
Nel proprio complaint il New York times lamentava anche le “allucinazioni” dell’intelligenza artificiale, fenomeno in base al quale il sistema, anziché rispondere “non so” a domande per le quali non conosce la risposta corretta, fornisce comunque informazioni, che tuttavia non sono accurate oppure sono addirittura false, senza che tuttavia l’utente abbia modo di distinguere gli output “allucinati” dagli altri output. Con danni reputazionali quindi per il giornale, laddove gli veniva attribuita la fonte di queste dichiarazioni.
Per quanto in particolare riguarda OpenAI, quest’ultima, nata come un progetto non-profit aperto, si è ora trasformata in una società commerciale a tutti gli effetti, e a partire da GPT3 il modello è diventato chiuso, anche per quanto riguarda le informazioni relativamente ai contenuti utilizzati.
Da ultimo, il New York Times afferma di aver tentato di negoziare con le controparti una soluzione transattiva che permettesse l’uso legale dei contenuti del Times nel nuovo contesto digitale, come in passato avvenuto in relazione ai prodotti di Google, Meta e Apple. Il negoziato non ha tuttavia prodotto risultati positivi, principalmente perché le controparti avrebbero sostenuto l’integrale legittimità del proprio operato, sulla base delle regole del “fair use”, che consentirebbe l’uso senza licenza di contenuti protetti dal diritto d’autore per trainare modelli di intelligenza artificiale generativa in grado di realizzare opere trasformative.
Le prove
Per provare le proprie tesi, il New York Time ha fatto in particolare riferimento ai data set utilizzati per lo sviluppo della versione GPT-2, per la quale OpenAI aveva reso pubbliche alcune informazioni.
Fra queste vi era la circostanza che il data set utilizzato includeva un corpo interno chiamato “WebText”, che conteneva 45 milioni di links postati dagli utenti del social network Reddit. Il “WebText” era stato creato come una selezione speciale di contenuti presenti in rete caratterizzati da un alto livello qualitativo, ed in esso il dominio “NYTimes.com” era presente in modo predominante, al quinto posto con 333.160 entries. Nella versione GPT-3 era stato utilizzato un “WebText2”, similmente creato con links provenienti da Reddit, ed in questo corpus il New York Times rappresentava la prima fonte proprietaria e la terza in assoluto dopo Wikipedia e il database dei brevetti statunitensi. Sulla base di queste informazioni il New York Times deduceva che nell’ultima versione GPT-4 i contenuti di Times avrebbero dovuto essere presenti ed utilizzati in modo ancora più massivo.
Ad ulteriore riprova della violazione, il New York Times affermava che sulla base di determinati prompt relativi a famose indagini investigative del Times ChatGPT generava contenuti quasi del tutto identici dal punto di vista letterale con gli articoli del Times stesso; inoltre, richiedendo a ChatGPT di fornire i paragrafi degli articoli del Times in quanto l’accesso al sito a pagamento era stato impedito all’utente, il sistema li riproduceva, quasi integralmente, di fatto bypassando le misure tecniche di protezione applicate al sito web dal titolare dei diritti.
La ripresa non si limitava a contenuti storici, ma – grazie all’interazione con il motore di ricerca Bing – era in grado di riportare anche gli articoli di attualità più recenti pubblicati dal Times: in altre parole, mentre in precedenza i motori di ricerca erano in grado di pubblicare solo i titoli e brevissime note relative ad una pubblicazione giornalistica, così che l’utente era portato ad accedere al sito del giornale per acquisire le informazioni di suo interesse, nel contesto attuale il motore di ricerca poteva fornire una sintesi estesa all’utente, che quindi non aveva più alcun bisogno di accedere al sito originale.
Tutto questo non poteva, secondo il Times, essere consentito sulle base dell’esenzione del “fair use”, perché questa non consente la violazione sistematica e competitiva dei diritti d’autore, da momento che ChatGPT utilizza i contenuti del Times senza licenza e senza pagamento per creare output che sostituiscono le opere del Times stesso e ne sviano la clientela.
I temi di diritto in ballo
Come si vede, le questioni poste dall’azione del New York Time riguardano anzitutto la legittimità dell’uso per il training di sistemi di intelligenza artificiale di ampie basi di dati contenenti opere dell’ingegno.
Fair use
Negli Stati Uniti si parla di “fair use”, nel dibattito europeo di eccezione di “text and data mining”. Per quanto riguarda il fair use, secondo l’art. 17 U.S.C.§ 107 è necessario valutare lo scopo e il carattere dell’uso (considerando anche se si tratta di uso commerciale oppure senza scopo di lucro e di tipo educativo); la natura dell’opera dell’ingegno; la quantità e la qualità della parte utilizzata rispetto all’intera opera dell’ingegno; e l’effetto dell’uso sul mercato potenziale o sul valore dell’opera dell’ingegno originale.
Nella propria submission avanti al Copyright Office statunitense (https:/crsreports.congress.gov) OpenAI ha sostenuto che l’uso di opere protette dal diritto d’autore per il training dell’intelligenza artificiale generativa dovrebbe essere considerato “fair use” dal momento che il suo scopo è trasformativo e non espressivo (il training crea sistemi di intelligenza artificiale utili), e poiché inoltre le opere non sono rese disponibili al pubblico in quanto tali, ma semplicemente usate per addestrare il sistema.
Allo stato tuttavia il dibattito è aperto, tanto che diversi titolari di diritti hanno agito nei confronti di svariate società produttrici di sistemi di intelligenza artificiale, proprio perché il training di questi sistemi violerebbe i loro diritti:
- si pensi all’azione dell’Authors Guild e di alcuni autori contro Open AI;
- all’azione di Michael Chabon, Sarah Silverman ed altri contro Meta Platforms;
- alle class actions contro Alphabet Inc., Stability Ai e Midjourney;
- alla causa di Getty Images contro Stability AI.
Nel settembre del 2023 il giudice statunitense Stephanos Bibas – investito della controversia fra Thomson Reuters e Ross Intelligence per l’asserita copiatura dei contenuti della banca giuridica WestLaw per il training di un sistema di intelligenza artificiale finalizzato a fornire opinioni legali con quotazioni di precedenti legali – ha rinviato ad un jury trial la valutazione se l’uso in questione sia trasformativo, se l’utilizzo superi quanto necessario, se gli output siano sostitutivi sul mercato delle opere di Thomson Reuters.
Le regole in Europa
In Europa si parla invece del perimetro di applicazione dell’eccezione di text and data mining (artt. 3 e 4 della Direttiva UE 2019/790 sul Copyright nel Digital Single Market) che secondo alcuni interpreti non potrebbe applicarsi all’intelligenza artificiale generativa in quanto potrebbe violare il cd. three-steps-test (principio generale derivante dai trattati internazionali secondo il quale le eccezioni e le limitazioni ai diritti esclusivi si possono applicare solo quando si tratti di casi speciali, non vi sia contrasto con il normale sfruttamento delle opere e non si rechi indebitamente pregiudizio ai legittimi interessi dei titolari dei diritti).
Recentemente, tuttavia, è emerso che nel testo di compromesso dell’AI Act vi sarebbe un riferimento esplicito alla necessità per i sistemi di AI di dotarsi di tecnologie per il rispetto dell’opt-out previsto dall’eccezione del text and data mining, il che avvalorerebbe la tesi secondo cui questa eccezione si applica invece anche all’intelligenza artificiale generativa (perlomeno secondo l’AI Act e a prescindere da valutazioni connesse alla compatibilità di questa legislazione con i trattati internazionali).
Quanto sopra riguarda principalmente la fase di input dei sistemi di intelligenza artificiale, e la legittimità dell’uso da parte di questi di contenuti protetti anche senza una licenza da parte dei titolari dei diritti ed il riconoscimento di una remunerazione.
Vi sono tuttavia anche ulteriori problemi che riguardano specificamente la fase di output, ossia la creazione dei contributi da parte dell’intelligenza artificiale. Qui la domanda da porsi è fino a che punto possano essere considerati leciti – a prescindere dal training effettuato – output che riproducono, letteralmente o quasi letteralmente, parti rilevanti di opere dell’ingegno protette.
Ove la forma espressiva sia replicata in tal modo sussistono pochi dubbi che vi sia una violazione dei diritti d’autore. Più complessa si presenta invece la valutazione della liceità di output che – utilizzando una forma espressiva sostanzialmente diversa – riprendano tuttavia lo stile distintivo di un autore o di un artista, ovvero la struttura interna delle sue opere.
Da una parte potrebbero essere coinvolti temi di diritto della personalità (riconoscendo lo stile come elemento distintivo della persona-autore o artista), mentre dall’altra parte va ricordato che in una certa misura ed a determinate condizioni anche la struttura interna di un’opera può ricevere una protezione esclusiva (come nel caso del format).
Diritto all’informazione
La controversia iniziata dal New York Times coinvolge tuttavia anche altri temi, oltre a quelli prettamente ed esclusivamente autoristici, connessi alla tutela del diritto all’informazione e all’importanza quindi di preservare un’industria editoriale giornalistica indipendente e attendibile. Si tratta di interessi primari che sono stati anche recentemente riconosciuti nella Direttiva UE 2019/790, che ha coniato un nuovo diritto connesso sulle pubblicazioni giornalistiche, mirato soprattutto a fare in modo che gli aggregatori di notizia online riconoscessero una remunerazione agli editori e ai giornalisti.
La questione è tanto più seria al giorno d’oggi, dove il rischio di fake news e la conseguente necessità di un adeguato fact cheking sono profondamente sentiti a livello sociale e politico.
Reputazione
Né va sottovalutato il rischio posto dalle “allucinazioni” dell’intelligenza artificiale paventato dallo stesso New York Times, le quali – oltre a violare il nome e l’immagine degli editori – rappresentano un ulteriore grave pericolo di inganno del pubblico, in assenza di strumenti adeguati per valutare adeguatamente l’attendibilità di una informazione.
In conclusione
Si tratta di rischi che nel loro insieme meritano attenta valutazione e che dovrebbero essere oggetto di azioni contemporanee a più livello, fra cui in primo luogo la cooperazione fra le industrie dei settori coinvolti che dovrebbero negoziare soluzioni condivise.
E’ evidente infatti che l’intervento legislativo, oltre ad essere di impatto potenzialmente più severo, rischia di scontare ritardi e comunque avrebbe natura frammentaria in un contesto invece necessariamente globale.