A meno di un anno dall’arrivo di ChatGPT e degli altri tool di Intelligenza Artificiale generativa, tutti i settori dell’industria dei contenuti hanno reagito manifestando interesse o preoccupazione, a seconda dei casi. Da ultimo, le proteste degli attori americani anche avverso le produzioni che fanno uso di intelligenza artificiale sono approdate al Festival di Venezia.
Strumenti basati sulla AI stanno trasformando rapidamente il settore dei contenuti rendendone più veloce, economica ed efficiente la creazione. E questo pare essere solo l’inizio. Ma più interessante del dibattito dottrinale sulla possibilità di proteggere con il copyright le opere generate da sistemi di IA è, a mio giudizio, l’osservazione empirica della forma adattiva che assumono gli operatori del mercato di fronte a questo salto quantico.
Si pensi al Natural Language Processing (NLP), una tipologia di intelligenza artificiale che si occupa dell’interazione dei computer con il linguaggio umano, attraverso l’uso di algoritmi deep learning denominati Large Language Models (LLM). Essi ricadono nella definizione di “foundation models” prevista nel draft AI Act. I LLM sono addestrati usando enormi datasets. Ciò consente loro di riconoscere, tradurre, prevedere o generare testo o altri contenuti.
La NLP comprende i diversi aspetti del linguaggio, come il significato, il contesto e l’intenzione dietro parole e frasi. Essa viene sfruttata in varie applicazioni, come la traduzione linguistica, l’analisi dei sentimenti e il software di riconoscimento vocale. E viene utilizzata massicciamente nella creazione di contenuti, poiché aiuta gli scrittori a perfezionare il proprio lavoro per ottenere chiarezza, coerenza e pertinenza per il pubblico di destinazione.
Vi sono fondati motivi per ritenere che sino ad oggi i LLM abbiano svolto una cospicua attività di scraping e data mining su tutti i contenuti disponibili sul il web al fine di estrarre, rielaborare e assemblare i dati e le informazioni necessari al loro funzionamento.
Le cause avviate negli Usa
Significativa la risposta dell’editoria.
Negli USA sono ancora nelle fasi iniziali due class-action che diventeranno leading case sul tema: in sostanza, i ricorrenti, autori di libri di successo, hanno richiesto la condanna di OpenAI e Meta per violazione di copyright affermando che l’utilizzo delle loro opere protette da copyright come materiale di addestramento per i sistemi di AI, rispettivamente ChatGPT e LLaMA, sia stato svolto senza alcuna autorizzazione da parte dei titolari dei diritti. Gli autori sostengono che, in base alle informazioni fornite da OpenAI, ChatGPT sembra essere stato addestrato su 294.000 libri presumibilmente scaricati da noti siti pirata.
Anzi, secondo l’edizione australiana del Guardian, che cita lo scrittore Richard Flanagan, siamo di fronte al più grande furto di copyright della storia. L’Australian Publishers Association riferisce della riproduzione non autorizzata di 18.000 volumi, che fa eco alla denuncia della US Authors Guide in relazione ad una dataset piratato denominato Books3, mediante il quale sarebbero stati utilizzati 190.000 volumi americani per il training di Open AI e Meta.
È interessante notare come OpenAI, in sua difesa, lungi dal negare l’impiego di tali opere protette, sostenga che gli utilizzi svolti dai modelli di Ai debbano essere giustificati sulla base dalla dottrina del fair use.
Il sistema di opt-out di OpenAi
Le cause sono ancora nelle fasi iniziali e OpenAI sembra correre ai ripari adottando un sistema di opt-out che permette ai siti web di impedire al suo web crawler di accedere ai loro contenuti.
Dal momento dell’introduzione del sistema di opt-out, risulta che già numerosi siti web con una grande componente editoriale abbiano esercitato questa opzione, tra cui naturalmente molti siti di informazione come Guardian, CNN, Reuters, Washington Post, Bloomberg e New York Times, ma anche banche dati fotografiche come Shutterstock e PixBay, social media come Quora e Tumblr, nonché il colosso dell’e-commerce Amazon.
Dall’esercizio del sistema di opt-out sembrano comunque attualmente esclusi i materiali già acquisiti ed entrati a far parte del dataset utilizzato da ChatGPT per il proprio addestramento, e sul cui contenuto OpenAI ha sempre mantenuto grande riserbo.
The New York Times
Il New York Times, oltre a esercitare l’opt-out, ha scelto di adottare misure contrattuali preventive per impedire che i suoi contenuti vengano utilizzati per addestrare modelli di AI. Lo scorso 3 agosto, infatti, il NYT ha aggiornato i suoi Termini di Servizio in modo da vietare specificamente di “utilizzare il Contenuto [del sito web n.d.r.] per lo sviluppo di qualsiasi programma software, incluso, ma non limitato a, l’addestramento di un sistema di apprendimento automatico o di intelligenza artificiale (AI)“
L’obiettivo del NYT è quindi di negare alle società di sviluppo di AI di accedere ai propri contenuti con strumenti automatizzati che siano finalizzati alla raccolta, alla copia e all’elaborazione dei propri contenuti per l’addestramento delle AI stesse, senza una specifica autorizzazione.
Associated Press News
Altri soggetti hanno invece optato per una collaborazione con i sistemi di AI: tra questi il caso più rilevante è quello della organizzazione giornalistica Associated Press News che ha concluso lo scorso luglio un accordo quadro con Open AI.
I termini dell’accordo non sono stati resi pubblici, tuttavia AP News ha dichiarato di avere concesso in licenza parte del proprio archivio a OpenAI, autorizzandone l’utilizzo per l’addestramento di ChatGPT a fronte di una adeguata remunerazione.
Inoltre, AP News si è impegnata a promuovere e sfruttare l’utilizzo della tecnologia di OpenAI: a tal fine ha pubblicato per i suoi autori e collaboratori delle linee guida sull’utilizzo intelligenza artificiale, in cui si specifica che ChatGPT non potrà essere utilizzato per creare contenuti e immagini pubblicabili per il servizio di notizie, incoraggiando allo stesso tempo i membri dello staff a familiarizzare con la tecnologia.
Considerazioni per gli editori
Non pare dubbia la circostanza che la AI generativa si nutra di opere protette dal diritto d’autore.
Anche OpenAI sembra aperta a riconoscere la necessità di una autorizzazione specifica, come testimoniato dall’introduzione del sistema di opt-out, nonché l’accordo cercato e concluso con alcuni editori per la messa a disposizione del proprio archivio.
Attualmente non è semplice stabilire quale sia la posizione più strategica, considerato anche che i termini economici dell’accordo tra OpenAI e AP News non sono stati resi noti e che quindi non possa escludersi il rischio di ottenere un compenso meramente simbolico in caso di accordo.
Conclusioni
Certamente nei prossimi mesi saranno avviati molti contenziosi. Nonostante questo sembra chiaro che il mercato stia prendendo la strada della valorizzazione degli archivi degli editori, che sono il petrolio per il funzionamento dei modelli di AI.
Se vogliamo guardare all’esperienza maturata nel settore musicale, da sempre anticipatore nelle varie evoluzioni tecnologiche – ricordo che l’ultimo episodio della saga iniziata con Pirate Bay è il braccio di ferro SIAE /META – forse possiamo immaginare che dopo uno scontro iniziale si facciano largo accordi transattivi basati su un risarcimento per le pregresse attività di utilizzo non autorizzato e contratti di licenza per il futuro, basati su apposita rendicontazione e precise limitazioni.
Questo sarebbe in linea con la posizione delle istituzioni europee: nell’ultima versione della bozza di AI ACT (attualmente sottoposta al trilogo) sono state introdotte specifiche regole per i fornitori di foundation models finalizzate alla trasparenza ed alla rivelazione dei dati usati per il training protetti dal copyright.