Editori e big tech, regole condivise per i diritti di text e data mining: ecco perché conviene

Lo sviluppo di soluzioni machine readable per esprimere diritti e licenze associati ai contenuti in rete può consentire lo sviluppo di servizi innovativi, tutelando anche la creatività e il lavoro autoriale e editoriale che li rende possibili. Serve però una soluzione standard condivisa tra editori e aziende tecnologiche

Una gestione corretta del diritto d’autore è essenziale per consentire a tutti i creatori di contenuti di poter esprimere le condizioni sotto cui i contenuti online si aprono all’utilizzo da parte delle applicazioni dell’intelligenza artificiale. Serve perciò un’intesa al massimo livello per l’individuazione di standard tecnologici semplici e adeguati tra i produttori e le aziende tecnologiche, che faciliti l’acquisizione delle licenze per il text and data mining, evitando la creazione di un regime di protezione differenziato per i contenuti autoprodotti e quelli realizzati in modo professionale.

In questo senso si muove il lavoro del Community Group del W3C, che si prefigge di individuare soluzioni machine readable semplici, basate sugli standard già in uso nel web, che consentano ad autori e editori di riservare i diritti per il “text and data mining” per finalità commerciali e di comunicare le eventuali licenze disponibili, facilitando lo sviluppo di applicazioni di intelligenza artificiale basate sull’uso legittimo dei contenuti protetti dal diritto d’autore.

Indice degli argomenti

La Direttiva europea sul diritto d’autore nel mercato unico digitale

Per comprendere l’importanza di questi temi, partiamo da un semplice dato di contesto. Alcune applicazioni dei sistemi di intelligenza artificiale sono oggi di uso comune e note a tutti noi: dagli assistenti vocali ai sistemi di traduzione automatizzata, ne facciamo esperienza quotidianamente e ci hanno sicuramente reso la vita più facile. Quello che è meno noto è che le intelligenze artificiali nascono e crescono con il contributo di tutti: la gigantesca miniera di informazioni e dati disponibili in rete è infatti la “benzina” che alimenta le intelligenze artificiali e che viene ottenuta tramite tecniche di estrazione e analisi automatizzata del testo e dei dati (text and data mining) da parte di agenti software in grado di individuare nuovi modelli, tendenze, correlazioni tra i dati, generando nuova conoscenza.

La Direttiva europea sul diritto d’autore nel mercato unico digitale, che dovrà essere recepita negli Stati membri entro giugno 2021, introduce due nuove eccezioni per gli utilizzi dei contenuti protetti da diritto d’autore per le finalità di text and data mining.

La prima (art. 3), non è controversa e consente agli enti di ricerca e agli istituti di tutela del patrimonio culturale di effettuare riproduzioni ed estrazioni, per scopi non commerciali di ricerca scientifica, di testo e dati dalle opere a cui hanno legalmente accesso (ad esempio in abbonamento o tramite licenze ad accesso aperto), al fine di armonizzare e promuovere l’applicazione dell’intelligenza artificiale in ausilio alla ricerca scientifica.

La seconda eccezione (art. 4) estende invece la possibilità di applicare le tecniche di text and data mining a qualunque soggetto e per qualsiasi scopo, anche commerciale, a meno che tale utilizzo non venga espressamente riservato dagli aventi diritto. Nel caso dei contenuti liberamente accessibili sul web, la riserva dei diritti per il text and data mining potrà essere effettuata tramite strumenti “machine readable”, stringhe di codice presenti nei siti che possano essere interpretati automaticamente dalle applicazioni software che esplorano la rete (di cui l’esempio più immediato sono i web crawler che indicizzano le pagine per i motori di ricerca).

Il Text and Data Mining Reservation Protocol del Community Group del W3C

L’eccezione introdotta all’art. 4 mette a confronto da una parte le opportunità delle tecniche di intelligenza artificiale applicate ai contenuti liberamente accessibili in rete, dall’altra il diritto di chi scrive e pubblica i testi sul web – articoli, notizie, blog, pubblicazioni in accesso aperto – di decidere se e quando autorizzarne lo sfruttamento da parte di soggetti con finalità commerciali: nasce da questa doppia necessità il lavoro avviato dal Community Group del W3C “Text and Data Mining Reservation Protocol” che coordino in rappresentanza dell’Associazione Italiana Editori (AIE), insieme al francese Laurent Le Meur di EDRLab, organizzazione impegnata nello sviluppo di standard aperti e interoperabili per i contenuti editoriali. Il gruppo è sostenuto dalla Federazione degli editori europei (FEP) e dalla associazione francese degli editori (SNE).

Per mettere a punto tali strumenti è fondamentale orientarsi verso soluzioni standard, aperte, in linea con le pratiche già in uso nell’industria dei contenuti e con i formati e i protocolli in uso nel web e per le quali non vi siano barriere tecnologiche o economiche all’utilizzo. Occorre infatti garantire che gli strumenti per effettuare la riserva dei diritti siano accessibili a tutti, dal grande editore ai singoli utenti della rete che, con i contenuti autoprodotti, potrebbero diventare i principali “lavoratori non retribuiti” nel processo di istruzione delle intelligenze artificiali.

Per questo, il lavoro del Community group è una risorsa per tutti, che consentirà di generare nuovi servizi e valorizzare al contempo il lavoro di chi quei contenuti li ha prodotti.

L’importanza di una gestione corretta del diritto d’autore

Non è sempre facile spiegare quanto sia cruciale una gestione corretta del diritto d’autore per promuovere l’innovazione in questo campo, se non altro perché non siamo in grado di conoscere oggi le potenzialità delle tecniche di text and data mining tra cinque anni e quali nuovi progressi faranno le intelligenze artificiali. Possiamo fare però degli esempi, delle ipotesi che già ci danno un ordine di grandezza della rilevanza del tema. Già da diversi anni alcune agenzie di stampa hanno sperimentato la creazione automatizzata di articoli che danno conto degli andamenti di Borsa di un determinato titolo azionario: è relativamente semplice farlo perché si tratta di riportare numeri e percentuali già determinati, collegandoli tra loro attraverso frasi e considerazioni che seguono degli andamenti standard. Ma è possibile che in un futuro non molto remoto gli articoli giornalistici prodotti dalle intelligenze artificiali siano sempre più complessi e che vengano creati sulla base dell’enorme mole di articoli già presenti online: in assenza di strumenti adeguati di gestione dei diritti in ambiente digitale un’azienda tecnologicamente all’avanguardia potrebbe istruire e sfruttare commercialmente, meglio di quanto possa fare una testata, un “robot giornalista” sfruttando il lavoro dei giornalisti in carne e ossa senza adeguata remunerazione del loro lavoro. E ancora: se una piattaforma di streaming utilizzasse l’enorme mole di recensioni sulle serie tv presenti in rete, per analizzare il “sentiment” di ogni puntata o di ogni genere proposto, e questo le permettesse di guadagnare di più individuando meglio quali progetti finanziare, tale piattaforma non dovrebbe in qualche modo darne conto a chi quei giudizi li ha scritti? A fronte di questi scenari, lo sviluppo di soluzioni machine readable per esprimere i diritti e le licenze associati ai contenuti in rete può consentire lo sviluppo di servizi innovativi, tutelando allo stesso tempo la creatività e il lavoro autoriale e editoriale che li rende possibili.

I danni all’innovazione in assenza di soluzioni condivise

Se questi due esempi possono spiegare anche solo in parte l’importanza di una corretta gestione dei diritti d’autore per lo sviluppo delle applicazioni basate sull’intelligenza artificiale, va ricordato che una gestione il più possibile automatizzata delle licenze è indispensabile alle stesse aziende tecnologiche affinché i servizi di text and data mining per finalità diverse dalla ricerca possano decollare.

Il quadro di incertezza che si verrebbe a creare in assenza di soluzioni di licenza condivise tra produttori di contenuti e aziende tecnologiche spingerebbe inevitabilmente i primi a decidere di negare tout court l’accesso ai testi, e questo sarebbe un danno all’innovazione. Inoltre, l’assenza di una soluzione standard condivisa che possa essere promossa su scala europea rischia di incentivare la proliferazione di strumenti e tecnologie differenti per autorizzare il text and data mining, il che renderebbe estremamente dispendioso e inefficiente per le aziende tecnologiche ottenere le licenze quando invece la raccolta dei big data ha senso proprio se può essere fatta in maniera automatizzata e veloce. Va infine ricordato che la definizione rigorosa delle licenze di utilizzo dei contenuti in rete è importante anche per evitare confusione tra applicazioni dell’intelligenza artificiale con diverse finalità. In particolare, la riserva dei diritti per finalità di text and data mining non deve pregiudicare l’accesso dei produttori di contenuti ad altri servizi forniti dalle aziende tecnologiche quale l’indicizzazione dei contenuti ai fini della loro ricercabilità nei risultati dei motori di ricerca.

Conclusioni

La sfida che ci troviamo davanti è sicuramente molto difficile, ma anche estremamente interessante: stiamo definendo le regole di un gioco che ancora non sappiamo come influenzerà la nostra vita futura, ma già sappiamo che la influenzerà moltissimo.