Axel Springer e altri

Editoria e intelligenza artificiale, i primi accordi: ecco gli scenari 2024



Indirizzo copiato

Il mercato editoriale inizia ad individuare soluzioni per generare ricavi dalla messa a disposizione di contenuti sulle piattaforme AI. Vedi il caso Axel Springer. Ma siamo in una fase ancora di grandi incognite

Pubblicato il 21 dic 2023

Enzo Mazza

CEO F.I.M.I. (Federazione industria musicale italiana)



giornali intelligenza artificiale

Mentre a Bruxelles si lavora sui dettagli dell’AI Act dopo la conclusione del trilogo, il mercato inizia ad individuare soluzioni per generare ricavi dalla messa a disposizione di contenuti sulle piattaforme AI.

Un primo storico accordo di licenza sui contenuti è quello siglato tra l’editore tedesco Axel Springer e OpenAI, sostenuta da Microsoft, finalizzata ad individuare una strada che generi ricavi sul fronte delle nuove tecnologie di intelligenza artificiale generativa.

I media, come noto, si trovano ad affrontare una minaccia esistenziale rappresentata dall’intelligenza artificiale generativa, che crea testo, immagini, audio e video indistinguibili da quelli prodotti dagli esseri umani.

L’esperienza accumulata dall’evoluzione di Internet ha ovviamente offerto alle aziende un modello strategico che oggi può essere sfruttato nell’individuare delle potenziali soluzioni.

Accordi tra publisher e piattaforme di intelligenza artificiale

L’accordo tra Springer e OpenAI, del valore di decine di milioni di euro all’anno, permetterà all’impresa che ha creato ChatGPT di utilizzare contenuti di testate come Politico, Bild e Business Insider.

La questione è nota. Come monetizzare i database di contenuti che rappresentano un fondamentale asset di decenni di contenuti creativi generando al tempo stesso delle revenue sharing per le testate giornalistiche. Secondo l’analista dei media Ian Whittaker, citato dal Financial Times l’accordo è “un modello per tutti gli altri: tariffa fissa per i dati storici più quota annuale continuativa”.

Le ipotesi di accordi tra publisher e piattaforme di intelligenza artificiale tra cui OpenAI, Google, Microsoft e Adobe hanno visto negoziati con News Corp, Axel Springer, The New York Times, Guardian Media Group e Financial Times per individuare modelli di licenza relative ai prodotti di intelligenza artificiale come chatbot di testo e generatori di immagini. L’accordo con Axel Springer potrebbe costituire un nuovo modello in base al quale gli sviluppatori di sistemi AI che utilizzano contenuti protetti da copyright per creare e informare i loro prodotti stipulano accordi commerciali con proprietari di copyright che investono in media, notizie e informazioni.

Le regole generali

La proposta di regolamento europeo sull’AI conferma come l’indirizzo generale vada verso la determinazione di obblighi da parte delle piattaforme per quanto attiene ai contenuti utilizzati per l’addestramento, prevendendo che queste si dotino di adeguate autorizzazioni ai sensi della direttiva sul copyright.

Nel frattempo, per evitare un rastrellamento indiscriminato molti editori e titolari dei diritti stanno indicando sui propri siti come abbiano scelto l’opt-out sulla base delle norme sul text & data mining. Opt out che però al momento sembra poco praticabile nei confronti dell’IA di Google, se non in parte. Se è possibile impedirgli di usare i dati per allenare Bard, non è possibile per i siti chiedere di essere esclusi dalle nuove funzioni di Google Search dotate di IA (quelle che danno risposte immediate agli utenti invece di link di ricerca). Fare opt out da questo implica infatti anche chiedere a Google di non farsi indicizzare e quindi perdere molto traffico: circa il 40 per cento di quello che arriva ai siti di informazione viene dal motore di ricerca.

Per gli editori è una fase di scelte, anche difficili. E’ anche vero che le big tech dell’IA generativa non possono andare avanti senza curarsi di chi produce i contenuti, come fatto all’inizio. Rischiano cause devastanti e – nel caso di Google – anche di togliere sostenibilità economica alla materia prima che tiene in piedi il business della search, ossia il web.

L’accordo siglato da Open Ai e Springer è significativo perché sembrerebbe un passo indietro di OpenAI rispetto ad alcune posizioni espresse anche in sedi istituzionali, come nella submission al Copyright Office americano, nel quale si sosteneva che l’utilizzo di opere protette per l’addestramento delle applicazioni rientrasse nell’eccezione del “fair use”.

Le società di intelligenza artificiale avevano precedentemente dimostrato di non aspettarsi di dover pagare per i contenuti multimediali.

Lo sviluppo dell’intelligenza artificiale richiede grandi librerie di lavori scritti per “addestrare” o migliorare i sistemi. In questo contesto, come evidenziato di recente dal Financial Times le informazioni di migliore qualità come il giornalismo premium a pagamento dovrebbero in teoria valere di più.

Douglas McCabe, analista di Enders, ha affermato che “il giornalismo come input dell’intelligenza artificiale è molto attraente . . . la formazione è ampia e profonda: non solo un mucchio di nuovi fatti e commenti, ma riferimenti culturali, il modo in cui la lingua comunica con sfumature, attraverso tono e fraseologia, una gerarchia di idee culturali e temi correlati”.

Durante i mesi passati OpenAI aveva anche raggiunto un accordo per concedere in licenza l’archivio di notizie dell’Associated Press dal 1985 per aiutare ad addestrare i suoi modelli, ma per il resto ha utilizzato contenuti Internet disponibili gratuitamente per ChatGPT.

Non va dimenticato che, dato che i moderni processi di apprendimento automatico dipendono da dataset molto ampi e da un’accurata messa a punto, è pratica comune per gli operatori di intelligenza artificiale utilizzare sistemi di gestione dati su larga scala.

Gli strumenti di gestione dei dati per l’apprendimento automatico vengono utilizzati principalmente perché forniscono dati di addestramento migliorati che portano a risultati e modelli migliori. Il beneficio delle soluzioni di gestione dei dati per l’apprendimento automatico è quello di “aiutare a comprendere, visualizzare e curare i dati per l’addestramento, scoprire dati corrotti come esempi con etichette sbagliate e individuare casi limite difficili”, mentre “gli strumenti di gestione dei dati per l’apprendimento automatico sono spesso utilizzati quotidianamente, dimostrando il loro valore per individui e team.

Pertanto, è evidente che gli accordi tra fornitori di contenuti e piattaforme sono solo auspicabili al fine di dare all’AI una vera opportunità di crescita qualitativa.

Molti altri editori hanno invece bloccato l’applicazione di OpenAI dal setacciare i propri siti online alla ricerca di materiale formativo.

Scraping indiscriminato, ora basta

Questo perché è evidente che la quantità di piattaforme attiva sullo “scraping” di contenuti senza licenza debba essere contrastato con tutti i mezzi.

Meta, ad esempio, ha dichiarato di aver utilizzato il dataset Books3 nell’addestramento della sua acclamata famiglia di grandi modelli linguistici (LLMa). È emerso che Books3 potrebbe contenere oltre 170.000 copie che violano i diritti d’autore di libri protetti, estratte tramite ElutherAI da Bibliotik, presumibilmente tramite la rete di condivisione di file BitTorrent. Bibliotik è elencata da addictivetips tra i “migliori” siti torrent del 2023. Books3 è stato citato in un’azione legale contro Meta, così come nel contesto dell’addestramento di vari modelli LLM di altre aziende.

Il gruppo danese Rights Alliance ha coordinato l’attività di rimozione di questo dataset, che ha portato a una rimozione globale. Rights Alliance ha specificamente menzionato la necessità di trasparenza in relazione a questa azione di successo. Tuttavia, al rilascio dei modelli LLaMA 2, Meta non ha fornito alcuna informazione significativa sui testi dei libri utilizzati per l’addestramento muovendosi nella direzione sbagliata.

Come si può vedere siamo in presenza di uno scenario in evoluzione su vari fronti dei quali l’AI Act europeo costituisce un tassello.

EU Stories - La coesione innova l'Italia

Tutti
Social
Iniziative
Video
Analisi
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4