Mentre a Bruxelles si lavora sui dettagli dell’AI Act dopo la conclusione del trilogo, il mercato inizia ad individuare soluzioni per generare ricavi dalla messa a disposizione di contenuti sulle piattaforme AI.
Un primo storico accordo di licenza sui contenuti è quello siglato tra l’editore tedesco Axel Springer e OpenAI, sostenuta da Microsoft, finalizzata ad individuare una strada che generi ricavi sul fronte delle nuove tecnologie di intelligenza artificiale generativa.
I media, come noto, si trovano ad affrontare una minaccia esistenziale rappresentata dall’intelligenza artificiale generativa, che crea testo, immagini, audio e video indistinguibili da quelli prodotti dagli esseri umani.
L’esperienza accumulata dall’evoluzione di Internet ha ovviamente offerto alle aziende un modello strategico che oggi può essere sfruttato nell’individuare delle potenziali soluzioni.
Accordi tra publisher e piattaforme di intelligenza artificiale
L’accordo tra Springer e OpenAI, del valore di decine di milioni di euro all’anno, permetterà all’impresa che ha creato ChatGPT di utilizzare contenuti di testate come Politico, Bild e Business Insider.
La questione è nota. Come monetizzare i database di contenuti che rappresentano un fondamentale asset di decenni di contenuti creativi generando al tempo stesso delle revenue sharing per le testate giornalistiche. Secondo l’analista dei media Ian Whittaker, citato dal Financial Times l’accordo è “un modello per tutti gli altri: tariffa fissa per i dati storici più quota annuale continuativa”.
Le ipotesi di accordi tra publisher e piattaforme di intelligenza artificiale tra cui OpenAI, Google, Microsoft e Adobe hanno visto negoziati con News Corp, Axel Springer, The New York Times, Guardian Media Group e Financial Times per individuare modelli di licenza relative ai prodotti di intelligenza artificiale come chatbot di testo e generatori di immagini. L’accordo con Axel Springer potrebbe costituire un nuovo modello in base al quale gli sviluppatori di sistemi AI che utilizzano contenuti protetti da copyright per creare e informare i loro prodotti stipulano accordi commerciali con proprietari di copyright che investono in media, notizie e informazioni.
Il giornalismo che vogliamo, con l’IA
L’editore tedesco Axel Springer è protagonista anche del solo caso italiano riportato di licenziamenti di giornalisti per via dell’IA. Ha chiuso le redazioni europee della piattaforma Upday, licenziando in Italia tre giornalisti e una poligrafica, dichiarando che d’ora in avanti le news saranno curate dall’IA generativa.
Quindi abbiamo un editore che riesce a sfruttare l’IA a proprio vantaggio in due modi: da una parte monetizza i propri contenuti accordandosi con Open AI, dall’altra fa efficienza sui costi usando la stessa AI per generarne nuovi. Nuovi in senso lato, però, perché l’IA non può fare informazione di base ma solo al massimo spiegare e curare l’informazione creata da altri.
Il comportamento di Axel Springer è quello che in economia si può considerare a esternalità negativa: porta un beneficio immediato per sé ma un danno per l’ecosistema in cui si opera. Senza contenuti originali di base anche l’IA generativa non può funzionare. Né si potrebbe reggere il business di Google se il web fosse distrutto mettendo chatbot al posto di motori di ricerca.
Probabilmente siamo in una fase molto preliminare dopo la quale saranno impossibili aberrazioni come il sito di notizie finanziarie, uno dei più visitati del mondo, e che si limita a pubblicare articoli di altri siti rielaborati dall’AI.
Il futuro, almeno quello che desideriamo, è più vicino a quanto sta facendo il New York Times, che ha creato una squadra dedicata all’IA (una cosa simile la sta facendo Digital360, che pubblica Agendadigitale.eu), per trovare modi non per sostituire il lavoro dei giornalisti ma per supportarli. L’IA può aiutare nel reperire informazioni, confermarle e per scrivere contenuti esplicativi a basso valore aggiunto; liberando tempo, in quest’ultimo caso, che può essere investito in quello stesso lavoro di ricerca e verifica.
Alessandro Longo
Le regole generali
La proposta di regolamento europeo sull’AI conferma come l’indirizzo generale vada verso la determinazione di obblighi da parte delle piattaforme per quanto attiene ai contenuti utilizzati per l’addestramento, prevendendo che queste si dotino di adeguate autorizzazioni ai sensi della direttiva sul copyright.
Nel frattempo, per evitare un rastrellamento indiscriminato molti editori e titolari dei diritti stanno indicando sui propri siti come abbiano scelto l’opt-out sulla base delle norme sul text & data mining. Opt out che però al momento sembra poco praticabile nei confronti dell’IA di Google, se non in parte. Se è possibile impedirgli di usare i dati per allenare Bard, non è possibile per i siti chiedere di essere esclusi dalle nuove funzioni di Google Search dotate di IA (quelle che danno risposte immediate agli utenti invece di link di ricerca). Fare opt out da questo implica infatti anche chiedere a Google di non farsi indicizzare e quindi perdere molto traffico: circa il 40 per cento di quello che arriva ai siti di informazione viene dal motore di ricerca.
Per gli editori è una fase di scelte, anche difficili. E’ anche vero che le big tech dell’IA generativa non possono andare avanti senza curarsi di chi produce i contenuti, come fatto all’inizio. Rischiano cause devastanti e – nel caso di Google – anche di togliere sostenibilità economica alla materia prima che tiene in piedi il business della search, ossia il web.
L’accordo siglato da Open Ai e Springer è significativo perché sembrerebbe un passo indietro di OpenAI rispetto ad alcune posizioni espresse anche in sedi istituzionali, come nella submission al Copyright Office americano, nel quale si sosteneva che l’utilizzo di opere protette per l’addestramento delle applicazioni rientrasse nell’eccezione del “fair use”.
Le società di intelligenza artificiale avevano precedentemente dimostrato di non aspettarsi di dover pagare per i contenuti multimediali.
Lo sviluppo dell’intelligenza artificiale richiede grandi librerie di lavori scritti per “addestrare” o migliorare i sistemi. In questo contesto, come evidenziato di recente dal Financial Times le informazioni di migliore qualità come il giornalismo premium a pagamento dovrebbero in teoria valere di più.
Douglas McCabe, analista di Enders, ha affermato che “il giornalismo come input dell’intelligenza artificiale è molto attraente . . . la formazione è ampia e profonda: non solo un mucchio di nuovi fatti e commenti, ma riferimenti culturali, il modo in cui la lingua comunica con sfumature, attraverso tono e fraseologia, una gerarchia di idee culturali e temi correlati”.
Durante i mesi passati OpenAI aveva anche raggiunto un accordo per concedere in licenza l’archivio di notizie dell’Associated Press dal 1985 per aiutare ad addestrare i suoi modelli, ma per il resto ha utilizzato contenuti Internet disponibili gratuitamente per ChatGPT.
Non va dimenticato che, dato che i moderni processi di apprendimento automatico dipendono da dataset molto ampi e da un’accurata messa a punto, è pratica comune per gli operatori di intelligenza artificiale utilizzare sistemi di gestione dati su larga scala.
Gli strumenti di gestione dei dati per l’apprendimento automatico vengono utilizzati principalmente perché forniscono dati di addestramento migliorati che portano a risultati e modelli migliori. Il beneficio delle soluzioni di gestione dei dati per l’apprendimento automatico è quello di “aiutare a comprendere, visualizzare e curare i dati per l’addestramento, scoprire dati corrotti come esempi con etichette sbagliate e individuare casi limite difficili”, mentre “gli strumenti di gestione dei dati per l’apprendimento automatico sono spesso utilizzati quotidianamente, dimostrando il loro valore per individui e team.
Pertanto, è evidente che gli accordi tra fornitori di contenuti e piattaforme sono solo auspicabili al fine di dare all’AI una vera opportunità di crescita qualitativa.
Molti altri editori hanno invece bloccato l’applicazione di OpenAI dal setacciare i propri siti online alla ricerca di materiale formativo.
Scraping indiscriminato, ora basta
Questo perché è evidente che la quantità di piattaforme attiva sullo “scraping” di contenuti senza licenza debba essere contrastato con tutti i mezzi.
Meta, ad esempio, ha dichiarato di aver utilizzato il dataset Books3 nell’addestramento della sua acclamata famiglia di grandi modelli linguistici (LLMa). È emerso che Books3 potrebbe contenere oltre 170.000 copie che violano i diritti d’autore di libri protetti, estratte tramite ElutherAI da Bibliotik, presumibilmente tramite la rete di condivisione di file BitTorrent. Bibliotik è elencata da addictivetips tra i “migliori” siti torrent del 2023. Books3 è stato citato in un’azione legale contro Meta, così come nel contesto dell’addestramento di vari modelli LLM di altre aziende.
Il gruppo danese Rights Alliance ha coordinato l’attività di rimozione di questo dataset, che ha portato a una rimozione globale. Rights Alliance ha specificamente menzionato la necessità di trasparenza in relazione a questa azione di successo. Tuttavia, al rilascio dei modelli LLaMA 2, Meta non ha fornito alcuna informazione significativa sui testi dei libri utilizzati per l’addestramento muovendosi nella direzione sbagliata.
Come si può vedere siamo in presenza di uno scenario in evoluzione su vari fronti dei quali l’AI Act europeo costituisce un tassello.