ia e diritti d’autore

Mark Lemley contro Meta: etica e copyright nell’era pro-Trump

Mark Lemley, giurista di Stanford, rinuncia a rappresentare Meta per motivi etici, criticando la deriva pro-Trump. Analizza le controversie sul copyright nell’IA, proponendo soluzioni come accordi con editori e il fair use, mentre la tecnologia avanza

Pubblicato il 29 gen 2025

Antonino Mallamaci

avvocato, Co.re.com. Calabria

Facebook logo on screen and Mark Zuckerberg is a Chief Executive Officer of Metaverse in background. 20.12.2024. 0stanbul, Türkiye

Non tutti, negli States, sono pronti a subire passivamente la svolta pro Trump di Meta e del suo padrone Mark Zuckerberg. Certo, chi reagisce deve essere in grado di sopportarne le conseguenze, nel clima di generale assuefazione, per non dire di intimidazione, che si è generato negli USA con l’avvento del duo Trump-Musk.

Social senza freni: che cambia con la svolta pro-Trump

Indice degli argomenti

Svolta pro-Trump di Meta: c’è chi dice no

Mark Lemley è un avvocato esperto in diritto d’autore, e secondo la rivista Wired è venerato e temuto in certi circoli tecnologici. È Professore all’università di Stanford e uno dei 10 giuristi più citati di tutti i tempi. Lemley rinunciato al patrocinio di Meta nella causa intentatagli da un gruppo di autori secondo i quali il gigante della tecnologia ha violato la legge sul copyright addestrando i suoi strumenti di intelligenza artificiale sui loro libri senza il loro permesso. Il professore ha chiarito che ritiene che Meta possa vincere, quindi l’esito della causa non ha niente a che vedere con la sua rinuncia. Piuttosto, essa è stata determinata da quella che ha definito “la discesa nella mascolinità tossica e nella follia neonazista” di Meta e di Zuckerberg, le cui regole sull’hate speech ora consentono agli utenti, per esempio, di definire gay e trans “malati mentali”. Lemley inquadra l’atteggiamento della Big Tech nel più generale trend dell’America post 20 gennaio. Si dice molto preoccupato per la direzione in cui sta andando e che molti nel settore tecnologico sembrino disposti ad accettarla, senza badare a quanto estrema possa essere.

WHITEPAPER

Essere DPO nel 2025: quali sono le competenze e i requisiti necessari

Legal

Data protection

Non vuole essere associato al sostegno a Trump, al taglio delle protezioni per le persone LGBTQ, all’eliminazione dei programmi “Diversità, Equità, Inclusione” a tutela dei gruppi sottorappresentati o soggetti a discriminazione. Un modello che ricalca quello di Elon Musk, che può condurre solo a sbocchi negativi e inquietanti.

Il professore è realista, ed è conscio che la sua posizione – avere un lavoro a tempo pieno come insegnante anziché come avvocato – gli consenta più libertà di molte altre persone: “Molti sentono di non poter parlare, perché costerebbe loro personalmente. Quindi è ancora più importante, per chi invece può sostenere quel costo, farlo”.

Lemley ha annunciato la sua decisone sui social e la a reazione è stata notevole e molto positiva, anche se tanti troll lo hanno accusato di essere un idiota e un libtard (termine offensivo dell’estrema destra per definire chi è di sinistra).

La causa Meta vs Autori

Venendo alla causa, il professore ritiene che Meta stia dalla parte della ragione nelle sue controversie sul copyright dell’IA. In altri casi, invece, i detentori dei diritti possono avere argomenti migliori, ad esempio quando l’output di un’opera creato dall’IA è sostanzialmente simile all’originale. Ciò può avvenire per caso o perché l’operazione non è stata fatta bene. Altre volte, però, è inevitabile. Ad esempio, se si vuole provare a generare un’immagine di Topolino, è spesso possibile fare soltanto qualcosa che assomigli (troppo) a Topolino.

Un caso particolare su diritti d’autore e opere generate con l’IA

Nell’ ottobre 2023, alcuni editori musicali hanno intentato una causa per violazione del copyright contro lo sviluppatore di intelligenza artificiale Anthropic sostenendo che il chatbot di Anthropic, “Claude”, ha copiato e diffuso illegalmente opere protette da copyright, inclusi testi “di proprietà o controllati dagli Editori”. In altre occasioni diverse società sono state citate in giudizio per aver presumibilmente utilizzato, senza autorizzazione, materiale protetto da copyright per addestrare modelli generativi di intelligenza artificiale.

La legge sul diritto d’autore degli USA non è al passo rispetto ai progressi dell’intelligenza artificiale. Gli editori sostengono che Anthropic ha violato la legge sul copyright degli Stati Uniti costruendo “i suoi modelli di intelligenza artificiale estraendo e ingerendo enormi quantità di testo da Internet… e quindi utilizzando quel vasto corpus per addestrare i suoi modelli di intelligenza artificiale e generare output basati su questo testo copiato”.

Ad esempio, essi hanno affermato che quando gli utenti chiedono a Claude di “[scrivere] una canzone sulla morte di Buddy Holly”, il modello di intelligenza artificiale risponde generando un output che copia direttamente dalla canzone “American Pie” scritta da Don McLean, in violazione del copyright della Universal”.

Ciò perché le versioni precedenti di Anthropic generavano i testi delle canzoni per l’output. Adesso, invece, hanno messo in atto degli accorgimenti per cercare di impedire che ciò accada, e le parti hanno concordato che, in attesa della definizione della controversia, essi sono sufficienti, quindi non stanno più tentando di ottenere un’ingiunzione preliminare. Dunque il problema più difficile, per le aziende, è cosa fare dopo che la propria IA genera un output troppo simile a un lavoro specifico, non se e come addestrarla prima.

Possibili soluzioni alle controversie sul copyright

Il professore ritiene che possano intervenire accordi con grossi editori che hanno moltissimi, o particolarmente preziosi, contenuti. Probabilmente qualche sentenza stabilirà i parametri. Ci sono molte controversie, d’altro canto, che potrebbero essere decise con un giudizio sommario e non mediante la decisone di una giuria in un processo.

La Corte Suprema USA, nel caso Google contro Oracle, ha spinto molto la legge sul fair use nella direzione di essere risolta con un giudizio sommario. Il fair use è una normativa statunitense che non esiste in Italia e nella UE. Essa consente, a determinate condizioni, di utilizzare materiale altrui protetto da copyright senza chiedere l’autorizzazione. Ciò può accadere se l’utilizzo, esercitato per fini informativi o di critica o didattici, riguarda una parte insignificante rispetto all’opera nel suo complesso (ad esempio, 5 secondi di un brano o di un video) e non provoca danni economici per l’opera stessa o per il suo autore.

Per tutte queste cause il giudizio sommario è preferibile al processo in quanto meno costoso e molto più rapido; in più, le aziende evitano il clamore che potrebbe comportare problemi d’immagine.

Accordi tra aziende di IA e media, fornitori di contenuti e altri detentori di diritti

Nella maggior parte dei casi, questi accordi sembrano riguardare più la ricerca che i modelli fondazionali. Questi, a differenza dei modelli “generici” progettati per svolgere compiti specifici e addestrati su set di dati di dimensioni variabili, a seconda del compito da svolgere, sono nutriti con enormi quantità di dati e con moltissimi parametri, il che permette loro di svolgere una varietà di compiti più ampia.
I foundation models possono dunque essere definiti come “modelli di base di grandi dimensioni”: grazie alla loro capacità di svolgere diversi compiti, fungono da “fondamenta” per lo sviluppo di sistemi avanzati. La portata e l’ampiezza dei modelli recentemente sviluppati fanno la differenza rispetto al passato. Ad esempio, GPT-4 di OpenAI utilizza 100 trilioni di parametri.

Quando e perché il fair use è problematico

Ad avviso di Lemley, se si utilizza la generazione aumentata del recupero (RAG) su contenuti mirati e specifici, il fair use è molto più problematico. Ciò in quanto è altamente più probabile che la ricerca dell’IA generi testo preso direttamente da una fonte specifica, e quindi è molto difficile che si possa rientrare nel campo dell’uso consentito.

Cosa sono i RAG

Ma cosa sono i RAG? L’intelligenza artificiale generativa eccelle nella creazione di risposte di testo basate su modelli linguistici di grandi dimensioni (LLM, large language model) dove viene addestrata attraverso un numero enorme di datapoint. Il testo generato è spesso facile da leggere e fornisce risposte dettagliate ampiamente applicabili ai prompt.

Tuttavia, le informazioni utilizzate sono limitate a quelle usate per addestrare l’intelligenza artificiale. I dati del LLM, perciò, potrebbero non essere stati aggiornati da settimane, mesi o anni e, nel caso di un chatbot aziendale, potrebbero non includere informazioni specifiche su prodotti o servizi dell’organizzazione. La retrieval-augmented generation (RAG) ottimizza l’output integrando le informazioni con altre mirate (più aggiornate rispetto al LLM e più precise nel caso di organizzazioni e settori specifici), senza modificare il modello base.

Un modo, dunque, per migliorare significativamente il valore dei sistemi di intelligenza artificiale generativa. Un esempio: la federcalcio vuole che gli utenti siano in grado di utilizzare la chat per accedere ai suoi dati e rispondere a domande su giocatori, squadre, storia e regole dello sport, statistiche e classifiche. Un LLM generalizzato potrebbe rispondere a domande sulla storia e sulle regole o sullo stadio dove gioca una squadra, ma non sulla partita della sera precedente, o fornire informazioni su un particolare infortunio di un atleta: non le avrebbe. E non è possibile aggiornare continuamente, perché i LLM richiedono una significativa potenza di calcolo per riaddestrarsi. La RAG, invece, prende in considerazione ogni genere d’informazione di cui dispone un’organizzazione: database strutturati, PDF e altri documenti non strutturati, blog, feed delle notizie e trascrizioni di chat delle sessioni di customer service passate. Se invece di indirizzare l’utente a un articolo di un giornale, la chat fornisce un output di IA che utilizza RAG per prendere il testo direttamente da quell’articolo, è chiaro che il rischio di un uso non consentito è maggiore.

Tuttavia, il professor Lemley ci tiene a sottolineare che le chat che usano questi modelli “non sono solo macchine per il plagio. Essi prendono dei contenuti e li rielaborano sotto forma di testo e risposte. Si può quindi disquisire sulla bontà o meno, sulla legalità o meno, dell’IA generativa: in effetti è una cosa nuova, mai sperimentata prima. Il fatto, tuttavia, che abbia bisogno di addestrarsi su tantissimi contenuti per capire le frasi, gli argomenti e i fatti, non significa che si tratti solo di copia e incolla o di collage. Essa genera molti nuovi contenuti ed è importante e preziosa.

Le speranze del caso Lemley

In conclusione, crediamo che l’esistenza di persone come Mark Lemley, che non ha esitato, per ragioni etiche e politiche, a rinunciare ai quattrini di Zuckerberg pur di non essere associato al nuovo corso degli Stati Uniti, costituisca anche in quest’ambito una speranza. La speranza che il turbo capitalismo tecnologico e la “democrazia illiberale” trovino qualche ostacolo sulla strada della loro definitiva affermazione.

WHITEPAPER

Risk management: l’importanza di quantificare correttamente il rischio (non solo quello informatico)

Disaster recovery

Contract Management

@RIPRODUZIONE RISERVATA