La domanda che tiene banco nel mondo legale da mesi è: il data training dell’IA Generativa è legale o no?
Questa questione sta dividendo l’opinione pubblica nel mondo tecnologico e giuridico, tracciando due schieramenti diametralmente opposti.
Il dibattito sulla legalità del data training dell’IA Generativa
Da una parte, i puristi del Fair Use affermano che l’addestramento delle IA è paragonabile all’apprendimento umano e, quindi, completamente legittimo. Sorprendentemente, questa visione è condivisa anche da giganti del settore tecnologico come Google e OpenAI, nonostante si tratti di aziende che producono software proprietario e siano notoriamente scrupolose nel contrastare utilizzi impropri di proprietà intellettuale a loro riferibili.
Dall’altra parte, la maggior parte dei creatori di contenuti, siano essi di natura testuale, visiva o sonora, che si sono resi conto gradualmente – un po’ come la metaforica rana bollita – che l’avvento dell’IA generativa si è basato massivamente sullo scraping e sull’appropriazione di dati dall’ampia utenza digitale globale e della stragrande maggioranza degli artisti sparsi in tutto il mondo. Di conseguenza, gli autori e i detentori dei diritti economici collegati sostengono che le aziende non solo dovrebbero essere chiamate a rispondere di queste azioni, ma anche adottare condotte più etiche al netto delle normative che saranno implementate. Aspetto, quest’ultimo, che ad oggi risulta non preoccupare molto l’industria del Tech.
Le aziende sviluppatrici, dal canto loro, si rifugiano dietro il mantra del segreto industriale, sostenendo che ogni rivelazione dei metodi utilizzati sarebbe impropria e contraria ai propri interessi.
Risposte legislative dalla Ue agli Stati Uniti
Questo problema, di portata globale, non trova purtroppo risposta adeguata né nella direttiva europea sul copyright, che include una (giuridicamente) discutibile eccezione sul data mining (che ritroviamo negli art. 70 ter e quater della LdA). Staremo a vedere cosa accadrà con l’AI Act in via di introduzione, che nei considerando (recital) – fatte salve le premesse più attualizzate – introduce alcune regolamentazioni supplementari con la grande difficoltà di doverle poi implementare. Una su tutte, quella relativa alla trasparenza sui dati utilizzati nella pre-formazione e formazione dei modelli di intelligenza artificiale di uso generale, ritenendo che sia “adeguato che i fornitori di tali modelli redigano e rendano pubblico un sommario sufficientemente dettagliato dei contenuti usati per l’addestramento”.
Negli Stati Uniti in cui il governo Biden è intervenuto mediante l’Executive Order sull’Intelligenza Artificiale, si continua a cercare di correre ai ripari per meglio gestire e regolamentare la questione. In questo contesto, il senatore repubblicano Adam Schiff ha proposto il “Generative AI Copyright Disclosure Act”, un disegno di legge che obbligherebbe le aziende a dichiarare i metodi di training dei loro modelli. L’iniziativa legislativa si fa strada in un momento in cui anche figure come Mira Murati, CTO di OpenAI, sollevano dubbi e polemiche, come dimostra la sua incertezza nel rispondere su quali dati sia realizzato il training dell’AI Generativa di video Sora.
La fragilità del sistema sanzionatorio
Il motivo, tra l’altro già esplicitato su più fronti, è uno solo, chiaro ormai a tutti.
L’economia mossa dall’AI Generativa può permettere alle aziende sviluppatrici di sostenere le contestazioni sollevate e le multe inflitte da parte delle Autorità nazionali, come accaduto in Francia con l’Antitrust e come plausibilmente accadrà in Italia del Garante Privacy.
Anche perché le eventuali sanzioni e procedure legali, in un business plan di 90 miliardi di dollari – guardando alla sola valutazione attuale di OpenAI- sono un costo tutto sommato digeribile.
Sembra quindi che, indipendentemente da possibili interpretazioni retroattive che potrebbero legittimare le loro azioni, le grandi aziende che sviluppano modelli di intelligenza artificiale abbiano deciso di fondare il loro modello di business su pratiche che infrangono la legge. I governi nazionali, spinti dal timore di rimanere indietro nella corsa verso il nuovo oro tecnologico, mostrano una maggiore propensione a esplorare le potenzialità di sviluppo piuttosto che a fornire risposte concrete e di difficile applicazione.
Anche nell’Europa delle Autorità nazionali questa barriera sembra quindi fragile. La portata storica e globale di questi eventi – tanto dal punto di vista industriale che lavorativo – è immensa. Analogamente a quanto avvenuto con la Perestroika, che, nonostante fosse rigorosamente regolamentata, ha finito per facilitare l’ascesa di un’oligarchia basata sul predominio economico, il quadro regolatorio attuale potrebbe rivelarsi insufficiente a contenere dinamiche simili nel contesto della tecnologia e dell’IA.
Parlavamo di numeri, con OpenAI, che produce i modelli di Intelligenza Artificiale Generativa al momento più avanzati, che è valutata quasi 90 miliardi di dollari; Microsoft, suo partner, è diventata l’azienda di maggior valore al mondo, con una capitalizzazione di mercato di 3,2 miliardi di dollari.
Il New York Times, il più grande giornale al mondo per numero di abbonati, è in giudizio contro OpenAI e Microsoft accusate di aver violato il copyright di 3 milioni di articoli. Universal Music Group, la più grande casa discografica, sta facendo causa ad Anthropic per aver utilizzato i testi delle sue canzoni senza autorizzazione. Getty, una delle più grandi librerie di immagini, sta facendo causa a Stability AI per aver copiato le sue immagini (e per aver usato impropriamente il suo marchio). Tutte e quattro le aziende tecnologiche negano di aver commesso un illecito.
Fair Use e contesti commerciali: un binomio possibile?
Da un punto di vista giuridico filosofico, ritorniamo alle premesse. Può davvero essere considerato Fair Use, secondo la dottrina americana, l’aver immagazzinato miliardi di dati per trarne successivamente profitto economico di tali dimensioni?
Sappiamo che negli Stati Uniti le aziende tecnologiche stanno legalmente puntando tutto sul concetto di fair use, che prevede ampie esenzioni dalle altrimenti severissime leggi sulla proprietà intellettuale vigenti nel Paese. In virtù anche di un precedente giuridico relativo al concetto di “trasformazione” dell’opera derivata (che la distinguerebbe da quella originale”, e che ha permesso a Google Books di spuntarla nel 2015 contro il Sindacato degli Autori.
I tempi erano ovviamente diversi, e come sappiamo nel frattempo è intervenuta l’anno scorso una sentenza della Corte Suprema dello scorso anno che ha permesso di giudicare come prevalente il primo fattore necessario per il fair use, ovvero il “purpose and character” dell’uso delle opere, che non permette l’applicazione in contesti commerciali.
La proposta del Data Licensing per risolvere il contenzioso
Mentre gli avvocati affilano le loro argomentazioni con le tematiche sin qui discusse, diventa chiaro che l’interesse di tutti – o forse l’unica soluzione – è trovare un punto di accordo sul “Data Licensing”.
Una volta sviluppate, le AI necessitano di costanti aggiornamenti attraverso l’accesso a nuovi contenuti umani, spingendo molti titolari di diritti a formalizzare accordi che assicurino una fornitura continua di materiale inedito. OpenAI ha già messo a segno circa una dozzina di tali accordi di licenza e ha in programma di moltiplicare queste collaborazioni. Gruppi mediatici di calibro mondiale come la News Corp di Rupert Murdoch stanno portando avanti trattative in tal senso, comprendendo che alla lunga, finito il contenzioso, prevarranno gli accordi. Questa preferenza è esemplificata dalle parole di Robert Thompson che ha lodato l’approccio di Sam Altman, presidente di OpenAI. In modo simile, piattaforme come Shutterstock, Reddit e Tumblr hanno iniziato a concedere in licenza i propri archivi a compagnie specializzate in AI, facilitando così l’accesso a vasti repertori di dati.
L’importanza dei contenuti proprietari nell’addestramento delle IA
Un’alternativa per evitare di incappare in questo scenario è addestrare le IA esclusivamente su dati e testi di proprietà. Tuttavia, al momento risulta difficile immaginare come strumenti del genere, che opererebbero all’interno dei confini legali, possano competere con i migliori strumenti generalisti. Ed in definitiva, trovare soluzioni che permettano di uscire da queste problematiche attraverso lo sviluppo di partenariati strategici e l’innovazione continua che valorizzi i contenuti originali e proprietari diventerà essenziale. Questo è un percorso obbligato per un futuro destinato a cambiare, anche nell’immaginario giuridico, rapidamente.