lo scenario

La fame di dati dell’IA supera i limiti etici e legali: il mondo in cerca di soluzioni

La corsa all’oro dei dati nell’intelligenza artificiale solleva questioni etiche e legali. La scarsità di dati affidabili diventa un ostacolo e spinge le aziende del settore all’acquisizione massiccia di dati, a scapito del copyright. Dalla Ue al Giappone, passando per Cina e Corea, si cercano soluzioni per un futuro equilibrato. Ma la strada è lunga e complessa

Pubblicato il 19 apr 2024

Barbara Calderini

Legal Specialist – Data Protection Officer

Una corsa senza freni sta scuotendo il mondo dell’intelligenza artificiale, spingendo le aziende a cacciarsi in una frenetica ricerca dei preziosi dati digitali, ponendo in primo piano questioni di natura etica e legale.

In seguito al boom dell’IA generativa, Google, OpenAI e altre società del settore si trovano ora di fronte alla dura realtà della scarsità di dati necessari per alimentare le loro tecnologie, una condizione che minaccia direttamente le performance dei modelli di IA, i quali dipendono da un costante flusso di informazioni.

IA, insaziabile fame di dati: il training richiede nuovi approcci

Indice degli argomenti

Scarsità di dati per alimentare l’IA: ostacoli e scenari

La mancanza di dati affidabili è divenuta un ostacolo insormontabile, come evidenziato dal caso di OpenAI, che ha dovuto fare i conti con la carenza di testi inglesi per sviluppare il suo GPT-4. E non è l’unica: un’analisi del New York Times ha rivelato che molte altre aziende tech, inclusi colossi come Google e Meta, stanno adottando strategie simili, tra cui l’acquisizione massiccia di dati anche a discapito delle politiche aziendali e delle leggi sul copyright.

Google, ad esempio, ha esteso i suoi termini di servizio per accedere a una vasta gamma di dati disponibili pubblicamente su Internet, utilizzando persino trascrizioni di YouTube per addestrare i propri modelli, sollevando interrogativi sulla violazione dei diritti d’autore. E Meta si è trovata nella stessa situazione con il suo chatbot.

Il futuro si prospetta ancora più cupo, con la previsione che le aziende potrebbero esaurire i nuovi contenuti utilizzabili per l’addestramento dei modelli di IA entro il 2028.

Questa fame insaziabile di dati ha spinto le aziende a esplorare nuove frontiere, compresa la generazione di dati sintetici da parte degli stessi modelli di intelligenza artificiale. Tuttavia, la fiducia nella loro affidabilità è incerta.

Le implicazioni etiche e legali della scarsità di dati per l’IA

Le implicazioni etiche e legali sono gravi.

Proprietà intelletuale a rischio

Il tema della violazione dei diritti d’autore e della proprietà intellettuale è infatti sempre più rilevante nel contesto dell’Intelligenza Artificiale e della raccolta dei dati.

Molte aziende utilizzano dati prelevati da fonti online, spesso senza il consenso dei creatori di contenuti e senza fornire alcun compenso adeguato.

Il rischio di pregiudizi e discriminazioni

Inoltre, l’uso di dati senza consenso può portare a un potenziale pregiudizio e discriminazione nei sistemi di intelligenza artificiale addestrati su questi dati. Se i dati raccolti non sono rappresentativi o inclusivi, i modelli di IA possono riflettere e perpetuare pregiudizi e disuguaglianze presenti nella società, amplificando così le disparità esistenti.

La mancanza si trasparenza e responsabilità

Un’altra preoccupazione riguarda la mancanza di trasparenza e responsabilità da parte delle aziende tecnologiche riguardo alla raccolta e all’utilizzo dei dati. Spesso le aziende non divulgheranno completamente come vengono raccolti i dati, quali dati vengono utilizzati e come vengono utilizzati per addestrare i loro modelli di IA. Questa mancanza di trasparenza può erodere la fiducia del pubblico e sollevare preoccupazioni riguardo all’uso etico e responsabile dell’IA.

Le accuse di violazione del copyright sollevate contro OpenAI da Raw Story Media e AlterNet Media sono solo la punta dell’iceberg, mentre Nvidia e altri si trovano coinvolti in cause simili. La battaglia legale si estende in tutto il mondo, con l’UE che cerca di trovare un equilibrio tra lo sviluppo dell’IA e la tutela dei diritti dei creatori.

L’inadeguatezza delle attuali normative

La questione è complessa e urgente. Le normative esistenti sembrano inadeguate per affrontare le sfide poste dall’intelligenza artificiale, con leggi sul copyright obsolete e una mancanza di chiarezza su come proteggere i creatori di contenuti. È necessario un dialogo aperto e una regolamentazione efficace per garantire uno sviluppo responsabile dell’IA, altrimenti rischiamo di finire in una corsa all’oro dei dati che mette a repentaglio i diritti fondamentali e la sostenibilità stessa della tecnologia.

Facciamo dunque il punto della situazione attuale muovendosi da una prospettiva globale.

Esaurimento dei dati: le soluzioni allo studio

Secondo un recente articolo del Wall Street Journal, le aziende stanno affrontando la prospettiva di esaurire i nuovi contenuti necessari per l’addestramento dei loro modelli di intelligenza artificiale entro il 2028. Questo fenomeno evidenzia una sorta di “fame di dati” che i modelli IA mostrano mentre migliorano con un maggiore input informativo.

Possibili soluzioni in esame:

Dati sintetici: un approccio promettente sembrerebbe essere la creazione di dati artificiali generati da modelli preesistenti. Tuttavia, l’affidabilità di tali dati è ancora oggetto di discussione.
Apprendimento per curriculum: alcuni ricercatori stanno esplorando l’idea di fornire ai modelli dati di alta qualità in modo graduale, sperando che possano stabilire connessioni più complesse con meno informazioni.
Approccio “tutto ciò che riesco a trovare”: un’alternativa discutibile è l’utilizzo di qualsiasi dato disponibile, anche senza autorizzazione. Tuttavia, ciò solleva gravi questioni etiche e legali.

Le implicazioni della scarsità dei dati

Affrontare le sfide legate all’utilizzo dei dati nell’intelligenza artificiale presenta una serie di implicazioni significative:

Incertezza sull’efficacia: Le soluzioni proposte, come i dati sintetici e l’apprendimento per curriculum, sono ancora in fase di sviluppo e la loro efficacia deve essere ancora dimostrata. Questa incertezza rende difficile prevedere il successo di tali approcci nel lungo termine.
Questioni etiche e legalità: L’utilizzo dei dati senza autorizzazione solleva questioni etiche e legali complesse. Numerosi casi legali sono già in corso, evidenziando la necessità di un’attenta valutazione delle pratiche di raccolta e utilizzo dei dati.
Rallentamento del progresso IA: La scarsità di dati potrebbe rallentare il progresso dell’intelligenza artificiale e limitarne il potenziale applicativo. Questa limitazione potrebbe avere ripercussioni significative su settori che dipendono pesantemente dall’IA per innovare e migliorare le proprie operazioni.

Approcci innovativi per uscire dall’impasse

Per far fronte a queste sfide in modo efficace, è necessario guardare avanti e adottare approcci innovativi:

Soluzioni sostenibili: È urgente trovare approcci sostenibili per la raccolta e l’utilizzo dei dati per l’addestramento dei modelli di intelligenza artificiale. Questo potrebbe includere la collaborazione con altre aziende e istituzioni per condividere dati in modo sicuro e responsabile.
Modelli più efficienti: Lo sviluppo di modelli di intelligenza artificiale più efficienti che richiedano meno dati per funzionare è cruciale. Questo potrebbe comportare la ricerca e lo sviluppo di algoritmi più sofisticati e tecnologie innovative per l’analisi dei dati.
Collaborazione e regolamentazione: È essenziale una maggiore collaborazione tra aziende, ricercatori e governi per affrontare le sfide etiche, legali e tecnologiche dell’IA. La regolamentazione potrebbe svolgere un ruolo chiave nel garantire che l’IA sia sviluppata in modo responsabile ed etico.

Soluzioni discutibili: il caso OpenAI e Google

Alcuni casi controversi sollevano dubbi sull’etica e la legalità dell’utilizzo dei dati nell’IA.

OpenAI ha sviluppato Whisper, uno strumento di riconoscimento vocale, per trascrivere video di YouTube, accumulando oltre un milione di ore di contenuti senza ottenere il consenso dei creatori.

Google ha risposto a queste affermazioni dichiarando di essere a conoscenza di segnalazioni non confermate su questa attività e ribadendo che sia i loro file robots.txt che i Termini di servizio di YouTube vietano il raschiamento o il download non autorizzato di contenuti.

Lo stesso CEO di YouTube, Neal Mohan, ha però continuato a sollevare dubbi sul rispetto dei Termini di servizio da parte di OpenAI, fintanto che Google non ha deciso di prendere posizione dichiarando di adottare “misure tecniche e legali” per prevenire tale utilizzo non autorizzato, purché “in presenza di una chiara base legale o tecnica per farlo”.

Tutto regolare se non fosse però che di lì a breve il Times ha scoperto che Google in primis ha raccolto trascrizioni da YouTube per addestrare i propri modelli di intelligenza artificiale, sostenendo che ciò fosse conforme a presunti accordi e fumosi con i creatori di YouTube.

Nel frattempo, Google ha apportato modifiche alle sue politiche sulla privacy, consentendo un uso più ampio dei dati dei consumatori, compresi quelli generati dai suoi strumenti di produttività come Google Docs. Questa modifica è stata introdotta il 1° luglio, coincidendo con il lungo fine settimana del Giorno dell’Indipendenza negli Stati Uniti, sollevando sospetti di una possibile mancanza di trasparenza.

Come ulteriore segno di quanto sia diventato significativo l’acquisto di contenuti per l’IA, il New York Times riferisce che Meta abbia addirittura discusso l’acquisto di una casa editrice come Simon & Schuster.

Il boom dell’Intelligenza Artificiale ha dato vita a una mini-economia per i repository di contenuti, che le aziende di IA vogliono utilizzare per addestrare i loro modelli.

Anche Apple è tra queste aziende, e secondo Reuters ha siglato un accordo per ottenere la licenza di milioni di immagini da Shutterstock, stimato tra i 25 e i 50 milioni di dollari. Altre grandi aziende tech come Meta, Google e Amazon hanno stipulato accordi simili con Shutterstock.

Sempre Google invece potrebbe integrare l’IA Gemini in Gmail per generare risposte rapide.

Ovvero Gemini analizzerebbe il contenuto di un’email e fornirebbe all’utente fino a tre opzioni di risposta pertinenti.

L’obiettivo è di velocizzare la gestione delle email, permettendo agli utenti di rispondere rapidamente a messaggi semplici. Tuttavia il sistema ha sollevato diverse preoccupazioni, non solo sulla protezione dei contenuti protetti dal diritto d’autore, bensì anche sulla privacy, in quanto Google avrebbe accesso al contenuto di tutte le email degli utenti per addestrare l’IA.

Al momento comunque non è chiaro se la funzione verrà implementata per tutti gli utenti Gmail o se si applicherà solo ai dispositivi Android. Forbes sottolinea che nessuno conosce ancora le esatte implicazioni sui diritti degli utenti di questo esperimento Android Gemini.

Violazione del copyright, OpenAI sotto accusa

Precedenti significativi negli Stati Uniti potrebbero influenzare la futura regolamentazione sull’uso dei contenuti protetti da copyright nelle attività di addestramento dell’IA.

Dopo il New York Times, altre tre testate giornalistiche hanno citato in giudizio OpenAI e Microsoft per presunta violazione del copyright.

La causa intentata da The Intercept, Raw Story e AlterNet per violazione del Copyright Act

The Intercept, Raw Story e AlterNet hanno intentato cause separate nel distretto di New York.

Le testate giornalistiche online sostengono che la società avrebbe violato i diritti di copyright utilizzando i loro articoli per addestrare il suo grande modello linguistico ChatGPT.

Nella denuncia le testate giornalistiche ritengono che OpenAI abbia “copiato all’ingrosso” i loro articoli senza autorizzazione e senza fornire attribuzioni.

Sostengono che ciò viola il Copyright Act degli Stati Uniti. In modo particolare le testate giornalistiche Raw Story e AlterNet affermano che OpenAI abbia rimosso le informazioni sul copyright dagli articoli prima di utilizzarli per l’addestramento di ChatGPT. Tanto avrebbe reso difficile per le testate giornalistiche rintracciare e far rispettare i propri diritti sui loro contenuti.

Le denunce presentate da Raw Story e AlterNet vanno oltre, affermando che sia OpenAI che Microsoft “avevano motivo di sapere che ChatGPT sarebbe stato meno popolare e avrebbe generato meno ricavi se gli utenti avessero ritenuto che le risposte di ChatGPT violassero i diritti d’autore di terzi.

Entrambe chiedono un risarcimento danni per le violazioni del copyright, oltre ovviamente al divieto per OpenAI di utilizzare ulteriormente i loro articoli senza il loro consenso, al fine di prevenire ulteriori violazioni. Le richieste si spingono fino alla pretesa che OpenAI apporti modifiche a ChatGPT per garantire che non possa più utilizzare articoli o altri.Le implicazioni della causa potrebbero estendersi anche al settore giornalistico, sollevando interrogativi su come le testate giornalistiche possono proteggere il proprio lavoro e i loro diritti nell’era digitale in continua evoluzione.

Anche Nvidia accusata di violazione del copyright

Anche Nvidia, azienda leader nella produzione di chip per l’intelligenza artificiale, è stata citata in giudizio per la presunta violazione del copyright. La causa, intentata presso il Tribunale Distrettuale Settentrionale della California, promossa da tre autori, accusa Nvidia di aver utilizzato i loro libri senza autorizzazione per addestrare i propri modelli di intelligenza artificiale.

Gli autori Abdi Nazemian, Brian Keene e Stewart O’Nan sostengono che Nvidia abbia utilizzato i loro libri nella formazione del modello NeMo Megatron-GPT, rilasciato nel settembre 2022.

In modo specifico gli autori affermano che Nvidia utilizzi un set di dati chiamato The Pile, che contiene i loro libri, per addestrare i propri modelli di intelligenza artificiale, senza il consenso degli autori e in violazione del Copyright Act.

La causa si inserisce in una serie di contenziosi legali che vedono protagonisti sviluppatori di intelligenza artificiale accusati di violare il copyright utilizzando opere letterarie per addestrare i propri modelli. Tra le altre aziende coinvolte, oltre OpenAI, figurano anche Meta Platforms e Google.

Il Regno Unito tra diritti d’autore e IA: la ricerca di un terreno comune si infrange

Sforzi falliti per trovare un terreno comune tra sviluppatori di intelligenza artificiale e detentori dei diritti d’autore hanno spinto il governo del Regno Unito ad assumere un ruolo più diretto nella risoluzione delle problematiche relative ai diritti d’autore nell’era dell’intelligenza artificiale.

Quasi dodici mesi dopo l’annuncio di un orientamento favorevole all’innovazione nel Libro bianco sull’intelligenza artificiale, il tanto atteso seguito da parte del governo suscita in realtà più interrogativi che risposte.

La risposta del governo alla sua consultazione pubblica sul Libro Bianco sull’intelligenza artificiale evidenzia infatti l’incapacità del gruppo di lavoro dedicato di raggiungere un consenso su un Codice di condotta volontario. Il gruppo, composto da titolari dei diritti come Alliance for IP, BBC e Publishers Association, e sviluppatori di IA come DeepMind e Microsoft, non è riuscito a trovare un accordo entro il quadro stabilito dall’Ufficio per la Proprietà Intellettuale.

Di fronte a questa impasse, mentre da una parte i ministri competenti promettono un nuovo ciclo di impegno con i settori interessati, con l’obiettivo di imporre una soluzione che tuteli i diritti di entrambe le parti, dall’altra gli editori hanno deciso di prendere una posizione ferma e risoluta.

Editori del Regno Unito contro le Big Tech: battaglia sul copyright per l’IA

Rappresentanti dei media britannici hanno sollecitato un’azione legislativa immediata per affrontare le questioni relative al diritto d’autore nell’era dell’intelligenza artificiale. Durante una sessione con il Comitato per le Comunicazioni e il Digitale della Camera dei Lord, dirigenti del Guardian Media Group, del Financial Times e del Daily Mail Group hanno espresso le loro preoccupazioni riguardo all’attuale incertezza normativa che sta ostacolando gli investimenti e minacciando i modelli di business.

Gli editori temono che l’intelligenza artificiale possa utilizzare liberamente i loro contenuti senza alcuna forma di compensazione, minando il valore dei loro investimenti e mettendo a rischio la sostenibilità del giornalismo di qualità.

Ancora una volta si accusa OpenAI.

C’è il timore che l’IA possa generare contenuti autonomamente, bypassando i tradizionali canali editoriali e privando gli editori di una fonte di entrate fondamentale. Tale comportamento potrebbe danneggiare ulteriormente il giornalismo, minacciando l’esistenza stessa di queste testate.

L’attuale quadro giuridico è considerato vago e inadeguato per affrontare le sfide poste dall’IA generativa, creando incertezza per gli editori e ostacolando l’innovazione nel settore.

Si richiede al governo del Regno Unito di fornire orientamenti chiari e definitivi sul modo in cui le leggi sul diritto d’autore si applicano all’IA generativa, al fine di creare un terreno di gioco più equo per gli editori. Gli editori sottolineano l’urgenza di agire, chiedono un sistema di licenze che richieda agli sviluppatori di IA di ottenere l’autorizzazione e di pagare per l’utilizzo dei contenuti protetti da copyright per l’addestramento dei loro modelli, avvertendo che ritardi potrebbero avere conseguenze gravi e durature per l’industria dei media.

La Publishers Association e le testate giornalistiche sollecitano dunque una rapida risposta da parte del governo e del sistema giudiziario.

Proprio la Publishers Association, che rappresenta oltre 180 editori nel Regno Unito, ha inviato una lettera alle principali aziende tecnologiche che lavorano sull’intelligenza artificiale.

Nella lettera si respinge l’idea che l’utilizzo di contenuti protetti da copyright per l’intelligenza artificiale rientri nelle eccezioni esistenti alle leggi sul copyright del Regno Unito.

Gli editori sostengono che tale interpretazione sarebbe troppo ampia e danneggerebbe i loro interessi legittimi. Invece, propongono che la concessione di licenze volontarie sia il modo appropriato per lo sviluppo dell’intelligenza artificiale.

La lettera arriva mentre il governo del Regno Unito cerca di trovare una soluzione al problema di come le leggi sul copyright si applicano all’intelligenza artificiale generativa.

I colloqui volontari tra sviluppatori e titolari dei diritti sono falliti e il governo ha affermato che si concentrerà sulla trasparenza.

Anche TechUK, la lobby tecnologica britannica, sta lavorando su un intervento in questo settore.

Le leggi sul copyright obsolete di fronte all’intelligenza artificiale: Wikimedia lancia l’allarme

Lucy Crompton-Reid, CEO di Wikimedia UK, ha sollevato dubbi sulla capacità delle attuali leggi sul copyright di affrontare le sfide poste dall’intelligenza artificiale generativa.

Parlando a una conferenza a Londra sull’impatto dell’IA sui media e sulla proprietà intellettuale, Crompton-Reid ha affermato che i regimi di copyright esistenti, sia nel Regno Unito che a livello internazionale, non sono adeguati per l’era dell’IA generativa.

Crompton-Reid teme che i grandi modelli linguistici possano sfruttare i contenuti di Wikipedia, creati da volontari, per scopi commerciali senza un compenso adeguato.

Se l’IA generativa diventasse la fonte primaria di informazioni, il traffico verso siti come Wikipedia potrebbe infatti diminuire, con un impatto negativo sul modello di finanziamento basato sulle donazioni.

Lo status giuridico delle licenze Creative Commons, utilizzate da Wikipedia e altri progetti Wikimedia, è poco chiaro in relazione ai grandi modelli linguistici.

Crompton-Reid facendosi portavoce della necessità di un nuovo approccio, ha invitato a una nuova legislazione sul copyright che tuteli i creatori di contenuti e i titolari dei diritti, pur promuovendo la ridistribuzione aperta della conoscenza.

Trovare un equilibrio tra gli interessi degli sviluppatori di IA, dei creatori di contenuti e del pubblico è fondamentale per garantire un futuro sostenibile per la conoscenza aperta.

Le sfide poste dall’IA generativa per il diritto d’autore e la conoscenza aperta sono certamente complesse e richiedono soluzioni innovative. Il dibattito su come aggiornare le leggi sul copyright per l’era digitale è in corso e il contributo di Wikimedia è importante per garantire che i principi di accesso aperto e condivisione della conoscenza rimangano al centro della discussione.

Intelligenza artificiale e copyright in Giappone: sviluppi recenti

Dopo mesi di dibattito sulla necessità di rafforzare la legge sul copyright in Giappone per proteggere i creatori di contenuti dall’impatto della diffusione dell’intelligenza artificiale generativa, il Paese ha ora annunciato il suo sostegno all’innovazione.

L’Agenzia Culturale giapponese ha pubblicato una bozza preliminare di rapporto che riassume la discussione del suo gruppo di esperti sulle preoccupazioni dei detentori di copyright riguardo alle potenziali violazioni dei loro diritti da parte dell’intelligenza artificiale generativa addestrata su contenuti esistenti.

Il gruppo di esperti di proprietà intellettuale riunito sotto il Segretariato del Gabinetto giapponese ha per l’appunto stabilito che l’apprendimento automatico può includere marchi, design e altri diritti di proprietà intellettuale non protetti da copyright.

Nonostante la rapida crescita dell’intelligenza artificiale generativa (AI) e il suo impatto sul panorama dei diritti d’autore, le richieste di revisione della legge sul copyright giapponese da parte dei creatori di contenuti multimediali non hanno però avuto successo. Il comitato sul copyright dell’Agenzia giapponese per la cultura ha infatti approvato la legge attuale senza modifiche sostanziali.

La discussione peraltro da tempo si è rivelata urgente in Giappone, poiché la legge giapponese sul copyright si è rivelata talmente permissiva da aver creato un ambiente denominato “paradiso dell’apprendimento automatico“.

Nel 2018, il Giappone ha introdotto una clausola nella sua legge sul copyright che consente un uso “pressoché illimitato” di materiale protetto da copyright per l’elaborazione dati informatici. L’obiettivo era di promuovere l’IA, l’apprendimento automatico e lo sviluppo di Big Data.

Questa clausola ha ovviamente sollevato preoccupazioni tra i titolari dei diritti, che non hanno mai nascosto il timore per un uso eccessivo e non regolamentato dei loro contenuti. In particolare, l’articolo 30-4 è stato oggetto di critiche per consentire l’utilizzo di materiale protetto da copyright senza consenso per l’apprendimento automatico.

La Japan’s Newspaper Publishers & Editors Association ha sollecitato l’istituzione di un sistema che permetta ai titolari dei diritti di escludere i propri contenuti dai set di dati utilizzati per l’addestramento degli LLM. Tuttavia, il rapporto dell’Agenzia per la cultura ha respinto questa proposta, suggerendo invece di utilizzare misure tecniche come password e prevenzione dei bot per bloccare il web crawling da parte dell’IA.

Invece di modificare la legge, il gruppo di esperti legali e accademici dell’Agenzia per la cultura ha dunque deciso di concentrarsi sulla chiarificazione dei suoi parametri. Il rapporto del gruppo esplora in dettaglio la “fruizione” di materiale protetto da copyright, i casi in cui l’elaborazione di dati viola il copyright e le potenziali tutele per i contenuti generati dall’intelligenza artificiale.

Il governo giapponese vede l’IA generativa come un’opportunità per aumentare la produttività e compensare il calo della forza lavoro dovuto all’invecchiamento della popolazione. Inoltre, ritiene che l’elaborazione del linguaggio naturale (NLP) dei modelli linguistici di grandi dimensioni (LLM) potrebbe far nascere un fiorente settore di IA generativa in Giappone, focalizzato su utenti giapponesi, se fossero disponibili set di dati di lingua giapponese su larga scala.

Non è un caso che il governo abbia stanziato 57 milioni di dollari per aiutare le startup di IA generativa a sviluppare LLM in Giappone, finanziando anche l’utilizzo di Google Cloud per le loro risorse computazionali.

La Corea del Sud istituisce un gruppo di lavoro per migliorare il sistema di copyright AI nel 2024

Il Ministero della Cultura, dello Sport e del Turismo della Corea del Sud, in collaborazione con la Commissione coreana sul copyright, ha annunciato la creazione del “Gruppo di lavoro per il miglioramento del sistema di copyright AI 2024”.

Il gruppo, composto da esperti del mondo accademico, del settore legale, dei titolari dei diritti e dei settori tecnologici, si è riunito per la prima volta il 19 febbraio. Ha il compito di esaminare le politiche su come i materiali protetti da copyright possono essere utilizzati per l’addestramento dell’intelligenza artificiale, la divulgazione dei dati di addestramento e le complesse questioni legali relative al copyright dei contenuti generati dall’intelligenza artificiale.

Il ministero ha riaffermato il proprio impegno a plasmare proattivamente l’era dell’intelligenza artificiale, cercando un equilibrio tra la crescita del settore dell’intelligenza artificiale e la tutela dei diritti dei creatori. I lavori del gruppo di lavoro si svolgeranno da febbraio a novembre.

Gli obiettivi del gruppo di lavoro

Questi gli obiettivi chiave del gruppo di lavoro:

Esaminare le misure attuali relative all’utilizzo di materiale protetto da copyright per l’addestramento dell’intelligenza artificiale in Corea del Sud e a livello internazionale.
Identificare le sfide e le opportunità legate all’utilizzo di materiale protetto da copyright per l’addestramento dell’intelligenza artificiale.
Sviluppare raccomandazioni per politiche che promuovano un uso equo e bilanciato del materiale protetto da copyright nell’intelligenza artificiale.
Considerare le implicazioni del copyright sui contenuti generati dall’intelligenza artificiale.

L’istituzione del gruppo di lavoro vorrebbe essere un passo positivo verso la creazione di un ecosistema di intelligenza artificiale equo e rispettoso del copyright in Corea del Sud. I lavori del gruppo si ritengono pertanto fondamentali per informare le politiche future e per garantire che i diritti dei creatori di contenuti siano protetti nell’era digitale.

E’ inoltre possibile che le raccomandazioni del gruppo di lavoro possano avere un impatto significativo non solo sulla Corea del Sud, ma anche su altri paesi che stanno affrontando le stesse sfide relative al copyright e all’intelligenza artificiale.

Il caso cinese di Ultraman: una sentenza storica dalla Cina

In un caso senza precedenti, un tribunale cinese ha emesso una sentenza storica riguardante la violazione del copyright da parte di un’azienda di intelligenza artificiale. La società è stata ritenuta responsabile per aver utilizzato immagini di Ultraman senza autorizzazione, stabilendo così un importante “dovere di diligenza” per i fornitori di servizi AI e aprendo la strada a future controversie sulla divisione delle responsabilità.

Nel dettaglio, una società cinese che gestisce un sito web con funzionalità di chat e disegno basate sull’intelligenza artificiale ha utilizzato immagini di Ultraman senza autorizzazione. La Shanghai Character License Administrative Company, titolare dei diritti di Ultraman in Cina, ha intentato causa contro la società AI per violazione del copyright. Il tribunale ha concluso che la società AI avesse violato i diritti di riproduzione e adattamento di Ultraman, ordinandole di cessare la violazione e risarcire i danni.

L’8 febbraio 2024, la Corte Internet di Guangzhou oltre a stabilire che l’imputato fosse responsabile per la violazione dei diritti d’autore del famoso personaggio Ultraman, ha altresì incluso la valutazione della prima regolamentazione cinese sull’intelligenza artificiale, ovvero le Misure provvisorie per la gestione dei servizi di intelligenza artificiale generativa, emesse nel luglio 2023. La corte ha infatti concluso che l’imputato non avesse adottato un adeguato dovere di diligenza nel generare i suoi risultati di intelligenza artificiale generativa, violando così le disposizioni delle Misure GAI del 2023.

Nonostante questa sentenza rappresenti il primo caso in cui un tribunale cinese affronta una controversia relativa alla violazione del copyright da parte dell’intelligenza artificiale e imponga un “dovere di diligenza” ai fornitori di servizi AI per prevenire la violazione del copyright, resta ancora aperta la questione se tali fornitori di servizi AI possano rivalersi sui fornitori di tecnologia terzi per le violazioni del copyright.

L’analisi della sentenza rivela che essa è un passo importante per la protezione del copyright nell’era dell’intelligenza artificiale e, certamente, avrà un impatto significativo sullo sviluppo e sull’utilizzo delle tecnologie AI in Cina. Solleva peraltro anche importanti questioni sulla divisione delle responsabilità tra i fornitori di servizi AI e i fornitori di tecnologia terzi.

I fornitori di servizi AI dovranno adottare misure per prevenire la violazione del copyright, mentre i fornitori di tecnologia terzi potrebbero essere ritenuti responsabili delle violazioni del copyright commesse dai loro clienti.

Il caso nel frattempo ha attirato l’attenzione di osservatori legali e tecnologici in tutto il mondo.

L’AI Act dell’UE e la protezione del copyright: nuove prospettive per l’IA

Il nuovo e imminente AI Act dell’UE, il quale costituisce un quadro legislativo completo per l’intelligenza artificiale nell’Unione Europea, include disposizioni specifiche per garantire il rispetto della direttiva sul copyright dell’UE del 2019 anche da parte dei modelli di intelligenza artificiale di base.

Una pietra miliare è stata posta già a dicembre quando i negoziatori dell’UE hanno concordato[1] di imporre obblighi ai modelli di intelligenza artificiale di base affinché rispettino la legge sul copyright.

I detentori dei diritti d’autore stanno esercitando pressioni sull’Ufficio AI dell’UE, che sarà pienamente operativo con l’entrata in vigore dell’AI Act, affinché agisca rapidamente per garantire il rispetto del copyright da parte dei grandi modelli di intelligenza artificiale come ChatGPT, Dall-E e altri sistemi OpenAI quando utilizzano vasti quantitativi di contenuti da Internet per il loro addestramento.

La questione solleva diversi punti chiave, tra cui l’equilibrio tra gli interessi dell’innovazione tecnologica e la protezione delle industrie creative, la trasparenza riguardante i contenuti utilizzati per l’addestramento dei modelli, e la questione dell’estrazione di testo e dati da parte dei modelli.

L’Ufficio AI dell’UE avrà senza dubbio un ruolo cruciale nell’applicare le disposizioni dell’AI Act e nel monitorare la conformità dei modelli, nonché nel prendere provvedimenti contro le violazioni.

Niente più scraping senza consenso

Secondo l’AI Act, infatti, lo scraping di testo e dati non sarà più consentito senza il consenso esplicito del titolare dei diritti, noto come “diritto di opt-out“.

In caso di opt-out da parte del titolare dei diritti, i fornitori di IA che desiderano immettere un modello di uso generale sul mercato dell’UE devono rispettare tale diritto, anche se l’effettiva estrazione dei dati avviene al di fuori dell’UE.

Rimangono i dubbi sulla sua efficacia, poiché l’autore non riceverebbe alcun compenso e lo sviluppatore potrebbe non ottenere i contenuti necessari per migliorare l’intelligenza artificiale.

John Phelan, direttore generale della International Confederation of Music Publishers dichiara: “Dobbiamo semplicemente convincere l’Ufficio AI dell’UE a dire che ciò che stanno facendo queste società è chiaramente una violazione del quadro di base del quadro europeo sul diritto d’autore”.

Alla sua dichiarazione fa eco Google che sostiene: “Al di fuori della legge sul copyright (inclusa la sua protezione per il fair use), non esiste un diritto generale di controllare le informazioni disponibili al pubblico”.

Contratti Intelligenti: la nuova frontiera per il Copyright nell’IA

Il funzionario europeo, Roberto Viola, propone l’introduzione di “micro-licenze” e “contratti intelligenti” per regolare l’utilizzo dei contenuti protetti da copyright nella formazione dei sistemi di intelligenza artificiale. Queste soluzioni, secondo Viola, potrebbero rappresentare il futuro delle licenze per tali scopi. Parlando durante una conferenza in Belgio , Viola ha evidenziato il potenziale del Data Act dell’UE, che incorpora disposizioni per i “micro-licenze” e i “contratti intelligenti”, come una promettente risorsa per armonizzare le esigenze dei detentori dei diritti d’autore e degli sviluppatori di IA.

In modo specifico Viola ritiene che l’utilizzo di contratti intelligenti possa rappresentare una “salvavita” per le piccole e medie imprese che competono con i “giganti” del settore, in quanto garantirebbe loro l’accesso ai contenuti necessari per addestrare i loro modelli.

Guardando al futuro il Direttore Generale per le politiche digitali della Commissione europea (DG Connect) ha dichiarato: “Nei prossimi mesi dovremo lavorare sodo per rispettare la direttiva sul copyright e attuare l’AI Act”, sottolineando l’importanza di trovare un equilibrio tra la tutela dei diritti d’autore e la promozione dell’innovazione nel campo dell’intelligenza artificiale, magari affidandosi proprioall’utilizzo di “micro-licenze” e “contratti intelligenti”, aprendo la strada a un ecosistema di intelligenza artificiale più collaborativo e rispettoso dei diritti.

La vera sfida all’orizzonte: trovare un terreno comune tra interessi contrastanti

L’intelligenza artificiale generativa rappresenta un’evoluzione rivoluzionaria nel modo in cui creiamo e usufruiamo dei contenuti, aprendo un mondo di possibilità per l’innovazione e l’espressione creativa. Tuttavia, questa trasformazione porta con sé importanti sfide relative ai diritti d’autore e alla proprietà intellettuale, sollevando interrogativi sul giusto equilibrio tra la promozione dello sviluppo tecnologico e la tutela dei creatori di contenuti.

Al centro di questo dibattito c’è la necessità di trovare un terreno comune tra interessi contrastanti. Da un lato, i governi e le aziende desiderano incentivare lo sviluppo dell’IA e la sua applicazione in svariati settori, riconoscendone il potenziale per la crescita economica e il progresso sociale. Dall’altro lato, i creatori di contenuti temono che l’utilizzo non regolamentato dell’IA possa ledere i loro diritti d’autore e la loro capacità di trarre profitto dalle proprie opere.

Per affrontare queste sfide è necessaria una collaborazione attiva e continua tra le diverse parti interessate.

In questo contesto, diverse iniziative promettenti stanno prendendo forma a livello nazionale e internazionale. L’Unione Europea con l’AI Act, il Regno Unito e il Giappone stanno lavorando su approcci differenti, con il primo che ha optato per un intervento diretto e il secondo che si concentra sulla chiarificazione delle norme esistenti.

Oltre agli sforzi legislativi, è però fondamentale sviluppare soluzioni tecniche che facilitino la condivisione dei dati e l’ottenimento di licenze per l’utilizzo di materiale protetto da copyright. In questo senso, i contratti intelligenti e le micro-licenze potrebbero rappresentare strumenti promettenti per la creazione di un ecosistema di intelligenza artificiale più collaborativo e rispettoso dei diritti?

Conclusioni

Il percorso verso un futuro equilibrato è ancora lungo e complesso. È necessario adottare un approccio flessibile, capace di evolversi al ritmo delle tecnologie in continua trasformazione.

In definitiva, il potenziale dell’intelligenza artificiale per amplificare la creatività umana e arricchire il panorama culturale è immenso. Tuttavia, per realizzarlo appieno, è necessario garantire che lo sviluppo e l’utilizzo dell’IA avvengano in modo corretto e responsabile, nel rispetto dei diritti e della dignità dei creatori di contenuti.

Note

[1]L’accordo raggiunto dal Parlamento europeo e dal Consiglio europeo include misure per rafforzare la protezione delle opere protette da copyright nell’era dell’intelligenza artificiale.

I fornitori di modelli di intelligenza artificiale generici saranno tenuti a pubblicare un riepilogo dettagliato dei contenuti utilizzati per addestrare i loro modelli.

Dovranno inoltre registrare i dati utilizzati, incluso il materiale protetto da copyright, e renderli disponibili ai titolari dei diritti per l’identificazione e la rivendicazione dei loro diritti.

Tutti i sistemi di intelligenza artificiale resi disponibili nell’UE, o che producono risultati utilizzati nell’UE, dovranno rispettare la legge sul diritto d’autore dell’UE, indipendentemente da dove sono stati addestrati o testati.

Ciò mira a garantire un campo di gioco uniforme per i sistemi di intelligenza artificiale sia all’interno che all’esterno dell’UE.

I titolari dei diritti potranno rinunciare e riservarsi i propri diritti sulle loro opere, impedendo ai fornitori di sistemi di intelligenza artificiale di utilizzare l’eccezione sull’estrazione di testo e dati nella direttiva sul copyright per addestrare i loro modelli.

Queste misure mirano a bilanciare gli interessi degli sviluppatori di intelligenza artificiale con la necessità di proteggere il lavoro creativo.

Maggiore trasparenza e tracciabilità dei dati dovrebbero facilitare l’identificazione e la rivendicazione dei diritti d’autore da parte dei titolari dei diritti.

L’obbligo di rispettare il diritto d’autore potrebbe incoraggiare lo sviluppo di sistemi di intelligenza artificiale più etici e rispettosi dei diritti.

@RIPRODUZIONE RISERVATA