Chatbot e watermarker: battaglia etica e legale

La crescente proliferazione di strumenti di intelligenza artificiale (AI) come ChatGPT solleva questioni di varia natura in ambito accademico e in relazione alle violazioni di copyright. Ecco come difendersi

I chatbot sono diventati sempre più popolari e potrebbero presto adottare watermarker, per rispondere alle questioni etiche e legali sollevate dal loro uso, in relazione alla proprietà intellettuale.

Ecco quali problematiche derivano dall’utilizzo dei chatbot in ambiti accademici, mentre debuttano strumenti per rilevare se un testo o altri contenuti siano frutto del loro uso. Ma in futuro anche crittografia e blockchain potrebbero scendere in campo contro la contraffazione.

UOC's Video Watermarking System, Reversible video watermarking system for real-time applications

Indice degli argomenti

La proliferazione dei chatbot

La crescente proliferazione di strumenti di intelligenza artificiale (AI) specificamente progettati per generare testi simili a quelli umani ha scatenato una vera guerra dei chatbot nella Silicon Valley.

Sono popolari, grazie alla capacità di automatizzare le conversazioni e migliorare l’efficienza dei processi. Il chatbot AI più utilizzato è ChatGPT. Creata dalla start-up openAi. Vanta già oltre 100 milioni di utenti attivi nel mese di gennaio, ad appena due mesi dal lancio.

Ma è sufficiente digitare su Google “utilizzo chatbot” per rendersi conto della quantità di aziende che ne sponsorizza e ne fornisce l’utilizzo per migliorare la produttività delle società.

I chatbot o progetti simili dei giganti dell’industria tecnologica sono numerosi. Google a gennaio ha pubblicato un documento che descrive un modello in grado di generare nuova musica da una descrizione testuale di una canzone. Intanto sta lavorando alla creazione di un’anti ChatGPT che si chiama Apprentice Bard.

Baidu, il gigante cinese della ricerca, intende incorporare un chatbot nel suo motore di ricerca a marzo. Replika è una chatbot che si presenta con lo slogan “il compagno che si preoccupa per te”: è stata, correttamente, stroncata dai commenti del Garante della Privacy. Ma anche questo caso dimostra quanto sia alta l’attenzione verso i chatbot.

Chatbot e watermarker in ambito accademico

Dal debutto di ChatGPT a novembre, gli studenti hanno iniziato a imbrogliare usandolo per scrivere i loro saggi. Anche il sito di notizie Cnet ha utilizzato ChatGPT per scrivere articoli, per essere poi costretto ad apportare correzioni in seguito alle accuse di plagio.

Molti studenti hanno utilizzato i chatbot come strumento di supporto per lo studio, in particolare per l’apprendimento di concetti difficili o per la risoluzione di compiti complessi. Tuttavia, ciò solleva la questione etica dell’uso dei chatbot.

Se gli studenti utilizzano chatbot per affrontare i loro compiti, ci si chiede se siano ancora il risultato del loro lavoro. O ci si interroga se gli studenti che utilizzano i chatbot traggano un vantaggio ingiusto rispetto ai loro compagni di classe che non li usano.

Gli insegnanti, in particolare, stanno cercando di adattarsi alla disponibilità di software in grado di produrre in un attimo un saggio moderatamente accettabile su qualsiasi argomento. Forse si tornerà alle valutazioni con carta e penna. Oppure aumenterà la supervisione degli esami. C’è anche chi propone di vietare del tutto l’uso dell’intelligenza artificiale.

La questione è particolarmente rilevante in ambito accademico, dove gli studenti sono valutati sulla base della loro conoscenza e delle loro capacità.

L’uso di chatbot può rappresentare una minaccia per l’integrità accademica.

Il watermarking come metodo per segnalare l’uso di chatbot e tutelare il diritto d’autore

L’accusa di plagio

L’uso di chatbot potrebbe essere considerato una forma di plagio. Gli studenti infatti utilizzano risposte generate automaticamente per rispondere a compiti che richiedono la loro conoscenza personale.

Un altro problema correlato all’uso dei chatbot è relativo alla proprietà intellettuale. I chatbot possono generare risposte o soluzioni a problemi. Ma chi detiene la proprietà intellettuale su tali risposte? Gli studenti che utilizzano chatbot potrebbero essere accusati di violare i diritti di proprietà intellettuale dei proprietari del chatbot.

Nel contempo i proprietari di chatbot ricevono accuse di violazione di proprietà intellettuale da coloro i cui testi, documenti, foto o altro, vengono utilizzati proprio per “alimentare” gli algoritmi dei chatbot.

Il caso Getty Images

A metà gennaio il sito di immagini Getty ha annunciato l’inizio della
causa legale contro Stability AI: “Questa settimana Getty Images ha avviato un procedimento legale presso la High Court of Justice di Londra contro Stability AI, sostenendo che quest’ultima ha violato i diritti di proprietà intellettuale, tra cui il copyright dei contenuti di proprietà di Getty Images (o di quelli che rappresenta).

Getty Images ritiene che Stability AI abbia illegalmente copiato ed elaborato milioni di immagini protette dal diritto d’autore e i relativi metadati di proprietà di Getty Images, in assenza di una licenza, a vantaggio degli interessi commerciali di Stability AI e a scapito dei creatori dei contenuti.

L’intelligenza artificiale ha però il potenziale per stimolare gli sforzi creativi. Di conseguenza, Getty Images ha fornito licenze ai principali innovatori tecnologici per scopi legati all’addestramento di sistemi di intelligenza artificiale in modo da rispettare i diritti di proprietà personale e intellettuale. Stability AI non ha richiesto alcuna licenza di questo tipo a Getty Images e ha invece scelto, a nostro avviso, di ignorare le opzioni di licenza praticabili e le protezioni legali di lunga data per perseguire i propri interessi commerciali autonomi”.

Anche in questo caso, si sottolinea l’enorme potenziale dell’intelligenza artificiale, ma anche il necessario rispetto delle barriere previste dalla legge.

Le barriere normative per i chatbot nell’era dei watermarker

Per evitare questi problemi, alcune istituzioni accademiche hanno vietato l’uso di chatbot da parte degli studenti. Tuttavia, non è sempre praticabile o efficace, in quanto i chatbot sono diventati sempre più sofisticati e difficili da rilevare.

Nell’avvento dell’intelligenza artificiale, sia i rilevatori di testo che i generatori di testo stanno diventando sempre più raffinati. Ciò potrebbe avere un impatto significativo sull’efficacia dei diversi metodi e strumenti proposti per riconoscere il testo generato dall’intelligenza artificiale.

Anche insegnanti e ricercatori possono usare i chatbot, per automatizzare i loro processi di ricerca e di insegnamento.

Il paradosso è che le aziende globali specializzate nell’intelligenza artificiale non riescono a distinguere in modo affidabile i prodotti delle loro stesse macchine rispetto al lavoro degli esseri umani.

La ragione è molto semplice. L’obiettivo principale delle aziende del settore AI consiste nell’addestrare le AI “processori di linguaggio naturale” (NLP) a produrre risultati il più possibile simili alla scrittura umana. In effetti, la richiesta pubblica di un mezzo facile per individuare tali AI contraddice in concreto il loro stesso sforzo orientato nella direzione opposta.

Chatbot: i watermark e gli altri rimedi tecnici

L”utilizzo dei watermark può rappresentare una soluzione efficace per la gestione dell’uso dei chatbot. Per semplificare, i watermark sono marcatori digitali da incorporare in un’immagine o in un documento per identificare il proprietario o l’autore dell’opera.

In questo caso, i watermark possono essere utilizzati per identificare le risposte o le soluzioni generate dai chatbot.

Queste “filigrane” sono invisibili all’occhio umano, ma permettono ai computer di rilevare che il testo proviene probabilmente da un sistema di intelligenza artificiale.

Se incorporati in modelli linguistici di grandi dimensioni, potrebbero aiutare a prevenire alcuni dei problemi già causati.

Il watermarking è infatti una tecnica di sicurezza che protegge la proprietà intellettuale, in particolare i documenti digitali, dall’uso non autorizzato e dalla contraffazione. Questa tecnica prevede l’inserimento di un’immagine, di un testo o di un altro tipo di marca d’acqua (appunto “watermark”) all’interno del documento, che lo rende unico e facilmente tracciabile.

In alcuni studi queste filigrane sono già state utilizzate per identificare, con quasi assoluta certezza, il testo generato dall’intelligenza artificiale. I ricercatori dell’Università del Maryland, per esempio, sono riusciti a individuare il testo creato dal modello linguistico open-source di Meta, OPT-6.7B, utilizzando un algoritmo di rilevamento da loro costruito.

Anche se uno dei ricercatori dell’Università del Maryland, che ha partecipato al lavoro sul watermarking, John Kirchenbauer, ha detto che “in questo momento è il selvaggio West“, fotografando perfettamente la situazione attuale.

I classificatori

Sono gli strumenti in base ai quali i programmatori “insegnano” al computer a fare qualcosa con dati già etichettati dall’uomo, ossia classificare (nel nostro caso) l’utilizzo di determinate parole al posto di altre, o di combinazioni di parole come elaborate da un chatbot.

La stessa OpenAi ha presentato a gennaio un “classificatore per l’indicazione di testi scritti da IA” ammettendo però che ha una percentuale di successo non superiore al 26% del testo analizzato.

Un altro classificatore che sembra più efficace è quello creato da Edward Tian, studente di Princetown, che ha rilasciato la prima versione a gennaio di GPTZero.

Questa applicazione identifica la paternità dell’intelligenza artificiale in base a due fattori: il grado di complessità di un testo e la variabilità delle frasi utilizzate.

Per mostrare il funzionamento del programma, Tian ha pubblicato due video su Twitter che confrontano l’analisi di un articolo del New Yorker e una lettera scritta da ChatGPT.

here’s a quick demo with john mcphee’s “frame of reference” pic.twitter.com/WphxfxxFdr
— Edward Tian (@edward_the6) January 3, 2023

In entrambi i casi, l’app è riuscita a individuare in maniera corretta la loro origine umana e artificiale.

here’s a demo with @nandoodles‘s Linkedin post that used ChatGPT to successfully respond to Danish programmer David Hansson’s opinions pic.twitter.com/5szgLIQdeN
— Edward Tian (@edward_the6) January 3, 2023

Il “trucco” attuale per sconfiggere i classificatori è quello di sostituire alcune parole con dei sinonimi. Siti web che offrono strumenti che parafrasano il testo generato dall’IA a questo scopo stanno già spuntando in tutto il mondo.

Utilizzando questi siti anche il classificatore di Tian non
superava le percentuali dell’altro servizio.

I rilevatori di testo generati dall’intelligenza artificiale diventeranno sempre più sofisticati. Il servizio antiplagio TurnItIn ha recentemente annunciato l’arrivo di un rilevatore di scrittura AI con una precisione dichiarata del 97%.

Tuttavia, anche i generatori di testo stanno migliorando. È la classica battaglia in cui non si vede un vincitore, ma solo due contendenti che si sorpassano di continuo senza vedere un traguardo e, quindi al momento, un vincitore.

Conclusioni

Come spesso succede nel settore digitale, arriveremo adun punto in cui la consuetudine e la prassi porteranno il legislatore a poter regolare anche questo settore in modo armonico.

Quando, oltre alla legge, i problemi riguardano anche l’etica, è difficile mettere tutti d’accordo. Nel campo accademico, non si riuscirà a far contenti tutti.

Ma, per quanto riguarda la proprietà intellettuale connessa a queste problematiche, la prassi porterà a pronunce giurisprudenziali costantemente in evoluzione, in grado di attingere sia dalla legge che dalla tecnologia in materia.

Sarà invece ancora più difficile per le aziende proteggere la loro proprietà intellettuale, in quanto i contraffattori potrebbero utilizzare generatori di testo avanzati per creare documenti che sembrano autentici, ma in realtà frutto di contraffazione.

Servirà un cambiamento di approccio nella protezione della proprietà intellettuale, con l’adozione di tecniche di sicurezza più avanzate, come la crittografia o la blockchain.

Chatbot e watermarker: una battaglia etica e legale contro la contraffazione