Come riconoscere un testo scritto dall’IA? Le “contromisure” ci sono, ma la strada è lunga

Le aziende del settore tech stanno correndo ai ripari, offrendo soluzioni che possano rispondere alla domanda se un certo testo sia stato generato dall’essere umano o dall’IA. Dalla tecnica del watermarking alla soluzione “classifier” di OpenAI, una panoramica sulle “armi” messe in campo

Visto lo sviluppo rapidissimo della IA generativa, di cui ChatGPT è l’esponente finora più illustre, è legittima l’aspirazione di sapere se un testo, un’opera, una diagnosi, una ricerca o una sentenza siano stati scritti interamente o parzialmente con linguaggio generato da IA.

Vari sviluppatori di software, tra cui OpenAI, e accademie avrebbero rilasciato strumenti progettati per rilevare, appunto, un testo elaborato dall’IA. Tuttavia, essi avvertono che in questo momento, vista la velocità con cui la tecnologia generativa di testo progredisce, questi sistemi di riconoscimento non sono ancora affidabili.

Il watermarking come metodo per segnalare l’uso di chatbot e tutelare il diritto d’autore

Indice degli argomenti

L’IA è ancora un ausilio, non una minaccia

Come del resto non è neppure affidabile l’IA generativa. E faccio subito un esempio per contestualizzare la riflessione che andremo a fare.

Curiosa, come tutti gli appassionati di tecnologia digitale, di sperimentare la piattaforma di intelligenza artificiale (IA) ChatGPT, impostasi al mercato a pochi mesi dal suo lancio, mi sono registrata e l’ho interrogata, in inglese, sul Digital Services Act: un argomento tra i più trattati di recente. Con un certo sollievo ne ho ricevuto una sintesi un po’ scarna, preceduta da un riferimento temporale errato: il regolamento veniva definito come ancora in fase di draft nel gennaio 2023.

L’IA diventerà sempre più performante e abile ad insinuarsi nella nostra quotidianità ma mi unisco alla nutrita schiera di chi considera, per lo meno allo stadio attuale, questa tecnologia più un ausilio che una minaccia al futuro della umanità, laddove usata con la dovuta attenzione e consapevolezza.

Un giudice in Colombia in una sentenza del 30 gennaio 2023 avrebbe ammesso di avere fatto uso di tecnologia generativa di testo basata sulla IA. Lo scopo dell’utilizzo della IA, come dichiarato, non è certo quello di sostituire la decisione del giudice ma è quello di ottimizzare il tempo per scrivere una sentenza.

Sull’IA generativa, come quella alla base del programma ChatGPT prodotto da Open AI, si è già scritto molto, sollevando preoccupazioni sul futuro di certe professioni come le conosciamo oggi, il rischio di discriminazione derivante da “istruzioni” alterate da pregiudizi e quello della disinformazione. Che dire, poi, delle possibili responsabilità derivanti dall’impiego di contenuti protetti dal diritto d’autore, come input, che può portare ad un plagio inconsapevole? E della difficoltà nell’ottenere tutela autorale per i risultati di un processo che faccia uso di IA generativa, la quale oggi dipenderebbe dall’ammontare dell’attività intellettuale umana che ha operato delle scelte tali da direzionare la creazione in modo da rifletterne le sue intenzioni?

I nodi ancora insoluti dell’IA generativa

Anche a volere scommettere sul ruolo collaborativo di questa tecnologia, oggi restano insolute alcune questioni importanti. Innanzitutto, visto lo sviluppo rapidissimo della IA generativa, è legittima l’aspirazione di sapere se un testo, un’opera, una diagnosi, una ricerca o una sentenza siano stati scritti interamente o parzialmente con linguaggio generato da IA. E ancora, negli Stati Uniti buona parte del sistema di istruzione si fonda su esami scritti e ha destato grande preoccupazione la possibilità che gli studenti possano fare uso di IA generativa come ChatGPT, falsando i risultati.

Ecco quindi che, quasi fosse un antidoto ad una tossina che è entrata nei nostri corpi, si registra in queste ultime settimane una corsa delle aziende del settore ad offrire una soluzione tecnologica che possa rispondere alla domanda se un certo testo sia stato generato dall’essere umano ovvero dall’IA.

La tecnica del watermarking

In particolare, citando un articolo del MIT Technology Review (di Melissa Heikkila, 27 gennaio 2023), il riconoscimento potrebbe avvenire mediante watermarks, ossia segni nascosti appositamente seminati nei testi generati dall’IA. Inoltre, secondo quanto riferito nell’articolo, i modelli linguistici IA funzionano prevedendo e generando una parola alla volta. Dopo ogni parola, l’algoritmo di rilevamento divide il vocabolario del modello linguistico in parole in una “lista verde” e una “lista rossa”. Maggiore è il numero di parole nella lista verde in un passaggio, maggiore è la probabilità che il testo sia stato generato da una macchina. Il testo scritto da una persona tende a contenere un mix più casuale di parole. Ad esempio, per la parola “bello”, l’algoritmo di riconoscimento potrebbe classificare la parola “fiore” come verde e “orchidea” come rossa.

Classifier di OpenAI

Anche OpenAI ha sviluppato un nuovo strumento (Classifier) che è stato addestrato a distinguere tra il testo scritto da un essere umano e quello scritto da vari tipi di IA, non solo ChatGPT. I ricercatori di OpenAI hanno affermato che, mentre sarebbe “impossibile rilevare in modo affidabile tutto il testo scritto dall’IA“, si potrebbero rilevare alcune “prove” che il testo sia stato scritto dall’IA. Lo strumento potrebbe essere utile nei casi di “disonestà accademica” e quando i chatbot si fingono esseri umani.

Per ammissione di Open AI, la tecnologia al momento disponibile è poco performante, in quanto consente di distinguere in modo attendibile il linguaggio generato dall’IA da quello generato dalla creazione umana solo nel 26% dei casi, con un elevato rischio di falsi positivi (9%) e molti casi di mancata identificazione. In aggiunta, bisogna disporre di un testo di almeno mille parole ed in lingua inglese. Per la cronaca, i primi paragrafi del libro della Genesi sono stati ritenuti generati dall’IA: residua spazio per un miglioramento dell’algoritmo.

La strada è ancora lunga

Ora, secondo il principio per cui “the answer to the machine is in the machine”, in futuro saranno certamente disponibili tecnologie ricognitive più efficaci. Ma sarà impossibile avere certezza al 100% della fonte umana di un testo.

Tutto questo, se consideriamo, ad esempio, il settore della informazione, aggiungerà incertezza e sfiducia nel lettore, che già oggi si chiede se stia leggendo informazione generata da un bot.

Da giurista, posso immaginare che l’identificazione della fonte e di falsi positivi potrà generare contenziosi e nuove pratiche contrattuali, magari con esclusione di responsabilità per il caso di involontaria inclusione di testo generato da IA, come si fa con gli allergeni negli alimenti: “può contenere tracce di…”. E ancora si pensi ai motori di ricerca, alcuni dei quali sono programmati per penalizzare i contenuti generati da IA.

Conclusioni

Chiuderò queste riflessioni con la preoccupazione espressa pochi giorni fa sulla testata statunitense “The Atlantic”: “ChatGPT is about to dump more work on everyone”. L’impressione è che, se da una parte l’IA ci farà risparmiare tempo, dall’altra accresca la complessità delle nostre vite: se le circostanze lo richiedono sarà necessario anche dotarsi di tecnologia di rilevamento per verificare la fonte di un testo consultato sulla rete o ricevuto da terzi. La tecnologia digitale ha reso più rapido ed efficiente qualunque processo ma ha al contempo sovraccaricato di oneri gli esseri umani. Oggi si lavora di più e si svolgono attività un tempo affidate a specialisti: nel senso che con programmi come Excel o SAP siamo tutti un po’ contabili, con i social media siamo tutti un po’ comunicatori e via di seguito.

Presto separare l’umano dal sintetico farà parte della nostra quotidianità.