Intelligenza artificiale

Superare il dominio dell’inglese nell’IA: l’importanza di modelli multilingue

I modelli di IA attuali, spesso anglofoni, rischiano di creare discriminazioni culturali e linguistiche. Sviluppare LLM in lingue diverse, come l’italiano, è cruciale per garantire dati affidabili, personalizzazione, indipendenza digitale e innovazione. Questo approccio preserva il patrimonio linguistico e giuridico, superando le barriere linguistiche e culturali

Pubblicato il 18 lug 2024

Gea Arcella

Notaio, Assessore al Comune Udine alla smart city ed innovazione digitale

È patrimonio comune ed ampiamente acquisito che i risultati forniti dall’intelligenza artificiale generativa sono determinati dalle lingue e dai contenuti che vengono utilizzati per addestrarla e gli attuali modelli di IA sono prevalentemente anglofoni.

IA generativa, il modello “LLaMAntino” in italiano e il ruolo della lingua nel training

Indice degli argomenti

Discriminazioni culturali e linguistiche: i pericoli dei modelli monolingue

Già questa caratteristica dovrebbe far riflettere su come questa impostazione possa creare problemi per le culture diverse e ultimamente le analisi svolte sul funzionamento di alcuni tra i più diffusi applicativi di IA iniziano a mostrare come i documenti da loro prodotti risultano scritti in un linguaggio “nuovo”, a sua volta diverso e specifico anche rispetto alla lingua inglese[1].

Siamo, pertanto, di fronte un duplice ordine di problemi: l’addestramento a senso unico utilizzando un solo modello linguistico potrebbe portare ad una falsa comprensione del testo, soggetto ad una continua traduzione dai diversi idiomi alla lingua inglese o addirittura a delle discriminazioni, dovute alle incomprensioni derivanti dall’utilizzo di un linguaggio diverso da quello utilizzato per la programmazione dell’IA; ma la stessa lingua inglese, nel momento in cui chi effettua l’addestramento è un soggetto non madrelingua, potrebbe evolversi in un idioma a sé stante, creando un lessico caratteristico dell’IA.

L’importanza dello sviluppo di LLM multilingue

Soprattutto la prima criticità evidenziata sta alla base della crescente attenzione verso modelli linguistici non in inglese e sta diventando un argomento importante nell’ambito dell’intelligenza artificiale e del elaborazione del linguaggio naturale; infatti, sono in corso di elaborazione modelli specifici per diverse lingue, come il cinese, l’arabo, il russo e molte altre. Essi sono fondamentali per consentire l’utilizzo di sistemi di IA in contesti multilingue e per superare le barriere linguistiche.

Le sfide nella creazione di modelli multilingue

Lo sviluppo di tali modelli linguistici alternativi all’inglese presenta diverse sfide, come la disponibilità di dati di addestramento, le differenze grammaticali e sintattiche tra le lingue, l’adattamento ad altri contesti delle tecniche di machine learning sviluppate principalmente per l’inglese.

Ciò nonostante, la sfida va raccolta anche e soprattutto in ambito pubblico per diversi ordini di ragioni: sempre più pressante è l’esigenza di poter contare su dati affidabili quanto a correttezza e provenienza, dati faziosi o pregiudizievoli possono fornire soluzioni con i medesimi pregiudizi quando vengono interpellati.

La raccolta responsabile dei dati

Inoltre, la raccolta responsabile dei dati è un aspetto fondamentale dell’apprendimento automatico ed in questo campo le pubbliche amministrazioni posso svolgere un ruolo guida mettendo a disposizione non semplicemente dei big data, ma dei veri open data: verificati, veritieri, correttamente raccolti e categorizzati.

Va tenuta presente anche l’innata ambiguità dei linguaggi naturali: lo stesso termine assume significati diversi a seconda del contesto, e le macchine addestrate su corpi linguistici, necessariamente cercano di dare una interpretazione univoca a tale ambiguità.

L’esempio lampante del linguaggio giuridico

Se da questa constatazione generale, valida per qualsiasi lingua e per qualsiasi contesto, scendiamo ad un ambito più specifico come quello legale e/o amministrativo, ancora più evidente è come il linguaggio giuridico non sia uniforme in tutto il mondo ed anzi sussistono notevoli differenze tra i sistemi di civili law, come quello italiano sostanzialmente basato su una legge scritta e codificata, e quelli di common law, come quello anglo-americano incentrato sulle sentenze dei giudici e sui precedenti giurisprudenziali. Tali differenti impostazioni si ripercuotono non solo nel linguaggio e nei termini utilizzati ma anche nella stessa costruzione degli istituti giuridici che quei termini descrivono.

L’applicazione di regole e logiche linguistiche improntate a diritti esteri poste alla base di sistemi “esperti” di predisposizione dei testi legali portano il principale rischio di un impoverimento del bagaglio giuridico e di un sotterraneo ed inconsapevole travisamento del nostro diritto in base a sistemi legali diversi per impostazione e tradizione.

Benefici dei LLM nella lingua italiana: affidabilità e personalizzazione

Creare un modello linguistico di grandi dimensioni (LLM) addestrato nativamente in italiano diventa a questo punto strategico per diversi motivi:

Controllo dei dati: addestrare un LLM in italiano significa che i dati utilizzati per l’addestramento, provenienti da fonte verificata ed affidabile, rimarranno fisicamente in Italia, garantendo il controllo e la protezione delle informazioni.
Personalizzazione: un LLM italiano può essere personalizzato per le esigenze specifiche, migliorando la precisione e l’efficacia delle applicazioni AI, ad esempio in ambito giuridico/amministrativo.
Indipendenza digitale: l’addestramento di un LLM in italiano rappresenta un passo verso la indipendenza digitale, poiché le tecnologie IA possono essere utilizzate per sviluppare servizi e applicazioni nazionali senza dipendere da fornitori esteri.
Innovazione: la creazione di un LLM italiano può aprire nuove opportunità per l’innovazione e lo sviluppo di servizi IA specifici per i vari settori della pubblica amministrazione, come la sanità, l’educazione e la mobilità.

L’addestramento di modelli IA con testi in italiano, provenienti dalla nostra cultura e una mentalità differente rappresenta, quindi, non solo un’opportunità per innovare ma anche una necessità se si vuole preservare un il proprio patrimonio linguistico, giuridico e culturale, garantendo il controllo dei dati e l’indipendenza digitale.

Note

[1]Sul The Guardian è uscito recentemente un articolo dal titolo molto esplicativo: “L’IA sta parlando una lingua tutta sua”. L’Autore, Alex Hern, descrive il fenomeno secondo il quale l’intelligenza artificiale (IA) sta creando una lingua propria, definita AI-ese, grazie ad una serie di input umani forniti durante l’addestramento dei modelli di IA. Questa circostanza è stata osservata in particolare in Nigeria, dove il termine “delve”, il cui significato può essere tradotto in italiano come approfondire o scavare, è molto utilizzato e di conseguenza moltissimi dei contenuti creati dall’AI riportano con una frequenza anomala e non corrispondente all’uso comune questa parola. L’articolo analizza come l’IA sta influenzando il modo in cui comunichiamo e come questo possa avere conseguenze a lungo termine: l’AI-ese potrebbe diffondersi e avere ripercussioni impreviste, come ad esempio la discriminazione linguistica, in cui la lingua di una persona potrebbe essere associata a quella di un bot.