Un giornalista e storico del secolo scorso, con l’ironia che lo contraddistingueva, scrisse che una delle ragioni della grandezza dell’antica Roma era dovuta al fatto che i romani non erano costretti a studiare il latino come seconda lingua, così potendosi dedicare a più fruttuose attività.
Mutuando il concetto, potremmo affermare che probabilmente una delle ragioni per cui i sistemi di intelligenza artificiale generativa contribuiranno ancor più a segnare la distanza tra Occidente e i paesi in via di sviluppo è legato all’utilizzo della lingua inglese nei modelli linguistici, escludendoli non solo dalla generazione dei contenuti ma anche dall’accesso agli stessi, almeno per coloro che non conoscono tale lingua.
Né sembra che la criticità possa essere risolta semplicemente attraverso le traduzioni.
Accade spesso, infatti, che chi traduce non abbia una vera padronanza della lingua nella quale sta traducendo per assenza di conoscenza dei tecnicismi e della pluralità di significati che ogni parola assume a seconda del contesto in cui è posta, oltre ad essere influenzata dalle definizioni spesso imposte da dettami normativi nei vari settori di applicazione.
Del resto, di questo tipo di sudditanza linguistica siamo spesso vittime anche noi italiani: non mi riferisco solo ai neologismi spesso osceni per cui le “note” non sono brevi appunti o i simboli musicali, ma strumenti di debito (“notes”), ma anche al triste esempio che abbiamo dai testi ufficiali delle direttive e regolamenti europei, che sono spesso negoziati in lingua inglese o francese e poi tradotti dai servizi istituzionali comunitari in modo semplicistico, denunciando in tal modo una mancata conoscenza della lingua nella quale si vuole tradurre. Tra i vari esempi, basti pensare a tutte le volte che il verbo “rescindere” è utilizzato al posto di “risolvere”, dove nel nostro ordinamento la rescissione e la risoluzione sono fattispecie assai diverse: non basta quindi, per avere una buona traduzione, conoscere le due lingue, ma occorre conoscere correttamente i legami che le singole parole hanno nel contesto in cui si pongono e nella relazione con le altre parole che compongono la frase.
IA e modelli linguistici: limiti di accesso e di potenzialità
I sistemi di intelligenza artificiale generativa si basano su modelli linguistici, tanto più affidabili quanto più si basano su un elevato numero di dati (large language models) che sostanzialmente consistono in reti neurali profonde “addestrate” su grandi masse di dati, che riescono – tra l’altro – a cogliere il legame tra le parole in un discorso e a completarne le parti mancanti (sul punto, di esemplare chiarezza, vedi Giuseppe Attardi)
Senza dilungarsi su tali sistemi, è chiaro che gli stessi possono essere tanto più efficaci quanto più i dati per creare le reti neurali siano ampi e numerosi. E qui torna il discorso sulla lingua base: l’inglese offre una moltitudine di testi da consultare non paragonabile con altre lingue.
Da questo discende anche il rischio che il mondo conosciuto e conoscibile da tali sistemi possa risultare limitato a quanto scritto in una tale lingua. E quindi comprensibile che la lingua diventi da un lato limite all’utilizzo dei sistemi generativi per chi non la conosce e limite stesso a quanto il sistema possa generare.
Come stanno reagendo alcuni paesi? Una soluzione potrebbe essere il data crowdsourcing
Il tema non è di poco conto se si pensa che una nazione come l’India, nella quale buona parte della classe dirigente conosce l’inglese e si è formata su sistemi di tipo anglosassone, la maggioranza della popolazione non parla inglese.
Come ha fatto notare il CEO e Presidente di Digital India Corporation, Abhishek Singh, in un’intervista su The Times of India del 25 maggio 2023, per avere un’idea della portata del fenomeno basta consultare Wikipedia dove la pagine scritte in inglese superano qualche centinaia di milioni, mentre quelle scritte in Hindi ammontano a circa duecentomila (una lingua parlata da circa il 40% degli indiani, quasi seicento milioni di persone), per scendere in una forbice tra diecimila e quindicimila per il Bengali, il Tamil e il Telugu.
Per risolvere il problema, gli esperti auspicano che si possano rendere disponibili i data base governativi, che sebbene siano verosimilmente davvero numerosi (pensando anche alla popolazione indiana che, ormai, ha raggiunto il miliardo e quattrocento milioni di persone). Rimane il fatto che i sistemi più avanzati sono stati costruiti sulla lingua inglese e che la traduzione dei medesimi, per potere condurre a risultati apprezzabili, presuppone sistemi avanzati anche nella lingua in cui si vorrebbe tradurre l’inglese: cosa non impossibile ma che richiederà tempo, tempo – che nell’innovazione tecnologica legata all’intelligenza artificiale – premia spesso chi sta in testa allargando così il divario tra i primi e gli ultimi costretti alla rincorsa.
In India, comunque, si sta tentando di accelerare la rincorsa mediante l’iniziativa “Bhasha Daan” che chiede alle persone di contribuire, attraverso un apposito portale, alla raccolta dei dati espressi nelle proprie diverse lingue (in India si utilizzano 21 diverse lingue riconosciute dalla Costituzione e circa duemila dialetti); i dati raccolti sono poi messi a disposizione di tutti attraverso un’apposita app.
Anche in Africa si sente forte lo stesso problema, acuito spesso dall’oralità delle fonti delle lingue indigene, che costituisce un ulteriore fattore di difficoltà nel costituire sistemi alternativi a quelli creati in Occidente.
L’orgoglio africano, comunque, spinge a trovare proprie soluzioni attraverso varie iniziative, quali quelle di Lelapa AI, che lavora in Sud Africa con comunità linguistiche e locali per dare spazio a lingue poco utilizzate. La differenza di linguaggio e la difficoltà di sistemi quali ChatGPT di gestire le lingue africane, lungi da apparire una debolezza, viene vista quale un punto di forza per creare sistemi autonomi e indipendenti, non influenzati dalla mentalità e dalle impostazioni occidentali.
Appropriazione culturale e sovranità sui dati
Altro tema che si sta ponendo è poi quello, sollevato da alcune comunità indigene, dell’appropriazione del proprio linguaggio da parte dei sistemi d’intelligenza artificiale generativi che, utilizzando i dati disponibili sul web o nelle trasmissioni radio, riescono a creare sistemi di traduzione più o meno affidabili, temendo una forma di colonizzazione linguistica e quindi anche culturale.
Per le popolazioni indigene infatti il proprio linguaggio è un fattore identificativo e culturale, ragione per la quale si sentono spesso defraudate quando le loro parole sono utilizzate fuori dal contesto originale.
Così, quando ad esempio OpenAI, la società creatrice di ChatGPT, ha lanciato il programma di traduzione Whisper, la comunità Maori della Nuova Zelanda ha reagito lamentando il mancato rispetto della propria identità culturale. Il tema non è la preservazione della lingua per sé, che anzi viene visto in modo positivo, ma il tema che si pone è quello della gestione da parte di soggetti estranei, oltre al rischio che la mancata conoscenza delle lingue originali possa condurre a errori ricorrenti e difficilmente rilevabili.
Se, per certi aspetti, queste preoccupazioni possono essere non comprensibili per gli occidentali che si sono fin troppo abituati all’uso e all’abuso della propria identità culturale e persino religiosa, anche per utilizzi meramente commerciali, il mantenimento della “appartenenza” dei dati e della lingua da parte delle comunità indigene è ben più comprensibile, considerato che le stesse sono state frequentemente spogliate di tutto da parte del colonizzatore di turno, senza poi dimenticare che spesso il linguaggio assume anche un carattere sacrale per le comunità medesime.
E così non solo i Maori, ma anche i nativi americani lamentano l’ingiustizia, dal loro punto di vista, di questo utilizzo dei linguaggi propri da parte di coloro che nativi non sono.
Schiacciati nelle loro riserve in modo brutale nei secoli scorsi e ancora oggi oggetto di tentativi di appropriazione ogni volta che nuove ricchezze siano scoperte nei loro territori o sia necessario fare passare oleodotti (gli ultimi episodi risalgono alla presidenza Trump), i nativi americani pongono un tema di sovranità in relazione ai dati, ponendo anche temi di ordine giuridico, posto che molti dei lori diritti sono protetti da leggi federali, ma non ritengono che lo siano altrettanto gli elementi culturali e i loro dati, che dovrebbero essere tutelati quali proprietà intellettuale, non solo quando gli stessi sono trattati all’interno dei loro territori.
Conclusioni
Le sfide che l’intelligenza artificiale pone sono molteplici e oggetto di dibattito continuo. L’aspetto relativo alla trazione occidentale, peraltro limitata a poche Big Tech, è senz’altro uno degli aspetti di elevata criticità.
Anche noi italiani e con noi molti altri popoli, da occidentali non attori protagonisti del cambiamento, dobbiamo augurarci che lo sviluppo non sia condotto da pochi e senza il coinvolgimento dei più. Per questo, ben vengano tutte le iniziative dei paesi e delle comunità che tendono a rompere il monopolio, anche per non correre il rischio di giungere al giorno in cui le nostre teste parlino lingue che non saremo in grado di comprendere, parafrasando Robbie Williams nella canzone “Feel”.