L’Intelligenza artificiale è affamata di linguaggio. Il boom di interesse da parte di ricerca e industria si deve probabilmente al fatto che le nuove tecniche promettono di costruire macchine che comprendono ciò che diciamo e scriviamo: macchine dal valore inestimabile. Ma dallo scenario che si profila emergono anche “effetti collaterali” in grado di mettere a rischio la ricchezza dell’ecosistema linguistico.
Forse i filosofi del Novecento hanno esagerato nel dire che “i limiti del linguaggio sono i limiti del mondo” (Wittgenstein) o che “siamo parlati dal linguaggio” (Heidegger). Forse il linguaggio non è l’unica dimensione nella quale costruiamo il nostro pensiero e la nostra società. Forse bisogna restituire qualcosa al realismo classico per il quale “le parole sono conseguenza delle cose”. Ma non c’è dubbio che ciascuna lingua trae dal mondo conseguenze tutte sue, cioè propone il suo specifico repertorio di concetti e di visioni.
Ogni lingua insomma ha la sua mappa della realtà, o addirittura, come pensano molti, costruisce una realtà tutta sua. Non si spiega altrimenti l’efficacia del famoso motto “traduttore traditore”, che mette in luce l’impossibilità di trasferire da una lingua all’altra ciò che le parole evocano all’interno della cultura di cui fanno parte, cosa su cui i maggiori pensatori delle diverse scuole hanno versato fiumi di unanime inchiostro.
Diversità linguistica, un patrimonio sacrificabile?
La diversità delle lingue, come quella delle specie animali e vegetali, è in diminuzione. Alcuni studiosi stimano che alla fine del secolo tra il 50% e il 90% delle lingue parlate attualmente saranno estinte (Handbook of Endangered Languages). C’è tuttavia da dire che circa il 96% di queste lingue (sono più di 7000) non hanno che poche migliaia (se non poche centinaia) di parlanti, mentre l’80% della popolazione mondiale si riconosce già in una delle 94 lingue parlate da almeno 10 milioni di persone. In definitiva, stiamo parlando del fatto che il 20% della popolazione mondiale convergerà in futuro su una delle lingue maggiori esistenti. Anche nelle previsioni più cupe, dunque, nonostante i fenomeni di concentrazione linguistica frutto della globalizzazione, non s’intravede, al momento, la fine delle lingue nazionali e delle culture che esse veicolano. Ma nessuno ha fatto ancora i conti con l’Intelligenza Artificiale.
La conferenza annuale della Associazione di Linguistica Computazionale (ACL) tenutasi recentemente a Firenze ha registrato più di 3.000 partecipanti, più del doppio della precedente edizione. Un picco di attenzione cui contribuisce il fatto che le nuove tecniche di IA basate sull’apprendimento automatico promettono di riuscire dove gli approcci programmatici tradizionali arrancano.
Purtroppo, però, o per fortuna, l’apprendistato linguistico delle macchine non è una questione di forza bruta computazionale, né di algoritmi, né di big data.
Come abbiamo visto in precedenza, finché si tratta di sintassi o di correlazioni statistiche le macchine se la cavano molto bene, ma queste tecniche non possono rendere conto della semantica, cioè del rapporto tra parole e realtà, possono tutt’al più eliminarla sostituendola con qualche surrogato distribuzionale. Quando si tratta di intendersi con l’essere umano per eseguire una procedura, ricercare un’informazione complessa, o risolvere un problema, le macchine hanno tuttavia bisogno che si forniscano esempi linguistici dove le espressioni sono annotate con qualcosa che rimanda a concetti e relazioni. Questo è a tutt’oggi un lavoro umano, ed è il collo di bottiglia che frena lo sviluppo di questi sistemi.
Intelligenza artificiale a caccia della “lingua pivot”
Sviluppare un corpus annotato per un certo scopo in una lingua (ad esempio, prenotazioni ferroviarie in italiano) è costoso. Quel che è peggio, è che questo corpus sarebbe inservibile per il francese o il tedesco. Per questo, le grandi corporation che offrono servizi di AI sparano al bersaglio grosso: l’inglese, lo spagnolo, poco altro. Il supporto alle lingue della ‘coda lunga’ è di dubbia profittabilità. La diversità linguistica, per il business globale, è una annoyance. La tentazione di usare l’inglese come lingua pivot, cioè sfruttare la traduzione automatica (che funziona bene su basi statistiche) come approccio al multilinguismo è forte, anche se non praticabile in molti casi.
Il mondo ideale per il business globale è un mondo con una lingua sola, o al più con una lingua per blocco geopolitico: l’inglese, il cinese, il russo, l’arabo. Anche solo le 86 lingue importanti ma non maggiori attuali, usate dal 40% della popolazione mondiale, rappresentano una notevole impedenza agli affari. E anche se ciascuna di queste lingue, compreso il malese, l’urdu o l’italiano, si dotasse di un buon supporto linguistico, si tratterebbe probabilmente di qualcosa che è ben lungi dal catturare la ricchezza espressiva dei linguaggi naturali, per non parlare della loro creatività. Insomma, c’è ragione di temere, nella situazione attuale, che l’IA eserciti una notevole pressione verso l’appiattimento linguistico. E se questa pressione non fosse contrastata, si rischierebbe, di fatto, la fine del linguaggio umano per come lo conosciamo.
Misure di salvaguardia della diversità linguistica possono essere variamente immaginate. Ma la speranza è che sia il linguaggio stesso, cioè la capacità del genere umano di definire il rapporto con la realtà attraverso i processi sociali di comunicazione, a fare le sue contromosse, cioè a conservare in qualche modo la sopravvivenza della creatività umana.