Una intelligenza artificiale più “democratica”: grazie al graph embedding

Democratizzare l’AI vuol dire favorirne uno sviluppo aperto ed equilibrato, che dia a tutti i consorzi umani la possibilità di accrescere il proprio benessere. Le tecniche di graph embedding sono oggetto di un interesse crescente in questo senso. Vediamo perché

Come si fa a democratizzare davvero l’Intelligenza artificiale? A evitare che sia promotrice di diseguaglianze, come si teme soprattutto in una fase di automazione accelerata per via del covid-19?

Il miglior modo, questa è l’unica cosa che sappiamo con certezza, non è quello di bussare alla porta dei miliardari della Silicon Valley, o di ammonirli con discorsi bellissimi in convegni che pagano loro. Nulla contro i Big Tech, ma la democrazia non è una voce dei loro bilanci. Bisogna invece lavorare concretamente con la materia che abbiamo e le risorse intellettuali che non ci mancano, facendo possibilmente, e con qualche urgenza, le cose giuste.

Proviamo a spiegare quali sono, allora, gli strumenti che ci consentono di aprire uno spiraglio partendo da un caso specifico, quello di OpenAI.

Indice degli argomenti

OpenAI e la “democratizzazione” dell’intelligenza artificiale: il grande equivoco

OpenAI è una non-profit californiana finanziata da tycoon e multinazionali statunitensi, il cui scopo dichiarato è quello di “democratizzare l’AI”, cioè far sì che produca benefici per tutta l’umanità. La scorsa estate, i ricercatori di OpenAI hanno stupito il mondo con GPT-3, un sistema capace di lavorare col linguaggio naturale con efficacia senza precedenti (benché con limiti che sono stati evidenziati anche qui). Tuttavia, invece darlo in beneficienza, lo hanno concesso in esclusiva a Microsoft, che lo userà per migliorare la propria offerta di servizi software. Scelta più che legittima, beninteso, essendo peraltro la casa di Redmond la maggiore finanziatrice di OpenAI. Ma una domanda sorge spontanea:

Chiariamo anzitutto un equivoco. Offrire servizi software di AI facili da usare, con cui chiunque sarebbe in grado di produrre ad esempio un chatbot, non c’entra nulla con la “democratizzazione”, qualsiasi cosa essa sia. Il punto è che quel nostro chatbot rimarrebbe ostaggio della piattaforma su cui è sviluppato, la quale non solo potrebbe usare i dati delle conversazioni che esso intrattiene (difficile assicurarsi che non lo faccia), ma potrebbe di fatto stabilire le condizioni di esercizio di una funzione cruciale per il nostro business. Molti grandi monopolisti dell’infosfera offrono servizi di questo tipo, e il loro obiettivo è naturalmente quello di conquistare la fetta di mercato più ampia possibile, cioè rafforzare la propria posizione. Altro che democrazia.

Favorire lo sviluppo aperto dell’intelligenza artificiale

Quando si parla di democratizzare l’AI si dovrebbe verosimilmente intendere il fatto di favorirne uno sviluppo aperto ed equilibrato, che dia a tutti i consorzi umani la possibilità di accrescere il proprio benessere mantenendo il valore sociale creato dalle tecnologie intelligenti nel perimetro delle proprie giurisdizioni, e dia a tutte le persone pieno accesso ai meccanismi di funzionamento di sistemi che, in modo sempre più pervasivo, ne regolano la vita. Questo genere di sviluppo, lo sappiamo ormai da diversi decenni, potrebbe basarsi su software e dati aperti. Ma, per quanto concerne l’AI di oggi, questa formula sta diventando inapplicabile.

Per comprenderlo, basti considerare che se anche OpenAI avesse voluto donare GPT-3 al mondo intero, ben pochi avrebbero avuto l’opportunità di beneficiarne. Si tratta infatti di una rete neurale di 170 miliardi di parametri (connessioni tra nodi): solo per farne il download ci vorrebbero giorni, e per renderla operativa sarebbe comunque necessario un supercomputer. Questo tipo di tecnologia è dunque inerentemente inadatta a una equilibrata e diffusa distribuzione. Gli algoritmi che sono alla base delle moderne reti neurali sono per lo più pubblici e largamente disponibili in software aperto (fornito anche o forse soprattutto dalle multinazionali).

Reti neurali e modelli linguistici

Quello che fa la differenza tra ciò che possono usare i Big Tech e ciò che è a disposizione del resto del mondo si colloca al livello dei cosiddetti “modelli”. Questi incorporano le complesse correlazioni che le reti hanno appreso nel loro addestramento sui dati. Più grandi sono i modelli, più dati e processori servono per stimarli, maggiori sono le risorse necessarie per metterli in esercizio. La corsa verso modelli sempre più imponenti porta, dunque, ad approfondire il divide tra chi possiede dati e mezzi computazionali e chi no, cioè tra i Big Tech e gli altri. Di quale “democratizzazione” possiamo parlare in queste condizioni?

Questa domanda sta diventando davvero scottante, se è vero che Google ha licenziato Timnit Gebru, leader del suo ethical AI team per averla sollevata pubblicamente.

Il discorso qui diventa un po’ tecnico, ma è importante comprendere che questo modo bulimico di fare AI non è l’unico, e in molti casi non è neanche il migliore. Restiamo sulle tecnologie linguistiche. Alla base di ciascuna rete neurale “parlante” c’è un modello del linguaggio. Fondamentalmente, questo modello associa a ciascuna parola un vettore (detto embedding), cioè una lista di numeri, in genere qualche centinaio, tali che, confrontandoli, si può calcolare (o almeno agli informatici piace pensare così) quale sia la “distanza semantica” tra due parole. Essendo gli algoritmi neurali più o meno tutti noti e disponibili, una volta identificata l’architettura più adatta a risolvere un certo task, il problema di sviluppare un’efficace rete linguistica si riduce sostanzialmente a quello di fornire dei buoni embedding.

Ma come si ottengono questi magici vettori? La tecnica più usata dell’AI attuale è quella di ricavarli mediante un’analisi delle distribuzioni, cioè dei contesti testuali (co-testi) nei quali ciascuna parola occorre, rispetto a qualche corpus (collezione di testi) precedentemente costituito, ad esempio le notizie dei giornali. Perché un corpus possa rendere bene conto del modo in cui una parola si colloca rispetto alle altre, esso deve contenerne un buon numero di occorrenze. Per questo, la dimensione e il bilanciamento dei corpora sono molto importanti. Per istruire GPT-3 è stato impiegato praticamente tutto ciò che è oggi reperibile sul web.

Ottenere l’embedding perfetto per ciascuna parola

Facciamo dunque conto di avere dentro un grande computer tutti i testi mai prodotti dalla nostra specie dai tempi dell’invenzione della scrittura (tralasciamo le questioni antropologiche sulle civiltà orali). Questo sarebbe sufficiente per ottenere l’embedding perfetto per ciascuna parola? Sfortunatamente (o fortunatamente) no. Tullio De Mauro, nel suo Grande Dizionario dell’Uso (GRADIT) distingueva tra uso e disponibilità. Vi sono infatti parole che occorrono relativamente poco nei testi o nei discorsi, ma di cui conosciamo il significato non meno di quelle più usate. Ad esempio, chiunque sia entrato in una cucina sa cosa vuol dire sia “cucchiaio” sia “mestolo”, ma la prima è una parola frequente, la seconda no. Questo mostra come il significato che noi attribuiamo alle parole abbia poco a che fare col numero delle loro occorrenze nei testi o nei discorsi.

Non c’è dubbio che, per quanto riguarda le parole basilari (quelle poche migliaia con cui diciamo quasi tutto quello che diciamo) i corpora offrano una buona copertura, e le tecniche di estrazione statistica degli embedding siano efficaci, sollevando così gli informatici dal carico di addentrarsi negli scomodi meandri della lessicografia. Tuttavia, è anche noto che, in mancanza di una buona copertura, i metodi di estrazione automatica dai testi producono risultati inaffidabili. Questo fenomeno riguarda tutte le terminologie tecnico-specialistiche in cui il rapporto tra numero di parole significative e volume dei corpora disponibili è particolarmente sfavorevole. Un caso eclatante è quello della terminologia medico-biologica, che presenta centinaia di migliaia di lemmi tutti evidentemente importanti, per “embeddare” i quali ci vorrebbero corpora di dimensioni incalcolabili. Nasce dunque l’esigenza di trovare metodi per la costruzione di modelli linguistici in condizione di scarsità di dati.

Graph embedding, uno spiraglio per la democrazia

E qui, per la democrazia, forse si apre uno spiraglio, perché la forza bruta computazionale passa in secondo piano, o almeno non tiene tutto il campo. Si tratta infatti di costruire i vettori semantici a partire da basi di conoscenza, anche dette knowledge graph, che sono di fatto terminologie ragionate, dove per “ragionate” si intende “validate da esseri umani”.

Le tecniche di graph embedding sono oggetto di un interesse crescente, e si mostrano molto efficaci anche applicate al linguaggio comune, almeno per le lingue per cui siano disponibili basi di conoscenza lessicale della qualità e l’ampiezza dell’inglese WordNet. Peraltro, queste tecniche presentano il grande vantaggio di non essere esposte ai pregiudizi e alle infamità che possiamo trovare nei repertori di testi estratti dal web. In una WordNet, se vogliamo dire che “donna” è sinonimo di “meretrice” (la parola sarebbe un’altra) dobbiamo avere il coraggio di metterci la firma, e se qualcuno trova questo coraggio si fa presto a mettere le cose a posto.

In conclusione

In questa prospettiva, le basi di conoscenza delle varie lingue nazionali e settoriali diventano risorse strategiche. Relativamente al settore dell’AI linguistica (che è comunque uno dei principali) esse possono fare la differenza tra uno sviluppo basato sui monopoli Big Tech e uno basato sulle capacità locali dei sistemi della ricerca e dell’industria.

Non è una questione di nazionalismo, è una questione di distribuzione, di apertura del mercato, di controllo democratico, insomma di sopravvivenza.