L’intelligenza artificiale scrive sempre meglio, ma non sa che sta dicendo

Alcuni risultati ottenuti nell’ambito della capacità linguistica dell’intelligenza artificiale stupiscono in positivo, ma confermano anche che in queste reti non si produce nulla che somigli all’umana facoltà del linguaggio. Ecco l’analisi di GPT-3 di Open AI

La capacità linguistica dell’Intelligenza Artificiale (Natural Language Processing, NLP) fa continui progressi, ma forse non sta andando nella direzione auspicabile. Dubbi legittimi se si analizza lo stato dei lavori che tanto clamore stanno suscitando in questi giorni tra gli addetti.

Indice degli argomenti

GPT-3 di Open AI: i progressi nel Natural Language Processing

Una delle realtà più in vista in questo settore è OpenAI. Molti media ed esperti discutono in questi giorni del suo nuovo generatore di linguaggio GPT-3, a breve disponibile sul mercato. Chi ne ha avuto accesso parla di un sistema capace di generare comunicati stampa, articoli, testi di canzoni molto verosimili.

Open AI è una società senza (al momento) scopi di lucro ma finanziata dai big della Silicon Valley tra cui Elon Musk (al terzo posto tra i più ricchi degli Usa). Già da tempo si è distinta per essere in grado a macinare record in discipline come l’inferenza testuale (capire se una frase è logicamente collegata ad un’altra), la similarità semantica (capire se due frasi dicono cose simili), l’analisi della polarità emozionale, la classificazione settoriale (sport, politica, ecc.), il riconoscimento di nomi e concetti, il completamento automatico di frasi o interi testi.

Questi progressi sono il risultato dell’applicazione di tecniche di apprendimento automatico basate su reti neurali molto sofisticate (Deep Neural Networks, DNN) a grandi volumi di dati testuali, resa possibile da capacità di calcolo sempre maggiori. Le DNN, con opportune architetture, come quella messa a punto in OpenAI (Generative Pretrained Transformer, GPT), riescono a produrre modelli del linguaggio dall’osservazione di testi, senza intervento umano (Unsupervised Learning).

La “vecchia scuola” dell’apprendimento automatico (machine learning) prevedeva una fase in cui regole e risorse specifiche create ad hoc erano impiegate per descrivere le caratteristiche del fenomeno che si intendeva apprendere (features extraction). Ma nel caso del linguaggio, la descrizione del fenomeno è sempre stato un serio problema. Basti considerare che tra diversi linguisti non c’è completo accordo neanche sullo “statuto” delle categorie grammaticali come nome, aggettivo, verbo, avverbio e preposizione. D’altra parte, queste categorie derivano dalla tradizione della grammatica classica, non da una descrizione scientifica della “rappresentazione mentale” del linguaggio, che non sappiamo ancora caratterizzare.

Gli informatici di oggi, che dispongono di ingenti risorse, si sono dunque chiesti: “perché non lasciare che la macchina trovi autonomamente la rappresentazione migliore?”. Ed ecco che seguendo la tendenza degli ultimi anni, OpenAI ha reciso il nodo gordiano del linguaggio sfruttando appieno l’apprendimento profondo (deep learning) ed esonerando completamente i linguisti dalla costruzione di lessici, regole e reti semantiche. Nella AI moderna, il problema della modellazione del fenomeno linguistico è dunque semplicemente accantonato.

Le caratteristiche del modello GPT-3

Il modello di OpenAI, arrivato alla terza versione (GPT-3), è una rappresentazione del linguaggio naturale la cui conoscenza “sub-simbolica”, costituita dal numero record 175 miliardi di parametri (connessioni tra nodi della rete neurale), è creata dal modello stesso, in quella che viene chiamata fase di addestramento “auto-regressivo”.

In questa fase, GPT-3 viene sottoposto a tutto lo scibile digitale di cui oggi possiamo disporre, ad esempio in fonti come Wikipedia, ma principalmente attinto dal Web. Il suo compito, per ogni sequenza del testo, è indovinare quale possa essere la parola successiva più probabile, un po’ come fanno i nostri smartphone, ma all’ennesima potenza. È evidente che un sistema capace di predire la parola successiva di qualsiasi frase mai osservata prima, deve aver necessariamente appreso i pattern del linguaggio umano così come si presentano nei testi forniti in fase di apprendimento. Tali pattern costituiscono, appunto, il modello.

GPT-3 fornisce prove così convincenti da far gridare al superamento del Test di Turing, che misura la capacità mimetica delle macchine. Un articolo del New York Times è stato diviso in due parti, la prima è stata mostrata all’AI, che ha generato alcune possibili continuazioni. Un essere umano chiamato a distinguere tra queste continuazioni e quella dell’articolo originale si trova in seria difficoltà.

I limiti di GPT-3

Ma se da una parte alcuni risultati ottenuti dalle reti neurali addestrate in modo non supervisionato stupiscono, dall’altra confermano che in queste reti non si produce nulla che somigli all’umana facoltà del linguaggio. Ci sono evidenze che il tipo di modello neurale usato da GPT-3 (Transformer) sia capace di sviluppare una sorta di grammatica, ma basta, ad esempio, una semplice negazione per mandare fuori strada questo genere di sistemi, che mostrano difficoltà a ragionare su cose ovvie (senso comune), come il fatto che uno scapolo non sia sposato.

Un interessante test del Mit Technology Review (Gary Marcus) evidenzia come l’AI non ha comprensione del mondo; sembra parlare in modo corretto ma facilmente cade in assurdità irrealistiche. Come quando arriva a desumere che bere un succo di frutta faccia morire. O che per far passare un tavolo da una porta molto stretta bisogna segarla a metà (sic).

Il motivo è che l’AI non sa il significato delle parole. Non le può collegare al mondo. Ma le usa solo in base a correlazioni tra le parole stesse. Scrive che dopo il succo il bevitore muore perché deve aver trovato, nei suoi dati, una forte ricorrenza statistica tra la frase “sei morto” e quelle che parlano di un succo simile.

L’articolo del Mit riflette come affidarsi a questa AI è un rischio pratico. A volte va bene, a volte no e non è prevedibile quanto andrà bene e quando no. Un po’ come affidarsi per un consiglio di medicina non a un medico ma a un attore che ha imparato a fare molto bene finta di essere un medico.

Il paradosso delle performance senza competence

Siamo dunque di fronte al paradosso di una performance senza competence (per dirla con Chomsky) cioè di sistemi che funzionano ma sono del tutto privi delle capacità che noi umani impieghiamo in quegli stessi compiti. David Ferrucci, artefice di quel miracolo che fu, nel 2011, la vittoria di IBM nel gioco a quiz Jeopardy!, parla di super-pappagalli, cioè di sistemi che sostanzialmente non fanno altro che ripetere quello che gli è stato detto senza neanche tentare di comprenderlo, sessismo e razzismo inclusi.

Addestrare un super-pappagallo è estremamente costoso: su GPT-3, solo per l’inglese, sono stati spesi 12 milioni di dollari (senza contare la mostruosa quantità energia necessaria e conseguente CO2 emessa). Anche usare in proprio modelli linguistici neurali di centinaia di miliardi di parametri, ammesso che siano resi disponibili da chi ha speso i soldi per addestrarli, può risultare oneroso. Il risultato è che questi approcci al linguaggio basati solamente sui dati sono molto adatti ai pochi soggetti che oggi monopolizzano l’infosfera, molto meno a tutti gli altri. Se OpenAI intende davvero, come afferma, “democratizzare” le tecnologie intelligenti, forse dovrebbe fare una riflessione su questo. Che poi questa sia la strada giusta per una AI forte è ancora tutto da vedere (il nostro cervello fa cose incredibili consumando circa 20 Watt); intanto c’è già chi è all’opera per incentivare una libera condivisione dei suddetti modelli “pre-addestrati”, anche per il bene del pianeta.

Conclusioni

I super-pappagalli dell’AI rischiano di colonizzare l’infosfera come una specie infestante, con effetti potenzialmente devastanti. Si pensi ai generatori di notizie accattivanti ma infondate (fake news), ai chatbot di intrattenimento stereotipati e tendenziosi, ai classificatori automatici che eternano i pregiudizi di chi ha maggiori risorse. Si pensi a quanta disumanità ci sia nella performance senza competence, e a come oggi questa disumanità sia a portata di mano.

Uno sviluppo delle capacità linguistiche dell’AI che accentra le risorse nelle mani di pochi e mette da parte le competenze umane è esattamente il contrario di ciò che dovremmo auspicare: una AI decentralizzata, trasparente e criticabile.