I recenti risultati ottenuti dai Large Language Models hanno letteralmente stupito il mondo accademico. Prima del 2022, infatti, era accertato e unanimemente riconosciuto il graduale miglioramento delle prestazioni delle reti neurali, correlato alla crescita del numero dei neuroni, degli strati, dei parametri e dei dati di addestramento. L’ipotesi di un brusco e non lineare miglioramento era considerata possibile ma non verificata sperimentalmente. Prendiamo allora in esame questa ipotesi, mostrando che esistono ancora opinioni discordanti sulla sua validità.
Fenomeni emergenti
Nel suo articolo del 1950, Computing Machinery and Intelligence, pubblicato sulla rivista Mind, Alan Turing si chiede se «le macchine possono pensare» e propone, in maniera provocatoria, di utilizzare un semplice test per rispondere.
Turing e la realizzazione “Learning Machines”
La parte meno conosciuta dell’articolo è dedicata alla realizzazione delle “Learning Machines” (macchine che imparano) da utilizzare per lo svolgimento del test. I passaggi previsti da Turing per creare una “macchina infantile” e addestrarla come se si trattasse di un essere umano, sono ricchi di spunti e di visioni del futuro. Ciò che colpisce maggiormente è l’idea di considerare l’intelligenza come un fenomeno emergente.
Le sue parole non citano esplicitamente questo concetto ma affermano che «presumibilmente il comportamento intelligente consiste in un allontanamento dal comportamento completamente disciplinato del calcolo», ipotizzando che l’addestramento di una macchina che impara «non farà sorgere un comportamento casuale o una serie di inutili cicli ripetitivi».
Turing era un logico, un matematico, un programmatore software ante litteram, che considerava i calcolatori elettronici capaci di svolgere quantità enormi di operazioni elementari per risolvere problemi di fisica, di matematica, ma anche di giocare a dama o a scacchi. Perché abbandonò questa visione razionalista e immaginò un così drastico cambiamento?
Anderson e gli effetti dei cambiamenti quantitativi
Nel 1972, il premio Nobel della Fisica Philip Anderson scrisse un citatissimo saggio in cui dimostrò che cambiamenti quantitativi possono portare a fenomeni qualitativamente diversi e inattesi. Nonostante fosse basato sulla fisica, il saggio di Anderson comprendeva altri domini, tra cui la biologia, l’economia e l’informatica. Nei suoi esempi Anderson dimostrò che in alcuni casi il cambiamento quantitativo può portare a una brusca variazione, come accade per gli atomi di uranio; mentre in altri casi il cambiamento è più continuo e senza salti.
Un fenomeno intuitivamente semplice da capire riguarda le automobili, che collettivamente possono esibire un comportamento non lineare causato dalla loro quantità. Se 10.000 automobili transitano agevolmente su un tratto autostradale in 15 minuti, quando il loro numero raddoppia si creano lunghe code e il tempo di percorrenza può crescere fino a oltre un’ora. In generale, se i cambiamenti qualitativi si manifestano per una crescita quantitativa continua si parla di “emergenza”, mentre una “transizione di fase” avviene quando il cambiamento è brusco.
Abilità emergenti nei Large Language Models
Di abilità emergenti dei Large Language Models (LLM nel seguito) ne parlano Wei e i suoi numerosi coautori, in un articolo che applica le considerazioni di Anderson all’intelligenza artificiale generativa.
L’analisi di Anderson applicata all’AI generativa
Facendo propria l’analisi di Anderson, Wei stabilisce che «un’abilità è emergente se non è presente in modelli più piccoli ma è presente in modelli più grandi». Una volta definito il concetto di abilità emergente è necessario individuare la scala secondo la quale questa caratteristica qualitativa si manifesta. Nel caso della fisica la scala può essere il numero di particelle o la temperatura di un insieme di atomi. In biologia può essere il livello di acidità o la quantità di enzimi.
La scelta delle variabili
Nei LLM ci sono numerose variabili che possono essere misurate, osservando cosa succede con l’aumentare dei loro valori. Tuttavia, alcune di queste hanno un’importanza particolare, in quanto le altre sono in qualche maniera correlate tra loro. Wei ne elenca tre: quantità di calcolo (misurata in FLOP, ovvero numero di operazioni elementari in virgola mobile), numero dei parametri della rete neurale usata dal modello, dimensione dell’insieme dei dati usati durante l’addestramento della rete neurale. La scelta delle variabili è critica e, soprattutto, ancora non pienamente accettata dalla comunità scientifica come standard di riferimento. In particolare, prediligere la quantità di calcolo è un compromesso da tenere in considerazione al momento dell’analisi dei risultati degli esperimenti.
Gli esperimenti e i risultati
Il passo successivo consiste nell’individuare l’abilità emergente che si intende studiare. Anche in questo caso, le possibilità sono numerose e in continua crescita. Wei studia il caso più semplice di abilità, la capacità di un LLM di rispondere a una breve sequenza di domande (few-shot prompting) senza utilizzare un’ulteriore fase di addestramento ed evitando di aggiornare i propri parametri. In altre parole, si può affermare che questa abilità corrisponde alla capacità di un umano di rispondere a una serie di domande fatte “a bruciapelo”, senza consultare alcun materiale di supporto.
Gli esperimenti condotti da Wei e dal suo gruppo di ricerca hanno utilizzato cinque LLM (LaMDA, GPT-3, Gopher, Chinchilla, PaLM) e un sistema di riferimento che fornisce risposte a caso. I sistemi sono stati usati con otto diverse abilità, principalmente orientate al linguaggio naturale.
Analisi delle prestazioni dei LLM
Gli esperimenti hanno mostrato come, all’aumentare del numero di FLOP, alcuni LLM mostrano un netto miglioramento oltre una certa soglia. Un’idea dell’enorme quantità di calcolo utilizzata è data dal valore minimo riportato nei diagrammi (1018 FLOP) e quello massimo (1024 FLOP). In termini più comprensibili, 1018 FLOP equivalgono a 10 miliardi di miliardi di operazioni, mentre 1024 FLOP equivalgono a 10 milioni di miliardi di miliardi di operazioni. Il costo energetico e l’impatto ambientale di questi calcoli sono elevati e significativi. Altra osservazione da fare è il diverso comportamento degli LLM usati negli esperimenti. Per alcune abilità si osserva una transizione di fase per uno o due LLM e non per gli altri, per altre la transizione di fase si osserva per LLM diversi dai precedenti.
La catena logica di ragionamento
Stabilito un punto di partenza, Wei estende le abilità, prendendo in considerazione altre modalità di interazione con gli LLM, più articolate e complesse. Tra queste, quella più interessante è una sequenza di passi intermedi che costituiscono una catena logica di ragionamento (chain-of-thought prompting). Si tratta di modalità di interazione non previste da chi ha realizzato gli LLM in esame, che mostrano la loro capacità di ragionare non solo su un modello del linguaggio ma anche su modelli del mondo più o meno complessi.
Una rivalutazione ontologica degli LLM
Questa capacità ha stupito più di quelle basate su poche semplici domande, perché ha posto le basi per una rivalutazione ontologica degli LLM. In parole più semplici, il comportamento osservato è spiegabile solo ammettendo la formazione negli strati più alti delle reti neurali di concetti che superano la mera natura probabilistica delle risposte ma richiedono una struttura più complessa dello spazio latente, al cui interno si formano e interagiscono tra loro. Si osservano le prime scintille di intelligenza umana e alcune forme primitive di pensiero sintetico, come segnalato da esperimenti condotti nel 2023 dall’equipe di Microsoft Research guidata da Sébastien Bubeck.
Critiche e obiezioni all’approccio di Wei
Di diverso avviso sono Schaeffer, Miranda e Koyejo del Dipartimento di Computer Science dell’Università di Stanford, che, in un articolo successivo a quello di Wei, si chiedono se le abilità emergenti dei LLM non siano invece un miraggio dovuto alla scelta delle funzioni matematiche che misurano il completamento delle attività previste per ogni abilità. Analizziamo nel dettaglio le obiezioni riportate nell’articolo di Schaeffer.
Nitidezza e imprevedibilità delle abilità emergenti
In via preliminare viene confermato l’approccio di Wei, basato in maniera molto lasca sul lavoro di Anderson. Tuttavia, vengono evidenziate due caratteristiche peculiari delle abilità emergenti: la nitidezza (sharpness), ovvero la transizione verosimilmente istantanea di qualcosa che prima non c’era e che appare improvvisamente in maniera ben visibile; l’imprevedibilità (unpredictability), ovvero la manifestazione istantanea di qualcosa, con un cambiamento inatteso e inaspettato dovuto a una caratteristica del modello che subisce un cambiamento di scala.
La nitidezza è un requisito legato all’osservabilità di un’abilità emergente, che deve essere chiaramente distinguibile rispetto, ad esempio, alla rumorosità della variabile misurata. L’imprevedibilità, invece, apre prospettive di carattere sia positivo (un’abilità inattesa che amplia l’utilizzo di un LLM) che negativo (un’abilità che attiva comportamenti rischiosi e indesiderati). La natura non-lineare degli LLM rende complessa la loro certificazione e regolamentazione, basata, come previsto dall’AI Act, dall’individuazione a priori dei rischi e dalla successiva valutazione di gravità. All’aumentare della scala, potrebbero emergere rischi non identificati a scale inferiori, rendendo inutilizzabili sistemi di intelligenza artificiale regolarmente verificati e formalmente certificati.
Funzioni non-lineari e valutazione
Il punto centrale dell’analisi di Schaeffer e colleghi consiste nell’identificare metriche non lineari che usano predicati logici il cui valore cambia repentinamente. L’esempio riportato è relativo al predicato Exact String Match (confronto esatto tra stringhe di testo) che vale 1 se la stringa prodotta in uscita dal LLM coincide esattamente con quella prevista, 0 altrimenti.
Un LLM potrebbe fornire una stringa leggermente differente da quella prevista per fallire il test, fino a quando il tempo di addestramento raggiunge un livello tale da soddisfare in pieno il predicato. Ragionevolmente, il numero di casi in cui ciò accade improvvisamente si impenna indicando una “nitida” e “imprevedibile” transizione di fase. Il “miraggio” consiste nell’avere utilizzato predicati non-lineari anziché funzioni matematiche più raffinate, in grado di valutare l’esito di un test con valori continui tra 0 e 1. Sempre nel caso del confronto tra due stringhe, si potrebbe usare la Token Edit Distance (distanza tra token misurata in differenze elementari) che restituisce 1 quando le due stringhe sono identiche o, altrimenti, un valore inferiore che dipende dal numero di operazioni elementari (cancellazione, aggiunta, spostamento, sostituzione) da effettuare sulla stringa in uscita per ottenere quella prevista. Ad esempio, se la stringa in uscita fosse “LORDON” e quella prevista “LONDON” il valore della funzione sarebbe determinato dalla sostituzione del carattere “R” con il carattere “N”.
Nuovi esperimenti e conclusioni
L’articolo mostra l’esito degli esperimenti effettuati da Wei, avendo sostituito le funzioni non-lineari di valutazione con altre funzioni lineari e continue. Tutte le curve che prima esibivano una “nitida” transizione di fase diventano continue, mettendo in dubbio che le abilità siano emergenti. Tali abilità, infatti, sono presenti fin dalle scale più basse, in maniera poco accentuata, per aumentare gradualmente all’aumentare della variabile considerata. Svanendo la transizione, afferma Schaeffer, scompare anche l’effetto sorpresa e l’associata imprevedibilità. In linea teorica, niente impedisce a un’abilità di manifestarsi improvvisamente, ma non negli esperimenti condotti da Wei.
Le considerazioni finali sono molto critiche, soprattutto nei confronti delle funzioni utilizzate per valutare le prestazioni di un LLM. Non è sufficiente trovare una funzione che mostra un’abilità emergente con una transizione di fase. La funzione deve essere scelta fra tutte le possibili candidate, prendendo in considerazione il significato dell’abilità, le caratteristiche dei dati di prova, la sensibilità all’entropia nel LLM considerato, il fattore di risoluzione delle funzioni usate.
Il risultato degli esperimenti deve essere accuratamente e criticamente preso in esame prima di trarre conseguenze che possono risultare fuorvianti a livello politico e decisionale. Infine, e forse questa è la critica più forte, il numero di combinazioni che si ottengono variando le prove, le funzioni di valutazione e i modelli è così elevato che l’osservazione di un’abilità emergente in una combinazione specifica potrebbe essere il risultato del caso e non di un ragionamento supportato da basi scientifiche e confutabili.
Conclusioni
Il dibattito sorto dopo la pubblicazione di questi due articoli è stato molto ampio e “rumoroso”, coinvolgendo la comunità scientifica in primis, ma anche gli ambienti politici e industriali attenti alle opportunità e ai rischi dell’intelligenza artificiale. Un resoconto dettagliato e aggiornato è stato recentemente pubblicato da Woodside.
Ringraziamenti
L’autore desidera riconoscere il supporto del progetto Europeo EIC Pathfinder EMERGE (GA N. 101070918).
Bibliografia
Anderson, P.W. (1972), More is different: Broken symmetry and the nature of the hierarchical structure of science, Science, 177(4047), 393–396.
Bubeck, S. et al. (2023), Sparks of Artificial General Intelligence: Early Experiments with GPT-4, arXiv.
Schaeffer, R., Miranda, B., Koyejo, S. (2023), Are Emergent Abilities of Large
Language Models a Mirage? Thirty-seventh Annual Conference on Neural Information Processing Systems.
Turing, A.M. (1950), Computing Machinery and Intelligence, Mind, 59, 433-460.
Wei, J. et al. (2022), Emergent Abilities of Large Language Models, Transactions on Machine Learning Research.
Woodside, T. (2024), Emergent Abilities in Large Language Models: An Explainer, Center for Security and Emerging Technology. https://cset.georgetown.edu/article/emergent-abilities-in-large-language-models-an-explainer/.