L’uso (e in parte abuso) di termini come “intelligenza” o “apprendimento” evocano nella coscienza collettiva della società delle idee che non sempre riflettono lo stato della tecnologia e del suo funzionamento. È indubbio che i modelli di intelligenza artificiale generativa come i sistemi large language models (LLM), o anche i sistemi che generano immagini, stiano crescendo rapidamente, ma la loro crescita non segue un andamento lineare: raddoppiando gli sforzi si ottiene meno del doppio del risultato. Vi sono quindi, dato l’attuale stato dell’arte, limiti a quanto questi modelli possono crescere.
Al momento, ad esempio, dimostrano comportamenti sorprendenti ma non hanno la capacità di “ricordare” un’interazione complessa. È possibile, quindi, immaginare un futuro prossimo o remoto in cui questi sistemi costruiranno una memoria della propria storia? Quali sono i loro limiti? Quanto costa farli crescere e da quali fattori dipende la velocità del loro sviluppo? Si tratta di domande centrali per poter apprezzare i possibili sviluppi di queste tecnologie evitando di cadere nella trappola delle speculazioni che creano una percezione distorta delle loro potenzialità e dei possibili sviluppi.
Come funzionano i modelli GPT
I modelli LLM come Generative Pre-Trained Transformer (GPT) analizzano grandi quantità di dati per costruire un modello probabilistico che stima la probabilità che, dato un testo in input (chiamato prompt), segua una certa parola (o più correttamente una sua porzione) selezionando casualmente tra il T percento delle più probabili (dove T è il parametro chiamato Temperatura). Il rapido susseguirsi degli annunci di nuove applicazioni e modelli (GPT-4, LLaMA, …) in pochi mesi ha rapidamente creato una percezione diffusa di una crescita esponenziale delle capacità di questi software e più in generale dell’”intelligenza” di questi modelli di AI generativa.
Le caratteristiche di un modello LLM
Un modello LLM come GPT è caratterizzato da:
- Collezione di documenti per addestrare il modello
- Numero di parametri del modello
- Carico computazionale per l’apprendimento del modello
- Dimensione del contesto in fase di uso del modello
I modelli LLM esibiscono comportamenti in apparenza intelligenti e al crescere del numero di parametri esibiscono comportamenti sempre più sorprendenti, non è un caso che il comportamento del modello GPT-4 è sensibilmente più accurato del predecessore, GPT-3.5, addestrato con 175 miliardi di parametri, e si vocifera che sia stato addestrato con 5 volte il numero di parametri del predecessore.
Le collezioni di addestramento
Ma uno degli obiettivi nell’addestramento è quello di tenere più possibile sotto controllo il materiale utilizzato per addestrare il modello, da questo infatti il sistema costruisce lo schema di probabilità che sarà poi utilizzato per decidere la probabilità delle parole dato un particolare prompt. Non è quindi il caso che il materiale contenga informazioni che possano introdurre conoscenza inopportuna o che porti a comportamenti non desiderati (come, ad esempio, linguaggio violento o informazioni relative a pratiche illegali). Il modello GPT-3.5 è stato addestrato da OpenAI con circa 1,5TB di dati organizzati come in tabella
Come si può notare le sorgenti di “qualità” come libri e Wikipedia rappresentano la parte minoritaria già nell’addestramento di questo modello la cui maggior parte dell’input è costituita da contenuto scaricato da internet e filtrato cercando di ripulirlo da informazioni indesiderate.
Lo sviluppo di modelli più complessi è quindi limitato dalle collezioni documentali disponibili e che, nonostante le grandi dimensioni del Web, non consentono di fornire dati sempre più grandi per l’addestramento del modello. Sicuramente l’utilizzo di dati ottenuti dall’interazione degli utenti col modello potrà fornire ulteriori informazioni, ma comunque il modello di probabilità da apprendere necessita di grandi moli di dati.
I parametri e l’apprendimento del modello
Il numero di parametri in GPT è indicativo della complessità e della capacità espressiva del modello, si tratta del numero di “pesi” utilizzati per memorizzare i dati analizzati durante la fase di addestramento e utilizzati per il funzionamento.
Un’analisi svolta da Next Platform a dicembre 2022 ha stimato il costo dell’addestramento di vari modelli LLM partendo dall’analisi dei costi fatta da due società che offrono il supporto all’apprendimento di modelli di intelligenza artificiale fornendo grandi potenze di calcolo con processori dedicati allo scopo.
La tabella rivela come il costo per milione di parametri tenda a crescere al crescere del modello. Questo è anche dovuto al fatto che il fattore di compressione nella dimensione del modello tende a calare con il crescere dell’informazione usata per apprendere il modello. Ad esempio, GPT-2 è stato addestrato con circa 10 miliardi di token ed ha prodotto un modello con 1,5 miliardi di parametri (con un fattore di compressione di 6,66) mentre GPT-3 ha generato 175 miliardi di parametri dati 500 miliardi di token (per un fattore di compressione di 2,85). Anche da un punto di vista energetico l’addestramento di GPT-3 ha richiesto 1,3 GigaWatt-ora (l’energia utilizzata per alimentare quasi 500 abitazioni per un anno), e GPT 4 si stima essere costata almeno 10 volte tanto.
Ecco, quindi, che un fattore di 2,5 tra l’addestramento di GPT a 70 miliardi di parametri e GPT a 175 miliardi di parametri vede un incremento di costo di un fattore di 4,4. La crescita dei costi è più che lineare poiché questi algoritmi crescono più che linearmente rendendo sempre più difficile la realizzazione di modelli con sempre più parametri. Anche assumendo che si disponga del budget necessario ad addestrare modelli ancora più grandi (in fondo OpenAI ha ricevuto un supporto di circa 10 miliardi di dollari da parte di Microsoft per eseguire computazioni su Azure) prima o poi si raggiungerà il limite di capacità energetica e computazionale dei sistemi utilizzati.
Non si può quindi assumere che queste intelligenze artificiali cresceranno indefinitamente o continueranno a crescere con la rapidità a cui abbiamo assistito in questi ultimi mesi, poiché le risorse necessarie saranno sempre maggiori e rilevanti anche per grandi multinazionali.
La barriera della memoria
Il comportamento dei modelli LLM dipende in modo determinante dal “prompt”, ma per assicurare che il costo computazionale nell’esecuzione del modello su un particolare input e il tempo di risposta sia accettabile è necessario limitare i token elaborati dal modello. OpenAI ha imposto un limite di quattro mila token circa in totale (ovverosia i numero di token del prompt e quelli restituiti dal modello) limitando in modo significativo la quantità di informazioni che possono essere fornite all’AI sul contesto di una richiesta. GPT-4 ha portato questo limite a 32 mila token, ovverosia circa 120 mila caratteri (120KB), una dimensione di dati decisamente limitata rispetto alla dimensione di dati di molti documenti di oggi. L’incremento computazionale necessario per il modello GPT-4 ha portato OpenAI a contingentare il numero di richieste che possono utilizzare il modello in ChatGPT anche agli utenti del livello Plus del servizio che gli utenti pagano.
I modelli linguistici possono essere “raffinati” aggiungendo ulteriore conoscenza, ma questa tecnica richiede ulteriore costi per l’addestramento e non si presta a “ricordare” informazioni nel sistema.
Fino a quando non saranno disponibili approcci che consentono a questi modelli di memorizzare interazioni articolate il limite del contesto limiterà inevitabilmente l’ambito di applicazione di queste tecnologie. Database di embeddings come il progetto open source Weaviate potranno contribuire a realizzare altri sottosistemi che affianchino i modelli LLM per realizzare sistemi complessi. In effetti alcuni ricercatori ritengono che modelli come GPT assolvano una funzione che svolge il talamo nel cervello umano, e anche nel cervello umano esistono barriere con cui tutti noi conviviamo, come ad esempio la memoria temporanea che è limitata a circa 6 oggetti.
Conclusioni
Va detto, infine, che i modelli possono essere affiancati da altre tecnologie, come fa ad esempio Bing che usa il modello per generare l’interrogazione al motore di ricerca e successivamente analizzare i risultati per generare una sintesi. Non è un caso che i plugin in ChatGPT siano desiderati poiché si possono integrare sorgenti dati esterne al modello alla capacità logico deduttiva che questi sistemi dimostrano di possedere.
La “primitiva” modello di AI generativa è quindi un tassello centrale nello sviluppo di nuovi sistemi, ma il progresso non sarà limitato solamente al suo sviluppo, ma anche alla sua integrazione in sistemi più tradizionali. Ed è proprio in questo processo di integrazione di cui ci dobbiamo preoccupare, poiché i sistemi saranno destinati ad essere meno prevedibili e deterministici di quanto fossero in passato con tutti i problemi che ne conseguiranno.