In ambito LLM, una delle discussioni che trovo particolarmente interessante è relativa al fatto che i modelli di intelligenza artificiale (in particolare proprio i grandi modelli linguistici, o large language models, come GPT-4 o le nuove versioni “o1”) abbiano mostrato capacità di reasoning (ragionamento) che non sono state inserite in modo “esplicito” dai ricercatori, non sono state codificate o programmate, ma che invece emergono “naturalmente” dal processo di addestramento.
Più precisamente, il punto chiave è che nessuna “tattica” o regola di ragionamento (per esempio, “prima scomponi il problema in sottoproblemi, poi verifica i sottorisultati, poi cerca di validare la soluzione”) è stata programmata a mano o hard-coded nel sistema.
Le strategie di ragionamento che sembrano “intelligenti” (come fare backtracking, verificare se un passaggio è corretto, fermarsi a controllare la consistenza logica, e così via) non vengono fornite in modo esplicito come “istruzioni” ma, piuttosto, queste strategie emergono durante l’addestramento e la fase di fine-tuning, spesso di tipo reinforcement learning (RL), o reinforcement learning with human feedback (RLHF), in cui il modello viene premiato/rinforzato per avere prodotto soluzioni corrette, ragionate e coerenti.
Indice degli argomenti
Che cosa sono RL e RLHF
Il Reinforcement Learning (RL) è un approccio all’intelligenza artificiale ispirato alla psicologia comportamentale:
Sai come gli strumenti di programmazione con l'AI possono trasformare il tuo lavoro?
- Abbiamo un agente (in questo caso, il modello di AI) che può compiere certe azioni.
- L’agente riceve un feedback (o ricompensa) in base al risultato di tali azioni: se l’azione porta a un risultato desiderato, l’agente ottiene un premio (ricompensa); altrimenti, il premio è nullo o negativo.
- L’obiettivo dell’agente è massimizzare la ricompensa accumulata nel tempo, cioè, imparare a scegliere le azioni “migliori”.
Nel contesto dei modelli linguistici, “l’azione” è generare una certa frase o una certa sequenza di parole. Se la sequenza è valutata come corretta, chiara, utile, l’agente riceve una ricompensa. Con il tempo, il modello impara quali sequenze e “stili di ragionamento” sono apprezzati e quindi produce risposte più vicine all’obiettivo desiderato.
Il Reinforcement Learning with Human Feedback (RLHF) è un particolare tipo di RL dove:
- Il feedback (la “ricompensa”) viene fornito direttamente da esseri umani, anziché (o in aggiunta a) un segnale puramente automatico.
- Ogni volta che il modello genera una risposta, dei revisori umani (in genere “annotatori” o “labeler”) la valutano come buona o scarsa, corretta o errata, coerente o assurda.
- Il modello apprende a generare risposte più gradite agli esseri umani, perché tali risposte gli fruttano un “premio” più alto.
Ad esempio, se chiediamo al modello di spiegare un concetto matematico in modo semplice e corretto, il valutatore umano assegna una ricompensa positiva (o un voto alto) quando la spiegazione è chiara e priva di errori. Il modello, dunque, “impara” in che modo costruire risposte che soddisfino tali criteri di qualità.
In sintesi, l’obiettivo di queste tecniche è fare in modo che il modello migliori progressivamente la sua strategia di generazione, emulando e rinforzando i comportamenti che portano a un esito positivo (risposte corrette, ben argomentate e coerenti).
Cosa significa “emergono spontaneamente”
Tornando al tema principale, nel processo di addestramento tradizionale (pre-training), un modello di linguaggio viene addestrato a predire la parola successiva basandosi su enormi quantità di testo. Di per sé, la mera predizione della parola successiva non implica che il modello sappia “ragionare” in modo strutturato. Tuttavia, poiché il testo su cui è addestrato contiene già moltissimi esempi di come ragionano gli esseri umani, di come si risolvono problemi, si fa una dimostrazione, si fa debugging di un programma, ecc., nella rete neurale – come conseguenza – si sviluppano rappresentazioni che “immagazzinano” in qualche modo pattern, strutture e persino “stili di ragionamento” presenti nei testi utilizzati per il training stesso.
A seguire, nella fase “post-training” (ad esempio fine-tuning con RLHF o altre forme di RL), si fanno compiere al modello una serie di compiti specifici, valutando le sue risposte e fornendo una ricompensa o un punteggio (per esempio tramite feedback umano o tramite un automatismo, come un verificatore di prove matematiche). Il modello, per massimizzare questa ricompensa, inizia a esplorare le diverse “strade” per arrivare a una buona risposta.
È utile sottolineare che, in questa esplorazione:
- Non gli viene detto esplicitamente come ragionare o quali tattiche usare (per esempio “stai attento alle contraddizioni”, “scomponi in sottoparti”).
- Il modello, grazie alla sua vasta conoscenza appresa in pre-training, “scopre” che, se scrive passi intermedi (la famosa “chain of thought”) e controlla la coerenza, ottiene un punteggio/feedback migliore.
- Di conseguenza comincia a farlo spontaneamente, “inventa” autonomamente (o recupera e riadatta da tutto ciò che ha letto e appreso) procedure e strategie di ragionamento di alto livello che non erano state programmate. Queste procedure di ragionamento vengono rinforzate perché portano a risposte più corrette (quindi ricompensa più alta).
Si parla di comportamenti emergenti o tattiche emergenti perché non sono state scritte nel codice da nessun ricercatore: nessuno gli ha detto “se non sai come andare avanti, prova a suddividere il problema in step e verifica la solidità di ogni step”. Eppure, il modello, allenato a ottenere risposte migliori, “inventa” o “rispolvera” dalle sue gigantesche conoscenze testuali queste tattiche.
Che tipo di ragionamenti vengono fatti
Gli esempi di ragionamento emergente includono:
- Catene di pensiero (Chain of Thought): il modello inizia a scrivere i passaggi logici in forma di testo, come faremmo noi su carta, per arrivare alla risposta.
- Rilettura critica e autocorrezione: a volte il modello “capisce” che potrebbe aver sbagliato qualcosa e prova a ricontrollare i passaggi, riscrivendo o correggendo.
- Suddivisione del problema in step: invece di saltare direttamente alla risposta, esplora parti del problema in modo strutturato.
Anche qui, è importante sottolineare che tali comportamenti non sono garantiti né sempre perfetti: a volte il modello può ancora produrre “allucinazioni”, fatti errati, ma la tendenza generale (soprattutto nelle versioni addestrate con più RL e con più feedback) è un miglioramento notevole nella qualità del ragionamento rispetto ai modelli che si occupavano esclusivamente di fare una next word prediction.
Cosa fanno i ricercatori
Nello sviluppo dei modelli di AI, i ricercatori sostanzialmente lavorano su quattro ambiti distinti:
- Progettano la fase di pre-training: scelgono i dati (quantità, qualità, varietà) su cui allenare il modello in modo da fornirgli una base di conoscenze.
- Progettano la fase di “post-training” (ad esempio la RLHF descritta sopra): stabiliscono dei meccanismi di “ricompensa” (feedback umano, punteggio automatico di coerenza, punteggio di correttezza in un problema matematico, ecc.). Il modello viene quindi allenato a massimizzare tale ricompensa, e questo induce l’emergere di “tattiche” e “strategie” di ragionamento migliori.
- Studiano strategie di “prompting” e “istruzioni”: come fornire domande o compiti in modo che il modello tenda a usare queste catene di pensiero e strategie emergenti nella maniera più stabile e accurata.
- Analizzano i risultati: valutano se effettivamente i ragionamenti sono coerenti, se i miglioramenti sono stabili, se si riducono le cosiddette “allucinazioni”.
Cosa possiamo aspettarci
Nel breve termine, sempre più progressi su compiti complessi di ragionamento, con modelli che imparano a scrivere ragionamenti più lunghi e coerenti, e potenzialmente aiutano gli umani a scoprire collegamenti o lemmi matematici utili.
Nel medio termine, la ricerca punta a far sì che i modelli sviluppino memoria a lungo termine, ragionamento più esteso nel tempo e meccanismi di ricontrollo (self-verification), tali che possano lavorare settimane su un problema complesso senza “confondersi”.
In questo senso, diventa interessante ragionare su quanto “tempo mentale”, paragonabile a quello umano, un modello possa sostenere per un ragionamento:
- AGI seconds: il modello riesce a rispondere a domande semplici o a fare inferenze molto brevi, simili a ciò che un essere umano potrebbe fare “al volo” in pochi secondi.
- AGI minutes: il modello riesce a mantenere un filo di ragionamento più lungo, come un umano che pensa per qualche minuto senza “perdere il filo” o commettere errori grossolani.
- AGI hours o days: il modello sarebbe in grado di sostenere un ragionamento complesso per ore o giorni, come farebbe uno studioso umano che lavora in profondità su un problema, senza crolli di coerenza o precisione.
Nel lungo termine, l’obiettivo è che possano emergere vere e proprie scoperte “superumane”: modelli capaci di condurre filoni di ricerca autonomamente, proporre definizioni e dimostrazioni radicalmente nuove.
Di sicuro l’aver osservato che i modelli sappiano “fare da soli” e apprende euristiche complesse “guardando” i dati e ricevendo un segnale di ricompensa che lo spinge a migliorare, ha dimostrato come questi comportamenti siano in grado di generare capacità di problem solving e reasoning che erano inattese (il concetto di “emergenti”).
Questo è, indubbiamente, uno degli aspetti più sorprendenti e affascinanti dell’era attuale degli LLM.
Software di Intelligenza Artificiale: le migliori soluzioni per le aziende