intelligenza artificiale

L’IA che pensa come noi: le capacità emergenti negli LLM



Indirizzo copiato

Gli LLM mostrano abilità di ragionamento non programmate, emergenti dall’addestramento. Grazie a RL e RLHF, sviluppano strategie autonome per risolvere problemi, migliorando progressivamente nella generazione di risposte coerenti e ben argomentate

Pubblicato il 28 feb 2025

Andrea Benedetti

Senior Cloud Architect Data & AI, Microsoft



intelligenza artificiale emotiva

In ambito LLM, una delle discussioni che trovo particolarmente interessante è relativa al fatto che i modelli di intelligenza artificiale (in particolare proprio i grandi modelli linguistici, o large language models, come GPT-4 o le nuove versioni “o1”) abbiano mostrato capacità di reasoning (ragionamento) che non sono state inserite in modo “esplicito” dai ricercatori, non sono state codificate o programmate, ma che invece emergono “naturalmente” dal processo di addestramento.

Più precisamente, il punto chiave è che nessuna “tattica” o regola di ragionamento (per esempio, “prima scomponi il problema in sottoproblemi, poi verifica i sottorisultati, poi cerca di validare la soluzione”) è stata programmata a mano o hard-coded nel sistema.

Le strategie di ragionamento che sembrano “intelligenti” (come fare backtracking, verificare se un passaggio è corretto, fermarsi a controllare la consistenza logica, e così via) non vengono fornite in modo esplicito come “istruzioni” ma, piuttosto, queste strategie emergono durante l’addestramento e la fase di fine-tuning, spesso di tipo reinforcement learning (RL), o reinforcement learning with human feedback (RLHF), in cui il modello viene premiato/rinforzato per avere prodotto soluzioni corrette, ragionate e coerenti.

Che cosa sono RL e RLHF

Il Reinforcement Learning (RL) è un approccio all’intelligenza artificiale ispirato alla psicologia comportamentale:

WHITEPAPER

Sai come gli strumenti di programmazione con l'AI possono trasformare il tuo lavoro?

API
DevOps
  • Abbiamo un agente (in questo caso, il modello di AI) che può compiere certe azioni.
  • L’agente riceve un feedback (o ricompensa) in base al risultato di tali azioni: se l’azione porta a un risultato desiderato, l’agente ottiene un premio (ricompensa); altrimenti, il premio è nullo o negativo.
  • L’obiettivo dell’agente è massimizzare la ricompensa accumulata nel tempo, cioè, imparare a scegliere le azioni “migliori”.

Nel contesto dei modelli linguistici, “l’azione” è generare una certa frase o una certa sequenza di parole. Se la sequenza è valutata come corretta, chiara, utile, l’agente riceve una ricompensa. Con il tempo, il modello impara quali sequenze e “stili di ragionamento” sono apprezzati e quindi produce risposte più vicine all’obiettivo desiderato.

Il Reinforcement Learning with Human Feedback (RLHF) è un particolare tipo di RL dove:

  • Il feedback (la “ricompensa”) viene fornito direttamente da esseri umani, anziché (o in aggiunta a) un segnale puramente automatico.
  • Ogni volta che il modello genera una risposta, dei revisori umani (in genere “annotatori” o “labeler”) la valutano come buona o scarsa, corretta o errata, coerente o assurda.
  • Il modello apprende a generare risposte più gradite agli esseri umani, perché tali risposte gli fruttano un “premio” più alto.

Ad esempio, se chiediamo al modello di spiegare un concetto matematico in modo semplice e corretto, il valutatore umano assegna una ricompensa positiva (o un voto alto) quando la spiegazione è chiara e priva di errori. Il modello, dunque, “impara” in che modo costruire risposte che soddisfino tali criteri di qualità.

In sintesi, l’obiettivo di queste tecniche è fare in modo che il modello migliori progressivamente la sua strategia di generazione, emulando e rinforzando i comportamenti che portano a un esito positivo (risposte corrette, ben argomentate e coerenti).

Cosa significa “emergono spontaneamente”

Tornando al tema principale, nel processo di addestramento tradizionale (pre-training), un modello di linguaggio viene addestrato a predire la parola successiva basandosi su enormi quantità di testo. Di per sé, la mera predizione della parola successiva non implica che il modello sappia “ragionare” in modo strutturato. Tuttavia, poiché il testo su cui è addestrato contiene già moltissimi esempi di come ragionano gli esseri umani, di come si risolvono problemi, si fa una dimostrazione, si fa debugging di un programma, ecc., nella rete neurale – come conseguenza – si sviluppano rappresentazioni che “immagazzinano” in qualche modo pattern, strutture e persino “stili di ragionamento” presenti nei testi utilizzati per il training stesso.

A seguire, nella fase “post-training” (ad esempio fine-tuning con RLHF o altre forme di RL), si fanno compiere al modello una serie di compiti specifici, valutando le sue risposte e fornendo una ricompensa o un punteggio (per esempio tramite feedback umano o tramite un automatismo, come un verificatore di prove matematiche). Il modello, per massimizzare questa ricompensa, inizia a esplorare le diverse “strade” per arrivare a una buona risposta.

È utile sottolineare che, in questa esplorazione:

  • Non gli viene detto esplicitamente come ragionare o quali tattiche usare (per esempio “stai attento alle contraddizioni”, “scomponi in sottoparti”).
  • Il modello, grazie alla sua vasta conoscenza appresa in pre-training, “scopre” che, se scrive passi intermedi (la famosa “chain of thought”) e controlla la coerenza, ottiene un punteggio/feedback migliore.
  • Di conseguenza comincia a farlo spontaneamente, “inventa” autonomamente (o recupera e riadatta da tutto ciò che ha letto e appreso) procedure e strategie di ragionamento di alto livello che non erano state programmate. Queste procedure di ragionamento vengono rinforzate perché portano a risposte più corrette (quindi ricompensa più alta).

Si parla di comportamenti emergenti o tattiche emergenti perché non sono state scritte nel codice da nessun ricercatore: nessuno gli ha detto “se non sai come andare avanti, prova a suddividere il problema in step e verifica la solidità di ogni step”. Eppure, il modello, allenato a ottenere risposte migliori, “inventa” o “rispolvera” dalle sue gigantesche conoscenze testuali queste tattiche.

Che tipo di ragionamenti vengono fatti

Gli esempi di ragionamento emergente includono:

  • Catene di pensiero (Chain of Thought): il modello inizia a scrivere i passaggi logici in forma di testo, come faremmo noi su carta, per arrivare alla risposta.
  • Rilettura critica e autocorrezione: a volte il modello “capisce” che potrebbe aver sbagliato qualcosa e prova a ricontrollare i passaggi, riscrivendo o correggendo.
  • Suddivisione del problema in step: invece di saltare direttamente alla risposta, esplora parti del problema in modo strutturato.

Anche qui, è importante sottolineare che tali comportamenti non sono garantiti né sempre perfetti: a volte il modello può ancora produrre “allucinazioni”, fatti errati, ma la tendenza generale (soprattutto nelle versioni addestrate con più RL e con più feedback) è un miglioramento notevole nella qualità del ragionamento rispetto ai modelli che si occupavano esclusivamente di fare una next word prediction.

Cosa fanno i ricercatori

Nello sviluppo dei modelli di AI, i ricercatori sostanzialmente lavorano su quattro ambiti distinti:

  1. Progettano la fase di pre-training: scelgono i dati (quantità, qualità, varietà) su cui allenare il modello in modo da fornirgli una base di conoscenze.
  2. Progettano la fase di “post-training” (ad esempio la RLHF descritta sopra): stabiliscono dei meccanismi di “ricompensa” (feedback umano, punteggio automatico di coerenza, punteggio di correttezza in un problema matematico, ecc.). Il modello viene quindi allenato a massimizzare tale ricompensa, e questo induce l’emergere di “tattiche” e “strategie” di ragionamento migliori.
  3. Studiano strategie di “prompting” e “istruzioni”: come fornire domande o compiti in modo che il modello tenda a usare queste catene di pensiero e strategie emergenti nella maniera più stabile e accurata.
  4. Analizzano i risultati: valutano se effettivamente i ragionamenti sono coerenti, se i miglioramenti sono stabili, se si riducono le cosiddette “allucinazioni”.

Cosa possiamo aspettarci

Nel breve termine, sempre più progressi su compiti complessi di ragionamento, con modelli che imparano a scrivere ragionamenti più lunghi e coerenti, e potenzialmente aiutano gli umani a scoprire collegamenti o lemmi matematici utili.

Nel medio termine, la ricerca punta a far sì che i modelli sviluppino memoria a lungo termine, ragionamento più esteso nel tempo e meccanismi di ricontrollo (self-verification), tali che possano lavorare settimane su un problema complesso senza “confondersi”.

In questo senso, diventa interessante ragionare su quanto “tempo mentale”, paragonabile a quello umano, un modello possa sostenere per un ragionamento:

  • AGI seconds: il modello riesce a rispondere a domande semplici o a fare inferenze molto brevi, simili a ciò che un essere umano potrebbe fare “al volo” in pochi secondi.
  • AGI minutes: il modello riesce a mantenere un filo di ragionamento più lungo, come un umano che pensa per qualche minuto senza “perdere il filo” o commettere errori grossolani.
  • AGI hours o days: il modello sarebbe in grado di sostenere un ragionamento complesso per ore o giorni, come farebbe uno studioso umano che lavora in profondità su un problema, senza crolli di coerenza o precisione.

Nel lungo termine, l’obiettivo è che possano emergere vere e proprie scoperte “superumane”: modelli capaci di condurre filoni di ricerca autonomamente, proporre definizioni e dimostrazioni radicalmente nuove.

Di sicuro l’aver osservato che i modelli sappiano “fare da soli” e apprende euristiche complesse “guardando” i dati e ricevendo un segnale di ricompensa che lo spinge a migliorare, ha dimostrato come questi comportamenti siano in grado di generare capacità di problem solving e reasoning che erano inattese (il concetto di “emergenti”).

Questo è, indubbiamente, uno degli aspetti più sorprendenti e affascinanti dell’era attuale degli LLM.

white paper

Software di Intelligenza Artificiale: le migliori soluzioni per le aziende

Intelligenza Artificiale
API

EU Stories - La coesione innova l'Italia

Tutti
Video & Podcast
Analisi
Social
Iniziative
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4