L’evoluzione dei modelli linguistici di AI ha visto una crescente enfasi sullo sviluppo di capacità di ragionamento più sofisticate, con l’obiettivo di superare i limiti della semplice generazione di testo e del riconoscimento di pattern.
A quest’enfasi si sta però di recente affiancando una nuova consapevolezza: sui limiti del reasoning.
Due in particolare:
- Consumo di risorse computing-energia a volte eccessive rispetto all’efficacia
- Aumentato rischio di allucinazioni, come si evince da un recente studio di OpenAI su o3.
Proprio per affrontare questi limiti, si sta affermando ora una nuova tendenza, riguardante tecniche e modi utili a controllare il ragionamento dei modelli AI.
Indice degli argomenti
Il caso Google Gemini per il controllo del ragionamento
Ne è un esempio una novità di Google Gemini.
Google ha introdotto una nuova funzionalità in Gemini: un “dial” che permette di regolare la quantità di “pensiero” o ragionamento che il modello utilizza prima di generare una risposta.
Questa innovativa funzionalità, inizialmente disponibile per gli sviluppatori nella versione Gemini Flash 2.5, offre un controllo senza precedenti sul processo decisionale interno del modello. La possibilità di modulare l’impegno cognitivo dell’IA rappresenta un avanzamento significativo verso la gestione efficiente delle risorse computazionali e il miglioramento delle prestazioni complessive degli LLM.
Come funziona il “Dial di Ragionamento” di Google Gemini
Il “dial di ragionamento” di Google Gemini funziona come un meccanismo di controllo che consente agli sviluppatori di influenzare direttamente la quantità di risorse computazionali che il modello dedica al processo di “pensiero” prima di produrre una risposta. Tecnicamente, questo si traduce nella possibilità di impostare un “budget di pensiero” (thinking budget) espresso in termini di token computazionali. Per Gemini 2.5 Flash, l’impostazione predefinita del budget è “Auto”, con un limite massimo di 8.192 token. Tuttavia, gli sviluppatori hanno la flessibilità di configurare manualmente questo budget, scegliendo un valore compreso tra un minimo di 1.024 e un massimo di 24.576 token. È inoltre possibile impostare il budget a 0 per disattivare completamente il ragionamento del modello.
Lo scopo principale dell’introduzione di questo dial è duplice: consentire un maggiore controllo sui costi operativi e migliorare la gestione della complessità computazionale. Per compiti che non richiedono un’analisi approfondita o un ragionamento intensivo, limitare la quantità di risorse dedicate a questa fase può portare a una significativa riduzione dei costi computazionali. Inoltre, il dial mira a prevenire un fenomeno noto come “overthinking”, in cui il modello tende ad analizzare eccessivamente anche prompt semplici, sprecando risorse e potenzialmente degradando le prestazioni. Un esempio interno citato da Google illustra questo problema, mostrando un modello di ragionamento intrappolato in un ciclo mentale ripetitivo durante la risoluzione di un problema di chimica.
Il dial di ragionamento offre diversi livelli di “pensiero” che possono essere selezionati in base alla complessità del compito da affrontare. Per traduzioni semplici o query fattuali, è possibile utilizzare un budget di ragionamento minimo. Calcoli di probabilità o problemi di pianificazione possono beneficiare di un livello di ragionamento moderato. Infine, sfide complesse di ingegneria o programmazione possono richiedere l’allocazione del massimo budget di ragionamento disponibile.
Attualmente, questa funzionalità è disponibile per gli sviluppatori che utilizzano Gemini Flash 2.5 per costruire applicazioni e strumenti aziendali, ma non è ancora stata implementata nelle versioni rivolte al consumatore finale. La capacità di controllare il “budget di pensiero” rappresenta un notevole passo avanti, offrendo agli sviluppatori un nuovo livello di flessibilità nell’ottimizzazione delle risorse e potenzialmente ampliando l’accesso a capacità AI avanzate.
La possibilità di bilanciare la qualità della risposta, il costo computazionale e la latenza in base alle esigenze specifiche di ogni applicazione è fondamentale per l’implementazione pratica degli LLM in contesti aziendali, dove l’efficienza economica gioca un ruolo cruciale.
L’Importanza del ragionamento nei modelli linguistici di grandi dimensioni
Il “ragionamento” nei modelli linguistici di grandi dimensioni si riferisce alla loro capacità di andare oltre la semplice generazione di testo e di impegnarsi in processi cognitivi più complessi.
Questo include l’abilità di analizzare informazioni in modo critico, di stabilire connessioni logiche tra concetti, di inferire conclusioni basate su evidenze e di prendere decisioni informate. Spesso, questo processo implica una serie di passaggi intermedi, noti come “catena di pensiero”, attraverso i quali il modello elabora le informazioni e costruisce la sua risposta. Questa capacità di ragionamento è ciò che distingue gli LLM avanzati dai sistemi basati sul semplice pattern matching o sulla predizione della parola successiva.
Perché è utile il ragionamento
Il ragionamento è diventato un’area cruciale di ricerca e sviluppo nell’intelligenza artificiale per diverse ragioni. In primo luogo, migliora significativamente le prestazioni dei modelli su compiti complessi che richiedono un’analisi approfondita, come la scrittura di codice, l’interpretazione di documenti estesi o la conduzione di analisi sofisticate. In secondo luogo, dota i sistemi AI di una maggiore “agency” e capacità di agire autonomamente nel mondo. Infine, apre nuove frontiere per l’applicazione dell’IA in settori critici come la sanità, la finanza e la ricerca scientifica, dove la capacità di prendere decisioni basate su una solida logica è fondamentale.
Tradizionalmente, lo sviluppo dei sistemi AI si è basato sulle cosiddette “scaling laws”, che postulano che modelli più grandi, addestrati su quantità maggiori di dati, avrebbero portato a prestazioni superiori. Tuttavia, si è progressivamente riconosciuto che l’aumento delle dimensioni del modello da solo non è sufficiente per garantire un miglioramento significativo delle capacità di ragionamento. Il ragionamento è ora considerato la “nuova frontiera” nello sviluppo dell’IA, con un’attenzione crescente sull’ottimizzazione del modo in cui i modelli utilizzano le loro capacità esistenti per “pensare” in modo più efficiente ed efficace. Questa transizione segna un cambiamento di paradigma, con un focus crescente sulla qualità del “pensiero” piuttosto che sulla mera quantità di parametri del modello.
Sfide e limiti nel controllo del ragionamento
Nonostante i notevoli progressi compiuti nel controllo del ragionamento negli LLM, permangono diverse sfide e limitazioni. Uno dei problemi principali è che i modelli di ragionamento possono talvolta incorrere nell’overthinking, sprecando preziose risorse computazionali per rispondere a domande semplici che non richiederebbero un’analisi così approfondita.
Un’altra sfida significativa è rappresentata dalle allucinazioni, in cui il modello può generare risposte che appaiono plausibili ma che in realtà non sono veritiere o logicamente coerenti, anche durante processi di ragionamento estesi. La natura intrinsecamente probabilistica del modo in cui gli LLM elaborano le informazioni e generano risposte rende difficile ottenere un controllo completamente deterministico sul loro processo di ragionamento, a differenza della logica formale che segue regole esplicite.
Lo studio di OpenAI
Secondo i test interni di OpenAI, i modelli o3 e o4-mini, noti come modelli di ragionamento, producono allucinazioni più spesso rispetto ai precedenti modelli di ragionamento dell’azienda (o1, o1-mini e o3-mini) e ai modelli tradizionali “non ragionanti” di OpenAI, come GPT-4o.
Forse ancora più preoccupante è il fatto che il produttore di ChatGPT non sappia realmente perché ciò stia accadendo.
Nel suo rapporto tecnico su o3 e o4-mini, OpenAI scrive che “sono necessarie ulteriori ricerche” per capire perché le allucinazioni peggiorano con l’aumentare dei modelli di ragionamento. O3 e o4-mini funzionano meglio in alcuni settori, tra cui i compiti relativi alla codifica e alla matematica. Tuttavia, poiché “formulano affermazioni più numerose in generale”, spesso finiscono per fare “affermazioni più accurate ma anche più inaccurate/allucinate”, secondo il rapporto.
OpenAI ha scoperto che o3 ha avuto allucinazioni in risposta al 33% delle domande su PersonQA, il benchmark interno dell’azienda per misurare l’accuratezza delle conoscenze di un modello sulle persone. Si tratta di circa il doppio del tasso di allucinazioni dei precedenti modelli di ragionamento di OpenAI, o1 e o3-mini, che hanno ottenuto rispettivamente il 16% e il 14,8%. O4-mini ha ottenuto risultati ancora peggiori su PersonQA, con allucinazioni nel 48% dei casi.
Test di terze parti condotti da Transluce, un laboratorio di ricerca sull’IA senza scopo di lucro, hanno anche trovato prove che o3 ha la tendenza a inventare azioni che ha intrapreso nel processo di arrivo alle risposte. In un esempio, Transluce ha osservato che o3 affermava di aver eseguito del codice su un MacBook Pro 2021 “al di fuori di ChatGPT”, per poi copiare i numeri nella sua risposta. Sebbene o3 abbia accesso ad alcuni strumenti, non può farlo.
La fragilità
In generale, le capacità di ragionamento degli LLM possono anche rivelarsi sorprendentemente fragili, influenzate da variazioni minime nella formulazione del prompt o dalla presenza di informazioni irrilevanti che possono distrarre il modello dal compito principale.
Inoltre, la valutazione accurata della qualità del ragionamento di un LLM è un’impresa complessa, poiché spesso è difficile distinguere tra un vero processo di pensiero logico e una sofisticata imitazione basata su pattern appresi durante l’addestramento. Alcune ricerche suggeriscono che, nonostante le loro impressionanti capacità, gli LLM potrebbero basarsi più su un pattern matching avanzato che su una vera e propria comprensione logica dei problemi.
Costi economici e ambientali
L’intensità del ragionamento impiegato da un LLM ha anche significative implicazioni economiche. Un ragionamento più approfondito e complesso richiede un costo computazionale più elevato, anche di vari ordini di grandezza, in quanto comporta un maggiore utilizzo di risorse hardware come GPU e TPU.
Questo si traduce in un potenziale aumento dei costi operativi per gli sviluppatori che integrano tali modelli nelle loro applicazioni. Pertanto, è fondamentale trovare un equilibrio tra le prestazioni desiderate e i costi associati per garantire la sostenibilità economica delle soluzioni basate su LLM.
Oltre alle implicazioni economiche dirette, è importante considerare anche l’impatto ambientale del consumo energetico dei modelli di ragionamento. Il processo di inferenza, ovvero la generazione di risposte da parte del modello, ha già superato la fase di addestramento in termini di consumo energetico complessivo per le principali aziende del settore AI. Incoraggiare i modelli a “pensare di più” potrebbe portare a un ulteriore aumento della loro impronta ecologica, sollevando preoccupazioni sulla sostenibilità a lungo termine di questa tecnologia.
La sfida del controllo
In questo contesto, la possibilità di controllare l’intensità del ragionamento, come offerta dal “dial” di Gemini, diventa uno strumento prezioso. Gli sviluppatori possono calibrare l’equilibrio tra le prestazioni del modello, la velocità di risposta e il consumo di risorse computazionali in base alle esigenze specifiche della loro applicazione. Per compiti semplici che non richiedono un’analisi complessa, è possibile optare per un budget di ragionamento inferiore, ottenendo risposte più rapide e riducendo i costi operativi.
Al contrario, per sfide più impegnative che necessitano di un’elaborazione approfondita, un budget di ragionamento più elevato può portare a una maggiore accuratezza, anche se a costo di una maggiore latenza e un costo più elevato. La gestione oculata di questo compromesso tra intensità di ragionamento e costo è essenziale per l’adozione diffusa e responsabile dei modelli linguistici avanzati.
Lo stato dell’arte nel controllo del ragionamento negli LLM
La capacità di controllare e modulare il processo di ragionamento negli LLM è un’area di ricerca attiva e in rapida evoluzione. Sono state esplorate diverse tecniche per influenzare il modo in cui questi modelli elaborano le informazioni e giungono a conclusioni.
Una delle strategie più diffuse è il prompt engineering, che consiste nella progettazione di prompt specifici per guidare il modello verso un determinato tipo di ragionamento. Tecniche come il “Chain-of-Thought” (CoT), il “Self-Consistency” e il “Tree-of-Thought” incoraggiano il modello a scomporre problemi complessi in passaggi intermedi, simulando un processo di pensiero sequenziale.
Un altro approccio consiste nel fine-tuning, ovvero nell’addestramento del modello su dataset specifici progettati per migliorare le sue capacità di ragionamento in determinati domini o per specifici tipi di problemi.
Il reinforcement learning (RL) è una tecnica potente che utilizza feedback umani o generati dall’IA per premiare i comportamenti di ragionamento desiderati e penalizzare quelli indesiderati, guidando il modello verso strategie di pensiero più efficaci.
Sono state anche esplorate architetture innovative che integrano meccanismi di ragionamento più espliciti, come i modelli retrieval-augmented che recuperano informazioni esterne per supportare il ragionamento, le reti di ragionamento modulari che combinano diverse componenti specializzate e l’integrazione neuro-simbolica che unisce l’apprendimento neurale con la logica simbolica.
Infine, l’uso di strumenti esterni come calcolatrici, risolutori di teoremi o motori di ricerca può migliorare l’accuratezza e l’affidabilità del ragionamento, consentendo al modello di validare i suoi passaggi e di accedere a conoscenze aggiornate.
Diversi modelli AI leader hanno introdotto funzionalità o approcci simili per controllare il ragionamento:
- OpenAI ha sviluppato i modelli di ragionamento della serie “o” (o1, o3-mini, o3, o4-mini) che sono addestrati per “pensare prima di rispondere”, producendo una lunga catena di pensiero interna prima di fornire una risposta all’utente. OpenAI offre anche un controllo sui costi tramite il parametro max_completion_tokens.
- Anthropic Claude offre il modello 3.7 Sonnet con “ragionamento ibrido”, che consente al modello di fornire risposte rapide o di impegnarsi in un pensiero esteso e approfondito a seconda del compito. Claude 3.7 Sonnet include anche un “budget di pensiero” controllabile, dando agli utenti la possibilità di attivare/disattivare la modalità di “extended thinking” e di controllare il numero di token dedicati al ragionamento.
- xAI Grok ha introdotto i modelli Grok 3 (Think) e Grok 3 mini (Think) che dispongono di modalità “Think” e “Big Brain” per un ragionamento più approfondito. Grok fornisce anche un parametro reasoning_effort per controllare l’intensità del processo di pensiero del modello.
- DeepSeek ha sviluppato i modelli R1 e R1-Zero, focalizzati sul ragionamento avanzato e addestrati con reinforcement learning per sviluppare comportamenti di ragionamento complessi come l’auto-verifica e la riflessione. Il modello DeepSeek-R1 utilizza un’architettura Mixture of Experts (MoE) per migliorare l’efficienza computazionale.
L’introduzione di un controllo granulare sul ragionamento, come dimostrato dal “dial” di Google Gemini e dalle funzionalità offerte da altri modelli leader, evidenzia una tendenza significativa nel campo dell’intelligenza artificiale. Le aziende stanno esplorando approcci innovativi per fornire agli utenti un controllo più diretto sulle capacità di “pensiero” dei loro modelli, consentendo una maggiore flessibilità e ottimizzazione in base alle esigenze specifiche.
Tendenze future nel controllo del ragionamento negli LLM
Il futuro del controllo del ragionamento nei modelli linguistici di grandi dimensioni si prospetta come un’area di continua innovazione e sviluppo. È probabile che si assisterà allo sviluppo di modelli ibridi che combinano i vantaggi di modelli veloci ed economici per compiti semplici con la potenza di modelli di ragionamento più lenti e approfonditi per problemi complessi.
Le tecniche di prompt engineering continueranno a evolversi, offrendo metodi sempre più sofisticati per guidare e controllare il processo di ragionamento dei modelli. Si prevede anche un miglioramento degli algoritmi di reinforcement learning utilizzati per addestrare i modelli di ragionamento, con l’obiettivo di incentivare comportamenti di pensiero più affidabili ed efficienti.
La ricerca potrebbe anche concentrarsi sull’esplorazione di nuove architetture di modelli che supportano intrinsecamente un ragionamento più controllabile e interpretabile. L’integrazione di meccanismi di verifica e auto-correzione all’interno del processo di ragionamento stesso potrebbe portare a modelli più affidabili e meno soggetti a errori.
Un’altra tendenza probabile è lo sviluppo di modelli di ragionamento specializzati per domini o compiti specifici, ottimizzati per affrontare le sfide particolari di settori come la medicina, il diritto o l’ingegneria. Infine, si prevede una maggiore attenzione all’efficienza del ragionamento, con l’obiettivo di ottenere prestazioni elevate con un utilizzo più contenuto di risorse computazionali, superando la tradizionale enfasi sulla sola dimensione del modello.
Queste tendenze suggeriscono un futuro in cui il controllo sul ragionamento degli LLM sarà sempre più preciso e adattabile alle diverse esigenze applicative, portando a sistemi AI più intelligenti, efficienti e affidabili.
L’introduzione del “dial di ragionamento” in Google Gemini rappresenta un passo significativo nell’evoluzione dei modelli linguistici avanzati. Questa funzionalità offre agli sviluppatori un controllo diretto sulla quantità di risorse computazionali che il modello dedica al processo di “pensiero”, consentendo di bilanciare i costi, la velocità e la qualità delle risposte in base alle esigenze specifiche delle loro applicazioni.
Questo sviluppo si inserisce in un contesto più ampio di intensa ricerca e sviluppo nel campo del controllo del ragionamento negli LLM. Le diverse tecniche e gli approcci innovativi adottati da aziende leader come OpenAI, Anthropic, xAI e DeepSeek testimoniano l’importanza cruciale di questa area per sbloccare il pieno potenziale dell’intelligenza artificiale.
Nonostante i notevoli progressi compiuti, permangono sfide significative nel raggiungere un controllo completamente affidabile e coerente sul ragionamento degli LLM. L’overthinking, le allucinazioni e la natura probabilistica di questi modelli sono solo alcuni degli ostacoli che la comunità scientifica sta cercando di superare.
Tuttavia, le tendenze future indicano una direzione promettente, con lo sviluppo di modelli ibridi e specializzati, il miglioramento delle tecniche di prompt engineering e reinforcement learning, e l’esplorazione di nuove architetture che potrebbero portare a sistemi AI più intelligenti, efficienti e affidabili. Il “dial di ragionamento” di Google Gemini è un esempio concreto di come si stia cercando di fornire agli sviluppatori gli strumenti necessari per navigare in questo panorama complesso e per sfruttare al meglio le straordinarie capacità dei modelli linguistici avanzati.
Sitografia
https://ramaonhealthcare.com/a-google-gemini-model-now-has-a-dial-to-adjust-how-much-it-reasons
https://cloud.google.com/vertex-ai/generative-ai/docs/thinking
https://blog.google/technology/google-deepmind/gemini-model-thinking-updates-march-2025
https://gemini.google/assistant
https://www.arxiv.org/pdf/2502.03671
https://arxiv.org/html/2502.03671v1
https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html
https://www.byteplus.com/en/topic/497972
https://zapier.com/blog/ai-reasoning
https://futurism.com/reasoning-ai-models-simple-trick
https://ai.google.dev/gemini-api/docs/thinking
https://developers.googleblog.com/en/start-building-with-gemini-25-flash
https://blog.google/products/gemini/gemini-2-5-flash-preview
https://deepmind.google/technologies/gemini/pro
https://deepmind.google/technologies/gemini
https://platform.openai.com/docs/guides/reasoning?api-mode=chat
https://kili-technology.com/large-language-models-llms/llm-reasoning-guide
https://toloka.ai/blog/reasoning-in-large-language-models-a-dive-into-nlp-logic
https://www.analyticsvidhya.com/blog/2025/03/ai-reasoning-model
https://sebastianraschka.com/blog/2025/the-state-of-reinforcement-learning-for-llm-reasoning.html
https://www.digitalocean.com/community/tutorials/understanding-reasoning-in-llms
https://www.superagent.sh/blog/the-future-of-llm-costs