la guida

LLM, cosa sono: tutto ciò che bisogna sapere sui large language models

Home Cultura e società digitali competenze digitali

I LLM – Large language models sono alla base di numerose applicazioni di intelligenza artificiale impiegate in diversi settori, dall’industria alla PA

Pubblicato il 3 apr 2025

Giovanni Masi

Computer Science Engineer

I Large Language Models (LLM), o modelli linguistici di grandi dimensioni, rappresentano una delle innovazioni più significative dell’intelligenza artificiale. Non sono semplici strumenti computazionali, ma autentiche infrastrutture cognitive, capaci di simulare il ragionamento umano, produrre testi coerenti e contestuali e offrire supporto in una molteplicità di ambiti disciplinari.

PMI e digitale in Italia: cultura e strategie per competere nel 2025

Indice degli argomenti

Cosa sono i LLM

I LLM – Large language models sono modelli di deep learning estremamente complessi, basati su reti neurali con miliardi di parametri, progettati per comprendere, interpretare e generare linguaggio naturale in forma scritta. Il loro funzionamento si basa sull’addestramento su vastissimi corpora di testi eterogenei—libri, articoli accademici, siti web, contenuti social, conversazioni online—che consente di cogliere e modellare con efficacia le strutture sintattiche, semantiche, lessicali e pragmatiche della lingua umana in tutte le sue sfumature.

Il Natural Language Processing (NLP) è il campo teorico e applicativo in cui i LLM trovano la loro massima espressione. Il NLP fornisce le basi linguistiche e computazionali necessarie affinché una macchina possa affrontare e risolvere compiti tradizionalmente riservati all’intelligenza umana: dalla comprensione alla generazione del linguaggio, dalla traduzione automatica all’analisi semantica, fino alla sintesi di documenti e alla classificazione delle emozioni. I LLM, grazie alla loro capacità di generalizzazione e contestualizzazione, hanno potenziato l’intero ecosistema NLP, favorendo il passaggio da modelli specialistici e isolati a sistemi generalisti, dinamici e adattivi.

L’adozione dei LLM nel mondo aziendale

Nel contesto delle imprese, l’adozione dei LLM è in costante crescita. Le aziende, sia multinazionali che PMI, stanno integrando questi modelli nei loro flussi di lavoro per ottimizzare la produttività, migliorare l’interazione con i clienti e automatizzare attività ripetitive. In particolare, le PMI italiane si stanno orientando verso soluzioni che prevedono l’integrazione dei LLM con tecniche di Retrieval-Augmented Generation (RAG), che permettono di combinare la capacità generativa dei modelli con basi di dati aggiornate e contestuali. Questo approccio riduce sensibilmente il rischio di generazione di contenuti errati noti come allucinazioni dell’AI.

Anche nel settore pubblico si stanno sperimentando applicazioni basate su LLM, come la semplificazione normativa, la generazione automatica di testi legislativi e la giustizia predittiva, sempre con la necessaria cautela etica verso l’AI.

Come funzionano gli LLM

Il salto evolutivo che ha condotto alla creazione degli attuali LLM è stato reso possibile dall’introduzione dell’architettura Transformer, presentata da Vaswani et al. nel 2017 nel lavoro “Attention is All You Need“. Rispetto alle architetture precedenti, come le Reti Neurali Ricorrenti (RNN) e le Long Short-Term Memory (LSTM), i Transformer permettono l’elaborazione parallela delle sequenze linguistiche, aumentando enormemente l’efficienza computazionale e la capacità di modellare contesti lunghi.

Le tecnologie dietro gli LLM: reti neurali e oltre

Il fulcro innovativo dell’architettura transformer è il meccanismo di self-attention, una tecnica che consente al modello di valutare l’importanza relativa di ciascun termine rispetto a tutti gli altri presenti nella stessa sequenza testuale. Ogni termine viene rappresentato come un “token”, ovvero un’unità elementare di testo che può corrispondere a una parola, una radice, una sillaba o anche solo una lettera, a seconda del sistema di tokenizzazione utilizzato. La tokenizzazione è dunque il processo che scompone il testo in questi frammenti fondamentali, rendendolo elaborabile dal modello.

In altre parole, il modello non analizza il testo parola per parola in modo sequenziale, ma considera ogni token in relazione a tutti gli altri token nella frase o nel documento, assegnando a ciascuno un peso differente in base alla sua rilevanza nel contesto.

Questo approccio consente di costruire una rappresentazione dinamica e profonda del significato di ogni parola, tenendo conto di come essa viene usata all’interno della frase o del paragrafo. È grazie a questo meccanismo che i LLM riescono a cogliere con precisione relazioni complesse, a gestire ambiguità linguistiche, metafore, ironie o riferimenti impliciti. Inoltre, la self-attention supera i limiti dei modelli sequenziali tradizionali (come le RNN), poiché consente di modellare contemporaneamente anche legami tra parole molto distanti tra loro, rendendo l’elaborazione più veloce, accurata e scalabile.

I sei step del funzionamento dei Large language models

Il funzionamento dei LLM può essere scomposto in sei passaggi fondamentali:

Tokenizzazione: è il processo che scompone il testo in unità minime chiamate “token”, che possono essere parole intere, radici, sillabe o anche singoli caratteri, a seconda della lingua e della strategia adottata. La tokenizzazione è essenziale perché trasforma il linguaggio umano, continuo e complesso, in una sequenza discreta di elementi che il modello può elaborare matematicamente.
Embedding: una volta che il testo è stato suddiviso in token, ciascuno di essi viene trasformato in un vettore numerico, chiamato embedding. Questo vettore rappresenta il significato del token in uno spazio multidimensionale, dove la distanza tra vettori riflette relazioni semantiche e sintattiche. Ad esempio, i vettori di parole simili nel significato tendono a essere vicini tra loro. Gli embedding consentono quindi al modello di “comprendere” il contenuto linguistico in modo matematicamente strutturato e di utilizzare queste rappresentazioni per il ragionamento e la generazione del linguaggio.
Codifica posizionale: i Transformer, a differenza delle architetture sequenziali tradizionali, non possiedono una memoria intrinseca dell’ordine dei token nel testo. Per compensare questa mancanza, si introduce la codifica posizionale. Un sistema che assegna a ciascun token un’informazione numerica che rappresenta la sua posizione nella sequenza. Questa codifica, spesso basata su funzioni sinusoidali o apprendimento diretto, viene sommata agli embedding dei token, permettendo al modello di distinguere tra la stessa parola usata in punti diversi del testo. È un passaggio fondamentale per preservare la struttura sintattica delle frasi e mantenere il senso del discorso.
Self-attention: è il meccanismo fondamentale che consente al modello di analizzare i rapporti tra tutti i token di una sequenza. In pratica, per ogni token, il modello valuta quanto siano rilevanti gli altri token presenti nel contesto e assegna loro dei “pesi” proporzionali alla loro influenza. Questo permette al modello di costruire una rappresentazione del significato di ciascun termine non in modo isolato, ma tenendo conto dell’intero contesto in cui appare.

La self-attention è ciò che permette ai LLM di comprendere frasi complesse, cogliere sfumature linguistiche, identificare relazioni tra parole distanti e gestire ambiguità semantiche. Inoltre, rende possibile l’elaborazione parallela delle sequenze, superando i limiti delle architetture sequenziali tradizionali e rendendo i Transformer altamente scalabili ed efficienti.

Strati feed-forward: dopo la fase di self-attention, i dati vengono elaborati da uno o più strati feed-forward, che consistono in reti neurali completamente connesse. Questi strati hanno il compito di trasformare e raffinare ulteriormente le rappresentazioni generate nella fase precedente. Ogni token viene trattato individualmente attraverso una serie di trasformazioni matematiche, tra cui moltiplicazioni matriciali, somma di bias e funzioni di attivazione non lineari.

Questa fase consente al modello di combinare le informazioni contestuali apprese con rappresentazioni astratte più profonde, incrementando la capacità di riconoscere pattern complessi nel linguaggio naturale e di generalizzare anche su frasi o testi mai visti prima.

Output generato: è la fase conclusiva del processo, in cui il modello produce il testo risultante sotto forma di una sequenza di token, basandosi sulle rappresentazioni elaborate nei passaggi precedenti. A ogni passaggio, il modello calcola la probabilità che ogni possibile token sia il successivo, e seleziona quello con la probabilità più alta (o secondo altre strategie controllate come top-k sampling o nucleus sampling).

Questo meccanismo di generazione consente al modello non solo di completare frasi, ma anche di rispondere a domande, riassumere testi, tradurre, scrivere codice o generare contenuti creativi. La qualità e la coerenza dell’output dipendono da molteplici fattori, tra cui la profondità del modello, la qualità dell’addestramento e le tecniche utilizzate durante la generazione.

Apprendimento degli LLM: dall’auto-apprendimento all’ottimizzazione

L’apprendimento di un Large Language Model è un processo articolato e stratificato che unisce fasi diverse, ognuna con obiettivi specifici. Questo percorso formativo consente al modello di acquisire una conoscenza linguistica di base, specializzarsi in compiti precisi e migliorare costantemente le proprie prestazioni nel tempo.

Pretraining (pre-addestramento): è la fase iniziale e più estensiva, in cui il modello viene esposto a vasti corpora di testo non etichettato. Il compito tipico durante il pretraining è la previsione del token successivo (causal language modeling) o la ricostruzione di parole mascherate (masked language modeling), a seconda dell’architettura. Questo apprendimento avviene in modo non supervisionato: il modello analizza miliardi di frasi provenienti da libri, siti web, articoli, codici sorgente e dialoghi, imparando a riconoscere schemi linguistici, regole grammaticali, relazioni semantiche e strutture logiche. L’obiettivo è costruire una base linguistica generalista che renda il modello adattabile a molteplici scenari.
Fine-tuning (messa a punto): una volta completato il pretraining, il modello viene raffinato su task specifici attraverso dati annotati. Questa fase può essere supervisionata o semi-supervisionata e consente di adattare il modello a contesti settoriali: medicina, diritto, finanza, programmazione o customer care. Una tecnica particolarmente efficace è il Reinforcement Learning from Human Feedback (RLHF), in cui esseri umani valutano le risposte generate dal modello e forniscono segnali di ricompensa, utilizzati per addestrare il modello tramite apprendimento per rinforzo. Questo metodo migliora la qualità, la coerenza e l’allineamento etico delle risposte, come descritto nello studio di Ouyang et altri.
Retrieval-Augmented Generation (RAG): questa tecnica rappresenta un’evoluzione fondamentale. Invece di basarsi unicamente sulla conoscenza appresa durante l’addestramento, un modello RAG è in grado di accedere a una base dati esterna, aggiornata e specializzata, per recuperare documenti o informazioni pertinenti durante la generazione del testo. Il contenuto recuperato viene integrato nel prompt, permettendo al modello di rispondere in modo più preciso, verificabile e aderente al contesto. Il RAG è particolarmente utile in ambito aziendale, scientifico e medico, dove la precisione e la fonte delle informazioni sono fondamentali per evitare allucinazioni o affermazioni infondate.
Ottimizzazione continua: oltre al fine-tuning, i LLM moderni beneficiano di strategie di ottimizzazione che li rendono più efficienti, sostenibili e flessibili:
- Continual learning: abilita il modello ad aggiornarsi senza dimenticare le conoscenze precedenti.
- Pruning: riduce i parametri inutilizzati per alleggerire il modello e accelerarne l’esecuzione.
- Quantizzazione e distillazione: comprimono i modelli mantenendo le performance, rendendoli adatti a dispositivi meno potenti.
- Architetture modulari: dividono il modello in componenti riutilizzabili e specializzabili, migliorando l’adattabilità a domini specifici.

Nel loro insieme, queste tecniche rendono i LLM strumenti sempre più efficaci, adattabili e allineati ai bisogni dell’utente, garantendo al contempo maggiore controllo, trasparenza e responsabilità nell’uso dell’intelligenza artificiale generativa.

Applicazioni pratiche degli LLM

I modelli linguistici di grandi dimensioni (LLM) stanno trovando applicazione in numerosi settori grazie alla loro capacità di comprendere, sintetizzare e generare linguaggio naturale. Le loro potenzialità stanno trasformando non solo il modo in cui le organizzazioni trattano i dati testuali, ma anche la qualità e la velocità delle decisioni prese in contesti complessi.

LLM in medicina: innovazione e personalizzazione delle cure

Nel settore sanitario, gli LLM vengono utilizzati per analizzare grandi volumi di dati clinici, supportare il processo diagnostico, generare referti e persino contribuire all’educazione medica continua:

Supporto alla diagnosi: uno studio nel Regno Unito ha mostrato che circa il 20% dei medici di base ha iniziato a utilizzare strumenti come ChatGPT per suggerimenti diagnostici e stesura di documenti clinici.
Ricerca genetica e analisi molecolare: gli LLM vengono utilizzati per interpretare sequenze genetiche e facilitare la scoperta di nuove terapie.
Formazione continua: modelli come ChatGPT sono utilizzati per fornire risposte rapide a quesiti medici da parte di studenti e professionisti, integrando l’apprendimento con contenuti aggiornati.

LLM nel marketing e nei media

Nel mondo del marketing e dei media, i LLM rappresentano strumenti potenti per automatizzare, personalizzare e ottimizzare la produzione di contenuti e l’interazione con il pubblico:

Analisi del sentiment e dei trend: interpretando grandi volumi di dati provenienti da social media e sondaggi, gli LLM aiutano a comprendere la percezione del pubblico e ad adattare le strategie di comunicazione.
Generazione di contenuti: scrittura automatica di testi per campagne pubblicitarie, articoli, email marketing e descrizioni di prodotto.
Chatbot intelligenti: i chatbot sono interfacce conversazionali basate su LLM che migliorano l’assistenza clienti e aumentano la soddisfazione dell’utente finale. In questo contesto stanno assumendo sempre più importanza anche gli agenti AI autonomi.

LLM nella pubblica amministrazione: efficienza e accessibilità

Anche il settore pubblico sta beneficiando delle capacità degli LLM, con un impatto rilevante su efficienza, accessibilità e trasparenza:

Automazione delle risposte ai cittadini: chatbot avanzati sono utilizzati per fornire risposte immediate a domande frequenti, migliorando il servizio e riducendo i carichi di lavoro amministrativi.
Personalizzazione dei servizi locali: LLM addestrati su documentazione interna permettono a enti locali e comunali di offrire risposte precise su normative e servizi.
Elaborazione e revisione di documenti ufficiali: automatizzando la stesura di atti, verbali e relazioni, gli LLM migliorano la produttività e la coerenza della comunicazione istituzionale.

Le prospettive future dei LLM puntano a miglioramenti sia tecnici che etici. L’arrivo di modelli sempre più multimodali, come GPT-4.5, capaci di gestire testo, immagini e video, prefigura un salto qualitativo importante.

Altri trend includono:

Modelli più piccoli ma altamente performanti
Sostenibilità energetica
Sistemi spiegabili e verificabili
Crescita dell’ecosistema open source

Il futuro dei LLM sarà sempre più orientato alla responsabilità, all’accessibilità e alla trasparenza.

@RIPRODUZIONE RISERVATA

Giovanni Masi

Computer Science Engineer

Ingegnere Informatico e dell'Automazione, con specializzazione in Cybersecurity e Intelligenza Artificiale. Coordina il gruppo di lavoro sull'Intelligenza Artificiale presso l'Ordine degli Ingegneri. Con oltre vent'anni di esperienza nel settore dell'Information Technology, ha maturato competenze avanzate nella progettazione e sviluppo di architetture software, nella gestione di infrastrutture IT complesse, nell'implementazione di strategie di cybersecurity e nella creazione di modelli di Intelligenza Artificiale. Svolge attività accademica come cultore della materia presso il Dipartimento di Ingegneria Informatica dell'Università eCampus. È autore e docente dei corsi "Intelligenza Artificiale per Ingegneri" e "Intelligenza Artificiale Generativa e Prompt Engineering" erogati presso l'Ordine degli Ingegneri, nell'ambito delle attività formative specialistiche rivolte ai professionisti del settore. Ha inoltre tenuto seminari sull'Intelligenza Artificiale presso la Pontificia Università Antonianum. Autore di numerosi articoli di settore, pubblicati su riviste scientifiche, nei quali approfondisce tematiche legate alla ricerca applicata nella Generative AI. Ha partecipato a importanti progetti di ricerca, tra cui "BioGene", un progetto supportato da NASA GeneLab, finalizzato all'analisi e all'estrazione di dati genomici da esperimenti spaziali e "Classificazione del livello di ossidazione dell'olio", uno studio innovativo condotto in collaborazione con l'Università Ben Gurion del Negev (Israele), volto all'analisi e alla classificazione dei processi di ossidazione negli oli.

Seguimi su