La distillazione: grazie al boom di Deepseek si sta affermando sempre più questa tecnica che può contribuire a rendere ancora più trasformativa l’’Intelligenza Artificiale, con un impatto in diversi settori, dall’automazione “smart” alla sanità 5.0, passando dalla finanza alla produzione industriale.
Sappiamo che uno degli ostacoli principali alla sua diffusione è rappresentato dai costi elevati legati allo sviluppo e all’implementazione dei modelli, che richiedono enormi risorse in termini di dati e potenza di calcolo (e non solo[1]).
Indice degli argomenti
Cos’è la distillazione dell’intelligenza artificiale
Qui interviene la tecnica innovativa chiamata “distillazione” dell’Intelligenza Artificiale[2].
Cos’è la distillazione? Questo termine, comunemente associato alla separazione dei liquidi, attiene a una metodologia che sta aprendo nuove opportunità in campo tecnologico, consentendo alle aziende di creare modelli di Intelligenza Artificiale più economici e agili, non andando, quindi, a intaccare la loro performance tecnologica. Ma come funziona esattamente la distillazione e quali implicazioni ha per il futuro dell’Intelligenza Artificiale? Vediamolo insieme.
Deepseek
Il concetto di distillazione ha attirato l’attenzione internazionale dopo che DeepSeek, la startup cinese assurta agli onori della cronaca alcune settimane or sono[3], ha utilizzato questa tecnica per costruire il suo omonimo modello di Intelligenza Artificiale potente ed efficiente, sfruttando sistemi open-source rilasciati dai suoi più famosi concorrenti oltreoceano (come OpenAI e Google).
La “mossa del Dragone” ha messo in discussione la posizione dominante della Silicon Valley nel settore dell’Intelligenza Artificiale, tanto che gli investitori (non solo di Wall Street) hanno visto il valore delle azioni di alcune grandi aziende tecnologiche statunitensi crollare dopo mesi di ascesa incontrastata (si pensi al colosso dei processori Nvidia[4]).
Come funziona la distillazione
Ma cosa implica esattamente il processo di distillazione? In termini semplici, le aziende partono da un grande modello linguistico, definito “modello maestro” (in inglese, “teacher model”), che è in grado di prevedere la parola successiva in una frase. Il modello maestro crea dati che vengono poi utilizzati per addestrare un “modello studente” più piccolo (in inglese, “student model”), trasferendo in modo rapido le conoscenze e le previsioni del modello grande al modello più contenuto.

Sebbene la distillazione sia una tecnica nota da anni, gli sviluppi recenti hanno portato esperti del settore a credere che questa possa essere una chiave fondamentale per le aziende che cercano di realizzare applicazioni basate sull’Intelligenza Artificiale, ma a costi contenuti. La distillazione è considerata un processo straordinario, poiché permette di prendere un modello di grandi dimensioni e utilizzarlo per insegnare a un modello più piccolo, che, seppur più compatto, è comunque altamente capace in compiti specifici e risulta economico e veloce da eseguire.
I modelli linguistici di grandi dimensioni, come quelli sviluppati da alcune delle principali aziende tecnologiche mondiali (ChatGPT di OpenAI, Gemini di Google e Llama di Meta in “pole position”), richiedono enormi risorse in termini di dati e potenza di calcolo per essere sviluppati e mantenuti.
Il risparmio con la distillazione
E sebbene i colossi del settore non rivelino cifre precise sui costi sostenuti, è probabile che siano necessari centinaia di milioni di dollari per addestrare questi modelli linguistici di grandi dimensioni (LLM). La distillazione offre una soluzione a questo problema: grazie a questo processo, gli sviluppatori possono sfruttare le capacità di questi modelli senza dover affrontare gli altissimi costi di sviluppo. Inoltre, i modelli “distillati” possono essere eseguiti rapidamente su dispositivi come laptop e smartphone, permettendo alle aziende di integrare l’Intelligenza Artificiale nelle loro applicazioni in modo semplice ed economico.
Come fare
Alcune piattaforme offrono strumenti specifici per la distillazione, permettendo agli sviluppatori di “imparare” dai modelli linguistici di grandi dimensioni alla base di prodotti noti. Un esempio di applicazione di questo processo è l’uso di modelli distillati per sviluppare famiglie di modelli linguistici più piccoli ma altrettanto performanti, grazie all’adozione di un processo commerciale che ha visto ingenti investimenti in questo ambito. Vedi o3 mini di Openai.
I limiti della distillazione
Tuttavia, c’è anche un rovescio della medaglia. La distillazione potrebbe essere utilizzata anche in modo non autorizzato, con il rischio che alcuni modelli vengano sfruttati per addestrare i loro stessi “concorrenti”. Questo mette in evidenza una delle principali preoccupazioni legate al processo: l’uso improprio dei modelli di Intelligenza Artificiale. Inoltre, gli esperti, pur riconoscendo i vantaggi della distillazione, avvertono che i modelli più piccoli hanno delle limitazioni.
Sebbene un modello distillato possa eccellere in compiti specifici, come il riassunto delle email, le sue capacità saranno comunque ridotte rispetto a quelle di un modello più grande e complesso. Tuttavia, la maggior parte delle aziende non ha bisogno di modelli enormi per gestire attività quotidiane (si pensi ai i chatbot per l’assistenza clienti). I modelli distillati sono infatti perfetti per questi scopi e sono più economici e facili da implementare. In pratica, ogni volta che si può ridurre il costo mantenendo le prestazioni desiderate, la distillazione si rivela un’opzione interessante.
Tuttavia, questa situazione rappresenta una sfida per i modelli di business di molte delle aziende leader nel settore dell’Intelligenza Artificiale. I modelli distillati, seppur efficaci, generano meno entrate rispetto ai modelli di grandi dimensioni, che richiedono maggiore potenza di calcolo e offrono prestazioni superiori. In questo contesto, le aziende cercano di proteggere i loro modelli più complessi, monitorando l’uso per evitare che vengano sfruttati per addestrare concorrenti.
Il ruolo open source
Ma c’è anche un lato positivo per i sostenitori dei modelli open-source. Alcune realtà hanno reso pubblici i propri modelli recenti, permettendo a chiunque di utilizzarli per sviluppare nuove applicazioni. La filosofia dell’open-source, infatti, permette di beneficiare dei progressi di tutti, con la condizione che i processi restino aperti. La distillazione, dunque, non solo sta cambiando il modo in cui le aziende sviluppano e utilizzano l’Intelligenza Artificiale, ma sta anche ridisegnando le dinamiche competitive nel settore. Le risorse economiche non sono più l’unico fattore determinante: con la distillazione, anche i più piccoli sviluppatori possono accedere a modelli avanzati e competere con i colossi della tecnologia in tempi rapidi. Con il continuo miglioramento della tecnica, la distillazione potrebbe presto diventare uno strumento indispensabile per tutte le realtà che vogliono sfruttare il potenziale dell’Intelligenza Artificiale.
I nuovi approcci alla distillazione: perplexity
In una pubblicazione di fine 2024[5], dei ricercatori di alcune università cinesi (Shenzen e Pechino) e del colosso Huawei hanno introdotto un nuovo approccio alla distillazione chiamato “Prompt Learning with Perplexity”, pensato per migliorare l’addestramento dei modelli “Vision-Language”, che combinano dati visivi e testuali, come il modello CLIP.
L’obiettivo principale di questa ricerca è quella di ottimizzare l’apprendimento dei prompt (ovvero le istruzioni testuali che guidano l’elaborazione delle immagini da parte dei modelli), per renderlo più efficace e meno incline a “overfitting”, evitando quindi quello “spiacevole caso” in cui l’algoritmo si adatta troppo fedelmente ai suoi dati di addestramento, dando luogo a un modello che non è in grado di effettuare previsioni o conclusioni accurate da dati diversi dai dati di addestramento[6].
Per raggiungere questo obiettivo, i ricercatori cinesi hanno introdotto l’uso della “perplessità” (in inglese, “perplexity”), una misura che indica “quanto un modello predice bene i dati”, come strumento di regolarizzazione. La perplessità aiuta a migliorare la capacità del modello di generalizzare meglio sui dati e a non adattarsi troppo ai dettagli specifici del suo dataset di riferimento. Una delle innovazioni principali di questa metodologia è l’uso della perplessità come forma di “auto-distillazione” (e qui torniamo al nostro argomento).
L’auto-distillazione è un processo che permette a un modello di “distillare”, appunto, le proprie conoscenze in un formato che rende più facile l’apprendimento da parte di un modello più semplice. Nel caso di Prompt Learning with Perplexity, la perplessità funge da meccanismo per distillare le informazioni linguistiche in modo che il modello possa apprendere in modo più efficiente dai dati visivi.
Questo approccio accelera il processo di addestramento e migliora la convergenza del modello, senza la necessità di aggiungere modelli complessi o aggiuntivi. Inoltre, Prompt Learning with Perplexity è progettato per essere molto più efficiente in termini di risorse computazionali. Una delle caratteristiche principali di questa tecnica è che il calcolo della probabilità di parola – per la perplessità – non richiede un nuovo modello di linguaggio da addestrare, ma si avvale invece di modelli linguistici già esistenti, riducendo così significativamente il carico computazionale.
Questo rende Prompt Learning with Perplexity particolarmente vantaggioso per applicazioni su larga scala, dove l’efficienza in termini di tempo e risorse è cruciale. I risultati sperimentali mostrano che il metodo Prompt Learning with Perplexity è in grado di superare le tecniche tradizionali nei compiti di classificazione delle immagini, migliorando le prestazioni complessive del modello.
Inoltre, mantiene un elevato livello di efficienza computazionale, facendo sì che i modelli “Vision-Language” addestrati con questo approccio siano in grado di ottenere risultati superiori senza un aumento significativo delle risorse necessarie.
Ciò dimostra, quindi, che l’integrazione della perplessità come strumento di regolarizzazione e l’auto-distillazione possa essere una via promettente per migliorare le capacità dei modelli nell’elaborazione multimodale di immagini e testo. In sintesi, abbiamo a che fare con una soluzione innovativa che ottimizza l’addestramento dei modelli “Vision-Language”, riducendo la complessità computazionale e migliorando le prestazioni nei compiti di classificazione.
L’uso della perplessità come strumento di regolarizzazione, insieme all’auto-distillazione, apre nuove prospettive per la costruzione di modelli di Intelligenza Artificiale più efficienti e performanti, rendendo l’approccio più accessibile e scalabile anche su larga scala.
Gli impatti e le prospettive della distillazione
Insomma: la distillazione dell’Intelligenza Artificiale rappresenta un passo significativo verso l’abbattimento delle barriere economiche e tecnologiche che hanno finora limitato l’accesso a soluzioni avanzate di Intelligenza Artificiale. Con la capacità di ridurre i costi senza compromettere le prestazioni, questa tecnica sta permettendo alle aziende, anche alle più piccole, di sfruttare modelli intelligenti per sviluppare applicazioni innovative in modo più rapido ed economico.
Tuttavia, le sfide legate alla protezione della proprietà intellettuale e all’uso non autorizzato dei modelli rimangono. In ogni caso, l’evoluzione della distillazione dimostra come l’Intelligenza Artificiale, una tecnologia che solo pochi anni fa sembrava un’esclusiva dei colossi tecnologici, possa ora essere alla portata di una gamma più ampia di sviluppatori e imprese.
Con l’accelerazione di questa trasformazione, è probabile che la distillazione diventi uno degli strumenti fondamentali per navigare nel futuro dell’Intelligenza Artificiale, dove accessibilità, innovazione e concorrenza si intrecciano in modo sempre più dinamico.[7]
Note
[1] Explained: Generative AI’s environmental impact. MIT News. https://news.mit.edu/2025/explained-generative-ai-environmental-impact-0117
[2] Understanding the Essentials of Model Distillation in AI. Medium. https://medium.com/stream-zero/understanding-the-essentials-of-model-distillation-in-ai-1e97403bee8a
[3] DeepSeek: perché l’AI low cost cinese è un grosso problema. Agenda Digitale. https://www.agendadigitale.eu/cultura-digitale/deepseek-lai-low-cost-cinese-che-fa-paura-agli-usa-e-fa-gioco-allue/
[4] DeepSeek affonda l’IA e l’ETF su Nvidia perde il 51% in un giorno. Morning Star. https://www.morningstar.it/it/news/259920/deepseek-affonda-lia-e-letf-su-nvidia-perde-il-51-in-un-giorno.aspx
[5] PLPP: Prompt Learning with Perplexity Is Self-Distillation for Vision-Language Models. Arxiv. https://arxiv.org/html/2412.15277v1#abstract
[6] Cos’è l’overfitting? IBM. https://www.ibm.com/it-it/think/topics/overfitting
[7] AI companies race to use ‘distillation’ to produce cheaper models. Financial Times. https://www.ft.com/content/c117e853-d2a6-4e7c-aea9-e88c7226c31f