Le moderne tecnologie biomediche producono volumi di dati in continua crescita caratterizzati da livelli di complessità sempre maggiore. Secondo le stime emerse dall’indagine condotta da The European House – Ambrosetti, il comparto Life Science genera il 30% di tutto il volume dei dati prodotto ogni anno a livello mondiale.
I metodi tradizionali di analisi manuale dei dati o i metodi statistici convenzionali, pur essendo stati fondamentali per decenni di progressi scientifici, mostrano evidenti limiti innanzi a tale mole di dati. In questo contesto, l’avvento dei Large Language Models (LLMs) ha segnato un punto di svolta che ha consentito di superare tali limiti attraverso strumenti in grado di estrarre conoscenze significative da questa vasta marea di informazioni in continua crescita. Questi modelli, addestrati su enormi corpus di testi, hanno dimostrato una notevole capacità di comprendere e generare linguaggio naturale, aprendo nuove possibilità per l’analisi di testi scientifici, la sintesi di conoscenze e il supporto alla ricerca. Tuttavia, nonostante il loro impatto significativo, i LLMs presentano anche sfide considerevoli in termini di risorse computazionali, costi e accessibilità. In risposta alle sfide poste dai LLMs, stiamo assistendo all’emergere di una nuova generazione di modelli linguistici: gli Small Language Models (SLMs).
Cos’è uno Small Language Model
Gli Small Language Models (SLMs), o modelli linguistici di dimensioni ridotte, sono sistemi di intelligenza artificiale progettati per elaborare e generare testo, ma lo fanno attraverso un modello significativamente più compatto rispetto ai loro omologhi di grandi dimensioni (es: GPT, Claude, Gemini, etc.).
Le caratteristiche principali degli SLM sono riconducibili alle dimensioni di questi modelli che, generalmente hanno meno di 10 miliardi di parametri, in contrasto con i miliardi di parametri dei modelli più grandi. Questo ridotto numero di parametri consente una maggiore efficienza computazionale. Un SLM, grazie a queste caratteristiche, può essere eseguito su dispositivi con risorse limitate o per applicazioni in tempo reale.
Differenza tra LLM e SLM
I Large Language Models (LLMs) e gli Small Language Models (SLMs) sono aspetti distinti di due tipologie di modelli AI ognuno progettato per soddisfare esigenze specifiche e affrontare limitazioni particolari.
Gli LLM, come GPT-4 e altri modelli simili, sono caratterizzati da una notevole capacità di elaborazione linguistica, dovuta al loro vasto numero di parametri. Al contrario, gli SLM operano a una scala più ridotta, proponendo soluzioni pratiche per contesti in cui le risorse sono limitate.
I fattori sui quali questi due tipi di modello si differenziano sono tanti ed includono dimensioni, requisiti di addestramento, ambiti di applicazione e potenziali effetti. Per questo possiamo affermare che non esiste una linea che delimita il territorio nel quale si può parlare di LLM o di SLM, tuttavia esiste senza dubbio una differenza tra questi due modelli che consentono di indirizzare le le scelte strategiche che organizzazioni e ricercatori devono compiere nell’adozione di un modello linguistico.
SLM | LLM | |
---|---|---|
Dimensione e complessità | Richiedono meno di 10 miliardi di parametri il che li rende più piccoli e meno complessi. | Richiedono trilioni di parametri, il che comporta una complessità crescente e richiede notevoli risorse di calcolo e lunghi periodi di formazione. |
Dati di addestramento | Il ridotto numero di parametri consente un training rapido su dati specifici del dominio/caso d’uso, garantendo un’elevata specializzazione per attività o campi particolari. | Formazione basata su set di dati diversi ed estesi, che li prepara a gestire vari argomenti, anche se potrebbero non essere approfonditi in aree specifiche. |
Performance e Applicazioni | Eccellono in attività che richiedono conoscenze specifiche del dominio, precisione e velocità in un campo ristretto. | Offrono applicazioni più ampie grazie alla loro formazione generalizzata, che può funzionare bene in più domini. |
Personalizzazione | Più facile da personalizzare e adattare per applicazioni specifiche e più piccole | Richiede più risorse per la personalizzazione, meno adattabile ad applicazioni su piccola scala |
Esempi | Meerkat, Phi2, X Gen, Alpaca 7B Zephyr, OpenAI o1-mini, ecc. | GPT, PaLM, Llama, ecc. |
Gli LLM non sono la semplice somma di più SLM
In questo momento è diffuso un equivoco comune secondo cui un Large Language Model (LLM) sarebbe semplicemente la somma di più Small Language Models. Questa concezione, sebbene intuitivamente attraente, non riflette la realtà complessa e sofisticata di questi sistemi avanzati di elaborazione del linguaggio naturale.
Gli LLM sono entità unitarie e coese, progettate e addestrate come singoli sistemi di grandi dimensioni con architetture unificate. La loro potenza non deriva dall’aggregazione di modelli più piccoli, ma dalla scala e dalla complessità intrinseca della loro struttura. Con miliardi o addirittura trilioni di parametri interconnessi, questi modelli sviluppano capacità emergenti che trascendono la semplice somma delle parti.
L’addestramento end-to-end su vasti corpus di dati permette agli LLM di sviluppare rappresentazioni sofisticate e interconnesse del linguaggio. Durante questo processo, il modello non si limita ad accumulare conoscenze in compartimenti separati, ma costruisce una rete intricata di relazioni e connessioni tra concetti. Questa integrazione profonda è fondamentale per la capacità del modello di comprendere contesti, generare risposte coerenti e mostrare una forma di “ragionamento” che va oltre la mera elaborazione statistica.
Le proprietà emergenti degli LLM sono particolarmente significative. All’aumentare delle dimensioni del modello, si osservano capacità che non sono presenti negli SLM e che non potrebbero essere ottenute semplicemente combinandoli. Queste includono la comprensione di concetti astratti, la capacità di seguire istruzioni complesse e di adattarsi a nuovi compiti con pochi o zero esempi (few-shot e zero-shot learning).
Model ensembling e mixture of experts
L’uso combinato di tecniche quali il “model ensembling” o di architetture come il “Mixture of Experts” non rappresentano una semplice collezione di modelli più piccoli sommati insieme. Nel model ensembling, diversi modelli vengono utilizzati in parallelo in processi di classificazione nei quali ciascun modello darà un punteggio sulla predizione e il risultato sarà la classe che avrà ricevuto il maggior numero di voti. Questo metodo è dunque una semplice combinazione ponderata delle previsioni volta a migliorare l’accuratezza complessiva. L’uso di architetture mixture of experts (MoE) serve a dividere un LLM in sottoreti separate (o “esperti”), ciascuna specializzata in un sottoinsieme dei dati di input, per eseguire insieme un compito. In fase di elaborazione, attraverso un sistema di routing, si dirotta l’input verso uno o più esperti che, tuttavia, sono ancora parte di un’unica architettura integrata e addestrata in modo coordinato.
La complessità e la sofisticazione degli LLM richiedono un’architettura unificata che permetta l’emergere di capacità sinergiche. Questo è fondamentalmente diverso dall’approccio di combinare modelli più piccoli. La potenza di un LLM risiede nella sua capacità di sviluppare rappresentazioni olistiche e interconnesse attraverso la sua vasta rete di parametri, creando un sistema che è veramente maggiore della somma delle sue parti.
Gli LLM sono dunque esempi di come, nel campo dell’intelligenza artificiale, la scala e l’integrazione possono portare a salti qualitativi che vanno oltre la semplice addizione di componenti più piccole.
Come funzionano i modelli linguistici di piccole dimensioni (SLM)
Gli Small Language Models (SLM) sono progettati per offrire prestazioni elevate nell’elaborazione del linguaggio naturale, ottimizzando l’uso delle risorse disponibili ed impiegando approcci innovativi per raggiungere la massima efficacia. La loro architettura è concepita per ottenere risultati di qualità nell’interpretazione e generazione del linguaggio, pur mantenendo una struttura più snella e agile.
Pur condividendo le basi concettuali con i modelli linguistici di grandi dimensioni, gli SLM massimizzano l’efficienza adottando strategie specifiche che prevedono l’applicazione di alcune fondamentali tecniche finalizzate a comprimere le dimensioni, acquisire la conoscenza di un LLM attraverso distillazione e, infine, ottimizzare delle preferenze dirette al fine di specializzare la conoscenza sul dominio specifico delle attività che il modello dovrà eseguire.
I concetti chiave dell’elaborazione di SLM
I concetti chiave dell’elaborazione dei modelli linguistici di piccole dimensioni (SLM) sono quindi:
- Compressione del modello: Questa tecnica riduce le dimensioni del modello senza compromettere troppo le prestazioni e, in alcuni casi, migliorandole sensibilmente. Compressioni come il pruning (rimozione di connessioni neurali ridondanti), quantizzazione (riduzione della precisione numerica dei parametri), e altre tecniche, consentono agli SLM di funzionare in modo più efficiente su hardware con risorse limitate.
- Distillazione della conoscenza: La distillazione è una tecnica ben riconosciuta per trasferire conoscenza da un modello di grandi dimensioni (LLM) a uno più piccolo. Il “teacher model” (modello insegnante) fornisce allo “student model” (modello studente) probabilità più informative che aiutano lo SLM a raggiungere prestazioni elevate senza bisogno di altrettanti parametri.
- Ottimizzazione mirata: Dopo la distillazione, lo SLM viene ottimizzato ulteriormente per specifiche applicazioni o domini. Questo passaggio di “fine-tuning” è comune per assicurare che il modello si adatti a compiti particolari, migliorando le prestazioni in contesti specifici
Con queste tecniche, gli SLM riescono a mantenere prestazioni competitive in ambiti specifici, ma con una maggiore efficienza computazionale rispetto ai LLM, il che li rende più adatti a implementazioni in ambienti con risorse limitate o per applicazioni in tempo reale.
Vantaggi degli Small Language Models nel settore life science
Le caratteristiche tecniche degli SLMs sono tali da renderli particolarmente adatti al contesto life science perché in grado di soddisfare alcuni dei principali requisiti che caratterizzano questo mercato altamente regolamentato e raramente finanziato in modo adeguato.
La gestione dei dati sanitari è un tema particolarmente delicato e soggetto a regolamentazioni stringenti come il GDPR in Europa o l’HIPAA negli Stati Uniti. Gli SLMs, grazie alla loro architettura leggera, possono essere implementati localmente, su dispositivi a bassa potenza o server ospedalieri. Ciò consente di evitare il trasferimento di dati sensibili a piattaforme cloud esterne e di utilizzare esclusivamente l’infrastruttura locale, minimizzando i rischi di violazioni o esposizioni non autorizzate.
La possibilità di eseguire SLMs su infrastrutture a basso costo e contenuti requisiti prestazionali consente di portare questa tecnologia in ospedali e cliniche situati in zone rurali o in paesi in via di sviluppo, dove le risorse tecnologiche ed economiche possono essere limitate tanto quanto la connessione alla rete internet.
L’addestramento degli SLMs può essere agevolmente condotto su dataset specifici relativi a patologie o procedure mediche, offrendo così soluzioni personalizzate sulle esigenze di gruppi specifici di pazienti. Questo tipo di personalizzazione è fondamentale in un campo dove ogni paziente ha una storia clinica unica e dove le decisioni devono essere prese con grande attenzione alle specificità individuali. Per esempio, gli SLM possono essere impiegati nei sistemi di triage automatico, aiutando a smistare i pazienti in base alla gravità dei sintomi e alla priorità delle cure necessarie. Inoltre, possono supportare l’assistenza alla diagnosi, analizzando rapidamente grandi quantità di dati medici come esami del sangue, referti di imaging o cartelle cliniche, identificando potenziali pattern o anomalie che potrebbero sfuggire all’occhio umano.
Sul piano prestazionale, gli SLMs tendono ad essere più veloci nell’elaborazione e nella generazione di risposte rispetto ai modelli più grandi grazie al fatto che sono modelli specializzati su dataset relativi a domini specifici ed in grado di operare su compiti particolari.
L’importanza del design degli SLM
Dal nostro punto di vista, il vantaggio principale degli SLMs è rappresentato dal design. Fei-Fei Li, Co-Director dello Stanford Institute for human-centred AI, afferma che il nostro mondo è pieno di “piccole” intelligenze artificiali che operano ogni giorno sotto i nostri occhi ed in piena trasparenza. Dalla lettura dei codici postali sui pacchi alle funzionalità di identificazione dei volti nelle telecamere degli smartphone, dalla lettura degli assegni inseriti negli ATM ai sistemi di suggerimento. Il design è un fattore importante nel percorso di affermazione di ogni tecnologia ed il design degli SLMs è in grado di integrarsi più facilmente nei flussi di lavoro esistenti, come i sistemi di cartelle cliniche elettroniche (EHR) oppure come i processi amministrativi legati alla trascrizione delle note cliniche o alla gestione delle richieste di esami diagnostici. Inoltre, le applicazioni di monitoraggio remoto basate su SLM consentono ai pazienti di essere seguiti a distanza, garantendo una gestione più efficiente delle malattie croniche o dei pazienti post-operatori.
Potenziali applicazioni degli SLM nel settore sanitario e stato dell’arte
Gli Small Language Models (SLM) trovano diverse applicazioni pratiche nel settore sanitario, sfruttando la loro efficienza e specializzazione offrono un supporto prezioso lungo l’intero percorso di diagnosi, trattamento e prescrizione.
SLM e diagnostica
In ambito diagnostico, essi possono aiutare i medici a formulare diagnosi più accurate o differenziali, identificando pattern significativi nei dati clinici provenienti da referti medici, immagini diagnostiche e analisi di laboratorio. In questo contesto, la prescrizione medica può essere ottimizzata grazie alla capacità degli SLM di verificare le interazioni tra i farmaci, suggerire dosaggi personalizzati in base ai parametri del paziente e generare allerte per potenziali effetti collaterali o controindicazioni, migliorando così la sicurezza e l’efficacia dei trattamenti farmacologici. Inoltre, gli SLM consentono una personalizzazione avanzata dei trattamenti, analizzando dati genetici e fenotipici per suggerire terapie mirate, supportando la medicina di precisione e permettendo l’adattamento dinamico dei protocolli riabilitativi in base ai progressi individuali dei pazienti.
SLM nel campo dell’assistenza ai pazienti,
Nel campo dell’assistenza ai pazienti, gli Small Language Models possono essere impiegati per fornire informazioni mediche accurate e personalizzate, rispondere a domande specifiche e offrire supporto emotivo. Potenziando chatbot e assistenti virtuali sanitari, gli SLM permettono di rispondere in modo preciso a domande frequenti sulla salute, monitorare i sintomi, gestire il follow-up post-trattamento e inviare promemoria per l’assunzione di farmaci e appuntamenti medici.
Ottimizzazione della documentazione clinica con SLM
L’ottimizzazione della documentazione clinica rappresenta una sfida significativa, spesso compromessa dalla molteplicità e dalla disorganizzazione delle fonti di inserimento dati. In questo contesto, gli SLMs possono rivoluzionare la gestione della documentazione, trascrivendo e sintetizzando automaticamente le note mediche, generando riepiloghi delle visite e estraendo informazioni chiave dalle cartelle cliniche elettroniche. Questo approccio migliora notevolmente l’efficienza e l’accuratezza nella gestione delle informazioni sanitarie, riducendo errori e alleggerendo il carico amministrativo per i professionisti sanitari.
Spiegabilità e small language models
L’Intelligenza Artificiale Spiegabile (xAI) gioca un ruolo cruciale nel settore healthcare, migliorando la trasparenza e la fiducia nei sistemi di intelligenza artificiale.
A differenza degli LLMs, che possono contare su un volume maggiore di dati per generalizzare meglio, gli SLM operano con risorse limitate e sono più suscettibili a errori o bias durante la generazione di testo. Per questo motivo, la trasparenza e l’interpretabilità fornite dalla xAI sono fondamentali per migliorare la fiducia e la comprensione di come queste tecnologie funzionano.
Un problema chiave associato a qualsiasi modello linguistico, ma particolarmente rilevante per gli SLM, è quello delle allucinazioni. Come scritto nel nostro articolo “Correct But Misleading: AI Hallucinations In Complex Decision-Making“, le allucinazioni si verificano quando il modello genera risposte che sembrano plausibili, ma che in realtà sono false o incoerenti rispetto ai dati di input. In modelli più piccoli, dove la capacità di gestire grandi quantità di informazioni è limitata, queste allucinazioni possono diventare un problema significativo. Possono essere particolarmente pericolose quando utilizzate in contesti decisionali critici, come quello medico, legale o finanziario, dove informazioni erronee potrebbero portare a conseguenze gravi.
La xAI può mitigare questo rischio fornendo agli utenti un meccanismo per interrogare il modello su come è arrivato a una certa conclusione e, soprattutto, per individuare rapidamente possibili incongruenze o errori. Quando una risposta appare sospetta, la capacità di “spiegare” il percorso decisionale può aiutare gli esperti a prendere misure correttive e a evitare che un’allucinazione passi inosservata.
L’integrazione della xAI negli small language models rappresenta una delle chiavi per migliorare l’affidabilità e la sicurezza delle risposte generate. In un mondo sempre più dipendente dall’automazione, avere strumenti che garantiscano la trasparenza e la comprensibilità delle decisioni algoritmiche è fondamentale per evitare errori e per costruire fiducia nelle applicazioni dell’IA.
Sfide e direzioni future
Gli small language models (SLMs) stanno profondamente trasformando la ricerca nelle scienze della vita, ma è fondamentale affrontare le sfide emergenti e considerare le direzioni future per massimizzare il loro potenziale, garantendo al contempo un’applicazione etica e responsabile.
Il bias nei risultati dei modelli
Una delle sfide più pressanti riguarda il bias nei risultati dei modelli, che può derivare da pregiudizi presenti nei dati di addestramento. Pertanto, è essenziale sviluppare metodi robusti per identificare e mitigare tali bias, applicando tecniche di debiasing e diversificando le fonti di dati. La natura open-source di questi modelli rappresenta un vantaggio significativo, poiché permette a sviluppatori e ricercatori di collaborare per identificare, segnalare e correggere i bias, contribuendo a creare modelli più equi e rappresentativi.
Gestione di dati sensibili
Un’altra preoccupazione cruciale è la gestione di dati sensibili, come le informazioni dei pazienti, che solleva importanti questioni riguardo la privacy e la sicurezza. L’implementazione di tecniche come l’apprendimento federato consente di addestrare modelli su dati distribuiti senza centralizzarli, preservando così la privacy dei pazienti. Inoltre, l’adozione di metodi di privacy differenziale offre garanzie matematiche sulla protezione delle informazioni individuali, permettendo analisi aggregate senza compromettere la riservatezza degli individui.
Guardando al futuro, si prevedono diversi sviluppi promettenti nel campo degli SLMs applicato al comparto Life Science. Prima di tutto, ci si aspetta un aumento della specializzazione, con la creazione di SLMs progettati per applicazioni di nicchia in campi specifici come la genomica funzionale e la progettazione di proteine. In aggiunta, l’integrazione di questi modelli con altre tecniche di intelligenza artificiale, come il machine learning e la computer vision, aprirà nuove possibilità, come l’analisi combinata di dati testuali e immagini mediche per diagnosi più accurate.
Si prevede anche un’enfasi crescente sullo sviluppo collaborativo e sui contributi open-source, che accelereranno l’innovazione e miglioreranno la qualità dei modelli. Un ulteriore passo avanti sarà rappresentato dallo sviluppo di SLMs più efficienti, in grado di supportare applicazioni in tempo reale, come l’assistenza ai medici durante le consultazioni o l’analisi immediata di dati di laboratorio. Infine, la crescente integrazione degli SLMs nei flussi di lavoro clinici quotidiani non solo supporterà le decisioni mediche, ma migliorerà anche l’efficienza operativa complessiva.
In conclusione, mentre gli small language models continuano a trasformare la ricerca e la pratica nelle scienze della vita, è fondamentale affrontare proattivamente le sfide etiche e tecniche che emergono. Attraverso uno sviluppo responsabile e collaborativo, questi modelli hanno il potenziale per accelerare significativamente il progresso scientifico e migliorare la cura dei pazienti nei prossimi anni.
Bibliografia
Fei-Fei Li – The Worlds I See: Curiosity, Exploration, and Discovery at the Dawn of AI – Flatiron Books
Sunita Tiwary – Small is the new big: The rise of small language models – Capgemini 2024
Sally Beatty – Tiny but mighty: The Phi-3 small language models with big potential – Microsoft 2024
MiniCPM: Unveiling the Potential of Small Language Models with Scalable Training Strategies – COLM 2024 https://openreview.net/forum?id=3X2L2TFr0f¬eId=QvwPc5chyd
DeepSeek-Coder-V2: Breaking the Barrier of Closed-Source Models in Code Intelligence – https://arxiv.org/pdf/2406.11931
Estlund, D. M. 1994. «Opinion Leader, Indipendenza e teorema della giuria di Condorcet.» Teoria e decisione.
Freund, Y. e R.E. Schapire. 1996. «Sperimenta con un nuovo algoritmo di potenziamento». Atti della 13a International Conference on Machine Learning.
Breiman, L. 2001. «Foreste casuali». Machine Learning.
Srivastava, N., G. Hinton, A. Krizhevsky, I. Sutskever e R. Salakhutdinov. 2014. «Abbandono: Un modo semplice per impedire alle reti neurali di sovrascrivere.» Giornale di ricerca sul Machine Learning.
Lakshminarayanan, B., A. Pritzel e C. Blundell. 2017. «Stima dell’incertezza predittiva semplice e scalabile con Deep Ensemble.» Progressi nei sistemi di elaborazione delle informazioni neurali.
Ovadia, Y., E. Fertig, J. Ren, Z. Nado, D. Sculley, S. Nowozin, J.V. Dillon, B. Lakshminarayanan e J. Snoek. 2019. «Puoi fidarti dell’incertezza del tuo modello? Valutazione dell’incertezza predittiva sotto lo spostamento del set di dati.» 33a Conferenza sui sistemi di elaborazione delle informazioni neurali (NEuriPS 2019).
Fort, S., H. Hu e B. Lakshminarayanan. 2019. «Deep Ensemble: Una prospettiva di perdita del paesaggio.»
Towards Holistic Disease Risk Prediction using Small Language Models – 2024 https://arxiv.org/abs/2408.06943
Remco Jan Geukes Foppen Ph.D., esperto di intelligenza artificiale e scienze della vita. È sensibile all’impatto dell’intelligenza artificiale sulla strategia aziendale e sui processi decisionali. Remco è un dirigente aziendale internazionale con comprovata esperienza nel settore farmaceutico e delle scienze della vita. Ha guidato iniziative commerciali e aziendali in analisi delle immagini, gestione dei dati, bioinformatica, analisi dei dati di sperimentazioni cliniche tramite apprendimento automatico e apprendimento federato per una varietà di aziende. Remco Jan Geukes Foppen ha un dottorato di ricerca in biologia e ha conseguito un master in chimica, entrambi presso l’Università di Amsterdam. È raggiungibile su LinkedIn | |
---|---|
Vincenzo Gioia, stratega dell’innovazione AI. È un dirigente aziendale e tecnologico, con un focus ventennale su qualità e precisione per la commercializzazione di strumenti innovativi. Vincenzo è specializzato in intelligenza artificiale applicata all’analisi delle immagini, business intelligence ed eccellenza. La sua attenzione all’elemento umano delle applicazioni tecnologiche ha portato a tassi elevati di implementazione delle soluzioni. Ha conseguito un master presso l’Università di Salerno in scienze politiche e marketing. È raggiungibile su LinkedIn. | |
Alessio Zoccoli applica l’IA per un futuro sostenibile. La sua profonda comprensione delle applicazioni industriali e la competenza tecnica guidano l’innovazione nelle soluzioni basate sull’IA per sfide aziendali complesse. È specializzato in progressi all’avanguardia nell’elaborazione del linguaggio naturale, nella visione artificiale e nell’IA generativa. È un Senior Data Scientist e ha conseguito un master presso l’Università Roma Tre in Ingegneria informatica, dove ha anche ricoperto il ruolo di ricercatore. È raggiungibile su Linkedin. |