Non credo vi siano dubbi sul fatto che i grandi modelli come GPT, Gemini, sono qui per restare ed evolversi. Questi mega modelli sono ingegnerizzati per essere eseguiti su grandi infrastrutture di calcolo e con richieste significative sia di capacità computazionale che di energia. Ad ogni rilascio questi modelli vengono addestrati con quantità sempre maggiori di informazioni e il grande numero di parametri consente al modello di trattenere molti dati oltre ad esibire una certa capacità di ragionamento.
Definizione ed esempi di SLM
Si parla però sempre di più di modelli più piccoli al punto tale che all’acronimo LLM si è rapidamente affiancato SLM passando da “Large” a “Small”.
La definizione di “small language model” non è formalizzata, ma generalmente SLM riferisce quei modelli che hanno un numero di parametri inferiore agli LLM al punto da poter essere eseguiti su dispositivi personali. In numero di parametri spesso ci riferisce agli SLM quando il numero di parametri sia inferiore a sette miliardi (tipicamente tre o meno).
Sono esempi di SLM la classe di modelli Phi di Microsoft, e il modello gemma 2B di Google, e si cominciano a vedere modelli open sul sito hugging face con un numero di parametri inferiore al miliardo.
E Gpt-4o mini?
Questa definizione non include il nuovissimo modello GPT-4o mini appena rilasciato da OpenAI per aggiornare il modello GPT-3.5, e la qualificazione di “mini” non lo rende small come modello.
Quanto costa fare 2+2 con l’AI?
Il numero di parametri di un modello da un’idea del numero di pesi che definiscono un’enorme matrice che rappresenta le connessioni della rete neurale. Ad ogni passo di elaborazione tutti questi pesi vengono utilizzati in calcoli per ogni uso del modello, anche quando si chiede quanto faccia “2 + 2”.
Per questo motivo più parametri caratterizzano un modello più sarà il costo computazionale per la sua esecuzione, e di conseguenza le risorse di calcolo e l’energia assorbita.
Quanta energia consuma l’AI
La tecnologia attuale dell’AI è tremendamente energivora se confrontata col nostro cervello che si stima funzionare con 20W di energia per elaborare continuamente le 100 trilioni di connessioni (qualcosa che assomiglia al parametro di una rete neurale artificiale sebbene più complesso). Si può sicuramente pensare che possiamo migliorare significativamente l’efficienza dei nostri modelli da un punto di vista computazionale, ma il paragone (del tutto arbitrario) col nostro cervello sembrerebbe dare importanza al numero di “parametri”.
Con le conoscenze attuali però l’unico modo per rendere un modello eseguibile su un dispositivo mobile o su un PC è sicuramente legato alla riduzione del numero di parametri e dunque della dimensione del modello stesso.
Un’altra dimensione importante è quella della natura delle operazioni fatte con i parametri. I modelli possono rappresentare i pesi delle connessioni tra neuroni come numeri in virgola mobile oppure usando degli interi (modelli quantizzati), un approccio meno preciso ma che richiede meno capacità computazionale.
Conoscenza e ragionamento: cosa aspettarsi dagli SLM
Cosa ci si può aspettare dagli SLM? C’è molto dibattito se la riduzione di parametri e di conseguenza le minori informazioni disponibili possano in qualche modo limitare l’utilità di modelli SLM a causa della minore predicibilità sia nel ragionamento che nelle conoscenze.
Eppure, quando si provano gli SLM l’impressione che si ha, nel caso di modelli come ad esempio Phi, è che la capacità di ragionamento sia sorprendentemente buona nonostante le dimensioni ridotte. Ma si tratta di un modello di confine, anche nella sua forma “mini” ha 3B parameters, un ordine di grandezza in più di alcuni modelli che operano con qualche centinaio di milioni di parametri.
Benchmark e modelli di confronto con LLM
Ciascuno di questi SLM presenta benchmark e modelli di confronto con LLM, ma dopo qualche interazione spesso le aspettative del modello vengono deluse se confrontate con i modelli LLM.
Se prendiamo un modello della clase Phi di Microsoft con meno parametri è evidente che le sorprendenti capacità della versione 3 del modello spariscono quasi interamente nella versione 2 nonostante il nuovo modello richieda solo il doppio delle risorse rispetto a quella precedente.
Anche nell’evoluzione della prima generazione di modelli LLM è risultato evidente che la crescita nel numero dei parametri è stato un fattore determinante nello sviluppare comportamenti utili.
Successivamente l’ottimizzazione ha portato a modelli che con un numero di parametri paragonabile a modelli di qualche anno fa esibiscono comportamenti decisamente superiori. È lecito quindi aspettarsi che gli investimenti per comprimere i modelli portino gradualmente a modelli SLM più capaci, come auspicato da Google Chrome che sarà in grado di eseguire direttamente nel browser il modello gemma nano. In questo momento anche Google indica laptop e desktop come sistemi di riferimento sottolineando come sarà necessario anche lo sviluppo di maggiori capacità computazionali nei dispositivi mobili.
È difficile anche capire quanto la capacità di ragionare di un modello SLM dipenda dalla quantità di parametri, e anche questa dimensione dovrà essere approfondita poiché la capacità di trattenere informazioni al suo interno è legata ai parametri che si possono usare durante l’apprendimento, almeno per i modelli basati sull’architettura transformers.
Conclusioni
L’attenzione sullo sviluppo e l’evoluzione di SLM è importante, e sembra ragionevole che in un futuro prossimo questi modelli potranno rappresentare una risorsa nello sviluppo di applicazioni. In questo momento gli SLM possono trovare spazio in applicazioni verticali dove anche limitate capacità possono essere utili. La necessità di risorse di calcolo disponibili su computer desktop avvicina la possibilità di eseguire modelli localmente, ma la richiesta di energia per la loro esecuzione limita la loro applicazione se un sistema non è offline.