Il clamore suscitato dai modelli di intelligenza artificiale LLM come ChatGPT o Google Bard ha inevitabilmente spinto tutti a prevedere il futuro e soprattutto cercare di capire quanto questi modelli possano essere miniaturizzati all’interno di chip in modo che i dispositivi che usiamo tutti i giorni possano esibire comportamenti autonomi e, auspicabilmente, intelligenti. Si tratta di una questione centrale al funzionamento dell’AI, già oggi vi sono poche entità capaci di addestrare i grandi modelli ed eseguirli, rendendoli accessibili agli utenti attraverso API e un modello di pagamento capace di coprire i costi di servizi energivori che, nel caso di ChatGPT 3.5, si stima costi oltre 700.000 dollari al giorno.
La dimensione di un modello come GPT-J, paragonabile in prestazioni a GPT-3, è di poco meno di due terabyte, e la sua esecuzione beneficia, o per meglio dire richiede, dell’ausilio di una GPU per poter funzionare nella fase di inferenza. Si tratta di un modello che può eseguire su un PC abbastanza carrozzato, sicuramente non consente la miniaturizzazione su dispositivi IoT come ad esempio un Raspberry PI. Inoltre al crescere dei modelli il fattore di compressione dei dati in ingresso tende a diminuire portando a modelli di dimensioni ancora più grandi. Non è quindi lecito attendersi che le tecniche che impieghiamo per la produzione di modelli consentano una sostanziale compressione del modello e pertanto sembra che per il momento i grandi modelli di AI generativa saranno accessibili a piccoli dispositivi solo attraverso la rete, condizionandone quindi i possibili impieghi.
Comprendere il funzionamento per ottimizzare
Se si pone lo sguardo oltre lo stupore provocato dal comportamento sorprendente di questi sistemi è incredibile quanto sia scarsa la nostra piena comprensione del loro funzionamento e del ruolo giocato dai singoli elementi di una struttura dati che è stata appresa e che rappresenta la conoscenza dell’intelligenza artificiale. Questo rende difficile immaginare un’ottimizzazione del modello basata su algoritmi smart, e la scarsa comprensione che pochi elementi possano giocare tra 175 miliardi non sembra rendere il compito particolarmente facile.
Nel tempo sono state sperimentate numerose tecniche per ottimizzare le reti neurali, incluso quello di escludere gruppi di neuroni selezionati casualmente e misurare il degrado di prestazione della rete per assicurare che possa essere accettabile, in pratica è come simulare dei mini ictus nella rete per poi successivamente misurare la capacità di recupero della rete.
È interessante una ricerca condotta da OpenAI in cui per comprendere il comportamento dei neuroni del modello del sistema GPT-2 hanno usato l’AI di GPT-4. Questo primo lavoro presenta limiti significativi, ma non sembra che la tecnica sia interamente da buttar via anche se per ora le misurazioni ottenute non consentono di trarre conclusioni reali, e soprattutto le prestazioni peggiorano in modo sensibile al crescere del numero di parametri del modello.
Sicuramente si tratta di un’idea non senza fascino, e comunque l’analisi di miliardi di neuroni e molte più connessioni costituisce un compito decisamente arduo per comprendere il funzionamento di queste nuove intelligenze artificiali.
In ogni caso, non sembra che a breve assisteremo a modelli di AI generativa capaci di essere ridotti a taglie da consentirne l’esecuzione su piccoli dispositivi. Va però sottolineato che esistono numerose reti neurali le cui dimensioni sono più che adeguate ad una loro installazione su piccoli dispositivi e le cui capacità possono essere più che adeguate allo svolgimento di compiti specifici.
Specializzare i chip per i modelli AI
Sebbene i processi produttivi sembrino raggiungere limiti fisici invalicabili dal punto di vista della miniaturizzazione, anche con l’uso di tecniche di litografia ad ultra violetti, è indubbio che la progettazione di chip specializzati per funzioni dedicate piuttosto che general purpose possa consentire il raggiungimento di prestazioni adeguate per specifici compiti senza contare sul fatto che il numero di transistor per unità di superficie continui a crescere come ha fatto per decenni.
In ogni caso i processi produttivi diventeranno sempre più costosi ed inevitabilmente porteranno ad un incremento dei costi sia di acquisizione di nuovi chip che dei costi energetici legati all’energia da dissipare dovuta all’alta integrazione. Le GPU, dispositivi centrali per l’esecuzione efficiente di reti neurali, seguiranno sicuramente questo trend, rendendo difficile la miniaturizzazione di modelli di reti neurali. Sicuramente la disponibilità di memorie a stato solido sempre più capaci e performanti potrebbe contribuire a cambiare lo scenario offrendo un nuovo modo per memorizzare ed utilizzare modelli di intelligenze artificiali, ma sicuramente non si tratta di tecnologie già disponibili oggi.
L’importanza del perché
La natura stocastica del funzionamento delle AI generative, dovuta alla selezione in parte casuale dell’output, pone non pochi problemi sulla capacità di controllare il comportamento di una AI. È importante quindi cercare di capire, almeno in parte, il funzionamento di un modello appreso così da poter verificare che certi comportamenti non si possano verificare. In assenza di questa predittività la mediazione umana per utilizzare questi strumenti rimarrà una necessità in molti impieghi e sicuramente si tratta di una buona notizia in ottica di posti di lavoro e di controllo di queste tecnologie. Basti pensare al clamore suscitato dall’avvocato americano che si è appellato a precedenti totalmente inventati dal ChatGPT.
Per ora quindi gli ambiti di applicazione e le opzioni di miniaturizzazione di questi modelli restano un miraggio. Ma contrariamente al passato, in cui la ricerca di algoritmi più efficienti ha contribuito in modo significativo all’ottimizzazione dei sistemi, ora è necessario capire come ottimizzare i modelli appresi, e quindi, in ultima analisi, perché funzionano in questo particolare modo.
Conclusioni
Il raggiungimento dei limiti fisici di miniaturizzazione nella produzione di chip non potrà che incoraggiare la specializzazione dei chip per poter utilizzare meglio i transistor che si possono miniaturizzare al loro interno. È quindi lecito attendere annunci di chip sempre più specializzati, continuando nel percorso di graduale abbandono dei chip generali attorno a cui abbiamo realizzato i computer per oltre 50 anni. I nuovi chip resteranno general purpose, ma dal punto di vista delle prestazioni sarà essenziale la scelta delle funzioni da ottimizzare, cosa che già accade nelle nuove architetture di CPU basate su chiplet.