Normalized Transformer

nGPT: così Nvidia cambia tutto nell’apprendimento AI

NVIDIA presenta nGPT, un’innovativa architettura Transformer che promette di accelerare fino a 20 volte l’apprendimento dei modelli AI attraverso l’ottimizzazione su superficie ipersferica. Nonostante i potenziali vantaggi, l’overhead computazionale dell’80% per contesti lunghi solleva dubbi sulla sua applicabilità pratica su larga scala

Pubblicato il 28 ott 2024

Luca Sambucci

Esperto di intelligenza artificiale, Head of Artificial Intelligence presso SNGLR Group

Un nuovo modello chiamato nGPT, presentato da NVIDIA, introduce una particolare innovazione nell’architettura Transformer, ottimizzando l’apprendimento su una superficie “ipersferica”. Questa architettura promette velocità di apprendimento fino a 20 volte superiori rispetto ai modelli tradizionali, con impatti potenzialmente profondi sulla performance dei modelli di intelligenza artificiale, in base al contesto di utilizzo.

Nvidia AI Introduces the Normalized Transformer (nGPT)

Guarda questo video su YouTube

Indice degli argomenti

Una nuova frontiera per i Transformer

NVIDIA ha recentemente introdotto un’architettura chiamata Normalized Transformer (nGPT), che potrebbe cambiare radicalmente il panorama dell’addestramento dei sistemi di intelligenza artificiale. Il cuore di questo nuovo approccio è l’ottimizzazione dell’apprendimento su un’ipersfera, ovvero una superficie geometrica multidimensionale che permette di rappresentare i vettori con una norma costante. Questa uniformità elimina variazioni nei valori che potrebbero rendere instabile l’addestramento, riducendo al minimo i rischi di fluttuazioni improvvise e permettendo al modello di operare in modo più regolare e prevedibile rispetto ai Transformer tradizionali. Il concetto in sé non è nuovo, ma nGPT lo estende in modo sistematico a tutte le componenti principali del modello, compresi gli embedding, le matrici di attenzione e i blocchi MLP (Multi-Layer Perceptron).

Mentre il Transformer tradizionale, che ha visto un’enorme popolarità con modelli come GPT, si affida a tecniche di normalizzazione più tradizionali, nGPT porta questa idea a un livello superiore, utilizzando ipernorme per tutte le sue matrici di embedding e stati nascosti.

Embedding, matrici, ipersfere e ipernorme

Gli embedding sono rappresentazioni numeriche di dati complessi come parole o immagini, tradotti in vettori di numeri che il modello può elaborare. Ad esempio, in un modello di linguaggio, ogni parola viene rappresentata come un vettore in uno spazio multidimensionale, dove parole con significati simili (letto, dormire, sonno, ecc) sono vicine. Le matrici, invece, sono tabelle di numeri utilizzate nei modelli di AI per eseguire complesse operazioni matematiche. Queste operazioni sono il “cuore” del funzionamento di un modello, che calcola previsioni basandosi su manipolazioni numeriche.

Sotto il cofano dei sistemi GPT: ecco come fanno a capire cosa chiediamo

Le ipernorme sono una tecnica di normalizzazione che vincola questi vettori a vivere sulla già menzionata ipersfera. È come se ogni parola in un testo fosse rappresentata come un punto su una sfera gigante. Ogni parola simile a un’altra si trova vicina su questa sfera, e quando il modello deve “capire” il significato di una frase, guarda la distanza e le relazioni tra questi punti. In pratica, significa che ogni vettore mantiene sempre la stessa “lunghezza” o magnitudine, aiutando il modello a essere più stabile e preciso nei suoi calcoli.

Le matrici assumono il ruolo di regole che indicano al modello come muoversi su questa sfera, eseguendo operazioni che spostano i punti nella direzione giusta per prevedere la parola successiva o rispondere correttamente a una domanda. Normalizzare questi spostamenti con le ipernorme aiuta a mantenere tutto sotto controllo, evitando che i punti si allontanino troppo o diventino caotici, rendendo il processo di apprendimento più efficiente e accurato.

Perché l’ipersfera è un’architettura migliore?

L’idea di utilizzare una sfera come base per le rappresentazioni migliora decisamente la stabilità e l’efficienza dell’apprendimento. In questa architettura, tutte le operazioni di trasformazione, come la proiezione tramite attenzione o il passaggio attraverso il blocco MLP, sono visualizzate come spostamenti sulla superficie, con ogni strato che contribuisce al movimento verso la previsione finale del token successivo.

Per garantire che ogni spostamento sia il più preciso possibile, nGPT usa una tecnica di interpolazione sferica chiamata SLERP (Spherical Linear Interpolation), che permette al modello di muoversi sulla traiettoria più breve tra gli embedding, minimizzando errori e variazioni, garantendo così un apprendimento ottimizzato.

L’uniformità dei vettori rende anche più facile separare le informazioni e riduce il rischio di distorsioni che possono verificarsi in altre rappresentazioni. Finora i modelli come GPT utilizzavano tecniche di normalizzazione meno rigide, in cui i vettori e le matrici potevano variare in lunghezza e comportamento. Un approccio che presenta un maggior rischio di instabilità durante l’addestramento e la necessità di complessi meccanismi di controllo per gestire queste fluttuazioni. Con l’architettura ipersferica, invece, tutto resta più regolare e prevedibile, una maggiore stabilità che si traduce in un apprendimento più rapido e meno propenso a fluttuazioni. Le normali tecniche di decadenza dei pesi, ampiamente utilizzate nei modelli tradizionali, non sono più necessarie, poiché l’architettura stessa impone una normalizzazione costante. Inoltre, la struttura del Transformer viene riorganizzata per ottimizzare la discesa del gradiente su una ipersfera, consentendo di mantenere un controllo più preciso sui vettori utilizzati nei blocchi di attenzione e MLP.

Secondo i risultati riportati, nGPT richiede – a seconda della lunghezza del contesto (1k, 4k o 8k token) – da quattro a venti volte meno iterazioni per raggiungere la stessa accuratezza rispetto ai modelli precedenti. Anche se il tempo per singolo passo di nGPT può essere fino all’80% superiore per contesti lunghi, la riduzione delle iterazioni necessarie non solo riduce i costi computazionali ma consente anche una maggiore efficienza nell’addestramento dei modelli di grande scala, che sono il fulcro delle moderne applicazioni di AI.

Ripercussioni e sfide

Le implicazioni di nGPT sono numerose. Con questa innovazione, aziende e istituti di ricerca potrebbero addestrare modelli di grandi dimensioni con budget e risorse ridotti, aprendo nuove opportunità di sviluppo per settori come la ricerca scientifica, l’automazione industriale e le tecnologie di assistenza personale.

Tuttavia, l’efficacia di nGPT dovrà essere testata su un’ampia gamma di applicazioni reali. Se, da un lato, l’accelerazione nei tempi di addestramento rappresenta un enorme vantaggio, dall’altro bisogna considerare l’overhead computazionale aggiuntivo per passo, che come abbiamo già menzionato viene stimato attorno all’80% in più per contesti di 4k token. Si tratta di un compromesso che potrebbe essere accettabile per le grandi aziende, ma che potrebbe frenare l’adozione di massa fino a che l’ottimizzazione del codice non verrà migliorata. In effetti gli autori del modello suggeriscono che ulteriori ottimizzazioni del codice potrebbero ridurre questo overhead.

Ma uno degli aspetti più intriganti di nGPT è la sua potenziale applicabilità futura. Gli autori ipotizzano che il modello possa essere esteso a sistemi encoder-decoder o ibridi – che richiedono sia interpretazione sia generazione di output – migliorando potenzialmente la separabilità delle rappresentazioni e la stabilità nel passaggio tra codifica e decodifica, ampliando così i campi d’uso di nGPT oltre ai soli compiti di linguaggio naturale. L’idea di una rappresentazione uniforme degli embedding su ipersfere potrebbe essere sfruttata per migliorare ulteriormente la separabilità e la linearità dei dati all’interno del modello, con possibili benefici anche in campi come la visione artificiale e la robotica.

Si apre una nuova strada, ma l’efficacia è tutta da provare

L’introduzione di nGPT rappresenta un cambiamento rilevante nell’architettura Transformer, aprendo nuove possibilità per l’efficienza e la stabilità dei modelli di intelligenza artificiale. Grazie alla rappresentazione degli embedding su una superficie ipersferica, il modello offre un ambiente di apprendimento più stabile, minimizzando le fluttuazioni e gli errori legati alle variazioni di lunghezza dei vettori. Questa caratteristica permette a nGPT di operare in modo regolare e prevedibile, riducendo il numero di iterazioni necessarie per raggiungere alti livelli di accuratezza.

Guardando al futuro, l’efficienza e la velocità di apprendimento promesse da nGPT possono trasformare il modo in cui vengono sviluppati e addestrati i modelli AI su larga scala. Tuttavia, la sua efficacia dovrà essere valutata in contesti reali e applicazioni commerciali, dove il compromesso tra overhead computazionale e velocità di apprendimento sarà una variabile imprescindibile. Aspettando di vedere se nGPT manterrà le sue promesse anche su scala maggiore, il suo approccio innovativo ha senza dubbio aperto una strada importante nel campo dell’AI.

@RIPRODUZIONE RISERVATA