le sfide

Large Language Models: un modello a “consorzio” è l’alternativa ai big



Indirizzo copiato

Il futuro dei LLM potrebbe non essere dominato da giganti monolitici, ma da una comunità interconnessa di specialisti. Serve però un cambiamento di paradigma nell’approccio all’IA: da un focus sulla grandezza e la complessità, a un approccio che prende in considerazione aspetti come l’efficienza, la privacy, l’etica e l’impatto sulla società

Pubblicato il 31 lug 2023

Andrea Viliotti

Innovation Strategist



Shot,Of,Corridor,In,Large,Working,Data,Center,Full,Of

L’industria dell’intelligenza artificiale (IA) ha fatto passi da gigante nell’ultimo decennio. Modelli di machine learning di dimensioni sempre maggiori hanno portato a notevoli successi, ma è importante analizzare criticamente la loro validità e sostenibilità, poiché sono emerse diverse limitazioni che potrebbero fa sorgere più di uj dubbio su questo approccio.

Le dimensioni degli attuali Large Language Model

GPT-3, un modello di linguaggio di grandi dimensioni rilasciato nel 2020, ha stabilito nuovi record con i suoi 175 miliardi di parametri. Si è avvalso di migliaia di GPU, chip specializzati ideali per l’elaborazione dell’IA, per analizzare centinaia di miliardi di parole nel corso di settimane. Si stima che l’intero processo di addestramento sia costato almeno 4,6 milioni di dollari, una somma enorme che sottolinea l’intensità delle risorse richieste dai modelli di questa dimensione.

Tuttavia, questa cifra sembra modesta se confrontata con il successore di GPT-3, GPT-4, rilasciato a marzo. Questo colosso della IA possiede circa 1 trilione di parametri, quasi sei volte rispetto al suo predecessore. Secondo le stime fornite dal CEO della società, Sam Altman, il costo di sviluppo si aggira intorno ai 100 milioni di dollari.

Tale tendenza crescente nella dimensione e nei costi dei modelli è corroborata da dati di Epoch AI, una società di ricerca, che nel 2022 ha rilevato come la potenza di calcolo necessaria per addestrare un modello all’avanguardia raddoppiasse ogni sei-dieci mesi. Se tale previsione si dimostrasse corretta, i costi di addestramento potrebbero sfondare il tetto del miliardo di dollari entro il 2026.

Morgan Stanley, una rinomata banca, ha ipotizzato che se metà delle ricerche di Google fossero gestite da un modello GPT, i costi potrebbero aumentare di altri 6 miliardi di dollari all’anno. Nel frattempo, i ricercatori di DeepMind, una divisione di Google, e di Meta, la società genitore di Facebook, hanno messo alla prova la loro forza con Chinchilla e Llama, rispettivamente, modelli LLM con 70 e 65 miliardi di parametri.

La tendenza verso una riduzione delle dimensioni

A confermare la tendenza verso una riduzione delle dimensioni e un aumento dell’efficienza, un team di Google è riuscito ad addestrare un modello “studente” con soli 770 milioni di parametri che ha superato il suo “insegnante” da 540 miliardi di parametri in un compito di ragionamento specializzato.

Nel 2022, alcuni ricercatori dell’Università di Stanford hanno proposto un’innovazione significativa: una versione modificata dell'”algoritmo di attenzione”, capace di accelerare di tre volte l’addestramento di GPT-2, un modello di linguaggio di grandi dimensioni precedente. Questo progresso, insieme a miglioramenti come la versione aggiornata di PyTorch di Meta, che può raddoppiare la velocità di addestramento di un modello con un semplice aggiornamento di una riga di codice, e Mojo, un nuovo linguaggio di programmazione basato su Python e rilasciato da Modular (una startup fondata da ex ingegneri di Apple e Google) che può far eseguire il codice migliaia di volte più velocemente, indicano un futuro in cui i Large Language Models possono diventare più accessibili, più efficienti e forse, più specializzati.

In questo contesto di continua crescita, emerge una questione cruciale: “più grande è meglio”?

Questa affermazione, che ha guidato gran parte dell’evoluzione recente nell’IA, pone l’enfasi sulla creazione di modelli di machine learning di dimensioni sempre maggiori. Sebbene tale approccio abbia portato a notevoli successi, è importante analizzare criticamente la sua validità e sostenibilità, poiché sono emerse diverse limitazioni.

In primo luogo, l’addestramento di modelli di machine learning di grandi dimensioni è intensamente esoso in termini di risorse computazionali, rappresentando un problema non solo economico, ma anche ambientale, a causa dei massicci requisiti energetici. Inoltre, questi modelli giganti comportano un’insaziabile sete di dati, che pone problematiche non solo logistiche, ma anche etiche, riguardanti la raccolta e l’archiviazione di enormi quantità di informazioni.

Un altro aspetto da considerare è la questione dei rendimenti decrescenti. Non sempre un modello più grande comporta un miglioramento proporzionale delle prestazioni, in particolare quando la qualità dei dati utilizzati non è migliorata di pari passo. Questo può portare a problemi di generalizzazione, in cui i modelli si adattano eccessivamente ai dati di addestramento, mostrando scarse performance su dati inediti.

Inoltre, c’è la questione della trasparenza e dell’interpretabilità. La crescente complessità dei modelli li rende più difficili da comprendere e spiega l’incapacità di individuare e correggere facilmente i pregiudizi incorporati. Questo rappresenta un serio ostacolo alla responsabilità e alla fiducia nell’IA.

Infine, ma non meno importante, c’è la questione dell’accessibilità. I costi e le esigenze di risorse dei modelli più grandi possono renderli inaccessibili per istituzioni, ricercatori o imprese più piccole, creando una potenziale disparità nell’accesso ai benefici dell’IA.

Ma forse la svolta più importante è la crescente consapevolezza che l’approccio “più grande è meglio” sta arrivando al termine della sua utilità. Se i modelli di IA devono continuare a migliorare, i loro creatori dovranno trovare il modo di ottenere più performance con meno risorse.

Il fine-tuning per compiti specifici, l’uso di tecniche di approssimazione matematica per ridurre i requisiti hardware, e l’adattamento di modelli generalisti in modelli più piccoli e specializzati sono soluzioni alternative. Si discute anche l’importanza del codice di programmazione e dell’hardware su cui viene eseguito, mettendo in luce le opportunità di miglioramento in questi settori.

Mentre il gigantismo dei LLM potrebbe aver raggiunto un punto di svolta, l’innovazione nel campo dell’IA è lontana dall’essere esaurita. Anzi, potrebbe essere all’inizio di una nuova era di sviluppo e scoperta.

Una lezione dalla Storia: i carri armati della Seconda guerra mondiale

Consideriamo una lezione storica: durante la Seconda Guerra Mondiale, le forze tedesche fecero uso di carri armati pesanti come il Tiger e il Panther, noti per la loro potenza e resistenza, ma che presentavano alti costi di produzione e problemi di manutenzione.

D’altra parte, le forze alleate, in particolare gli Stati Uniti, si concentrarono sulla produzione di carri armati più leggeri, come lo Sherman, che pur non essendo in grado di competere in termini di potenza di fuoco e corazzatura con i suoi omologhi tedeschi, poteva essere prodotto in grandi quantità, era più affidabile e più facile da riparare. Questa strategia si rivelò efficace nel contesto della guerra totale, dove l’efficienza produttiva e la sostenibilità logistica erano cruciali.

Oggi, nel contesto dell’Intelligenza Artificiale, vediamo una tendenza simile. Mentre i giganti dei LLM come GPT-3 e GPT-4 hanno stabilito nuovi standard in termini di capacità, questi modelli richiedono enormi quantità di dati per l’addestramento, risorse di calcolo elevate e possono essere costosi da mantenere. La ricerca nell’ambito dell’IA si sta quindi spostando verso modelli più efficienti e specializzati come IndexGPT di JPMorgan e BloombergGPT di Bloomberg nel settore finanziario.

Quindi, proprio come i carri armati leggeri ed efficienti si sono rivelati superiori nel contesto della Seconda Guerra Mondiale, potremmo vedere una tendenza simile nell’IA, dove modelli più piccoli, efficienti e specializzati potrebbero diventare la norma.

Parallelamente, il futuro dell’IA potrebbe vedere un mutamento nell’architettura dei LLM, analogamente a quanto è avvenuto nell’evoluzione dell’hardware dei computer. Piuttosto che puntare su processori singoli sempre più grandi, si è passati a soluzioni multiprocessore e multi-core. Allo stesso modo, l’industria dell’IA potrebbe passare da modelli sempre più grandi a “consorzi” di modelli più piccoli e specializzati.

Questi “consorzi” di modelli LLM potrebbero collaborare per gestire un’ampia gamma di compiti, garantendo allo stesso tempo una maggiore specializzazione e un adattamento più preciso ai contesti specifici. Si tratta di un cambiamento radicale rispetto all’attuale “one-size-fits-all” dei modelli giganti.

Le sfide da affrontare

Naturalmente, ci saranno sfide da affrontare. La coordinazione e l’integrazione dei risultati di molti modelli diversi potrebbero richiedere nuovi approcci e tecniche.

Esistono diversi aspetti che contribuiscono a rendere questa sfida particolarmente ardua.

Compatibilità dei dati: Ogni modello di apprendimento automatico ha bisogno di dati di addestramento per imparare. Tuttavia, differenti modelli possono necessitare di diversi tipi di dati. Ad esempio, un modello potrebbe richiedere dati di immagine, un altro testi, un altro ancora dati numerici. Inoltre, i dati di output di un modello potrebbero non essere compatibili con quelli richiesti da un altro modello come input. Di conseguenza, un’importante sfida sarà lo sviluppo di strumenti e standard che permettano la conversione e l’interpretazione dei dati in maniera efficiente e senza perdita di informazione.

Sincronizzazione: Nell’architettura proposta, diversi modelli LLM lavoreranno in parallelo, ognuno con il proprio compito. Un problema critico sarà come coordinare il lavoro di questi modelli in modo che i risultati prodotti individualmente si combinino per raggiungere l’obiettivo finale. Inoltre, la sincronizzazione deve essere fatta in tempo reale per evitare ritardi che potrebbero influire negativamente sull’esperienza dell’utente.

Gestione degli errori: Quando si lavora con una rete di modelli, un errore in uno di essi può avere effetti a cascata sugli altri. Per esempio, se un modello genera dati di output errati, i modelli che utilizzano questi dati come input possono produrre anch’essi risultati errati. È quindi necessario sviluppare strategie per rilevare e gestire gli errori, riducendo il più possibile le conseguenze negative.

Bias e Fairness: Un altro aspetto critico è la gestione del bias. Se i dati di addestramento sono pregiudiziosi, i modelli probabilmente replicheranno tali bias. In una rete di modelli interconnessi, il bias di un modello potrebbe influenzare gli altri modelli. Dovranno quindi essere adottate misure per identificare, mitigare ed eliminare il bias nei modelli di apprendimento automatico. Allo stesso modo, è fondamentale assicurarsi che i modelli siano equi e non portino a discriminazioni o danni per determinati gruppi di persone.

Privacy e sicurezza: Un sistema composto da molti modelli LLM interconnessi deve affrontare sfide importanti in termini di privacy e sicurezza. Se i modelli condividono dati tra di loro, è necessario garantire che queste informazioni non vengano compromesse o utilizzate in modo inappropriato. Le soluzioni possono includere crittografia, anonimizzazione dei dati e tecniche di apprendimento federato.

Etica: L’uso di IA e LLM solleva numerose questioni etiche. Oltre alla privacy, queste includono trasparenza, responsabilità, equità, e il rischio della sovraccarica di automazione. Questi temi etici devono essere attentamente considerati durante lo sviluppo e l’implementazione dei modelli LLM.

Addestramento e ottimizzazione: Addestrare un singolo modello LLM può già essere complesso e richiedere molte risorse. Quando si parla di addestrare una rete di modelli, la complessità aumenta. Sarà necessario sviluppare metodi che permettano di ottimizzare il processo di addestramento, sia in termini di tempo che di risorse.

Conclusioni

In conclusione, è importante ricordare che nella storia della tecnologia, il concetto di “più grande” non è sempre stato sinonimo di “meglio”. Mentre i progressi nelle architetture delle reti neurali e nell’hardware per l’apprendimento profondo hanno permesso la creazione di modelli di lingua sempre più grandi, non dobbiamo trascurare le potenziali sfide e le implicazioni che possono derivare dall’aumento della dimensione e della complessità.

Piuttosto che puntare a modelli di dimensioni sempre maggiori, potrebbe essere più fruttuoso esplorare modi per costruire reti di modelli più piccoli e specializzati che lavorano insieme. Questo non solo potrebbe portare a miglioramenti in termini di efficienza e maneggevolezza, ma potrebbe anche aprire nuove strade per la personalizzazione e la privacy, consentendo ai modelli LLM di vivere e apprendere direttamente sui dispositivi degli utenti, piuttosto che su server centralizzati.

Tuttavia, questo non significa che la strada verso i modelli più piccoli e interconnessi sia priva di ostacoli. Dobbiamo affrontare sfide tecniche significative, tra cui la compatibilità dei dati, la sincronizzazione, la gestione degli errori, la privacy, la sicurezza e l’ottimizzazione. Inoltre, non dobbiamo mai perdere di vista le importanti questioni etiche, come il bias, la fairness, e la trasparenza.

Il futuro dei LLM, quindi, potrebbe non essere dominato da giganti monolitici, ma da una comunità interconnessa di specialisti. Ciò richiede un cambiamento di paradigma nell’approccio all’IA, da un focus sulla grandezza e la complessità, a un approccio più olistico che prende in considerazione aspetti come l’efficienza, la privacy, l’etica e l’impatto sulla società. Ma se ci riusciremo, si apriranno affascinanti percorsi per l’evoluzione dell’intelligenza artificiale e del suo ruolo nel nostro mondo.

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Video
Analisi
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 3