università di bari

IA generativa, il modello “LLaMAntino” in italiano e il ruolo della lingua nel training

Home Cultura e società digitali competenze digitali

I Large Language Models sono al momento addestrati prevalentemente in lingua inglese, data la sua predominanza sui dati disponibili online. Il progetto “LLaMAntino”, dimostra che seppur complesso, è possibile addestrare un’IA con dati che siano rappresentativi della cultura italiana

Pubblicato il 26 apr 2024

Vincenzo Patruno

Data Manager e Open Data Expert – Istat

Da un po’ di tempo a questa parte l’attenzione del mondo che ruota attorno all’innovazione e alla trasformazione digitale si è fortemente focalizzata sull’intelligenza artificiale generativa e sui Large Language Models (LLM). Il successo che ChatGPT ha riscosso in tutto il mondo è stato solo l’inizio di un profondo cambiamento che certamente avrà nei prossimi anni un fortissimo impatto non soltanto nelle nostre attività quotidiane, ma soprattutto nel modo in cui verranno ridisegnati tanti processi produttivi e servizi erogati da parte di aziende e pubbliche amministrazioni. Non solo.

Ampliare la diffusione dei dati statistici con l’AI: i costi che frenano l’innovazione

La nascita di ChatGPT ha innescato un’accesa competizione per sviluppare chatbot e servizi basati su modelli sempre più evoluti e accurati. GPT-4, LLama2, Gemini, Mixtral, Bloom sono solo alcuni dei numerosi modelli al momento disponibili attorno ai quali stanno rapidamente nascendo servizi a cittadini e imprese, startup e interessanti opportunità di business.

Indice degli argomenti

Il ruolo della lingua nel training dei modelli

Sebbene questi siano modelli mutlilingua, addestrati in modo tale da poter operare in più lingue diverse, la netta prevalenza della lingua inglese è un elemento comune a tutti i modelli. I modelli sono quindi addestrati prevalentemente in lingua inglese, data la sua predominanza sui dati disponibili online. Questo aspetto comporta che tante lingue sono sottorappresentate. Ad esempio, nel modello LLama2, fatto 100 i dati di training, il 90% di questi sono dati in lingua inglese.

WHITEPAPER

Guida completa al Natural Language Processing: scopri come potenziare il tuo business

Robotica

Natural Language Processing (NLP)

Faccio qui alcune considerazioni che ho avuto modo di fare in alcune occasioni in cui ho avuto il piacere di essere coinvolto su queste tematiche. Innanzitutto, abbiamo sicuramente la necessità di avere una IA che sia addestrata sulla lingua e sulla cultura italiana. Una IA che sia efficace ed affidabile dovrebbe infatti essere addestrata con dati che siano rappresentativi della cultura italiana e che possano esprimere la conoscenza del nostro Paese. È poi necessario che i modelli utilizzati siano Open, e questo è un aspetto fondamentale in particolar modo se si pensa di utilizzare i modelli in questione all’interno della Pubblica Amministrazione. La PA non può infatti permettersi di automatizzare processi e costruire servizi su scatole nere di cui non sappiamo praticamente nulla. Sarebbe un rischio enorme che non ha alcun senso correre.

Le sfide dell’addestramento: dati e risorse computazionali

Ora, costruire un modello LLM da zero è un’operazione molto complessa e molto costosa. È necessario, infatti, avere a disposizione due cose oltre ovviamente alle competenze necessarie: una enorme quantità di dati e un’enorme capacità computazionale. Servono supercalcolatori con un numero di GPU tale da assicurare quella capacità di calcolo parallelo richiesta per processare l’enorme quantità di dati necessaria ad addestrare il modello. E serve tempo. Il training del modello GPT-4 ha richiesto circa 5-6 mesi. Mesi in cui le GPU NVIDIA V100 hanno lavorato giorno e notte ininterrottamente per svariate sessioni di training. E per un costo complessivo attorno ai 100 milioni di dollari. Una bella cifra, non c’è che dire. Fatto sta che questo aspetto fa sì che costruire da zero e addestrare un LLM è un’operazione che possono permettersi soltanto grosse aziende e, aggiungo, i governi nazionali che possono finanziare ad esempio Università ed enti di ricerca e sostenere così gli investimenti necessari. Servono però anche i dati. E ne servono tanti, tantissimi, ma soprattutto servono dati di qualità.

Il caso di LLaMAntino: un LLM italiano

Ho avuto modo di parlarne con il gruppo di ricerca del DIB, il Dipartimento di Informatica dell’Università degli Studi di Bari che ha curato l’addestramento e il rilascio di “LLaMAntino”, uno degli LLM attualmente disponibili e addestrati in modo specifico per supportare la lingua italiana. Gli altri progetti su LLM italiani sono stati avviati (e sono in continuo aggiornamento) in altre università, in particolare da gruppi di ricerca dell’Università La Sapienza di Roma e dell’Università di Pisa, senza dimenticare l’LLM su cui sta lavorando attualmente Fastweb.

È stata l’occasione per chiedere loro cosa c’è “sotto il cofano”, come ci si organizza e cosa comporta costruire un Large Language Model. Riporto qui un paio di punti fondamentali che a mio avviso danno un’idea della complessità di un progetto di questo tipo. Dove i dati sono il primo grande problema. Costruire un LLM italiano da zero necessita di tanti, tantissimi dati di qualità. E i dati disponibili in lingua italiana non sono in quantità sufficiente per addestrare un LLM. Servono terabytes di libri, pubblicazioni, articoli di giornale, intere biblioteche, siti web, archivi di documenti, codici e così via. E servirebbe che tutto questo materiale sia Open, quindi riutilizzabile per questo scopo o in alternativa che ci sia un qualche agreement con chi detiene qual particolare tipo di dato, ad esempio con le case editrici per quanto riguarda i libri.

Il condizionale è d’obbligo. Il web per tanti aspetti somiglia ad un nuovo e moderno Far West dove è diventato normale appropriarsi di dati in modo famelico e indiscriminato. Il caso del New York Times che fa causa ad OpenAI per aver utilizzato gli articoli pubblicati sul sito e che erano consultabili soltanto dagli abbonati è soltanto la punta dell’iceberg.

L’approccio del Dipartimento di Informatica dell’Università di Bari

Ad ogni modo, per ovviare a questo problema l’approccio utilizzato dal Dipartimento di Informatica dell’’Università di Bari è stato quello di non partire da zero ma di addestrare con dati in lingua italiana un modello già esistente. Per poter fare questo è stato necessario partire da un modello che fosse Open Source, e la scelta è caduta su Llama2 di Meta.

Il modello linguistico Llama2 è stato rilasciato in tre diverse dimensioni di parametri: 7 miliardi, 13 miliardi e 70 miliardi e l’Università di Bari ha lavorato progressivamente su tutte queste versioni, utilizzando tecniche di “language adaptation”.

Si parte cioè dal modello pre-addestrato e lo si addestra ulteriormente utilizzando dataset disponibili o costruiti, avvalendosi in alcuni casi anche di sistemi automatici di traduzione per quei dataset necessari all’addestramento del modello ma che non sono disponibili in lingua italiana. È il caso di Ultrachat, dataset Open Source utilizzato per addestrare in modo specifico le capacità conversazionali di LLaMAntino.

C’è poi un altro aspetto. Come abbiamo detto in precedenza, addestrare un modello richiede importanti risorse computazionali, e questo vale anche se si lavora su un modello pre-addestrato come in questo caso. Su questo fronte ci si è potuti avvalere dell’equivalente di una Ferrari in ambito computazionale, il supercomputer Leonardo, uno dei più potenti al mondo gestito dal CINECA, il cui accesso è regolato attraverso le call for proposal di ISCRA (Italian SuperComputing Resource Allocation).

Il futuro dei LLM: verso i Large Multimodal Models

I prossimi passi saranno quelli di migliorare le performance del modello, monitorandole attraverso valutazioni comparative con modelli simili ma soprattutto di aggiornarlo con nuovi dati e implementando strategie di adattamento specifiche in grado di capire anche le immagini. Aggiungendo in questo modo nuove funzionalità e nuove capacità generative, andando verso quelli che vengono chiamati modelli LMM, i Large Multimodal Models.

Tutto ciò per fornire una Intelligenza Artificiale generativa Open Source che sia competitiva in termini di performance e che possa essere una importante opportunità per il territorio e più in generale per le pubbliche amministrazioni e le imprese del nostro Paese.