“BLOOM” o “BigScience Large Open-science Open-access Multilingual Language Model” è un LLM progettato con un approccio di “etica by design” dalla start-up Hugging Face, con fondi del governo francese.
Da anni, infatti, si discute dei Large Language Model (LLM), i sistemi di Intelligenza Artificiale in grado di produrre dei testi di vario tipo, spesso idonei a ingannare gli ignari lettori sulla provenienza “artificiale” degli scritti. Pensiamo al famoso GPT-3 di Open AI, o alle questioni sollevate di recente dal sistema LaMDA di Google, talmente sofisticato da interagire con gli sviluppatori e convincerne uno di essere diventato un essere senziente, cosciente di sé e con un’anima.
Se fosse vero che c’è una intelligenza artificiale senziente
Mentre una questione del genere deve rimanere ancora relegata alle ipotesi fantascientifiche, questi sistemi hanno generato ampi studi e dibattiti sui rischi che pongono in termini di discriminazione, di impatto ambientale, di diffusione della disinformazione.
BLOOM si inserisce in questo dibattito con un progetto ambizioso, volto a superare i problemi che affliggono questo settore dell’Intelligenza Artificiale.
BLOOM: il ruolo di trasparenza e inclusività
La chiave di volta di BLOOM è la trasparenza: non solo il codice è scaricabile da chiunque dal sito di Hugging Face, ma il team che ha lavorato al progetto ha reso disponibili tutti i dettagli su come sia stato “addestrato” il modello, sulle criticità superate, sul modo in cui ne è stata valutata la performance, pubblicando online perfino le registrazioni delle riunioni in cui veniva definito il lavoro.
I set di dati utilizzati per il training di BLOOM sono regolati da una struttura di data governance volta a garantire la conoscenza di quali dati sono raccolti e a chi appartengono, assicurandosi inoltre di prendere in considerazione informazioni provenienti da tutto il mondo.
L’inclusività nel progetto ricomprende anche l’aspetto linguistico: la più grande differenza rispetto al funzionamento degli altri LLM è il numero di lingue che sono comprese da BLOOM, ossia 46, tra le quali si trovano anche 20 lingue africane, varie lingue asiatiche (tra cui l’hindi, il mandarino, l’indonesiano), perfino il catalano.
Il fatto che i modelli precedenti utilizzassero principalmente l’inglese era uno dei limiti e degli elementi di discriminazione individuati negli LLM, che portava anche ad acuire il divario tra Paesi più tecnologicamente avanzati e Paesi in via di sviluppo.
Questi ultimi in molti casi si trovavano a dover sopportare le conseguenze nocive della creazione dei sistemi di IA di elaborazione linguistica, come l’inquinamento derivante dalle attività di R&S, senza poter beneficiare di queste nuove tecnologie, perché programmate per comprendere le lingue più diffuse nei Paesi occidentali.
I ricercatori che hanno aderito al progetto di Hugging Face provengono invece da tutto il mondo, dando un contributo fondamentale per superare questo limite degli LLM.
Sono state così incluse anche lingue non adeguatamente rappresentate nel contesto online, ad esempio utilizzando data set composti da documenti presenti in archivi di autorità locali o università.
In questo modo, anche Paesi con meno risorse tecnologiche potranno beneficiare di BLOOM, avendo accesso libero ad esso con una semplice connessione Internet e potendolo utilizzare nella propria lingua tradizionale.
Il Codice Etico di BLOOM e gli usi vietati
BLOOM è quindi un LLM open source, liberamente utilizzabile anche come base per creare nuove applicazioni. Tuttavia, gli sviluppatori hanno cercato di porre dei freni a possibili usi nocivi dell’applicazione adottando un Codice Etico e una “Responsible AI License” ispirata ai principi enunciati nelle varie linee guida disponibili sull’IA, come la “Montreal Declaration for Responsible AI”, i “Principles of Trust and Transparency” di IBM, le “Ethics Guidelines for Trustworthy AI” della Commissione europea.
L’approccio etico enunciato nel Codice si basa sul pluralismo e sulla definizione di “armonia” della morale del confucianesimo: “L’armonia è per sua stessa natura relazionale. Presuppone la coesistenza di varie parti” (traduzione nostra della citazione di Chenyang Li, “The Confucian Ideal of Harmony”, in “Philosophy East and West”, riportata nel Codice Etico di BigScience).
I valori fondanti del progetto comprendono l’inclusività, la diversità, la riproducibilità, la disponibilità, la responsabilità, l’accessibilità, la trasparenza, l’interdisciplinarietà, il multilinguismo.
Nella “Responsible AI License” è presente un elenco di usi vietati del modello:
- Usi che violino norme di legge e regolamenti statali, federali, internazionali;
- Usi che abbiano lo scopo di sfruttare, danneggiare o tentare di sfruttare o danneggiare minori in qualsiasi modo;
- Usi che comportino la creazione o diffusione di informazioni false allo scopo di danneggiare qualcuno;
- Usi che comportino la creazione o diffusione di dati personali che possono essere usati per danneggiare un individuo;
- Usi che comportino la creazione o diffusione di informazioni o contenuti, in qualsiasi contesto, senza che sia espressamente e chiaramente evidenziato che il testo è generato da una macchina;
- Usi che portino alla diffamazione o alle molestie;
- Usi volti a consentire di impersonare o provare a impersonare altre persone;
- Per prendere decisioni completamente automatizzate che abbiano un impatto negativo sui diritti degli individui o creino o modifichino un obbligo legale;
- Qualsiasi uso che abbia lo scopo o l’effetto di discriminare alcuni individui o dei gruppi o danneggiarli basandosi sul loro comportamento (online o offline) o su predizioni relative alla loro personalità o a loro caratteristiche personali;
- Usi che comportino lo sfruttamento di vulnerabilità di gruppi specifici di persone sulla base della loro età, caratteristiche sociali o fisiche o mentali, al fine di influenzare il comportamento di una persona in relazione a quei gruppi in un modo che causi o possa probabilmente causare a qualcuno un danno fisico o psicologico;
- Usi che siano volti a fornire consigli medici e l’interpretazione di risultati di esami medici;
- Usi che comportino la creazione o diffusione di informazioni al fine di utilizzarle per l’amministrazione della giustizia, motivi di sicurezza pubblica e immigrazione (ad esempio per giustizia predittiva).
L’elenco è esaustivo, ma al momento non è possibile costringere nessuno a rispettarlo; nella pratica, quindi ha valenza puramente morale. In ogni caso, prende una chiara posizione su alcuni temi ancora oggi controversi (ad esempio l’utilizzo di questi sistemi nel settore sanitario o legale) che può essere di indirizzo per future regolamentazioni di stampo più giuridico e vincolante.
Conclusioni
Se da un punto di vista puramente tecnico sembrano esserci poche differenze tra BLOOM e i LLM esistenti come il GPT-3 (i livelli di accuratezza sono simili), da un punto di vista etico siamo indubbiamente di fronte a una svolta. È interessante osservare come è nato ed è stato portato avanti questo progetto sulla base di valori chiari e pienamente condivisibili, e può essere un esempio virtuoso per tutte le future attività di ricerca in questo settore.