Responsible AI Licence

Bloom: ecco l’IA dal codice open source che vuole agire in modo etico

BLOOM è un sistema IA in grado di produrre testi ma progettato secondo regole etiche: rilasciato in open-source, ha un dataset di training regolato da una struttura di governance e comprende 46 lingue da tutto il mondo. Il suo codice etico prende posizioni precise e può essere di indirizzo per il legislatore. I dettagli

Pubblicato il 14 Set 2022

Marco Martorana

avvocato, studio legale Martorana, Presidente Assodata, DPO Certificato UNI 11697:2017

Roberta Savella

Docente in materia di diritto delle nuove tecnologie e responsabile per la formazione presso Istituto di Formazione Giuridica SRLS Unipersonale

“BLOOM” o “BigScience Large Open-science Open-access Multilingual Language Model” è un LLM progettato con un approccio di “etica by design” dalla start-up Hugging Face, con fondi del governo francese.

Da anni, infatti, si discute dei Large Language Model (LLM), i sistemi di Intelligenza Artificiale in grado di produrre dei testi di vario tipo, spesso idonei a ingannare gli ignari lettori sulla provenienza “artificiale” degli scritti. Pensiamo al famoso GPT-3 di Open AI, o alle questioni sollevate di recente dal sistema LaMDA di Google, talmente sofisticato da interagire con gli sviluppatori e convincerne uno di essere diventato un essere senziente, cosciente di sé e con un’anima.

Se fosse vero che c’è una intelligenza artificiale senziente

Mentre una questione del genere deve rimanere ancora relegata alle ipotesi fantascientifiche, questi sistemi hanno generato ampi studi e dibattiti sui rischi che pongono in termini di discriminazione, di impatto ambientale, di diffusione della disinformazione.

BLOOM si inserisce in questo dibattito con un progetto ambizioso, volto a superare i problemi che affliggono questo settore dell’Intelligenza Artificiale.

Indice degli argomenti

BLOOM: il ruolo di trasparenza e inclusività

La chiave di volta di BLOOM è la trasparenza: non solo il codice è scaricabile da chiunque dal sito di Hugging Face, ma il team che ha lavorato al progetto ha reso disponibili tutti i dettagli su come sia stato “addestrato” il modello, sulle criticità superate, sul modo in cui ne è stata valutata la performance, pubblicando online perfino le registrazioni delle riunioni in cui veniva definito il lavoro.

I set di dati utilizzati per il training di BLOOM sono regolati da una struttura di data governance volta a garantire la conoscenza di quali dati sono raccolti e a chi appartengono, assicurandosi inoltre di prendere in considerazione informazioni provenienti da tutto il mondo.

L’inclusività nel progetto ricomprende anche l’aspetto linguistico: la più grande differenza rispetto al funzionamento degli altri LLM è il numero di lingue che sono comprese da BLOOM, ossia 46, tra le quali si trovano anche 20 lingue africane, varie lingue asiatiche (tra cui l’hindi, il mandarino, l’indonesiano), perfino il catalano.

Il fatto che i modelli precedenti utilizzassero principalmente l’inglese era uno dei limiti e degli elementi di discriminazione individuati negli LLM, che portava anche ad acuire il divario tra Paesi più tecnologicamente avanzati e Paesi in via di sviluppo.

Questi ultimi in molti casi si trovavano a dover sopportare le conseguenze nocive della creazione dei sistemi di IA di elaborazione linguistica, come l’inquinamento derivante dalle attività di R&S, senza poter beneficiare di queste nuove tecnologie, perché programmate per comprendere le lingue più diffuse nei Paesi occidentali.

I ricercatori che hanno aderito al progetto di Hugging Face provengono invece da tutto il mondo, dando un contributo fondamentale per superare questo limite degli LLM.

Sono state così incluse anche lingue non adeguatamente rappresentate nel contesto online, ad esempio utilizzando data set composti da documenti presenti in archivi di autorità locali o università.

In questo modo, anche Paesi con meno risorse tecnologiche potranno beneficiare di BLOOM, avendo accesso libero ad esso con una semplice connessione Internet e potendolo utilizzare nella propria lingua tradizionale.

Il Codice Etico di BLOOM e gli usi vietati

BLOOM è quindi un LLM open source, liberamente utilizzabile anche come base per creare nuove applicazioni. Tuttavia, gli sviluppatori hanno cercato di porre dei freni a possibili usi nocivi dell’applicazione adottando un Codice Etico e una “Responsible AI License” ispirata ai principi enunciati nelle varie linee guida disponibili sull’IA, come la “Montreal Declaration for Responsible AI”, i “Principles of Trust and Transparency” di IBM, le “Ethics Guidelines for Trustworthy AI” della Commissione europea.

L’approccio etico enunciato nel Codice si basa sul pluralismo e sulla definizione di “armonia” della morale del confucianesimo: “L’armonia è per sua stessa natura relazionale. Presuppone la coesistenza di varie parti” (traduzione nostra della citazione di Chenyang Li, “The Confucian Ideal of Harmony”, in “Philosophy East and West”, riportata nel Codice Etico di BigScience).

I valori fondanti del progetto comprendono l’inclusività, la diversità, la riproducibilità, la disponibilità, la responsabilità, l’accessibilità, la trasparenza, l’interdisciplinarietà, il multilinguismo.

Nella “Responsible AI License” è presente un elenco di usi vietati del modello:

Usi che violino norme di legge e regolamenti statali, federali, internazionali;
Usi che abbiano lo scopo di sfruttare, danneggiare o tentare di sfruttare o danneggiare minori in qualsiasi modo;
Usi che comportino la creazione o diffusione di informazioni false allo scopo di danneggiare qualcuno;
Usi che comportino la creazione o diffusione di dati personali che possono essere usati per danneggiare un individuo;
Usi che comportino la creazione o diffusione di informazioni o contenuti, in qualsiasi contesto, senza che sia espressamente e chiaramente evidenziato che il testo è generato da una macchina;
Usi che portino alla diffamazione o alle molestie;
Usi volti a consentire di impersonare o provare a impersonare altre persone;
Per prendere decisioni completamente automatizzate che abbiano un impatto negativo sui diritti degli individui o creino o modifichino un obbligo legale;
Qualsiasi uso che abbia lo scopo o l’effetto di discriminare alcuni individui o dei gruppi o danneggiarli basandosi sul loro comportamento (online o offline) o su predizioni relative alla loro personalità o a loro caratteristiche personali;
Usi che comportino lo sfruttamento di vulnerabilità di gruppi specifici di persone sulla base della loro età, caratteristiche sociali o fisiche o mentali, al fine di influenzare il comportamento di una persona in relazione a quei gruppi in un modo che causi o possa probabilmente causare a qualcuno un danno fisico o psicologico;
Usi che siano volti a fornire consigli medici e l’interpretazione di risultati di esami medici;
Usi che comportino la creazione o diffusione di informazioni al fine di utilizzarle per l’amministrazione della giustizia, motivi di sicurezza pubblica e immigrazione (ad esempio per giustizia predittiva).

L’elenco è esaustivo, ma al momento non è possibile costringere nessuno a rispettarlo; nella pratica, quindi ha valenza puramente morale. In ogni caso, prende una chiara posizione su alcuni temi ancora oggi controversi (ad esempio l’utilizzo di questi sistemi nel settore sanitario o legale) che può essere di indirizzo per future regolamentazioni di stampo più giuridico e vincolante.

Conclusioni

Se da un punto di vista puramente tecnico sembrano esserci poche differenze tra BLOOM e i LLM esistenti come il GPT-3 (i livelli di accuratezza sono simili), da un punto di vista etico siamo indubbiamente di fronte a una svolta. È interessante osservare come è nato ed è stato portato avanti questo progetto sulla base di valori chiari e pienamente condivisibili, e può essere un esempio virtuoso per tutte le future attività di ricerca in questo settore.

Bloom: ecco l’IA dal codice open source che vuole agire in modo etico

BLOOM: il ruolo di trasparenza e inclusività

Il Codice Etico di BLOOM e gli usi vietati

Conclusioni

GenAI: guida alla nuova era agentica orientata al business

Articoli correlati

GenAI: guida alla nuova era agentica orientata al business

Codice Rss

Codice Rss