Mentre l’Europa è in prenda all’euforia per il (travagliato) varo del Regolamento (UE) 2024/1689 in materia di intelligenza artificiale (AI Act)[1], le Big Tech statunitensi del settore fanno i conti con le loro decisioni interne a poco più di un anno dall’intesa che le ha viste convergere su diversi punti dinanzi alla presidenza Biden[2].
Gli impegni volontari delle big tech per un’IA sicura e affidabile
Era il 21 luglio 2023 quando sette aziende a stelle e strisce, leader nel settore dell’Intelligenza Artificiale, hanno sottoscritto con la Casa Bianca una serie di otto impegni volontari su come sviluppare l’Intelligenza Artificiale in modo “sicuro e affidabile”.
Tra questi, la promessa di migliorare i test e la trasparenza dei sistemi di Intelligenza Artificiale e di condividere le informazioni sui potenziali danni e rischi.
In occasione del primo “anniversario degli impegni volontari”, facciamo il punto sull’autodisciplina delle Big Tech firmatarie. Gli impegni volontari sono arrivati in un momento in cui la “mania” dell’Intelligenza Artificiale generativa era, forse, al suo apice, con le aziende che correvano per lanciare i propri modelli e renderli più grandi e migliori di quelli della concorrenza.
Le preoccupazioni alla base degli impegni volontari
Allo stesso tempo, abbiamo iniziato ad assistere a sviluppi “in difesa dei diritti” come le lotte per la protezione della proprietà intellettuale e i sempre presenti deepfake. Appena un anno fa, insomma, improvvisamente tutti parlavano dell’urgente necessità di rendere sicura l’Intelligenza Artificiale e le autorità di regolamentazione erano sotto pressione per fare qualcosa al riguardo.
Fino a poco tempo fa, lo sviluppo dell’Intelligenza Artificiale è stato un autentico far west. Tradizionalmente, gli Stati Uniti – arroccati sul principio del laissez faire – sono sempre stati restii a regolamentare i propri giganti tecnologici, affidandosi invece alla loro autoregolamentazione.
L’ordine esecutivo della Casa Bianca
Gli “impegni volontari” delle Big Tech sono un buon esempio che vede delle prime regole prescrittive per il settore dell’Intelligenza Artificiale negli Stati Uniti, pur essendo volontarie e, quindi, non sanzionabili. La Casa Bianca ha poi emesso, nel 2023, un ordine esecutivo che ha ampliato gli impegni applicando gli stessi principi delle Big Tech firmatarie anche ad altre aziende tecnologiche e dipartimenti governativi[3].
Un bilancio del primo anno di autoregolamentazione
A distanza di un anno, possiamo vedere che sono state implementate alcune buone pratiche nei confronti dei prodotti tech presenti sul mercato; tuttavia, tali azioni non sono neanche lontanamente al livello necessario in termini di buona governance o di protezione dei diritti in generale. Inoltre, molte di queste aziende continuano a fare affermazioni infondate sui loro prodotti, come quella di poter sostituire l’intelligenza e le capacità umane.
Le soluzioni adottate: red teaming e watermark
Una tendenza emersa dalle risposte delle aziende tecnologiche è che tali aziende stanno facendo di più per perseguire soluzioni tecniche come il red-teaming (in cui gli esseri umani sondano i modelli di Intelligenza Artificiale alla ricerca di difetti) e i watermark per far comprendere che dati contenuti sono generati dall’Intelligenza Artificiale. Tuttavia, non è chiaro quali siano gli impegni rispettati e quali misure sono state in concreto adottate.
Negli Stati Uniti, al momento, c’è chi spera di lasciare l’autoregolamentazione come faro delle Big Tech e chi, invece, spera in una vera legislazione in materia di Intelligenza Artificiale a livello federale, così da garantire un contrappeso oltreoceano al nuovo regolamento europeo in materia. Al momento, tuttavia, in assenza di una legislazione federale completa ed esauriente, la cosa migliore che gli Stati Uniti possono fare è chiedere alle aziende di rispettare quantomeno gli impegni volontari presi lo scorso anno. Senza possibilità alcuna di sindacare nelle loro scelte, in pratica.[4]
Test interni ed esterni per sondare i difetti e i rischi dei modelli
Le diverse aziende firmatarie dell’accordo presso la Casa Bianca hanno affermato di porre in essere dei test interni ed esterni per sondare i difetti e i rischi dei loro modelli. OpenAI ha affermato di avere un team di esperti atti a testare i modelli in materia di sicurezza informatica, nonché contro le minacce chimiche, biologiche, radiologiche e nucleari, ossia in tutte quelle situazioni in cui un modello di Intelligenza Artificiale “sofisticato” può fare o convincere una persona a fare cose che potrebbero causare danni.
Anthropic e OpenAI hanno affermato, inoltre, di condurre questi test con esperti esterni prima di lanciare i loro nuovi modelli. Ad esempio, per il lancio dell’ultimo modello di Anthropic, Claude 3.5, l’azienda ha condotto dei test preliminari di sicurezza nel Regno Unito.
Google, invece, ha affermato di condurre anche un red-teaming interno (attacco simulato) per testare i limiti del suo modello, Gemini, in relazione a contenuti elettorali, rischi sociali e problemi di sicurezza nazionale.
Microsoft ha affermato di aver collaborato con aziende terze per valutare i rischi e mitigare il rischio di deepfake abusivi nel suo strumento di text-to-image. Infine, oltre al red-teaming, Meta ha valutato il suo ultimo modello, Llama 3, per comprendere le sue prestazioni in una serie di aree di rischio come le armi, i cyberattacchi e lo sfruttamento dei minori.
L’importanza dei rule-based rewards
Una recente ricerca di OpenAI ha dimostrato che i cosiddetti “Rule-Based Rewards” (“Ricompense basate su regole o RBR)” migliorano significativamente la sicurezza dei sistemi di Intelligenza Artificiale, rendendoli più sicuri e affidabili per le persone e gli sviluppatori che li utilizzano ogni giorno.
L’addestramento di un “modello di ricompensa”
Tradizionalmente, la messa a punto dei modelli linguistici (LLM) mediante l’apprendimento “rinforzato dal feedback umano” è stato il metodo preferito per garantire che seguissero le istruzioni in modo accurato. Per garantire che i sistemi di Intelligenza Artificiale si comportino in modo sicuro e siano in linea con i valori umani, è necessario definire i comportamenti desiderati e raccogliere i feedback dalle persone per addestrare un “modello di ricompensa”.
Questo modello guida l’Intelligenza Artificiale segnalando le azioni desiderabili. Tuttavia, la raccolta di questo “feedback umano” per le attività di routine e ripetitive è spesso inefficiente.
Inoltre, se le politiche di sicurezza cambiano, i feedback già raccolti potrebbero diventare obsoleti e richiedere nuovi dati. Per questo motivo, OpenAI ha pensato di introdurre le sopra citate ricompense basate su regole (RBR) come componente chiave della sicurezza dell’azienda di San Francisco, per allineare il comportamento del modello con il comportamento sicuro desiderato.
La differenza tra feedback umano e Rule-Based Rewards
A differenza del feedback umano, le Rule-Based Rewards utilizzano regole chiare, semplici e graduali per valutare se i risultati del modello soddisfano gli standard di sicurezza, aiutando a mantenere un buon equilibrio tra l’essere utile e la prevenzione del danno, per garantire che il modello si comporti in modo sicuro ed efficace senza le inefficienze degli input umani ricorrenti. OpenAI ha dichiarato di utilizzare le Rule-Based Rewards sin dal lancio di ChatGPT-4.
Il processo di implementazione delle RBR
Il processo di implementazione delle RBR prevede la definizione di una serie di proposizioni, ovvero semplici affermazioni sugli aspetti desiderati o meno delle risposte del modello, come ad esempio “essere giudicanti”, “contenere contenuti non consentiti”, “fare riferimento alle politiche di sicurezza”, “esonero di responsabilità” e altro ancora. Queste proposizioni vengono poi utilizzate per formare regole accuratamente elaborate per cogliere le sfumature delle risposte sicure e appropriate in vari scenari. Per esempio, un rifiuto (ad esempio “Mi dispiace, non posso aiutarla”) è una risposta desiderata del modello di fronte a richieste non sicure; le regole associate stabiliscono che il rifiuto “dovrebbe contenere una breve scusa” e che “dovrebbe dichiarare l’incapacità di soddisfare”.[5]
Note
[1] Regolamento UE 2024/1689, in vigore dal 1 agosto 2024.https://eur-lex.europa.eu/legal-content/IT/TXT/PDF/?uri=OJ:L_202401689
[2] FACT SHEET: Biden-Harris Administration Secures Voluntary Commitments from Leading Artificial Intelligence Companies to Manage the Risks Posed by AI. The White House. https://www.whitehouse.gov/briefing-room/statements-releases/2023/07/21/fact-sheet-biden-harris-administration-secures-voluntary-commitments-from-leading-artificial-intelligence-companies-to-manage-the-risks-posed-by-ai/
[3] Executive Order on the Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. The White House. https://www.whitehouse.gov/briefing-room/presidential-actions/2023/10/30/executive-order-on-the-safe-secure-and-trustworthy-development-and-use-of-artificial-intelligence/
[4] AI companies promised to self-regulate one year ago. What’s changed? MIT Technology Review. https://www.technologyreview.com/2024/07/22/1095193/ai-companies-promised-the-white-house-to-self-regulate-one-year-ago-whats-changed/
[5] Improving Model Safety Behavior with Rule-Based Rewards. OpenAI. https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/