Nonostante gli sforzi per implementare misure di sicurezza, come filtri e politiche di utilizzo, i modelli linguistici di grandi dimensioni (LLM) – come GPT-3.5 e GPT-4 di OpenAI, Claude di Anthropic e Llama2 di Meta – rimangono vulnerabili ad abusi. Ad esempio, i modelli possono essere “sbloccati” per generare contenuti dannosi attraverso tecniche come il jailbreak dei prompt.
Il mercato nero delle IA malvagie
Questi abusi sono stati osservati nei mercati clandestini, dove criminali sfruttano gli LLM per generare codice malevolo, e-mail di phishing realistiche, e siti web progettati per ingannare le vittime.La capacità degli LLM di automatizzare attività dannose sta democratizzando il crimine informatico. Anche individui con scarse conoscenze tecniche possono ora orchestrare attacchi complessi, ampliando la portata delle minacce.
Nonostante alcune segnalazioni giornalistiche e analisi superficiali sull’uso illecito degli LLM, manca una comprensione approfondita e sistematica del problema. Ci sono stati diversi studi per cercare di colmare questa lacuna esaminando l’ecosistema Malla, ossia il mercato nero delle applicazioni IA malvagie.
Modelli linguistici di grandi dimensioni (LLM): una panoramica
I modelli linguistici di grandi dimensioni (LLM) sono il risultato di avanzamenti straordinari nell’intelligenza artificiale. Questi modelli sono addestrati utilizzando enormi quantità di dati testuali, spesso pari a centinaia di miliardi di parole. Tali modelli sono capaci di comprendere e generare testi complessi in modo fluido e coerente. Possono rispondere a domande, scrivere articoli, comporre codice, e persino imitare la scrittura umana in vari stili e contesti. Questi LLM vengono ampiamente utilizzati per migliorare l’efficienza in diversi settori: dalla creazione di contenuti automatizzati ai chatbot di supporto al cliente, fino ad assistenti che aiutano nella scrittura e nella correzione di codice software.
Per integrare gli LLM in applicazioni pratiche, esistono due principali metodologie: “pre-train and prompt” e “pre-train and fine-tune”.
- Pre-train and Prompt: Gli utenti utilizzano il modello pre-addestrato così com’è, fornendo un prompt (una serie di istruzioni o testo guida) per ottenere una risposta. Questa è la metodologia più comune, specialmente per applicazioni economiche e accessibili.
- Pre-train and Fine-tune: Questa metodologia prevede di perfezionare il modello pre-addestrato per compiti specifici, addestrandolo su set di dati mirati. È più costosa e impegnativa, ma può portare a prestazioni elevate su compiti specializzati.
La “prompt engineering” gioca un ruolo cruciale. Consiste nel formulare i prompt nel modo più efficace per ottenere risultati precisi dall’LLM. Tuttavia, questa tecnica può essere sfruttata per scopi illeciti, come aggirare le protezioni integrate nei modelli.
Attori e tecniche per aggirare le protezioni degli LLM
Lo scopo è scoprire chi sono i principali attori, quali tecniche utilizzano per aggirare le protezioni e come monetizzano i loro servizi. Questo aiuterà a comprendere meglio l’impatto della minaccia e a proporre misure di contrasto efficaci.
Per riuscire ad esaminare in maniera approfondita l’ecosistema Malla vengono utilizzati strumenti di analisi e misurazione, tra cui tecniche di reverse engineering per scoprire i metodi di sfruttamento.
I Malla spesso utilizzano versioni non censurate degli LLM, che non hanno filtri o restrizioni sui contenuti generati. Questo permette ai modelli di produrre testo dannoso senza limitazioni.
Il modello “Luna AI Llama2 Uncensored”
Un esempio è il modello “Luna AI Llama2 Uncensored”, che viene ampiamente sfruttato per la generazione di codice dannoso.
I criminali usano prompt di jailbreak per aggirare le misure di sicurezza integrate nei modelli LLM pubblici (ad esempio, GPT-3.5). Questi prompt sono progettati per far sì che il modello ignori le sue restrizioni e generi contenuti altrimenti proibiti.
Queste tecniche non solo dimostrano la sofisticatezza dei Malla ma evidenziano anche le vulnerabilità dei modelli attuali. Questo risultato porta l’attenzione verso i fornitori di LLM che dovrebbero migliorare le loro protezioni e implementare metodi più efficaci per prevenire l’abuso.
L’integrazione di prompt aggiornati utilizzati dai malintenzionati può rafforzare i meccanismi di controllo dei contenuti. L’uso di sistemi come l’OpenAI Moderation Endpoint e strumenti di terze parti (es. NeMo Guardrails) è cruciale per monitorare e controllare efficacemente le interazioni con gli LLM.
Strategie più comuni utilizzate dai criminali informatici
I criminali informatici adottano diverse strategie per eludere le misure di sicurezza implementate negli LLM e sfruttarli per scopi illeciti. Le loro motivazioni principali sono il profitto economico e la possibilità di compiere attività dannose in modo più efficiente e su larga scala.
Ecco alcune delle strategie più comuni:
- Utilizzo di versioni non censurate degli LLM: i criminali spesso utilizzano versioni degli LLM senza filtri o restrizioni sui contenuti generati. Questo permette loro di produrre testo dannoso, come codice malevolo, senza limitazioni. Un esempio è il modello “Luna AI Llama2 Uncensored”;
- Jailbreak dei prompt: i malintenzionati utilizzano prompt di jailbreak appositamente progettati per aggirare le misure di sicurezza integrate nei modelli LLM pubblici come GPT-3.5. Questi prompt ingannano il modello, inducendolo a ignorare le sue restrizioni e generare contenuti proibiti, come discorsi d’odio o istruzioni per attività illegali;
- Prompt engineering malevola: la “prompt engineering” è una tecnica che consiste nel formulare i prompt in modo da ottenere i risultati desiderati dall’LLM. I criminali sfruttano questa tecnica per manipolare i modelli e generare contenuti dannosi.
Le motivazioni dietro i MALLA
Le motivazioni che spingono i criminali ad aggirare la sicurezza degli LLM sono molteplici, qui sotto un elenco.
- Generazione di codice malevolo: gli LLM possono essere utilizzati per generare codice malevolo in modo automatico, consentendo attacchi informatici più sofisticati e su larga scala;
- Creazione di E-mail di phishing realistiche: gli LLM possono generare e-mail di phishing altamente persuasive e realistiche, aumentando il successo delle campagne di phishing;
- Sviluppo di siti web fraudolenti: i criminali utilizzano gli LLM per creare siti web progettati per ingannare gli utenti e rubare informazioni personali o finanziarie;
- Democratizzazione del crimine informatico: la capacità degli LLM di automatizzare attività dannose rende il crimine informatico accessibile anche a individui con scarse competenze tecniche, ampliando la portata delle minacce.
- Utilizzo di modelli linguistici di grandi dimensioni open-source: Oltre alle versioni non censurate degli LLM, i criminali possono sfruttare i modelli open-source per scopi dannosi. Poiché questi modelli sono pubblicamente disponibili, i criminali possono modificarli e manipolarli per adattarli alle proprie esigenze specifiche, il che potrebbe includere la rimozione delle restrizioni di sicurezza o l’aggiunta di funzionalità dannose. [1]
- Formazione di modelli personalizzati con dati dannosi: I criminali informatici potrebbero addestrare i propri modelli linguistici di grandi dimensioni utilizzando set di dati contenenti contenuti dannosi, come discorsi di odio, istruzioni per attività illegali o codice dannoso. Ciò consentirebbe loro di creare modelli specializzati nella generazione di output specificamente progettati per scopi illegali o dannosi.
- Sfruttamento delle vulnerabilità nei sistemi LLM: oi sistemi LLM, come qualsiasi altro software, possono presentare vulnerabilità che i criminali possono sfruttare. Ciò potrebbe includere vulnerabilità nel codice del modello, nell’infrastruttura sottostante o nelle API utilizzate per interagire con il modello. Sfruttando queste vulnerabilità, i criminali potrebbero ottenere un accesso non autorizzato al sistema o manipolare il suo comportamento.
- Collaborazione e condivisione di tecniche dannose: i criminali informatici spesso collaborano e condividono informazioni e tecniche tra loro. Ciò potrebbe includere la condivisione di prompt di jailbreak, set di dati dannosi o vulnerabilità scoperte nei sistemi LLM. Attraverso la collaborazione, possono migliorare le proprie capacità e sviluppare metodi più sofisticati per aggirare la sicurezza degli LLM.
È fondamentale che i fornitori di LLM migliorino le misure di sicurezza e implementino metodi più efficaci per prevenire gli abusi. L’integrazione di prompt aggiornati utilizzati dai malintenzionati e l’utilizzo di sistemi di monitoraggio come OpenAI Moderation Endpoint e NeMo Guardrails sono essenziali per mitigare i rischi.