Recentemente è stato scoperto che i modelli più avanzati di intelligenza artificiale sarebbero in grado di violare siti web e rubare informazioni all’interno di database online, senza conoscerne in anticipo le vulnerabilità e senza alcun intervento da parte dell’utente se non il prompt iniziale. In altre parole, l’utilizzo di tali tecnologie permetterebbe anche a individui senza alcuna esperienza in materia di hacking di portare a termine attacchi informatici.
A rivelarlo è un paper pubblicato da un gruppo di ricercatori della University of Illinois Urbana-Champaign (UIUC). L’articolo, dal titolo “LLM agents can autonomously hack websites” (Gli agenti Large Language Models sono in grado di violare siti web in autonomia) mostra come queste tecnologie possano condurre attacchi su siti web, eseguendo compiti complessi senza disporre di conoscenze pregresse sulla vulnerabilità del sistema.
Un “agente” LLM è un sistema in grado di utilizzare i Large Language Model (LLM) per analizzare un problema, elaborare un piano per risolverlo e mettere in atto tale piano con l’ausilio di un insieme di strumenti. A fronte della crescente capacità acquisita da tali sistemi, recenti indagini hanno ipotizzato il potenziale contributo dei LLM nel panorama della sicurezza informatica, sia in termini di attacco che di difesa, ma fino ad ora non si era mai approfondito lo studio sugli agenti autonomi.
I test messi in atto dal gruppo di ricerca hanno dimostrato che tali modelli sono in grado di eseguire attacchi che implicano un processo articolato, comprendente l’estrazione dello schema del database, l’acquisizione di informazioni dal database basandosi su tale schema e l’effettiva esecuzione dell’offensiva.
Secondo i ricercatori, l’esecuzione di simili attacchi richiede che gli agenti compiano una serie complessa di operazioni navigando sui siti web. La ricerca dimostra come tale capacità sia per il momento limitata esclusivamente a GPT-4 e GPT-3.5, dimostrando la loro avanzata sofisticazione nel contesto delle minacce informatiche. Nessun altro modello di linguaggio open-source, infatti, è risultato in grado di compromettere la sicurezza dei siti web mediante queste tecniche.
Per abilitare tali agenti LLM ad eseguire autonomamente attacchi su siti web, sono stati resi in grado di leggere documenti, manipolare un browser web e recuperare risultati, nonché accedere al contesto derivato dalle azioni pregresse. Tali capacità sono ora ampiamente accessibili tramite API standard, come ad esempio “Assistants API” di OpenAI, appositamente progettata per operare in sinergia con i modelli LLM di ultima generazione come GPT-4.
Al fine di garantire che questi sistemi siano in grado di violare autonomamente i siti web, i modelli sono stati nutriti con documenti riguardanti il web hacking, estratti da fonti pubbliche online e contenenti informazioni su un ampio spettro di attacchi web, compresi attacchi generici, SQL injection, XSS e SSRF.
Infine, per quanto riguarda il prompt iniziale fornito al sistema, dal momento che gli agenti LLM non necessitano di ricevere alcun feedback dall’utente questo è stato progettato per incoraggiare il modello a manifestare creatività, sperimentare diverse strategie, perseguire quelle promettenti fino al completamento, e adattarsi mediante l’adozione di nuove strategie in caso di insuccesso.
La fase di sperimentazione è stata condotta su siti web in un ambiente “sandbox”, ovvero una tipologia di siti che replicano quelli reali, comprensivi di database, backend e frontend. Sono state testate 15 vulnerabilità, da semplici a complesse, ed è stato definito un limite di 10 minuti di esecuzione per ogni attacco. L’esperimento è stato condotto su 10 modelli LLM, tra cui GPT-4, GPT-3.5 e altri. L’analisi dell’esito degli attacchi ha dimostrato un tasso di successo complessivo fino al 73,3% per l’agente più avanzato, GPT-4, mentre GPT-3.5 ha mostrato un tasso di successo inferiore al 7% mentre gli altri agenti LLM open-source testati hanno mostrato capacità molto più limitate.
Gli elementi cardine per il successo degli attacchi sono risultati essere la funzionalità di lettura di documenti e il fornire istruzioni dettagliate all’agente. La rimozione di tali fattori ha infatti comportato una significativa diminuzione anche delle prestazioni di GPT-4.
Le conclusioni di questo studio pongono interrogativi sulla diffusione degli agenti LLM avanzati. L’evidenza che GPT-4, possa individuare vulnerabilità in siti web reali in modo autonomo ed eseguire attacchi rappresenta una sfida significativa per la sicurezza informatica, sollevando questioni etiche e pratiche che devono essere attentamente considerate dalla comunità dei fornitori di modelli LLM e ribadendo la necessità di standard etici e di divulgazione responsabile nel rilascio di questi modelli.
La notevole potenza di scaling evidenziata da GPT-4, che supera significativamente sia GPT-3.5 che gli altri modelli open-source, sottolinea la rapida avanzata delle capacità degli agenti LLM di ultima generazione. Questo aspetto assume un’importanza ancor maggiore considerando che, come dimostrato dalla ricerca, i costi connessi agli attacchi perpetrati mediante agenti LLM sono notevolmente inferiori rispetto a quelli che richiederebbe un intervento umano.
Solo poche settimane fa, OpenAI aveva dichiarato di aver adottato delle misure per contrastare minacce attive provenienti da diversi gruppi APT. Questi attori, identificati in collaborazione con Microsoft, includevano Charcoal Typhoon e Salmon Typhoon affiliati alla Cina, Crimson Sandstorm legato all’Iran, Emerald Sleet affiliato alla Corea del Nord e il gruppo russo Forest Blizzard.
Le attività di questi attori hanno evidenziato un utilizzo intensivo dei servizi offerti dall’azienda. In particolare, sono emerse pratiche preoccupanti, come la ricerca di target, la traduzione di documenti tecnici per fini strategici, la generazione di contenuti per campagne di phishing e l’identificazione di vulnerabilità. Questi casi sottolineano il pericolo dell’utilizzo crescente di modelli AI da parte degli hacker, che viene ulteriormente aggravato dalle capacità degli agenti LLM di ultima generazione come GPT-4, in grado di superare di gran lunga le capacità dei modelli open-source. La facilità con cui i cybercriminali possono sfruttare tali modelli per compiere attività dannose, evidenzia la necessità di affrontare con urgenza la sicurezza nell’utilizzo di tali tecnologie.