Le tecniche di elaborazione dei dati basate su intelligenza artificiale/machine learning aprono nuove opportunità per gli attaccanti in ambito cyber, si concretizzano pertanto nuovi rischi per il sistema e per chi si adopera per la sua tutela.
Nel precedente articolo abbiamo analizzato come la Artificial Intelligence e nello specifico la sua declinazione in Machine Learning, nonostante alcune limitazioni attuali ancora non superate, siano fonte di numerose opportunità se applicate all’ambito della cybersecurity. Approfondiamo ora l’aspetto duale, ossia quali minacce possono abilitare, e di fatto già abilitano.
I cyber-rischi abilitati dai sistemi di AI
Le tecniche di elaborazione dei dati basate su AI/ML adottate in ottica offensiva aprono la strada per il momento a 2 scenari principali, oltre alle quali si apre un terzo macro-scenario ancor più preoccupante:
- Applicazione al phishing e alla manipolazione dei comportamenti
- Utilizzo ai fini di potenziamento del malware
- Più in generale, in un contesto che si delinea sempre più come “cyber-fisico”, manipolazione della “realtà”
Per quanto riguarda il primo tema, nonostante l’efficacia delle campagne generaliste rimanga elevata, gli attaccanti sono sempre alla ricerca del “phishing perfetto“. In particolare, sono alla ricerca di quei raffinamenti e di quelle personalizzazioni che, introdotte in email o altri vettori di contatto, possano aumentarne la redemption. Quello che in gergo si chiama “spear-phishing”, ossia phishing estremamente contestualizzato, richiede un notevole dispendio di tempo ed energie per la preparazione. Un supporto automatizzabile, scalabile e che produca risultati “ragionevoli” (e migliorabili nel tempo mediante autoapprendimento) certamente può accrescere in modo preoccupante l’efficacia e la portata di questo tipo di attacchi.
In particolare gli approcci potenziati dalla AI possono aiutare anche nelle attività estremamente time consuming di profilazione e analisi dei comportamenti degli utenti, finalizzate alla raccolta di preferenze o indicazioni utili a caratterizzare l’“esca” o l’utente stesso. Immaginiamo l’impatto che questo può avere in ottica di selezione dei bersagli e identificazione di accorgimenti puntuali che rendono le esche maggiormente credibili.
Ambiti di intervento di AI e ML
I principali ambiti di intervento e di supporto per l’AI/ML che si vanno delineando in quest’area sono sostanzialmente:
- Riconoscimento dei target più “promettenti”, anche in relazione all’attività online, che viene “spiata”, analizzata e tracciata per definire il profilo e la tipologia di utente, secondo accorgimenti comuni ad esempio al marketing.
- Predisposizione al pagamento del riscatto sulla base di dati storici/statistici, in associazione a tipologie e profili utente come quelli definiti sopra. Eventualmente con fine tuning dell’ammontare richiesto, derivante ad esempio dall’analisi delle interazioni online del target stesso da cui è possibile desumere in taluni casi elementi indicativi del reddito.
- A corredo della comunicazione scritta, ed in relazione ad una contestualizzazione automatica del contenuto, emerge anche la generazione di URL “credibili” nelle email di phishing, selezionando domini falsi o formattazioni degli indirizzi che ben si prestano a superare i controlli (visivi) effettuati dall’utente medio.
- Infine, con un approccio più attivo, si va anche verso la generazione di tweet/post attrattivi, e potenzialmente sincronizzati con l’attività del target (destinatario o impersonato) sui Social atti a veicolare link o contenuti malevoli. In questo caso si adottano gli approcci che caratterizzano le chat interattive e i “conversational bot”. In tal senso Twitter (con il suo obbligo alla sintesi nelle comunicazioni) rappresenta uno dei canali privilegiati per sfruttare questo approccio.
Nel futuro si intravede una generalizzazione di questo approccio, automatizzando la creazione di siti/email credibili nella loro interezza. Questo traguardo non pare più così irrealistico se si pensa agli esperimenti (immagini successive) di nvidia legati alla generazione casuale di volti “gradevoli” (atti a creare trust) o alla realizzazione di “avatar annunciatori” che automatizzano la produzione di telegiornali. Approcci che peraltro aprono la strada a una nuova frontiera di “*ishing”.
Anche rispetto al miglioramento dei sistemi di attacco, la AI può giocare un ruolo importante: l’introduzione di modifiche opportune ai codici, atti a renderli meno riconoscibili dalle soluzioni antimalware, e di comportamenti variabili nel malware in relazione alle difese rilevate sul target, migliorano l’efficacia degli attacchi. Di fatto, si va sempre più marcatamente nella direzione di centri di controllo (C&C) con comportamento adattativo, e di malware “autonomi” in grado di operare sul target in modo contestualizzato anche quando non dispongano della comunicazione con il centro di controllo stesso. Parliamo quindi di:
- Kit di attacco con comportamenti “guidati da AI”, al fine di reagire nel modo probabilisticamente più efficace alle contromisure rilevate e di intraprendere le azioni più idonee per il raggiungimento dello scopo (o comunque per la massimizzazione del guadagno).
- Offuscamento dei comportamenti e del codice finalizzato all’evasion delle tecniche di signature-based detection e delle euristiche comunemente adottate dai sistemi di rilevamento, anche in ottica “monouso”. Questa attività è estremamente gravosa se svolta manualmente. Di fatto si tratta di generare pattern di codice abbastanza dissimili dal sorgente originale non solo nella forma ma anche nei comportamenti, tuttavia equivalenti nel risultato, superando di fatto gli approcci classici all’offuscamento. O comunque, rimanendo in questi ultimi più tradizionali canoni, si mira a realizzare un elevato numero di varianti offuscate del medesimo codice.
- Implementazione di “next generation C&C” per le BotNet, che permettano ad esempio un provisioning dinamico/adattativo dei moduli loadable per i Bot sui sistemi target. In pratica, si munisce il malware delle “sole “armi che occorrono quando occorrono”, senza che una persona debba intervenire nel processo decisionale.
Manipolazione della realtà
Quelli esplorati sopra sono tuttavia scenari e casi d’applicazione molto settoriali. Ossia, si è mostrato come siano già in corso di sviluppo e (con la dinamicità che caratterizza l’ecosistema del cybercrime) di attuazione evoluzioni tecnologiche anche molto spinte su schemi di attacco noti, guidate e abilitate da AI/ML. Occorre tuttavia considerare che, alla luce della crescente pervasività dell’ICT nella realtà di tutti i giorni (negli oggetti, nelle interazioni, ecc.), diventa enorme il potenziale di manipolazione della realtà stessa, ipotizzabile dall’applicazione di AI/ML.
Parliamo di infrastrutture critiche, di settore sanitario, di accesso a servizi pubblici e di tutto ciò che sempre più caratterizza la vita del cittadino. Un esempio su tutti è a mio avviso rappresentato da una sperimentazione in cui si è tentato, con applicazioni AI-based, di manipolare esiti di esami oncologici, in senso additivo (mostrando sintomi dove non ce n’è) o sottrattivo (nascondendo sintomi realmente presenti). Senza che sia necessario approfondire le implicazioni (anche etiche) di una tale possibilità, è a mio avviso interessante leggere i dati che emergono e che schematizzo nella rielaborazione grafica seguente.
Nella pratica, esistono specifiche tipologie di manipolazione che per l’AI è “semplice” effettuare (o meglio: ha una complessità equivalente a quella di altre) e che per l’uomo, per quanto consapevole della possibile alterazione, è molto complesso individuare. A ulteriore riprova della significativa differenza tra l’intelligenza umana e l’“intelligenza” artificiale.
Nel contesto specifico, ma con una riflessione che si può estendere a molti ambiti dove la tecnologia è entrata pervasivamente prima che si sviluppasse una matura attenzione ai temi di cybersecurity, l’aspetto preoccupante è che l’elaborazione può essere svolta in tempo reale da oggetti anche di potenza relativamente limitata che è possibile nascondere nelle installazioni fisiche. Nel caso esemplificato, la motivazione è legata al fatto che, anche qualora l’accesso al software sia preceduto da autenticazione, il flusso dati successivamente trasmesso è in chiaro!
Sistemi di AI contro sistemi di AI
Infine, si potrebbe aprire l’ampio tema delle vulnerabilità e degli attacchi che possono colpire le stesse AI, che come già ricordato emulano il comportamento umano nelle condizioni “a regime”, ma le cui scelte nelle situazioni meno coperte dal training e/o non accuratamente modellate possono divergere significativamente dalle attese… e dalla “ragionevolezza”.
Proprio per questo, gli attaccanti sviluppano tecniche per il sovvertimento delle AI, con introduzione di “bias” nei dati di training, alterazione della percezione di “normale” mediante manipolazione dei dataset (the danger of small changes), ed in generale alterazione dei comportamenti. Sono allo studio anche remediation a livello teorico, attraverso l’analisi dell’entropia degli stati perturbati (l’assunto è che in qualche modo sia possibile discriminare le perturbazioni derivanti dal “rumore” del dato reale, da quelle volutamente introdotte da un attaccante) o altri approcci comunque estremamente complessi, la cui efficacia deve essere compresa.
Gestione degli impatti negativi
Sintetizzando questa panoramica, che certamente non ha la pretesa di essere esaustiva, può essere utile focalizzarsi su alcuni elementi di riflessione.
Da un punto di vista dei potenziali “adopter”, quindi di chi sceglie e guida l’adozione degli approcci discussi nelle realtà aziendali, emergono alcuni messaggi, che provo a riassumere anche a costo di inevitabili approssimazioni:
- La tecnologia potenziata dalla AI pare rappresentare il futuro, al di là dei “claim commerciali”, e verrà adottata anche nel campo della cybersecurity.
- Questa adozione richiede comunque una marcata evoluzione delle expertise attualmente in campo.
- Sono già identificate alcune direttrici di diffusione privilegiate, ma il percorso non è privo di ostacoli.
L’adozione dovrà a mio avviso considerare alcuni insegnamenti che le esperienze attuali (non ultime alcune sperimentazioni che in Cefriel stiamo conducendo) fanno emergere:
- L’output dei sistemi di AI (ed in particolare di quelli basati su machine learning) è rappresentato da una probabilità statistica. Non esistono gli assoluti. Sono assolutamente da mettere in conto falsi positivi, complessità del tuning delle soluzioni (perché siano realmente efficaci nel contesto), difficoltà nel triage (a fronte di una attesa/futura maggior velocità e miglior approssimazione nella detection iniziale). Non si può prescindere dalla messa in campo di team “esperti” (di dominio applicativo e in ambito della “data science”) per la massimizzazione del valore.
- Gli approcci guidati da ML si adattano “bene” a nuove varianti di minacce conosciute, meno bene alla comparsa di vettori di attacco completamente nuovi, pertanto il supporto dell’analista rimane insostituibile in questo secondo caso.
- Se ci si chiedesse se si intravede in modo consistente un movimento nella direzione di sviluppo di “Algoritmi Autonomi Intelligenti“, una prima risposta potrebbe arrivare dal fatto che “Facebook recently abandoned an AI experiment after ‘chatbots’ invented their own language which was not understandable by humans”.
Quest’ultima è chiaramente una piccola provocazione, ma non così lontana dalla realtà. Una lezione interessante può derivare dal fatto che, data la necessità di allontanare le persone dalle aziende remotizzando il lavoro a causa dell’epidemia di Coronavirus, Facebook ha affidato il compito di selezionare e rimuovere i contenuti offensivi o inappropriati, solitamente svolto da svariate centinaia di moderatori, ad algoritmi AI/ML che nell’operatività quotidiana li supportano. Risultato? “Multiple reports emerged that Facebook was falsely flagging and removing legitimate content from sites such as the BBC, Buzzfeed and USA Today, as well as users’ posts”.
Facebook ha successivamente smentito che il problema fosse negli algoritmi “spinti” a funzionare in modo più autonomo del solito, attribuendo invece il “bug” ad un sistema antispam. Tuttavia la stessa Google, per citare un altro player fortemente coinvolto nell’uso di queste tecnologie, anticipa questo nelle stesse ore (in merito ai contenuti su YouTube, su cui pure si ha una riduzione del presidio umano): “With fewer people to review content, our automated systems will be stepping in to keep YouTube safe. More videos will be removed than normal during this time, including content that does not violate our Community Guidelines.”
In senso più generale, ciò fa il paio con una riflessione che la “querelle” associata alla presunta invasività dell’AI di Huawei nella gestione della parte fotografica mi ha suscitato. L’oggetto del contendere era l’inclusione in una foto della luna di “artefatti” derivanti dal miglioramento dell’immagine attuato dall’AI, e in realtà frutto di immagini prese dalla faccia nascosta, quindi invisibili nelle foto scattate dalla terra.
La considerazione a mio avviso rilevante è che finché le operazioni guidate da AI/ML sono “aiuti” e agevolazioni agli operatori, e questi ultimi sono in grado di comprendere e governare i razionali di determinate scelte, il beneficio potrà essere sfruttato al massimo. Ed in tal senso sono, a mio avviso, molto condivisibili alcune affermazioni di un CSO, con cui chiudo la mia riflessione:
“So, does this mean that stand-alone products based upon machine learning are goners? No. The intersection between artificial intelligence (AI) and security technology is still in its genesis phase, and we are in a cycle of massive innovation right now, driven by cloud computing, open source, big data technologies, AI, etc.
Given this, CISOs should remain open minded about new types of more revolutionary security technologies that aren’t simple adjuncts to what they’ve done in the past”.
(2. fine)