Intelligence open source (Osint): ecco tecniche e vantaggi

L’intelligence preventiva con fonti di pubblico dominio (Osint) sempre più si avvale di social network e tecnologie digitali. Vediamo software, metodi e tecnologie in uso

Si sta affermando sempre più la cosiddetta Osint Intelligence. Con questo termine si intende l’uso di tecnologie di monitoraggio delle fonti di pubblico dominio (OSINT = Open Source INTelligence) a scopo di sicurezza.

Sono tecniche tradizionalmente legate a sorgenti non strutturate quali testate giornalistiche, agenzie e persino libri, ma hanno avuto grande impulso dalla diffusione dei Social Network, qui intesi nella loro accezione più ampia che include anche blog, micro-blog, forum, chat e newsgroup.

Indice degli argomenti

I vantaggi dell’Osint Intelligence

Nel comparto sicurezza, il grande vantaggio di tale approccio consiste nella sua natura di difesa preventiva, sulla base del principio per cui quanto più da lontano si identifica una minaccia, tanto più efficacemente la si potrà contrastare. Questo vale soprattutto per Infrastrutture Critiche o enti e Corporate di alta esposizione che costituiscono un “bersaglio pagante” per (cyber) attacchi. L’ipotesi operativa che soggiace all’uso di OSINT è di dover fronteggiare una minaccia organizzata, costituita da team o comunità coordinati che spesso, per massimizzare l’impatto, hanno necessità di comunicare e spesso condividere motivazioni, intenti e modalità, non sempre in modo celato.

Gli strumenti di OSINT si pongono come moltiplicatori di forza, che amplificano l’efficacia degli asset già disponibili per la sicurezza. Il ruolo dell‘Intelligence preventiva si sta affermando anche nel mondo della CyberSecurity, dove si esplora il cyber-spazio per difendere le proprie cyber-strutture: i risultati dell’OSINT si integrano come early warning nei sistemi di analisi da log e sonde, che monitorano gli apparati e l’infrastruttura ICT di una organizzazione o azienda e che necessariamente agiscono post rem.

Le sfide dell’Osint

La disponibilità di grandi masse di dati da tante e tali molteplici fonti, espresse in linguaggio naturale, apre prospettive e sfide tecnologiche sotto diversi aspetti: in primo luogo, offre la possibilità di cercare, in modo mirato, informazioni pertinenti ad un’area di interesse; al tempo stesso, supporta la capacità strategica di riconoscere l’insorgenza di fatti, tendenze o novità rilevanti; non da ultimo, un’analisi del (cyber) scenario può fornire informazioni tempestive su minacce in via di costituzione o dispiegamento. Quali che siano le finalità, la ricerca di un ago nel pagliaio richiede una considerevole potenza di calcolo ma soprattutto algoritmi sofisticati, per garantire elaborazione veloce e conseguente reazione tempestiva quando necessaria.

Come usare le fonti di pubblico dominio

Il contesto scientifico di riferimento rientra nell’alveo del Text Mining, insieme di metodi per la lettura e l’interpretazione di testi in linguaggio naturale, in cui si fondono competenze di linguistica computazionale, Machine Learning, Intelligenza Artificiale e calcolo ad alte prestazioni. Le tecnologie necessarie nel quadro multidisciplinare comprendono sia funzioni di tipo strutturale (riconoscimento della lingua in cui il testo è scritto, analisi lessicale per identificazione e elaborazione dei lemmi, analisi sintattica per riconoscimento dei ruoli dei vari termini in una frase), sia competenze di tipo semantico, che si appoggiano a basi di conoscenza (ontologie, reti semantiche) per raccogliere informazioni collaterali non incluse esplicitamente nel testo.

Va detto che le due aree strutturale/semantica non sono indipendenti perché l’interpretazione del testo deriva dall’interazione ciclica fra le due componenti; essa rappresenta il metodo più promettente per superare l’ostacolo principale nell’analisi testuale, cioè la disambiguazione fra diversi significati alternativi. Una caratterizzazione semantica può offrire numerose dimensioni di interpretazione, spaziando dalla geo-referenziazione (della sorgente e del contenuto) alla sentiment analysis, in cui si ricostruisce l’impatto emotivo evocato nel testo. Queste molteplici tecnologie si declinano in modo diverso secondo la specifica finalità di monitoraggio.

Nel caso della ricerca mirata di contenuti, il Text Mining può integrare efficacemente le funzionalità dei convenzionali motori di ricerca, perché offre la capacità di reperire contenuti che sono affini per significato ad un target predeterminato di interesse (es. un documento base da cui partire), ma da cui differiscono integralmente nel lessico e potenzialmente anche nella lingua di espressione.

È questo il caso dei (Semantic) Focused Crawler, agenti software che esplorano il Web localizzando pagine su base di interesse semantico. In questo senso evidentemente l’analisi linguistica può ricoprire un’importanza notevole perché i contenuti esplorati e analizzati sono espressi secondo una struttura linguistica ben definita (es. pagine Web). Le tecnologie di analisi associate possono essere finalizzate alla classificazione dei contenuti secondo i modelli target predeterminati, per cui sistemi di predizione automatica possono applicarsi con successo.

L’applicazione di tecnologie OSINT al monitoraggio di fonti da Social Network espone invece marcate specificità derivanti dall’uso del mezzo di comunicazione da parte dell’utenza. Un’analisi sintattica profonda può infatti risultare inefficace quando applicata a un microblog o una chat, perché gli utenti spesso tralasciano tout court le regole grammaticali, né la punteggiatura può aiutare a organizzare il testo. In questo caso risulta efficace un’analisi lessicale basica, spesso aiutata da vocabolari ad-hoc con contenuti gergali, mentre può risultare facilitata una caratterizzazione emozionale, che è talora codificata esplicitamente attraverso simboli o espressioni convenzionali (es. emoticon).

Social media e cybersecurity

La natura dinamica e fluida dei Social Media offre alcune opportunità per OSINT nel comparto sicurezza. In primo luogo, una costante osservazione del traffico di informazioni consente di rilevare eventi o espressioni di particolare interesse per il contesto sotto osservazione; particolarmente utili in tal senso sono la combinazione di analisi lessicale e semantica per il filtraggio di contenuti dal fiume di informazioni esposte che sono per lo più irrilevanti.

Gli algoritmi di riferimento comprendono tecniche di clustering, per identificare gruppi di testi dal contenuto affine, e tagging, per caratterizzare singoli contributi o interi gruppi con una connotazione semantica aggregata; tutto ciò può agevolare l’analista nell’identificare contenuti rilevanti. Questi strumenti sono ugualmente efficaci se applicati a un ambiente generalizzato quali un microblog (Twitter) o ad un contesto più ristretto quali una chat o un forum, e hanno la capacità di produrre conoscenza con una costante di tempo molto ristretta, quasi sempre inferiore a quella delle agenzie di stampa o degli Enti e Istituzioni di supervisione. Un’applicazione più mirata può supportare applicazioni anche più incisive, qualora si intenda considerare una fonte specifica o una comunità per rilevare l’insorgenza di potenziali minacce.

In questo caso si possono combinare tecnologie di clustering, novelty detection per rilevare anomalie, geo-referenziazione e sentiment analysis, per arrivare a metodi di classificazione per validare autenticità e originalità della fonte.

Una parola di attenzione: le molte prospettive offerte da queste tecnologie intelligenti possono talora indurre ad aspettative di tipo velleitario. La tecnologia ha notevoli potenzialità ma al momento espone alcune limitazioni che non possono essere trascurate. In primo luogo, il flusso di dati prodotto continuamente rende molto improbabile un monitoraggio cieco delle fonti: l’impatto tecnologico dell’OSINT automatico è massimo se si definisce un contesto di interesse. La sentiment analysis, inoltre, si rivela efficace in scenari di sicurezza se applicata alla singola sorgente, per rilevarne inclinazioni o mutamenti; esistono applicazioni aggregate di sentiment analysis ma si riferisono tipicamente ad un contesto di marketing o di predizione di tendenze (es. elettorali). Non da ultimo, le basi di conoscenza per un’analisi semantica pongono la costante sfida della costruzione (devono essere codificate da qualcuno), manutenzione (il contenuto deve essere validato) e dell’aggiornamento (i contenuti cambiano continuamente), per eseguire i quali in modo automatico si richiedono algoritmi e tecniche che spesso sono ancora nella sfera della ricerca tecnologica.

Ciononostante, in tutti i casi considerati appare il ruolo e il vantaggio di strumenti di monitoraggio (semi)automatico di contenuti non strutturati. Le tecnologie coinvolte non possono sicuramente porsi in alternativa ai sistemi di controllo degli asset tecnologici quali sistemi SIEM per rilevazione di anomalie o allarmi; tuttavia è oggi prassi operativa consolidata, da parte di Infrastrutture Critiche, Istituzioni o Corporate di rilevo, dotarsi di strumenti di Intelligence preventiva, anche nel mondo della Cyber Security.