Se i social network sono ormai lo specchio della vita quotidiana (e lo sono, al punto che la vita reale è diventata proiezione di quella virtuale e non più viceversa), possono svelare preventivamente concreti segnali di allarme o vere e proprie pianificazioni di azioni violente, solitarie o di gruppo? Cosa si può estrapolare concretamente dai profili e dalle ombre digitali delle persone per provare a scongiurare possibili azioni violente contro i singoli e contro le folle? E la tecnologia cosa può fare per agevolare questo complesso compito?
I recenti fatti di cronaca accaduti a Christchurch in Nuova Zelanda lo scorso 17 marzo, quando il 28enne Brenton Tarrant, in diretta Facebook, aprì il fuoco contro i fedeli all’interno di due Moschee causando la morte di 50 persone, come molte altre sparatorie o azioni terroristiche dei cosiddetti lupi solitari, sembrano suggerire di sì, che è vero che i profili social di attentatori e sociopatici noti alla cronaca, contengono segnali anticipatori evidenti, o quantomeno molto riconoscibili per gli addetti ai lavori.
Evidenti, però, a posteriori: a fatti accaduti le ricostruzioni sembrano sempre più semplici.
Nelle prossime righe vedremo come una soluzione proposta dal progetto LETSCROWD (finanziato dall’Unione Europea, programma Horizon 2020, grant. Agreement 740466), di cui avevamo parlato anche in questo articolo, cerchi di estrapolare elementi utili alle azioni preventive delle forze dell’ordine, con tutti i limiti derivanti dal bilanciamento tra aumento delle misure di sicurezza e conservazione della privacy e delle libertà personali.
Prima di entrare nel dettaglio della tecnologia, va fatta un’ultima doverosa precisazione a proposito del focus del progetto. LETSCROWD infatti, guidato da ETRA Investigación y Desarrollo SA – Spagna, ha come obiettivo principale, quello di migliorare la sicurezza durante eventi di massa. Nel prosieguo dell’articolo pertanto terremo come punto di riferimento questa tipologia di eventi.
Contenuti web come fonte primaria di informazione
Il valore di una soluzione al problema di fornire intelligence relativa a eventi di massa risiede nella sua capacità di sfruttare molteplici fonti di informazioni. Questo genere di strumenti è in grado di supportare le attività di un operatore di sicurezza, fornendogli conoscenza sul contesto degli eventi e allargando il suo campo d’azione. Il Web, le piattaforme di social media, le riviste digitali ma anche le fanzine, forum, le “wiki” e tutti i siti internet in generale, sono una fonte fondamentale di contenuti generati dagli utenti. Da questa eterogenea fonte di informazioni è possibile estrarre e identificare segnali relativi a pericoli e minacce alla sicurezza.
Non si possono tuttavia ignorare tutte le sfide tecniche tipiche correlate all’estrazione e all’analisi di larghi volumi di dati: dalla natura intrinsecamente distribuita del dato presente su piattaforme web, passando alla mancanza di struttura nei contenuti testuali recuperati.
Per sua natura, indipendentemente dal volume di dati da analizzare, l’analisi di testi scritti in linguaggio naturale è un’operazione complessa, considerata anche l’evidente difficoltà di associare una semantica univoca al linguaggio naturale.
L’ambiguità del linguaggio “parlato”, la complessità sintattica unita a refusi, lessico gergale e linguaggio informale, sono tutti elementi riscontrabili nella comunicazione su social media; se a questi si aggiungono fattori come la comunicazione in più lingue, si può ben capire come lo scenario che ci si presenta davanti non sia roseo.
Il “Semantic Intelligence Engine” del progetto LETCROWD
Nel progetto LETSCROWD confluisce un consorzio composto da professionisti della sicurezza, in totale 16 partner provenienti da 8 diversi paesi, tra cui istituti di ricerca privati e pubblici, università, forze dell’ordine e pubbliche autorità che operano nelle seguenti aree critiche: governo, sicurezza, energia, finanza, trasporti e servizi. Tra i partner Italiani figurano l’Università degli studi di Cagliari attraverso il laboratorio PRA Lab, il Ministero degli Interni, e le aziende Pluribus One, e Deep Blue.
E proprio da una collaborazione tra Università degli studi di Cagliari, la sua spin-off Pluribus One e l’azienda spagnola Expert System (anch’essa parte del progetto), nasce l’idea di introdurre tra i software del progetto, anche un tool di Semantic Intelligence Engine (SIE), in grado di fornire supporto alle attività di analisi per la sicurezza degli eventi di massa. Il SIE consente agli analisti di monitorare molteplici fonti di informazione sul web, raccogliendo contenuti testuali grazie ad un modulo di ricerca creato ad hoc.
Questo modulo, configurabile dagli operatori di sicurezza, è denominato Web Crawler, il quale a sua volta supporta un sistema di analisi testuale (denominato Cogito). Il tool di Intelligenza Semantica, così composto, trova i testi, li analizza e li arricchisce di metadati semantici basati sul loro contenuto. Il risultato consiste in una serie di dati facilmente esplorabili ai fini della sicurezza; dati che l’operatore può visualizzare e analizzare alla ricerca di indizi e informazioni aggiuntive.
Ricerca, comprensione e analisi del testo: tecnologia semantica e machine learning
Il Semantic Intelligence Engine di LETSCROWD dunque è in grado di raccogliere informazioni da una moltitudine di fonti basate sul web; si focalizza su fonti aperte (OSINT) e basate su piattaforme social media (SOCMINT) ed opera sempre dentro i vincoli di natura etico-legale.
Attingere a molteplici fonti e sottostare a vincoli legali e tecnici mentre si cerca di stare al passo con uno scenario in continuo cambiamento, è una sfida considerevole. LETSCROWD affronta questa sfida puntando su agilità e versatilità e su piccoli componenti software indipendenti che si occupano a livello “atomico” di ottenere informazioni in modo autonomo. Ogni plugin agisce in modo indipendente ed è sviluppato ad hoc per una specifica fonte di informazione. Durante la fase di ricerca il SIE è composto quindi da una serie di moduli principali che si occupano di organizzare le attività, gestire il salvataggio dei dati, comunicare con le altre componenti, e infine da una collezione di plugin che svolgono materialmente le ricerche.
Durante la fase di analisi invece l’obiettivo è quello di comprendere parti di testo e trasformarle in conoscenza e in informazioni utili a livello pratico; i suggerimenti e le informazioni fornite sono utili a guidare gli operatori di sicurezza e le forze dell’ordine nel processo decisionale, rafforzando e supportando quanto rivelato da semplici considerazioni analitiche. La capacità del sistema di comprendere un corpus di testo e generare informazioni rilevanti, è di grande aiuto nell’accelerare le attività di valutazione del rischio di situazioni potenzialmente incombenti, e può contribuire in modo efficace alla analisi della minaccia o allo sviluppo di una strategia parte di un piano di sicurezza.
L’analisi testuale effettuata dal sistema è in grado di rappresentare le conoscenze linguistiche associate a 14 diverse lingue e di effettuare una disambiguazione di tipo semantico, che include la discriminazione di lemmi simili, al fine di identificare il significato di singole parole e di espressioni in funzione del contesto in cui sono usate. Il sistema è inoltre in grado di comprendere quali relazioni esistano tra le varie parole presenti nel testo e i concetti in esso espressi. Il risultato di questa analisi linguistica viene usato come base per ulteriori attività più complesse: estrazione di informazioni, classificazione testuale basata su tassonomie, analisi autoriale e stilistica.
Possiamo immaginare, a titolo di esempio, uno scenario in cui un analista voglia monitorare categorie testuali come “atto associato a terrorismo” o “terrorismo di matrice religiosa”. Il sistema sviluppato da LETSCROWD per l’Unione Europea fornisce all’analista la possibilità di accedere, scartando documenti non pertinenti, solamente a documenti contenenti informazioni su attacchi terroristici o associabili a estremismo religioso o atti di violenza legati in qualche modo ad una specifica fede religiosa. Il sistema permette inoltre di cercare documenti in cui siano presenti riferimenti ad una specifica “organizzazione criminale”, un individuo particolare o un luogo. O persino di effettuare ricerche basate su un particolare stile di scrittura al fine di identificare autori che usano regolarmente uno specifico registro linguistico o un lessico associabile ad ambienti malavitosi o a criminalità informatica.
Grafici e statistiche sui testi
Come parte integrante del progetto LETSCROWD, finalizzato a fornire strumenti validi e facilmente leggibili alle forze dell’ordine, questi strumenti sono stati dotati di un’interfaccia grafica web e una dashboard intuitiva e in grado di rendere indicatori e grafici con informazioni relative a tutti i documenti testuali scaricati durante le attività di analisi per uno specifico evento di massa monitorato dal sistema.
Tra le altre opzioni, la dashboard garantisce: possibilità di effettuare ricerche sui documenti recuperati filtrandoli per data, classificazione, o effettuando ricerche per parole chiave; possibilità di ispezionare singolarmente tutti i documenti che rispettano una serie di requisiti decisi dall’analista; visualizzazione di metadati rilevati nella collezione di documenti, anche nella forma di nuvole di tag con i termini più frequenti; estrazione di diagrammi (a torta, istogrammi, etc.) che mostrano la distribuzione di termini estratti dai documenti (ad esempio nomi di luoghi, nomi di persona, organizzazione, enti, etc.) e indicatori che riportano il livello di utilizzo di “gergo” di stampo criminale e, più generalmente, informazioni sul registro linguistico usato dai vari autori.
Tecnologia e realtà
Seppur non scevre di dettagli tecnici, le precedenti righe avranno sicuramente chiarito il fatto che la tecnologia può giocare la sua parte e garantire il suo ruolo nell’estrazione di informazioni cruciali per prevenire azioni criminali. Come sempre però, l’applicabilità tecnica di certe soluzioni è vincolata a contesti reali in cui i limiti si palesano a diversi livelli.
Innanzitutto un primo ostacolo di natura legale, legato alla privacy, non consente l’analisi dei testi su tutte le piattaforme social o comunque ricche di contenuti testuali (solo su alcune piattaforme i dati sono “pubblicamente disponibili”).
Un secondo ostacolo è invece legato all’intuizione, del tutto umana, dell’oggetto (o del soggetto) da monitorare: non si possono certamente monitorare tutte le azioni e tutti i profili sul web, ma attraverso scelte mirate (e umane), i primi filtri alla ricerca di informazioni vanno elaborati ancora una volta all’interno delle Intelligence umane e non all’interno di Intelligence artificiali.