Bitcoin forensics: le tecniche labeling, clustering e mixnet recognition

Vediamo cosa sono e come funzionano tre tecniche di investigazione-forensics su bitcoin, per scoprire che fine hanno fatto le crittovalute e chi è il criminale beneficiario

Pubblicato il 10 Apr 2018

Stefano Bistarelli

professore, Nodo UniPG Cybersecurity lab

cyber_121005772

Il bitcoin, oltre ad essere una valuta crittografica estremamente volatile e oggetto di frenetici investimenti da parte di coloro che sperano in facile guadagni, è soprattutto una applicazione finanziaria della rivoluzione tecnologia rappresentata dalla blockchain. La tecnologia rappresenta un mezzo che permette transazioni sicure (per meglio dire persistenti, immodificabili e non ripudiabili) tra utenti della rete, ma senza trusted third party, ovvero senza un intermediario di fiducia rappresentato di solito da una banca. È questa l’innovazione tecnologica che sta dietro al bitcoin e che ne rappresenta in effetti il valore intrinseco.

Ma il bitcoin è anche qualcosa di più. Infatti, le transazioni non avvengono tra utenti autenticati dal sistema e quindi riconoscibili e individuabili nella vita reale, ma tra delle stringhe di bit che rappresentano le chiavi pubbliche degli utenti; chiavi pubbliche che non sono state generate e pubblicate come avviene per la firma digitale da una certification autority che conferma l’identità del possessore, ma create in autonomia dagli stessi utenti e pertanto confidenziali e scollegate dall’identità dell’individuo stesso.

Questa anonimità (o vedremo meglio pseudo-anonimità) offerta a chiunque effettui transazioni nel mondo bitcoin lo ha reso uno dei mezzi preferiti per ricevere pagamenti per azioni illegali. Primo esempio ne sono i riscatti pagati da centinaia di utenti che si sono visti bloccare dati importanti nei propri computer a causa di infezioni da ramsomware come Petya o WannaCry. Lo scenario che si presenta all’incauto utente che ha scatenato una infezione nel proprio PC è una difficile scelta tra il perdere tutti i dati memorizzati nel proprio elaboratore o pagare un ammontare, di circa 300 euro per gli ultimi ramsom, in valuta bitcoin verso degli sconosciuti indirizzi appartenenti a sconosciute identità dell’ecosistema bitcoin.

Quale forensics su bitcoin

Ma veramente non possiamo fare nulla per capire che fine hanno fatto i nostri risparmi e veramente non possiamo fare nulla per capire chi è il malandrino soggetto del cyber crimine?

In realtà qualcosa possiamo fare. Presso il cybersecurity lab dell’università di Perugia, diretto da Stefano Bistarelli si studiano delle possibili soluzioni per rimediare a queste e altre truffe della rete.

La moneta bitcoin è infatti come accennavamo prima non completamente anonima ma pseudo-anonima. Questo vuol dire che pur non avendo una connessione tra identità reale dell’autore del misfatto e indirizzo/chiave pubblica che ha ricevuto il pagamento del riscatto, è possibile esaminare la blockchain dove tutte le transazioni sono memorizzate in maniera indelebile ed individuare e seguire lo spostamento di bitcoin in questa ragnatela di collegamenti. Quindi, anche se non è possibile risalire (direttamente) all’identità della persona le operazioni di forensics riescono a tracciare i pagamenti bitcoin, forse meglio di come è possibile fare, causa segreto bancario, nel mondo reale, quando sono coinvolte banca in stati “canaglia”.

L’attività dell’esperto informatico forense è quindi quella di individuare le transazioni oggetto dell’illecito ed esaminarle; cercare di aggregare indirizzi e tramite euristiche capire quali indirizzi appartengono alla stessa persona e quali invece rappresentano magari degli exchange server dove l’utente ha una identità e dove è possibile indagare e chiedere informazioni.

Per evitare e rendere più difficile seguire le tracce dei pagamenti e degli spostamenti di introiti illeciti spesso vengono utilizzati anche servizi di mixnet. Questi, come suggerisce la parola hanno lo scopo di mescolare più input di transazioni e indirizzarle dopo un percorso tortuoso verso più transazioni di output, in modo da far scomparire o almeno rendere difficile reperire traccia sul vero indirizzo mittente e indirizzo destinatario. Qui le tecniche forensi usano tecniche di reverse engineering e di machine learning per identificare questi gruppi di transazioni e scompigliare la matassa in modo da evidenziare i veri input e output delle transazioni.

Per rendere il tutto ancor più complicato molti di questi servizi di mixnet non sono accessibili nel web a molto conosciuto, ma nel deep o dark web, quella parte di rete nascosta ai più e accessibili solo tramite programmi di anonimizzazione (come tor) e prima di controlli. Qui si possono pagare ramsom, ma soprattutto effettuare droga e armi, e anche commissionare crimini efferati … il tutto dietro compenso in bitcoin.

L’estrema necessita di controllo, regolamentazione del mondo bitcoin ha imposto ai governi di intervenire (come recentemente in italia), al fine di imporre alle aziende che forniscono finestre verso il mondo bitcoin (come gli exchange server) di identificare chiunque voglia utilizzare servizi e porte di accesso al protocollo.

Ma la regolamentazione è purtroppo non sufficiente. Infatti sono molti i servizi che, magari essendo realizzati in stati senza controllo possono offrire ai soggetti del crimine una backdoor verso un cambio facile del bitcoin in altra valuta (o magari in altra critto-valuta).

Come funzionano le investigazioni e i sequestri su bitcoin

Labeling, clustering e mixnet recognition su Bitcoin

Per questo l’altra parte dell’attività di forensics svolta dal cybersecurity lab dell’università di Perugia e da Bistarelli, oltre alle attività di clustering e di mixnet recognition va verso il labeling degli indirizzi bitcoin.

Ma vediamo in dettaglio in che consistono queste 3 attività: labeling, clustering e mixnet recognition.

L’attività di labeling utilizza insieme un motore di web crawling e di scraping: con il processo di crawling si analizzano interi siti web e se ne indicizzano tutti i contenuti. Un crawler, anche conosciuto come spider, è un software specializzato per prelevare tutto il contenuto di una pagina web e seguirne i vari link per analizzare siti web collegati o pagine secondarie. Una volta raccolte tutte le pagine, queste vengono analizzate con il processo di scraping. Il processo di web Scraping, noto anche come web data extraction, è una tecnica, di solito automatizzata, che consiste nel prelevare singoli dati da un insieme di pagine web, per collezionarli all’interno di database o file per un’analisi future. Nel nostro caso andiamo a ricercare all’interno delle pagine web tramite match del testo della pagina con una espressione regolare, le stringhe che possono rappresentare indirizzi bitcoin. Vengono essenzialmente ricercate stringhe lunghe da 26 a 35 caratteri, con il primo carattere rappresentato dal carattere 1 o 3, che non contengono all’interno caratteri ambigui (O 0 I l) nella codifica utilizzata (base58). Viene quindi utilizzato un algoritmo di validazione per verificare l’esatta corrispondenza della stringa candidata con un indirizzo bitcoin (come per esempio la stringa 1BvBMSEYstWetqTFn5Au4m4GFg7xJaNVN2). All’indirizzo trovato viene quindi associata la pagina web in cui è presente ed ogni email, nickname o pseudonimo, in modo da poter, usando questi dati risalire all’identità dei possessori dell’indirizzo bitcoin stesso.

Purtroppo il numero di indirizzi etichettabili in questo modo è molto minore dell’intero numero di indirizzi esistenti. Per questo è necessaria l’attività di clustering.

L’attività di clustering si preoccupa con delle euristiche di estendere l’etichetta a tutti gli indirizzi considerati dello stesso proprietario. Infatti, il protocollo bitcoin suggerisce, anche se non impone, l’uso di un nuovo indirizzo ogni volta che un utente effettua una transazione. Questo significa che un utente diligente possiede decina, centinaia o anche migliaia di indirizzi, raccolti in uno o più wallet. Per poter raggruppare sotto lo stesso proprietario tutti i suoi indirizzi bitcoin, si utilizzano varie euristiche. La più diffusa è l’euristica multi-input che ipotizza che in una transazione da n ad m indirizzi, gli n indirizzi in input appartengano allo stesso utente. Con questa euristica si riesce a raggruppare circa il 70% degli indirizzi. A questa euristica se ne aggiungono altre che coinvolgono le transazioni 1-to-1 e le transazioni multiaddress.

L’attività di mixnet recognition, è la più difficile e quella a cui ancora molto sforzo andrà dedicato. Qui alcuni dei servizi più conosciuti (per citarne alcuni Helix, Bitcoin Blender, CoinMixer, BitClock, etc.) sono stati analizzati e specifici pattern di uso delle transazioni studiato e memorizzato al fine di usarlo come campione nel riconoscimento di altre attività di mixing tra tutte le transazioni presenti in blockchain. Essenzialmente si investigano tecniche di apprendimento semi-supervisionato per riconoscere potenziali gruppi di transazioni come parte di un protocollo di mixing (leggi su investigazioni e sequestri bitcoin).

Ultimo passo di tutto il cammino verso la de-anonimizzazione delle transazioni è la visualizzazione di quanto avvenuto, al fine di capire e identificare pattern ricorrenti ed usuali. Un esempio dell’utilizzo del tool di visualizzazione è per rappresentare lo schema dei pagamenti ottenuti per il ramsomware wannacry. Nella figura seguente si evidenziano gli indirizzi oggetto delle transazioni di riscatto.

In particolare i 3 indirizzi utilizzati dal codice malware per ricevere i pagamenti vengono evidenziati come centro stella (in celeste) della rosa di pagamenti ottenuti dai proprietari dei computer infettati (nodi in giallo).

L’analisi ha anche permesso di evidenziare alcune transazioni tra i 3 nodi incriminati stessi, che possono in qualche modo dimostrare che il proprietario dei 3 indirizzi era un’unica persona o che comunque esiste una qualche forma di collaborazione tra i proprietari dei 3 indirizzi esaminati.

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Analisi
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati