Allarme "scraping" social: quel confine sottile col data breach

Gli utenti dei più noti social network mondiali hanno subito la pubblicazione di massa dei propri dati. Coincidenza mai vista prima. Com’è potuto succedere? Ecco quale lezione e consigli trarne

Nelle ultime settimane, gli utenti dei più noti social network mondiali hanno subito la pubblicazione di massa dei propri dati. Non si era mai visto un fenomeno di questa portata, negli stessi giorni.

Dati dei profili di Facebook, LinkedIn e Clubhouse sono stati pubblicati su forum e resi disponibili su Telegram, in vendita o gratuitamente. Sebbene quelli di Facebook fossero pubblicati già nel 2019, adesso siamo in presenza di una ripubblicazione più maggiore diffusione e disponibilità, al punto da sollevare l’intervento del Garante Privacy.

Ciò che accomuna questi casi è il fatto che non si tratterebbe di veri e propri casi di data breach, quanto di raccolta massiva di dati tramite scraping. A prescindere dalla tipologia di violazione, permangono evidenti rischi per le vittime.

Presto per capire se è una coincidenza la pubblicazione simultanea di dati di diversi social; forse stiamo raccogliendo ora i frutti di una superficialità che fino a qualche anno fa era piuttosto comune, tra gli stessi social, nei confronti dei pericoli dello scraping.

Indice degli argomenti

Il più grande leak nella storia di Facebook

Facebook in primis. Oltre 500 milioni di utenti Facebook, 35 milioni dei quali italiani, hanno subito un furto di dati personali pubblicati e resi disponibili per il download su un forum di hacker pubblico. A darne notizia per primo è stato Alon Gal, CTO della società di cybercrime intelligence Hudson Rock. Tra le informazioni di cui i pirati informatici sono venuti in possesso ci sono numeri di telefono, nomi e cognomi, ID Facebook, date di nascita, biografie, indirizzi e-mail e posizioni geografiche.

Esposti i dati Facebook di milioni di italiani: ecco le conseguenze giuridiche

Lo stesso colosso dei social network ha dichiarato che non si tratterebbe di dati sottratti mediante violazione dei sistemi, ma frutto appunto di scraping. Con questo termine si intende una tecnica informatica utilizzata per estrarre grandi quantità di dati per la creazione di database da distribuire o vendere.

In effetti, la creazione di un così vasto database è stata possibile tramite lo sfruttamento di una funzionalità, introdotta da Facebook nel 2016, che permetteva di rintracciare contatti della propria rubrica telefonica registrati sul social network. Tuttavia, fino alla modifica intervenuta nel 2019, non erano previsti limiti al numero di queries, permettendo così di sottoporre al sistema una “rubrica” composta da un numero virtualmente infinito di numeri, restituendo poi i corrispondenti risultati.

Si sapeva da tempo ma Facebook ha ignorato la responsabilità

Nonostante la dichiarazione del social di Palo Alto, però, pare che la falla fosse nota e sia rimasta aperta per ben più tempo. L’hacker etico Inti De Ceukelaire della piattaforma Intigriti, infatti, avrebbe notificato il problema a Facebook già nel 2017. La vulnerabilità sarebbe quindi rimasta sfruttabile per altri due anni senza che il social, pur essendone a conoscenza, prendesse provvedimenti.

Al momento della prima rilevazione, ovvero lo scorso gennaio, i dati erano già stati messi in vendita su Telegram tramite un bot al prezzo di 20 dollari a profilo, o con prezzi più convenienti per l’acquisto di blocchi di migliaia di utenze. Ora il set di dati è stato pubblicato in forma praticamente gratuita su un forum presente sul surface web, rendendo disponibile per chiunque questo bacino di informazioni personali degli utenti Facebook.

Non è la prima volta che Facebook deve affrontare problemi riguardanti la sicurezza dei dati. Nonostante il leak in questione sia quello col più alto numero di utenti coinvolti, il caso più clamoroso e controverso è stato quello legato allo scandalo emerso nel 2018, quando fu rivelato che Cambridge Analytica (società di consulenza britannica) aveva avuto accesso alle informazioni di 87 milioni di utenti Facebook a loro insaputa o senza il loro consenso e li aveva usati per scopi di propaganda politica.

I casi LinkedIn e Clubhouse

Nei giorni scorsi anche LinkedIn è rimasto vittima di scraping, con milioni di profili messi in vendita su forum dedicati. Tuttavia, nonostante anche in questo caso non si tratti di una violazione dei sistemi, a differenza del social di Zuckerberg pare sia bastato semplicemente raccogliere i dati disponibili nei profili pubblici tramite script automatizzati.

Pur essendo tale pratica “permessa” in quanto i dati sono disponibili pubblicamente, nell’ottica del GDPR è tuttavia illecita la raccolta massiva di dati per trattamenti privi di un fondamento giuridico, nonché il loro riutilizzo data la loro origine illecita.

Anche nel caso di Clubhouse, il social su invito basato su interazioni vocali di recente creazione, il database di 1,3 milioni di utenti con relativi dati che è stato reso disponibile su un noto forum sarebbe frutto di semplice raccolta di dati pubblicamente disponibili. Nella fattispecie, come confermato dalla stessa piattaforma, sarebbero state banalmente utilizzate le API del social che permetterebbero di richiamare in una volta sola i dati dell’intera base di utenza.

Come spesso accade in casi analoghi, i gestori delle piattaforme social hanno negato categoricamente di aver subito un data breach, ma hanno piuttosto evidenziato un utilizzo non previsto di dati pubblicamente disponibili. Sulla base di tale spiegazione si ritengono quindi esonerati dagli eventuali obblighi di notifica agli interessanti e al Garante, nonostante sia evidente quantomeno una certa noncuranza nel non porre argine alcuno alla raccolta massiva di dati.

Rischi per le vittime e intervento del Garante

In tutti e tre i casi, nonostante non si rintraccino dati sensibili immediatamente sfruttabili per truffe o sottrazioni di denaro quali numeri e codici di carte di credito, i potenziali rischi non vanno certo sottovalutati.

Esistono, infatti, diversi modi in cui i malintenzionati potrebbero sfruttare le informazioni trapelate. I dati potrebbero essere utilizzati per eseguire attacchi di ingegneria sociale, verosimilmente phishing o smishing, data soprattutto la divulgazione dei numeri di telefono degli utenti Facebook.

Nello smishing, infatti, non vengono usate e-mail, ma SMS per raggiungere le potenziali vittime che vengono invogliate ad accedere a link malevoli e rivelare credenziali riservate.

Sulle vicende di Facebook e LinkedIn è già intervenuto il Garante per la protezione dei dati personali, intimando a Facebook di rendere immediatamente disponibile un servizio che consenta di verificare se la propria numerazione telefonica o il proprio indirizzo mail siano stati interessati dalla violazione.

Invece, nei confronti di LinkedIn è stata avviata una vera e propria istruttoria per fare luce su eventuali profili di responsabilità della piattaforma. Il Garante ha dunque “adottato un provvedimento con il quale avverte chiunque sia entrato in possesso dei dati personali provenienti dalla violazione che il loro eventuale utilizzo è in contrasto con la normativa in materia di protezione dei dati personali, essendo tali informazioni frutto di un trattamento illecito.” L’utilizzo di questi dati – ha ricordato il garante nella nota – “comporta conseguenze, anche di carattere sanzionatorio”.

L’autorità, inoltre, consiglia agli utenti di prestare massima attenzione ad eventuali irregolarità relative a numeri di telefono e account. L’enorme mole di questi dati, infatti, potrebbe essere utilizzata per eseguire una serie di operazioni illegali, come ad esempio chiamate e invio di spam, furto di identità, frode online e, soprattutto, SIM swapping.

In effetti, considerato l’utilizzo sempre più massiccio di servizi che sfruttano sistemi di autenticazione legati al numero di cellulare, risulta evidente come oggi tale dato assuma un’importanza molto più rilevante rispetto ad anche pochi anni fa. Attori malevoli potrebbero infatti sfruttare la conoscenza del numero di telefono abbinato ad altre credenziali personali per richiedere una nuova sim con cui utilizzare i sistemi di autenticazione a due fattori e sostituirsi al legittimo proprietario.

Inoltre, non va sottovalutato il rischio determinato dalla profilazione effettuata aggregando più dati provenienti dai vari leak. Anche solo combinando i dati rilasciati nell’ambito dei tre leak in questione, si potrebbe tracciare un profilo dettagliatissimo di un determinato individuo, con un chiaro appeal per campagne di marketing mirato, profilazione da parte di autorità statali o per qualsiasi altra intenzione malevola.

Strumenti utili agli utenti

Al fine di aiutare gli utenti ad individuare se i loro dati risultano fra quelli oggetto di scraping e successiva divulgazione, sono stati creati siti ad hoc o sono stati aggiornati strumenti già utilizzati a tale scopo.

In occasione del leak di Facebook, il ricercatore informatico Yaser Alosefer ha sviluppato un sito apposito (https://cyber-leaks.com) per aiutare gli utenti a determinare se i loro numeri di cellulare risultano o meno tra quelli trapelati. Basta inserire il proprio numero di cellulare e il paese di provenienza per assicurarsi di essere presenti o meno nell’elenco, senza che vengano esposte altre informazioni private. In caso di riscontro positivo, il ricercatore consiglia di abilitare l’autenticazione a due fattori in qualsiasi app e servizio che utilizziamo con il nostro smartphone per aggiungere un ulteriore layer di sicurezza.

Un’ulteriore soluzione è offerta dal noto sito “haveibeenpwned.com” sviluppato da Troy Hunt. Il sito, che già raccoglie tutti i maggiori leak esistenti nel proprio database, ha sempre consentito agli utenti di verificare qualora i loro indirizzi e-mail fossero stati coinvolti in un data breach. In questo caso però, solo 2,5 milioni su 533 milioni di utenze Facebook diffuse avevano associato un indirizzo e-mail, rendendo poco utile questo tipo di controllo. Tuttavia, nei giorni scorsi è stata aggiunta la funzionalità di ricerca tramite prefisso internazionale e numero di telefono.

Ad ogni modo, come ricordato dal Garante italiano, nonostante il fine “nobile” di tali servizi, l’origine illecita dei dati non ne permette l’utilizzo. Infatti, strumenti analoghi come l’italiano “HaveIBeenFacebooked” sono stati temporaneamente sospesi.

Conclusioni

La pubblicazione di dati personali degli utenti di social network riportate in questi giorni destano preoccupazione non solo per la scala: si parla di oltre mezzo miliardo di profili. Preoccupa soprattutto la risposta delle varie piattaforme volta non solo a spogliarsi di eventuali responsabilità, ma quasi a scaricarla sugli ignari utenti che, in buona fede, avevano fornito dati e numeri di telefono confidando che sarebbero stati trattati con la dovuta cura e anzi, nel caso di Facebook, utilizzando una caratteristica specifica del social.

La linea di demarcazione fra scraping e data breach vero e proprio si va assottigliando e sarà quanto mai interessante esaminare gli esiti dell’istruttoria del Garante e le eventuali tutele disposte per gli utenti.

Allarme “scraping” social: quel confine sottile col data breach