Il web scraping (dall’inglese to scrape, grattare/raschiare) è una particolare tecnica di crawling. Un crawler – chiamato anche bot o spider – è un software che ha lo scopo di raccogliere tutte le informazioni necessarie per indicizzare in modo automatico le pagine di un sito, analizzare i collegamenti ipertestuali e trovare associazioni tra termini di ricerca e classificarli. È largamente usato da tutti i motori di ricerca, a cominciare da Google, per offrire agli utenti risultati sempre aggiornati. Il web scraping serve a estrarre dati dalle pagine web per poi raccoglierli in database o tabelle locali per analizzarli. Si tratta di un sistema in grado di estrapolare una grande varietà di informazioni: dati di contatto, indirizzi di posta elettronica, numeri di telefono, così come singoli termini di ricerca o URL.
Allarme “scraping” social: quel confine sottile col data breach
Le tecniche
Fondamentalmente vengono utilizzati due metodi per fare web scraping. Esiste lo scraping manuale, che consiste in un processo di copia e incolla di singole informazioni, utilizzato quando si desidera trovare e memorizzare informazioni mirate, raramente impiegato per grandi quantità di dati a causa dei lunghi tempi di recupero e catalogazione. Di più larga diffusione è invece lo scraping automatico realizzato attraverso l’uso di software – come Zoominfo, Octoparse e Hunter.io – o di un algoritmo che scansiona più pagine web.
Gli utilizzi
Nell’era della data economy, questo particolare sistema di crawling assume un ruolo insostituibile per identificare tendenze ed effettuare indagini statistiche sull’uso di prodotti e servizi, azioni che sono alla base del marketing digitale. Inoltre, lo scraping viene anche impiegato per acquisire vantaggi competitivi, perché con questa tecnica le aziende sono in grado di conoscere in tempo reale le strategie dei concorrenti che riguardano, ad esempio, prezzi e prodotti. A questo punto è lecito chiedersi se ci troviamo di fronte a pratiche conformi alle leggi vigenti. La risposta è sì. Il web scraping non è illegale a patto che i dati ‘catturati’ siano liberamente accessibili sui siti e siano usati per scopi statistici o di monitoraggio dei contenuti.
Utilizzi illeciti dello scraping
Lo scraping oltrepassa la soglia della legalità quando i dati estrapolati vengono impiegati per altri usi, quali la pubblicazione di contenuti in violazione del diritto d’autore, l’utilizzo per scopi di lucro e in violazione delle regole sulla concorrenza, oppure nel caso di raccolta di dati personali per scopi commerciali (ad esempio per fare e-mail marketing con gli indirizzi estratti dai siti) all’insaputa e senza il consenso degli interessati.
Proprio in un caso simile è intervenuto il Garante privacy che ha inibito ad una società l’utilizzo dei dati personali – come nomi, cognomi, indirizzi e-mail e numeri di telefonia fissa e cellulare – di dodici milioni di utenti, che erano stati individuati e raccolti utilizzando lo scraping da diverse pagine web. L’azienda in questione aveva successivamente creato un proprio sito nel quale aveva pubblicato le informazioni raccolte in forma di elenco telefonico online, consultabile anche da altre società per finalità di telemarketing. Nello stesso modo si è espresso il Garante in un’altra occasione, quando ha vietato a una società di inviare e-mail commerciali a liberi professionisti, i cui indirizzi di posta elettronica e PEC erano stati prelevati da elenchi di pubblico dominio, ma senza chiedere e ottenere la necessaria autorizzazione da parte dei legittimi proprietari.
Al di fuori di casi del genere, lo scraping è una tecnica consentita, come anche dimostrato nell’ordinanza del Tribunale di Roma sul caso Trenit, un’applicazione che consente agli utenti di consultare le tariffe dei treni ad alta velocità. Trenitalia aveva fatto causa alla società inglese GoBright Media Ltd, proprietaria di Trenìt, accusandola di utilizzare impropriamente la propria banca dati, accendendo a informazioni sulla gestione del traffico ferroviario, sul costo dei biglietti, sugli orari, sui ritardi ed altro ancora. I giudici di Roma hanno ritenuto conforme alla legge il web scraping perché interessava segmenti non sostanziali della banca dati di Trenitalia e poiché le informazioni venivano acquisite di volta in volta in base alla richiesta dell’utente coinvolgendo una minima parte e non la totalità del database.
Data scraping su Facebook: ecco tutti i casi e quando è illecito
Suggerimenti operativi
In conclusione, per restare nella legalità, chi utilizza tecnologie per estrarre dati da siti deve innanzitutto verificare e rispettare i diritti d’autore. Inoltre, non è consentito aggirare le misure che il sito ha adottato per impedire il web scraping. Infatti, esistono molte soluzioni che un gestore di pagine internet può adottare per difendersi da ‘intrusioni’ indesiderate. Innanzitutto, si possono creare aree riservate in cui si può entrare esclusivamente attraverso registrazione, come avviene sui social network, che hanno diversi livelli per usufruire di determinati contenuti (occorre, per esempio, registrarsi per accedere a profili completi, altrimenti si è autorizzati a vederne solo una parte). Oppure possono essere utilizzati servizi anti-bot, file robots.txt, o il blocco degli indirizzi IP dei bot. Importantissimo è comunque prevedere nei Termini di Servizio (TOS) di un sito il divieto assoluto di utilizzare tecniche di scraping per il recupero sistematico di dati e informazioni. Con questo accorgimento risulta più facile agire in giudizio a tutela dei propri diritti nel caso di violazioni dei termini contrattuali, al fine di ottenere un provvedimento inibitorio e l’eventuale risarcimento del danno subito (https://www.ingenium-magazine.it/scraping-di-dati-dai-siti-si-puo/).