l'analisi

Web scraping: cos’è, perché si usa e come difendersi da “intrusioni” indesiderate

Il web scraping assume oggi un ruolo insostituibile per identificare tendenze ed effettuare indagini statistiche sull’uso di prodotti e servizi, azioni alla base del marketing digitale, nonché per acquisire un vantaggio concorrenziale. Non è una pratica illegale, ma possono verificarsi usi illeciti. Capiamone di più

Pubblicato il 23 Apr 2021

Andrea Fumagalli

Analyst Hermesbay

dati daTA digitale

Il web scraping (dall’inglese to scrape, grattare/raschiare) è una particolare tecnica di crawling. Un crawler – chiamato anche bot o spider – è un software che ha lo scopo di raccogliere tutte le informazioni necessarie per indicizzare in modo automatico le pagine di un sito, analizzare i collegamenti ipertestuali e trovare associazioni tra termini di ricerca e classificarli. È largamente usato da tutti i motori di ricerca, a cominciare da Google, per offrire agli utenti risultati sempre aggiornati. Il web scraping serve a estrarre dati dalle pagine web per poi raccoglierli in database o tabelle locali per analizzarli. Si tratta di un sistema in grado di estrapolare una grande varietà di informazioni: dati di contatto, indirizzi di posta elettronica, numeri di telefono, così come singoli termini di ricerca o URL.

Allarme “scraping” social: quel confine sottile col data breach

Le tecniche

Fondamentalmente vengono utilizzati due metodi per fare web scraping. Esiste lo scraping manuale, che consiste in un processo di copia e incolla di singole informazioni, utilizzato quando si desidera trovare e memorizzare informazioni mirate, raramente impiegato per grandi quantità di dati a causa dei lunghi tempi di recupero e catalogazione. Di più larga diffusione è invece lo scraping automatico realizzato attraverso l’uso di software – come Zoominfo, Octoparse e Hunter.io – o di un algoritmo che scansiona più pagine web.

Gli utilizzi

Nell’era della data economy, questo particolare sistema di crawling assume un ruolo insostituibile per identificare tendenze ed effettuare indagini statistiche sull’uso di prodotti e servizi, azioni che sono alla base del marketing digitale. Inoltre, lo scraping viene anche impiegato per acquisire vantaggi competitivi, perché con questa tecnica le aziende sono in grado di conoscere in tempo reale le strategie dei concorrenti che riguardano, ad esempio, prezzi e prodotti. A questo punto è lecito chiedersi se ci troviamo di fronte a pratiche conformi alle leggi vigenti. La risposta è sì. Il web scraping non è illegale a patto che i dati ‘catturati’ siano liberamente accessibili sui siti e siano usati per scopi statistici o di monitoraggio dei contenuti.

Utilizzi illeciti dello scraping

Lo scraping oltrepassa la soglia della legalità quando i dati estrapolati vengono impiegati per altri usi, quali la pubblicazione di contenuti in violazione del diritto d’autore, l’utilizzo per scopi di lucro e in violazione delle regole sulla concorrenza, oppure nel caso di raccolta di dati personali per scopi commerciali (ad esempio per fare e-mail marketing con gli indirizzi estratti dai siti) all’insaputa e senza il consenso degli interessati.

Proprio in un caso simile è intervenuto il Garante privacy che ha inibito ad una società l’utilizzo dei dati personali – come nomi, cognomi, indirizzi e-mail e numeri di telefonia fissa e cellulare – di dodici milioni di utenti, che erano stati individuati e raccolti utilizzando lo scraping da diverse pagine web. L’azienda in questione aveva successivamente creato un proprio sito nel quale aveva pubblicato le informazioni raccolte in forma di elenco telefonico online, consultabile anche da altre società per finalità di telemarketing. Nello stesso modo si è espresso il Garante in un’altra occasione, quando ha vietato a una società di inviare e-mail commerciali a liberi professionisti, i cui indirizzi di posta elettronica e PEC erano stati prelevati da elenchi di pubblico dominio, ma senza chiedere e ottenere la necessaria autorizzazione da parte dei legittimi proprietari.

Al di fuori di casi del genere, lo scraping è una tecnica consentita, come anche dimostrato nell’ordinanza del Tribunale di Roma sul caso Trenit, un’applicazione che consente agli utenti di consultare le tariffe dei treni ad alta velocità. Trenitalia aveva fatto causa alla società inglese GoBright Media Ltd, proprietaria di Trenìt, accusandola di utilizzare impropriamente la propria banca dati, accendendo a informazioni sulla gestione del traffico ferroviario, sul costo dei biglietti, sugli orari, sui ritardi ed altro ancora. I giudici di Roma hanno ritenuto conforme alla legge il web scraping perché interessava segmenti non sostanziali della banca dati di Trenitalia e poiché le informazioni venivano acquisite di volta in volta in base alla richiesta dell’utente coinvolgendo una minima parte e non la totalità del database.

Data scraping su Facebook: ecco tutti i casi e quando è illecito

Suggerimenti operativi

In conclusione, per restare nella legalità, chi utilizza tecnologie per estrarre dati da siti deve innanzitutto verificare e rispettare i diritti d’autore. Inoltre, non è consentito aggirare le misure che il sito ha adottato per impedire il web scraping. Infatti, esistono molte soluzioni che un gestore di pagine internet può adottare per difendersi da ‘intrusioni’ indesiderate. Innanzitutto, si possono creare aree riservate in cui si può entrare esclusivamente attraverso registrazione, come avviene sui social network, che hanno diversi livelli per usufruire di determinati contenuti (occorre, per esempio, registrarsi per accedere a profili completi, altrimenti si è autorizzati a vederne solo una parte). Oppure possono essere utilizzati servizi anti-bot, file robots.txt, o il blocco degli indirizzi IP dei bot. Importantissimo è comunque prevedere nei Termini di Servizio (TOS) di un sito il divieto assoluto di utilizzare tecniche di scraping per il recupero sistematico di dati e informazioni. Con questo accorgimento risulta più facile agire in giudizio a tutela dei propri diritti nel caso di violazioni dei termini contrattuali, al fine di ottenere un provvedimento inibitorio e l’eventuale risarcimento del danno subito (https://www.ingenium-magazine.it/scraping-di-dati-dai-siti-si-puo/).

Valuta la qualità di questo articolo

La tua opinione è importante per noi!

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Social
Analisi
Video
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati