l’analisi

Web scraping: cos’è, perché si usa e come difendersi da “intrusioni” indesiderate



Indirizzo copiato

Il web scraping assume oggi un ruolo insostituibile per identificare tendenze ed effettuare indagini statistiche sull’uso di prodotti e servizi, azioni alla base del marketing digitale, nonché per acquisire un vantaggio concorrenziale. Non è una pratica illegale, ma possono verificarsi usi illeciti. Capiamone di più

Pubblicato il 14 apr 2025

Andrea Fumagalli

Analyst Hermesbay



dati daTA digitale

Il web scraping (dall’inglese to scrape, grattare/raschiare) è una particolare tecnica di web mining, cioè di raccolta e organizzazione di informazioni presenti sul web.

Insieme al web crawling, che è un software in grado di indicizzare in modo automatico le pagine di un sito, analizzare i collegamenti ipertestuali, trovare associazioni tra termini di ricerca e classificarli, il web scraping serve a estrarre dati dalle pagine web per poi raccoglierli in database o tabelle locali per analizzarli. Si tratta di un sistema in grado di estrapolare una grande varietà di informazioni: dati di contatto, indirizzi di posta elettronica, numeri di telefono, così come singoli termini di ricerca o URL.

Le tecniche di web scraping

Fondamentalmente vengono utilizzati due metodi per fare web scraping. Esiste lo scraping manuale, che consiste in un processo di copia e incolla di singole informazioni, utilizzato quando si desidera trovare e memorizzare informazioni mirate, raramente impiegato per grandi quantità di dati a causa dei lunghi tempi di recupero e catalogazione. Di più larga diffusione è invece lo scraping automatico realizzato attraverso l’uso di software – come Zoominfo, Octoparse, Lusha e Hunter.io – o di un algoritmo che scansiona più pagine web.

Il fenomeno è stato sotto i riflettori ad aprile per lo scandalo di presunti numeri e contatti delle massime cariche dello Stato venduti da alcune di queste società.

Negli ultimi anni le tecniche di automatiche si sono evolute in varie direzioni. Con la crescente diffusione di applicazioni mobili è emerso lo scraping delle API (Application Programming Interface), metodo facilitato dal fatto che le app solitamente adottano protezioni anti-scraping inferiori rispetto ai siti web.

L’implementazione dell’Intelligenza Artificiale è stata un’ulteriore svolta per i processi di web scraping: grazie ad algoritmi di apprendimento e adattamento è diventato possibile interagire automaticamente con elementi web dinamici e interattivi senza che sia necessario riconfigurare frequentemente i sistemi. L’IA rende più semplice e precisa anche l’estrazione e l’analisi dei dati grazie alla capacità di riconoscere contenuti multimediali come immagini e video e di riconoscere il sentiment e il contesto di recensioni e commenti.

Gli utilizzi del web scraping

Questo particolare sistema di mining assume un ruolo insostituibile per le aziende che vogliono mantenersi competitive nell’era della data economy. Il web scraping è infatti essenziale per effettuare indagini statistiche sulle preferenze dei consumatori, alla base del marketing digitale, e analizzare le nuove tendenze di mercato raccogliendo informazioni su nuovi prodotti e tecniche di produzione per adattare le proprie strategie di conseguenza. Inoltre, lo scraping viene impiegato per acquisire vantaggi competitivi anche grazie al tracciamento in tempo reale delle strategie di pricing dei concorrenti. A questo punto è lecito chiedersi se ci troviamo di fronte a pratiche conformi alle leggi vigenti. La risposta è sì. Il web scraping non è illegale a patto che i dati ‘catturati’ siano liberamente accessibili sui siti e siano usati per scopi statistici o di monitoraggio dei contenuti.

Utilizzi illeciti dello scraping

Lo scraping oltrepassa la soglia della legalità in circostanze specifiche, come la raccolta e l’utilizzo di dati personali a scopi commerciali senza il consenso degli interessati, attività che viola le norme sulla privacy, oppure quando, con la copia e l’uso di contenuti protetti da copyright, si configura una violazione dei diritti di proprietà intellettuale. Ancora, il web scraping è illegale se sfrutta le vulnerabilità di un sito per ottenere informazioni protette o se impiega i dati raccolti per scopi fraudolenti come la creazione di database di indirizzi destinati ad attività di phishing e spam. Il Garante per la protezione dei dati personali è intervenuto sul in due occasioni significative, prima nel 2016 quando ha dichiarato illecita la creazione di un sito consultabile online contenente i dati personali di dodici milioni di utenti, raccolti senza il loro consenso, e poi nel 2018 quando ha vietato a una società di inviare e-mail commerciali a liberi professionisti, i cui indirizzi di posta elettronica e PEC erano stati prelevati da elenchi di pubblico dominio, ma senza chiedere e ottenere la necessaria autorizzazione da parte dei legittimi proprietari.

Al di fuori di casi del genere, lo scraping è una tecnica consentita, come anche dimostrato nell’ordinanza del Tribunale di Roma del 2019 sul caso Trenit, un’applicazione che consente agli utenti di consultare le tariffe dei treni ad alta velocità. Trenitalia aveva fatto causa alla società inglese GoBright Media Ltd, proprietaria di Trenìt, accusandola di utilizzare impropriamente la propria banca dati, accendendo a informazioni sulla gestione del traffico ferroviario, sul costo dei biglietti, sugli orari, sui ritardi e altro ancora. I giudici di Roma hanno ritenuto conforme alla legge il web scraping perché interessava segmenti non sostanziali della banca dati di Trenitalia e poiché le informazioni venivano acquisite di volta in volta in base alla richiesta dell’utente coinvolgendo una minima parte e non la totalità del database.

Nell’ottica di creare maggiore chiarezza sul tema, negli ultimi anni il Garante privacy ha intrapreso iniziative riguardanti il web scraping. In particolare, nel dicembre del 2023 ha avviato un’indagine conoscitiva per verificare l’adozione da parte di siti pubblici e privati di misure di sicurezza atte a prevenire la raccolta massiva di dati sensibili, soprattutto in relazione all’addestramento di algoritmi di intelligenza artificiale. Il 30 maggio del 2024 è stata pubblicata la nota informativa con le prime indicazioni ricavate dall’indagine per adottare accorgimenti idonei a impedire o ostacolare il web scraping.

In conclusione, per restare nella legalità, chi utilizza tecnologie per estrarre dati da siti deve innanzitutto verificare e rispettare i diritti d’autore e assicurarsi che le informazioni estratte siano pubblicamente accessibili. Inoltre, non è consentito aggirare le misure che il sito ha adottato per impedire il web scraping.

Suggerimenti operativi per proteggersi

Infatti, esistono numerose soluzioni che un gestore di pagine internet può adottare per proteggersi da ‘intrusioni’ indesiderate e attività di web scraping non autorizzate. Una prima linea di difesa consiste nella creazione di aree riservate, accessibili solo tramite registrazione e autenticazione, come avviene sui social network, che adottano diversi livelli di visibilità per i contenuti (per esempio, è necessario registrarsi per accedere ai profili completi, mentre da non autenticati si possono visualizzare solo informazioni parziali).

Un altro strumento efficace è l’utilizzo di CAPTCHA o servizi anti-bot, che aiutano a distinguere tra traffico umano e automatizzato. In aggiunta, è possibile configurare file robots.txt per indicare ai crawler quali sezioni del sito non devono essere indicizzate o esplorate, sebbene questi file siano solo raccomandazioni e non impediscano fisicamente l’accesso ai dati.

I gestori possono anche bloccare gli indirizzi IP sospetti o conosciuti per appartenere a servizi di scraping, limitando così il traffico automatizzato non desiderato. Più avanzate sono le soluzioni basate su fingerprinting del browser, che consentono di identificare e bloccare agenti automatizzati sulla base del comportamento di navigazione. In alternativa, si possono implementare tecniche di rate limiting e monitoraggio del traffico per identificare pattern anomali e intervenire tempestivamente.

Un’altra difesa strategica consiste nell’offuscamento dei dati, ovvero nella modifica dinamica della struttura del codice HTML (ad esempio con classi e ID generati casualmente) per rendere più difficile l’automazione. Alcuni siti utilizzano anche il lazy loading (caricamento dei dati su richiesta) o API protette con token di accesso, che richiedono autenticazione e controllano il numero e la frequenza delle richieste.

Prima di procedere con lo scraping, è sempre importante leggere attentamente i termini di servizio (TOS) del sito, per verificare se l’attività è consentita. Molti siti vietano esplicitamente il web scraping nelle proprie condizioni d’uso, un accorgimento che facilita eventuali azioni legali in caso di violazione, permettendo di ottenere provvedimenti inibitori e, se del caso, il risarcimento dei danni.

Infine, anche chi svolge attività lecita di raccolta dati dovrebbe configurare i propri strumenti per evitare il sovraccarico dei server di destinazione, impostando richieste a intervalli regolari e rispettando le best practice tecniche ed etiche, contribuendo così a un ecosistema digitale più sicuro e sostenibile.

EU Stories - La coesione innova l'Italia

Tutti
Analisi
Video & Podcast
Social
Iniziative
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Scenari
Il quadro economico del Sud: tra segnali di crescita e nuove sfide
Sostenibilità
Lioni Borgo 4.0: un passo verso la città del futuro tra innovazione e sostenibilità
Podcast
Centro Servizi Territoriali: uno strumento per accompagnare gli enti nell’attuazione della politica di coesione. Il podcast “CapCoe. La coesione riparte dalle persone”
Podcast
EU Stories, il podcast | Politiche di coesione e comunicazione: una sinergia per il futuro
Opinioni
La comunicazione dei fondi europei da obbligo ad opportunità
eBook
L'analisi della S3 in Italia
Norme UE
European Accessibility Act: passi avanti verso un’Europa inclusiva
Agevolazioni
A febbraio l’apertura dello sportello Mini Contratti di Sviluppo
Quadri regolamentari
Nuovi Orientamenti sull’uso delle opzioni semplificate di costo
Coesione
Nuovo Bauhaus Europeo (NEB): i premi che celebrano innovazione e creatività
Dossier
Pubblicato il long form PO FESR 14-20 della Regione Sicilia
Iniziative
400 milioni per sostenere lo sviluppo delle tecnologie critiche nel Mezzogiorno
Formazione
“Gian Maria Volonté”: dalle aule al mondo del lavoro, focus sui tirocini della Scuola d’Arte Cinematografica
TRANSIZIONE ENERGETICA
Il ruolo del finanziamento BEI per lo sviluppo del fotovoltaico in Sicilia
Formazione
“Gian Maria Volonté”: dalla nascita ai progetti futuri, focus sulla Scuola d’Arte Cinematografica. Intervista al coordinatore Antonio Medici
MedTech
Dalla specializzazione intelligente di BionIT Labs una innovazione bionica per la disabilità
Finanza sostenibile
BEI e E-Distribuzione: investimenti per la sostenibilità energetica
Professioni
Servono competenze adeguate per gestire al meglio i fondi europei
Master
Come formare nuove professionalità per governare e gestire al meglio i fondi europei?
Programmazione UE
Assunzioni per le politiche di coesione: prossimi passi e aspettative dal concorso nazionale. Il podcast “CapCoe. La coesione riparte dalle persone”
innovazione sociale
Rigenerazione urbana: il quartiere diventa un hub dell’innovazione. La best practice di San Giovanni a Teduccio
Programmazione europ
Fondi Europei: la spinta dietro ai Tecnopoli dell’Emilia-Romagna. L’esempio del Tecnopolo di Modena
Interventi
Riccardo Monaco e le politiche di coesione per il Sud
Iniziative
Implementare correttamente i costi standard, l'esperienza AdG
Finanziamenti
Decarbonizzazione, 4,8 miliardi di euro per progetti cleantech
Formazione
Le politiche di Coesione UE, un corso gratuito online per professionisti e giornalisti
Interviste
L’ecosistema della ricerca e dell’innovazione dell’Emilia-Romagna
Interviste
La ricerca e l'innovazione in Campania: l'ecosistema digitale
Iniziative
Settimana europea delle regioni e città: un passo avanti verso la coesione
Iniziative
Al via il progetto COINS
Eventi
Un nuovo sguardo sulla politica di coesione dell'UE
Iniziative
EuroPCom 2024: innovazione e strategia nella comunicazione pubblica europea
Iniziative
Parte la campagna di comunicazione COINS
Interviste
Marco De Giorgi (PCM): “Come comunicare le politiche di coesione”
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politiche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 4