Il web scraping (dall’inglese to scrape, grattare/raschiare) è una particolare tecnica di web mining, cioè di raccolta e organizzazione di informazioni presenti sul web.
Insieme al web crawling, che è un software in grado di indicizzare in modo automatico le pagine di un sito, analizzare i collegamenti ipertestuali, trovare associazioni tra termini di ricerca e classificarli, il web scraping serve a estrarre dati dalle pagine web per poi raccoglierli in database o tabelle locali per analizzarli. Si tratta di un sistema in grado di estrapolare una grande varietà di informazioni: dati di contatto, indirizzi di posta elettronica, numeri di telefono, così come singoli termini di ricerca o URL.
Indice degli argomenti
Le tecniche di web scraping
Fondamentalmente vengono utilizzati due metodi per fare web scraping. Esiste lo scraping manuale, che consiste in un processo di copia e incolla di singole informazioni, utilizzato quando si desidera trovare e memorizzare informazioni mirate, raramente impiegato per grandi quantità di dati a causa dei lunghi tempi di recupero e catalogazione. Di più larga diffusione è invece lo scraping automatico realizzato attraverso l’uso di software – come Zoominfo, Octoparse, Lusha e Hunter.io – o di un algoritmo che scansiona più pagine web.
Il fenomeno è stato sotto i riflettori ad aprile per lo scandalo di presunti numeri e contatti delle massime cariche dello Stato venduti da alcune di queste società.
Negli ultimi anni le tecniche di automatiche si sono evolute in varie direzioni. Con la crescente diffusione di applicazioni mobili è emerso lo scraping delle API (Application Programming Interface), metodo facilitato dal fatto che le app solitamente adottano protezioni anti-scraping inferiori rispetto ai siti web.
L’implementazione dell’Intelligenza Artificiale è stata un’ulteriore svolta per i processi di web scraping: grazie ad algoritmi di apprendimento e adattamento è diventato possibile interagire automaticamente con elementi web dinamici e interattivi senza che sia necessario riconfigurare frequentemente i sistemi. L’IA rende più semplice e precisa anche l’estrazione e l’analisi dei dati grazie alla capacità di riconoscere contenuti multimediali come immagini e video e di riconoscere il sentiment e il contesto di recensioni e commenti.
Gli utilizzi del web scraping
Questo particolare sistema di mining assume un ruolo insostituibile per le aziende che vogliono mantenersi competitive nell’era della data economy. Il web scraping è infatti essenziale per effettuare indagini statistiche sulle preferenze dei consumatori, alla base del marketing digitale, e analizzare le nuove tendenze di mercato raccogliendo informazioni su nuovi prodotti e tecniche di produzione per adattare le proprie strategie di conseguenza. Inoltre, lo scraping viene impiegato per acquisire vantaggi competitivi anche grazie al tracciamento in tempo reale delle strategie di pricing dei concorrenti. A questo punto è lecito chiedersi se ci troviamo di fronte a pratiche conformi alle leggi vigenti. La risposta è sì. Il web scraping non è illegale a patto che i dati ‘catturati’ siano liberamente accessibili sui siti e siano usati per scopi statistici o di monitoraggio dei contenuti.
Utilizzi illeciti dello scraping
Lo scraping oltrepassa la soglia della legalità in circostanze specifiche, come la raccolta e l’utilizzo di dati personali a scopi commerciali senza il consenso degli interessati, attività che viola le norme sulla privacy, oppure quando, con la copia e l’uso di contenuti protetti da copyright, si configura una violazione dei diritti di proprietà intellettuale. Ancora, il web scraping è illegale se sfrutta le vulnerabilità di un sito per ottenere informazioni protette o se impiega i dati raccolti per scopi fraudolenti come la creazione di database di indirizzi destinati ad attività di phishing e spam. Il Garante per la protezione dei dati personali è intervenuto sul in due occasioni significative, prima nel 2016 quando ha dichiarato illecita la creazione di un sito consultabile online contenente i dati personali di dodici milioni di utenti, raccolti senza il loro consenso, e poi nel 2018 quando ha vietato a una società di inviare e-mail commerciali a liberi professionisti, i cui indirizzi di posta elettronica e PEC erano stati prelevati da elenchi di pubblico dominio, ma senza chiedere e ottenere la necessaria autorizzazione da parte dei legittimi proprietari.
Al di fuori di casi del genere, lo scraping è una tecnica consentita, come anche dimostrato nell’ordinanza del Tribunale di Roma del 2019 sul caso Trenit, un’applicazione che consente agli utenti di consultare le tariffe dei treni ad alta velocità. Trenitalia aveva fatto causa alla società inglese GoBright Media Ltd, proprietaria di Trenìt, accusandola di utilizzare impropriamente la propria banca dati, accendendo a informazioni sulla gestione del traffico ferroviario, sul costo dei biglietti, sugli orari, sui ritardi e altro ancora. I giudici di Roma hanno ritenuto conforme alla legge il web scraping perché interessava segmenti non sostanziali della banca dati di Trenitalia e poiché le informazioni venivano acquisite di volta in volta in base alla richiesta dell’utente coinvolgendo una minima parte e non la totalità del database.
Nell’ottica di creare maggiore chiarezza sul tema, negli ultimi anni il Garante privacy ha intrapreso iniziative riguardanti il web scraping. In particolare, nel dicembre del 2023 ha avviato un’indagine conoscitiva per verificare l’adozione da parte di siti pubblici e privati di misure di sicurezza atte a prevenire la raccolta massiva di dati sensibili, soprattutto in relazione all’addestramento di algoritmi di intelligenza artificiale. Il 30 maggio del 2024 è stata pubblicata la nota informativa con le prime indicazioni ricavate dall’indagine per adottare accorgimenti idonei a impedire o ostacolare il web scraping.
In conclusione, per restare nella legalità, chi utilizza tecnologie per estrarre dati da siti deve innanzitutto verificare e rispettare i diritti d’autore e assicurarsi che le informazioni estratte siano pubblicamente accessibili. Inoltre, non è consentito aggirare le misure che il sito ha adottato per impedire il web scraping.
Suggerimenti operativi per proteggersi
Infatti, esistono numerose soluzioni che un gestore di pagine internet può adottare per proteggersi da ‘intrusioni’ indesiderate e attività di web scraping non autorizzate. Una prima linea di difesa consiste nella creazione di aree riservate, accessibili solo tramite registrazione e autenticazione, come avviene sui social network, che adottano diversi livelli di visibilità per i contenuti (per esempio, è necessario registrarsi per accedere ai profili completi, mentre da non autenticati si possono visualizzare solo informazioni parziali).
Un altro strumento efficace è l’utilizzo di CAPTCHA o servizi anti-bot, che aiutano a distinguere tra traffico umano e automatizzato. In aggiunta, è possibile configurare file robots.txt per indicare ai crawler quali sezioni del sito non devono essere indicizzate o esplorate, sebbene questi file siano solo raccomandazioni e non impediscano fisicamente l’accesso ai dati.
I gestori possono anche bloccare gli indirizzi IP sospetti o conosciuti per appartenere a servizi di scraping, limitando così il traffico automatizzato non desiderato. Più avanzate sono le soluzioni basate su fingerprinting del browser, che consentono di identificare e bloccare agenti automatizzati sulla base del comportamento di navigazione. In alternativa, si possono implementare tecniche di rate limiting e monitoraggio del traffico per identificare pattern anomali e intervenire tempestivamente.
Un’altra difesa strategica consiste nell’offuscamento dei dati, ovvero nella modifica dinamica della struttura del codice HTML (ad esempio con classi e ID generati casualmente) per rendere più difficile l’automazione. Alcuni siti utilizzano anche il lazy loading (caricamento dei dati su richiesta) o API protette con token di accesso, che richiedono autenticazione e controllano il numero e la frequenza delle richieste.
Prima di procedere con lo scraping, è sempre importante leggere attentamente i termini di servizio (TOS) del sito, per verificare se l’attività è consentita. Molti siti vietano esplicitamente il web scraping nelle proprie condizioni d’uso, un accorgimento che facilita eventuali azioni legali in caso di violazione, permettendo di ottenere provvedimenti inibitori e, se del caso, il risarcimento dei danni.
Infine, anche chi svolge attività lecita di raccolta dati dovrebbe configurare i propri strumenti per evitare il sovraccarico dei server di destinazione, impostando richieste a intervalli regolari e rispettando le best practice tecniche ed etiche, contribuendo così a un ecosistema digitale più sicuro e sostenibile.