“Big data”: cosa sono? Il libro di Mayer-Schönberger e Cukier

Seconda domanda e seconda risposta attraverso le pagine di un libro, in questa rubrica che propone ogni mese un argomento scelto insieme con i lettori. Ai dubbi e alle questioni legate alla recente crescita esponenziale dei cosiddetti big data, rispondiamo con gli argomenti e i casi concreti proposti da Mayer-Schönberger e Cukier nel loro libro “Big data”, che tanto riscontro ha avuto in tutto il mondo

Pubblicato il 24 Mar 2015

Valerio Eletti

Di big data si parla sempre di più: con enfasi, spesso con leggerezza e approssimazione, a volte con un’eccessiva esaltazione o con una strisciante angoscia. E di solito senza una effettiva condivisione del significato che si da a questo fortunato termine, quasi uno slogan, spesso coniugato insieme all’altra parola chiave: privacy.

Le domande

Le domande che ci poniamo, quindi, non riguardano solo il che cosa siano i big data, ma anche e soprattutto: si tratta di una realtà attuale o solo di un argomento di moda? ci sono casi concreti da conoscere per percepire realisticamente i confini effettivi delle opportunità e dei pericoli legati alla produzione, diffusione, raccolta e analisi delle tracce digitali che lasciamo in giro consapevolmente o meno? E poi: davvero ci sono dei grandi fratelli – privati e/o pubblici – che si impossessano della nostra vita digitale? E infine: l’idea di privacy che abbiamo ora lascerà il posto a una sospetta e ambigua post-privacy che non tutelerà più come ora la nostra vita privata più intima?

Le risposte

Di risposte a queste domande se ne trovano un po’ dovunque, in articoli divulgativi, blog e riviste specializzate, trasmissioni radiofoniche o televisive, ma organizzate di solito in forma troppo frammentaria, non sistematica, a volte perfino contraddittoria. Con la conseguente impossibilità per il lettore di farsi un quadro ampio e dettagliato dell’insieme delle problematiche e delle potenzialità collegate con l’irruzione nel nostro mondo del tracciamento sistematico delle nostre azioni, dei nostri spostamenti, dei nostri pensieri e perfino delle nostre emozioni.

Per ottenere una visione globale del fenomeno e dei suoi risvolti positivi e negativi, abbiamo però a disposizione anche in Italia da più di un anno “Big data”, il testo scritto nel 2013 da Mayer-Schönberger e Cukier: una raccolta ragionata di casi di studio che sono il punto di partenza e di riferimento per ragionamenti articolati che riescono a rispondere alle domande che ci siamo posti.

Accanto a “Big data”, a cui dedichiamo questa puntata della rubrica “Scenari complessi, un libro al mese”, segnaliamo che esistono altri due volumi di natura diversa che possono coinvolgere i lettori interessati: una recente raccolta giornalistica di casi di studio e di riflessioni aperte a firma di Federico Rampini (“Rete padrona. Amazon, Apple, Google & co. Il volto oscuro della rivoluzione digitale”, pubblicato da Feltrinelli sei mesi fa, a settembre 2014); e un intrigante romanzo di fantascienza sociale ambientato nei prossimi anni, con scenari contradittori e inquietanti e con intrecci avvincenti: titolo in italiano, “Il cerchio”; autore Dave Eggers; edito da Mondadori lo scorso anno.

Perché abbiamo scelto questo libro

“Big data” di Mayer-Schönberger e Cukier ha diversi pregi molto significativi (insieme a qualche ombra, come sempre avviene).

Per prima cosa chiarisce il significato dell’espressione “big data” definendone le due principali interpretazioni: quella utilizzata dai media e nella vulgata popolare, centrata sul concetto di convergenze inedite di enormi archivi diversi, che entrano in risonanza per realizzare analisi trasversali rivelatrici di fenomeni sociali; e quella utilizzata dagli addetti ai lavori, informatici, matematici, sociologi, economisti, che in realtà parlano di mega data set (grandi archivi di dati storici omogenei per settore e interesse).

Fatta questa precisazione, gli autori ci mostrano come entrambe le interpretazioni del termine abbiano comunque in comune alcune conseguenze paradigmatiche, tipiche anche di tutti i sistemi non lineari, reticolari, complessi: l’abbandono della visione deterministica e dell’approccio statistico (a campione) ai problemi di analisi dei dati; l’accettazione di dati “sporchi”, con il vantaggio di far emergere dalla massa di dati non solo risposte alle domande poste, ma anche nuove domande (e nuove risposte correlate).

Il tutto immerso in due contesti complementari:

da una parte il contesto concreto dei casi reali, riportati a decine e decine nelle pagine del volume di Mayer-Schönberger e Cukier con particolari operativi interessantissimi e spesso inediti;

dall’altra parte le riflessioni su chi e come raccoglie i nostri dati e soprattutto su chi e come può utilizzarli non solo per facilitarci la vita (personalizzando le offerte che ci vengono fatte a livello commerciale) ma anche per carpirci segreti e per minacciare l’indipendenza individuale non solo nostra, del cittadino qualunque, ma anche e soprattutto di coloro che noi deleghiamo a rappresentarci politicamente e a gestire la cosa pubblica.

E il tutto sotteso da una visione netta e cristallina del fatto che il punto critico dei nuovi equilibri sociali che emergono dalla produzione, raccolta, memorizzazione e analisi dei big data sia posto sulla doppia valenza del concetto di personalizzazione: un vantaggio indubbio per il nostro benessere e per il migliore sfruttamento delle risorse, associato però indissolubilmente all’invasione nel nostro privato, nella nostra esistenza quotidiana, in tutti i suoi aspetti più diversi e intimi.

Con un corollario: la datafication o – in italiano – datizzazione (ovvero la trasformazione in dati elaborabili di tutto ciò che facciamo, pensiamo, preferiamo o detestiamo e di tutte le relazioni che intratteniamo con privati e con istituzioni e compagnie) ci porta in un territorio assolutamente nuovo in cui si sono già profilati dei raccoglitori globali di informazioni che potrebbero costituire una seria minaccia a livello planetario, a causa dell’eccesso di potere che stanno accentrando intorno alla loro conoscenza dei nostri dati.

Un ultimo aspetto interessante del libro: gli esempi e i casi riportati dagli autori sono ancora oggi, dopo quasi due anni, estremamente attuali e significativi, anche se le cronache quotidiane continuano a portarci sempre nuovi casi di utilizzo inaspettato e spettacolare dei big data, in particolare nell’ambito dell’Internet delle cose (o meglio del più ampio Internet of Everything).

Qualche punto di debolezza, ovviamente, come sempre, accompagna il testo: la traduzione in italiano, che a volte non è all’altezza del testo originale; e il tono un po’ da predicatori – assente nei primi capitoli – che a volte emerge in qualche paragrafo moraleggiante nella seconda parte del libro.

E poi un particolare curioso e significativo nello stesso tempo: il caso raccontato dagli autori nell’incipit del libro, considerato l’esempio forse più eclatante dell’applicazione dell’analisi dei big data per la previsione di catastrofi, è crollato alla prova dei fatti: si tratta di Google Flu Trends, un algoritmo che dal 2009 riesce a individuare prima di medici e servizi sanitari i focolai iniziali di nuove epidemie di influenza, grazie all’analisi semantica delle domande poste dagli utenti di tutto il mondo sul motore di ricerca di Google; ebbene, tra la fine del 2014 e l’inizio del 2015, sono apparsi sulle maggiori riviste scientifiche internazionali (da Nature a Scientific American) degli studi che mostrano come le previsioni di Flu Trends si siano fatte negli anni via via più inesatte, e sempre per sovrastima del pericolo.

Come mai? nella spiegazione più di qualche analista pone l’accento sullo zampino che verosimilmente ci potrebbero avere messo le case farmaceutiche produttrici di vaccini per suscitare allarme on line e vendere più prodotti.

Ma, al di là dell’episodio in sé, la perdita di capacità predittiva basata sull’analisi dei big data ci ricorda che il sistema che analizziamo – sia esso biologico o sociale – non è mai un sistema in equilibrio stabile, ma un sistema che risente di continui feedback non lineari che lo rendono dinamico e imprevedibile, come ci spiegano da decenni le teorie delle reti e dei sistemi complessi adattativi.

Il sommario

Ecco come la casa editrice presenta il libro nella bandella di copertina: “Come si può osservare in tempo reale l’espandersi di un’epidemia? In che modo si può prevenire il crimine e migliorare la sicurezza delle città? È possibile conoscere le emozioni e gli umori di un’intera nazione? Possono le nostre passioni minacciare pericolosamente la nostra privacy?

I big data sono la risposta a tutte queste domande: offrendo la possibilità di agire sulla totalità delle informazioni e non solo su campioni statistici, permettono di elaborare risposte più veloci, economiche e straordinariamente più precise sul mondo che ci circonda.

Come però i ricorrenti scandali Datagate dimostrano, aziende e istituzioni stanno sfruttando queste innovazioni tecnologiche per immagazzinare, spesso a nostra insaputa, quantità infinite di dettagli sulle nostre vite (…) E se queste informazioni fossero gestite male, il rischio di andare incontro a una riduzione dei nostri diritti o persino a una dittatura delle probabilità – come nel celebre Minority Report – sarebbe altissimo (…)”

L’indice dei contenuti

L’elenco dei capitoli e dei paragrafi più significativi, letto in sequenza, dà una concreta ed efficace idea del modo con cui i due autori affrontano il tema dei big data, delle inedite opportunità che offrono e delle loro minacce alla privacy:

“Lasciar parlare i dati – Più numerosi, caotici e sufficienti – I più numerosi vincono sui migliori – Il caos in azione”.

E poi: “Correlazione – Datizzazione – Quando le parole si trasformano in dati – Quando la posizione si trasforma in dati – Quando le interazioni si trasformano in dati”.

Per passare quindi al contesto: “Il valore dei dati – Stimare l’inestimabile – I nuovi intermediari dei dati” … e al rovescio della medaglia: “Rischi – Paralizzare la privacy – La dittatura dei dati – Il lato oscuro dei big data – Controllo – L’ascesa dell’algoritmista”.

Fino ai paragrafi conclusivi: “Tenere sotto controllo i baroni dell’informazione – Il futuro – Quando i dati parlano – Big data ancora più big”.

Qualche citazione commentata

Casualità, correlazioni e valore. “C’è in corso un’autentica caccia al tesoro guidata dalle indicazioni che si possono estrarre dai dati e dal valore latente che si può liberare con il passaggio dalla causalità alla correlazione. Ma non è un tesoro unico. Ogni singolo gruppo di dati avrà un valore intrinseco, nascosto, non ancora portato alla luce, e l’obiettivo della competizione è scoprirlo e catturalo per intero. I big data modificano la natura del business, dei mercati e della società” (pag. 28).

Sottolineiamo due concetti chiave: il passaggio da un approccio tradizionale deterministico (causa-effetto) a una visione basata sull’emergere di correlazioni fra pattern emergenti da grandi masse di dati; e il valore tangibile che scaturisce dalla concreta possibilità di estrarre informazione inedita e utile dalla massa bruta dei dati.

La quantità che si fa qualità: dal perché al cosa. Un po’ più in dettaglio il concetto chiave di nuovo paradigma cognitivo legato alla complessità dei big data lo troviamo all’inizio, tra pag. 15 e pag. 16: “Il mondo è subissato di informazioni come mai prima d’ora (…) Il cambiamento di dimensione ha prodotto un cambiamento di stato. Il cambiamento quantitativo ha prodotto un cambiamento qualitativo (…) la società dovrà abbandonare almeno in parte la sua ossessione per la casualità in cambio di correlazioni semplici: non dovrà più chiedersi perché, ma solo cosa. Questo nuovo modo di affrontare i problemi ribalta secoli di prassi consolidate e mette in crisi il nostro approccio istintivo alle decisioni e alla comprensione della realtà”.

E poi più avanti, a pag.72: “… nei confini ristretti degli small data, potevamo andare fieri della nostra precisione – anche se misurando i dettagli a livello infinitesimale, perdevamo di vista il quadro complessivo. Alla fine, i big data ci obbligheranno a cambiare, a sentirci più a nostro agio con il disordine e con l’incertezza”. Anche se sarà un percorso lungo e arduo, dato che, “poiché la nostra mente è abituata a un mondo povero di informazioni, tendiamo a ragionare su dati limitati, anche se il più delle volte i fattori in gioco sono troppi per accreditare semplicemente un effetto a una determinata causa” (pag. 93).

Datafication. Gli autori dedicano un intero capitolo (Cap. 5, da pag. 103 a pag. 134) a questo tema, partendo dalla storia di intuizioni e scoperte che hanno portato gli uomini a misurare e trasformare in dati più cose possibile, molto prima della digitalizzazione che ha caratterizzato gli ultimi cinquant’anni. L’inizio della più recente ondata di datizzazione, Mayer-Schönberger e Cukier lo collocano a metà dell’Ottocento, con il lavoro del sovrintendente del Depot of Charts and Instruments della Marina americana, un certo Matthew F. Maury, che per primo clusterizzò l’Oceano, con l’aiuto dei dati raccolti da una fitta rete sociale di colleghi navigatori, al fine, tra l’altro, di studiare le rotte più convenienti; non solo: “… si rese conto che i logori giornali di bordo costituivano in realtà dei ‘dati’ che si potevano estrapolare e incolonnare. Così facendo divenne uno dei pionieri della datafication, l’estrazione di dati da materiali che si consideravano del tutto privi di valore” (pag. 107).

Tre tipi di fonti di dati. Gli autori di “Big data” individuano tre fonti principali per i dati che vengono raccolti, memorizzati e analizzati oggi con strumenti digitali: le parole (culturomics), la posizione (geolocalizzazione) e le interazioni (relazioni sociali datificate).

Culturomics (da pag. 115 a 120): è un settore che non cattura l’interesse del largo pubblico, ma che viene battuto sistematicamente da colossi come Google e Amazon, i quali sfruttano la digitalizzazione dei testi attuali e del passato per trarne vantaggi di vario tipo, tra cui campeggia il tentativo di creare una sorta di sistema esperto intelligente in grado di ‘capire’ il linguaggio naturale grazie a reti neurali addestrate su tutti i testi scritti dall’uomo in tutte le lingue e in tutti i tempi, dall’invenzione della stampa fino a oggi.

Decisamente più note al largo pubblico sono invece le fonti di dati legate alla nostra posizione geografica e alle relazioni che intratteniamo sia all’interno che all’esterno dei social network, fonti che vengono trattate in due diversi paragrafi (il primo da pag. 120, il secondo da pag. 127), ricchissimi di casi di studio, con cifre che danno immediatamente idea degli interessi e del business che circonda queste preziose miniere di dati.

Il valore dei dati non si consuma. “Ciò che differenzia la nostra epoca è che molte limitazioni intrinseche alla raccolta dei dati non esistono più. La tecnologia è arrivata a un punto in cui si possono raccogliere e immagazzinare spesso grandi masse d’informazione a basso costo (…) E siccome il costo di archiviazione è diminuito enormemente, è più facile giustificare la conservazione che l’eliminazione dei dati” (pag. 138). Ma il primo utilizzo dei dati da parte di chi li raccoglie è solo un aspetto (sempre più marginale) di questo nuovo fenomeno. Seguitiamo infatti a leggere alle pagine seguenti (pag. 139 e 140): “Diversamente da quanto accade per le cose materiali (…) il valore dei dati non diminuisce quando vengono utilizzati: si possono riprocessare all’infinito. Le informazioni sono perciò, come dicono gli economisti, un bene ‘non competitivo’ (…) I dati si possono sfruttare molte volte per lo stesso scopo, ma anche e soprattutto per più scopi insieme (…) Tutto questo ci fa pensare che il valore effettivo dei dati sia molto superiore a quello ricavato dal loro primo utilizzo. Significa inoltre che le aziende possono sfruttare efficacemente i dati anche se il primo utilizzo, o ciascuno dei successivi, apporta un valore marginale: a condizione di sfruttarli innumerevoli volte”.

Privacy. Questo libro è focalizzato sui big data, sulla loro definizione, sulle loro caratteristiche; il capitolo privacy, in tale ottica, diviene solo uno dei tanti aspetti che discendono a cascata dalla raccolta e dall’utilizzo di grandi masse di dati privati. Abbiamo visto lo scorso mese (vedi articolo) come il problema ‘trasparenza’ (interconnesso con quello della privacy) viene affrontato nel libro di Byug-Chul Han; e vedremo diverse volte e da diversi punti di vista come la privacy verrà esaminata nei libri di cui parleremo nei prossimi mesi. Segnaliamo quindi qui solo il fatto che in “Big data” la privacy è trattata nel capitolo “Rischi” e – in parte – nel capitolo “Controllo”, senza osservazioni di particolare interesse e senza punti di vista inediti.

Una valanga di casi concreti. Chiudiamo la carrellata di citazioni e commenti con una sottolineatura: in questo libro si trovano decine e decine di casi di studio di enorme interesse, approfonditi nei dettagli con nomi di aziende e dati specifici noti solo in parte e solo agli addetti ai lavori. Già da sola, secondo noi, questa raccolta di esempi e di numeri illuminanti vale la lettura del volume di Viktor Mayer-Schönberger e Kenneth Cukier.

Il racconto e l’analisi dei vantaggi (e dei pericoli) derivati dall’uso di big data va dal caso della gestione ottimizzata dei furgoni di UPS (pag. 124) a quello dei pavimenti datizzati di IBM (pag. 131), dalle esperienze di Acxium, Experian e Equifax nella costruzione di dossier a pagamento su persone e aziende (pag. 137), alle analisi geo-sociali condotte in Africa da Jana (pag. 126); e poi il MIT con gli studi sull’efficacia dei big data nelle decisioni in ambienti complessi (pag. 196), Xoom con l’analisi di anomalie delle carte di credito in tempo reale (pag. 44) o il caso di Data Sift e Gnip, concessionari per la commercializzazione dei dati raccolti da Twitter.

Gli autori

“Viktor Mayer-Schönberger è professore di ‘Internet Governance and Regulation’ alla Oxford University (www.vmsweb.net – @Viktor_MS).

Kenneth Cukier è Data Editor presso ‘The Economist’ e membro del ‘Council on Foreign Relations’. Suoi articoli di tecnologia, business ed economia sono apparsi sul New York Times e su Financial Times (www.cukier.com @ kncukier).”

La domanda (e il libro) del prossimo mese

Chiediamo ai lettori di scegliere quale domanda vogliamo porci il mese prossimo. Ecco la lista delle nostre proposte, che può subire su vostra richiesta cambiamenti, aggiunte, eliminazioni:

· che cosa sono le reti complesse? ci risponde un saggio di Barabasi;

· qual è la differenza tra complicato e complesso? ci rispondono Gandolfi e Waldrop

· quale rapporto c’è tra trasparenza e privacy? troviamo suggestioni in un romanzo di successo: “Il cerchio” di Eggers

· come si gestisce la complessità nelle organizzazioni? ci rispondono Cravera, De Toni, Simoncini e De Simone

· che dire di intelligenza artificiale e singularity? troviamo spunti in Morin e in una raccolta di saggi tratti dalla rivista Le Scienze

· quali leggi governano la diffusione delle mode, dei virus e delle epidemie? ci risponde Buchanan

· la memetica: di che si tratta? risposte e suggestioni nel libro di Blackmore

· perché solo sei gradi di separazione tra me e Obama? ci rispondono Buchanan e Barabasi

· perché chiamiamo “età ibrida” questo periodo? ci rispondono Ayesha e Parag Khanna

· complesso e caotico: quali punti di contatto? ci risponde Ekeland

· come affrontare l’imprevisto in un mondo iper-connesso? dal ‘Cigno nero’ di Taleb a un curioso saggio di uno scrittore di gialli, Marco Malvaldi

· che c’entra la biologia con l’organizzazione complessa? ci rispondono Luisi e Capra

· autopoiesi: di che si tratta e perché ci dovrebbe interessare? le risposte in un grande classico di Varela e Maturana

· che c’entra la teoria dei giochi con il mondo complesso e iper-connesso? ci risponde Massarenti con il divertente “Perché pagare le tangenti è razionale ma non conviene”

che cos’è la legge di potenza e perché è oggi così importante? risponde Barabasi in “Lampi”