L'approfondimento

Non tutti i dati sono uguali: come uscire dal paradosso dei Big Data

Troppa informazione, poca conoscenza: il paradosso dei Big Data avviene quando i dati crescono ma la capacità di analisi è inadeguata. Affidabilità, fiducia e selezione delle fonti sono necessarie per superare l’impasse. Ecco come

Pubblicato il 31 Mar 2022

Valter Fraccaro

Presidente della Fondazione SAIHUB

Paolo Ghezzi

CEO di Infocamere ed Expert dell'Istituto EuropIA.it

linee guida sviluppo sicuro intelligenza artificiale

Siamo dentro al paradosso dei Big Data: a dispetto dei progressi dell’intelligenza artificiale, la sensazione è che ancora oggi, come trent’anni fa, “stiamo affogando nelle informazioni ma restiamo affamati di conoscenza”^[1].

La gran parte dei Big Data (alcune stime parlano dell’80%) non viene analizzata: quando i dati sono sovrabbondanti e la capacità di lettura ancora scarseggia, si lascia grande spazio al loro uso strumentale per avvalorare tesi non facilmente verificabili.

Come non cadere nelle fake news: ecco il “pensiero laterale” che ci può salvare

I rischi toccano tutte le attività umane ma sono ancora più pervasivi quando riguardano il mercato e l’economia, in cui chi possiede la tecnologia dei dati non si limita a cercare le risposte ma è ormai in grado di condizionare le domande.

Per provare a venir fuori da questo paradosso, vale la pena di riflettere su quali siano i dati su cui porre la nostra attenzione e in che modo vadano analizzati.

Indice degli argomenti

Il paradosso dei big data: per analizzarli si usano gli small data

La stragrande maggioranza delle analisi che si conducono coinvolge insiemi di dati relativamente piccoli, o piccoli sottocampioni di insiemi di dati più grandi: gli small data.

Dai comportamenti abituali nella propria casa, ai dati contenuti in un bilancio aziendale, gli small data consentono di (ri)conoscere bisogni e aspirazioni di persone come di organizzazioni e fornire risposte su misura per soddisfarli.

In questa ricerca dei dati “giusti”, dobbiamo essere consapevoli che non tutti i dati sono uguali quanto a qualità, ovvero affidabilità, aggiornamento, completezza.

Per un’impresa, l’informazione è un asset indispensabile per conoscere il proprio mercato, creare alleanze, innovare. È sulle informazioni che si costruisce la fiducia, elemento essenziale a qualunque rapporto economico.

Il ruolo delle istituzioni nello sviluppo degli algoritmi di analisi

Saper distinguere tra fonti affidabili e fonti dubbie, tra dati certificati e dati di cui è difficile ricostruire l’origine, può fare la differenza tra un progetto imprenditoriale riuscito e un fallimento.

Il ruolo delle istituzioni, in questa prospettiva, è centrale e lo sarà sempre di più in un’economia data driven, in quanto soggetti portatori di un interesse pubblico, distinto e distinguibile da quello prettamente commerciale espresso da attori privati.

Enti come le Camere di commercio, che attraverso il Registro delle imprese certificano le informazioni di oltre 6 milioni di imprese e dei circa 10 milioni di amministratori – sono un faro indispensabile per assicurare la fiducia che serve a far funzionare un’economia di mercato.

La stessa fiducia dobbiamo poterla riporre anche nel metodo di lettura e analisi dei dati pubblici.

In uno scenario in cui la produzione degli algoritmi segue il profilo di una nuova guerra fredda – si pensi al 5G e al caso USA-Cina – per Paesi come l’Italia è decisivo che lo sviluppo degli algoritmi veda un ruolo centrale di soggetti pubblici (portatori di interessi collettivi), saldamente ancorati ad un sistema di valori e ad una cultura delle regole forti e condivise.

La complessità delle relazioni economiche e finanziarie che legano tra loro comunità e territori, dovrebbe suggerire – ai decisori politici come alle imprese – una grande cautela per sfuggire la tentazione di usare le tecnologie al fine di sovrasemplificare la realtà.

I processi decisionali che stiamo utilizzando sono ancora troppo rozzi, sia perché facciamo fatica a scegliere i dati giusti, sia perché le nostre abilità nell’interrogarli si stanno ancora formando.

Il paradosso dei Big Data: conservare tutti i calzini per indossarne un paio

L’idea che nel tutto, o anche solo nel molto, sia più facile trovare le risposte è una deviazione del nostro incauto pensiero, un punto prospettico errato che già ha influenzato in maniera negativa un altro trend digitale di qualche anno fa: l’archiviazione documentale.

Da questo presupposto sono nati progetti faraonici che non hanno portato a nulla, soprattutto nelle imprese. Chi li commissionava credeva infatti che conservare digitalmente ogni documento riguardante la vita dell’azienda, compresi quelli analogici, avrebbe consentito di rendere visibili interi flussi operativi e che questi sarebbero stati facilmente rintracciati e interpretati partendo da uno qualunque di quei documenti, cosa non vera proprio perché la stessa enormità degli archivi avrebbe penalizzato gli sforzi di ricerca e così reso l’investimento una pura spesa.

È un po’ come se al mattino cercando un paio di calze da indossare ognuno di noi avesse un enorme cassetto pieno di tutti i calzini che ha adoperato nella sua vita, compresi quelli di quand’era bambino, quelli della misura sbagliata, quelli bucati.

Il principio del calzino valeva per le tonnellate di documenti convertiti via scanner dal cartaceo al digitale e vale ora per ciò che chiamiamo Big Data.

Da umani non ci mettiamo molto a selezionare calzini e buttare via quelli inutili, ma quando abbiamo a che fare con i dati, tutto si complica.

La selezione è un passo fondamentale per arrivare a gestire solo i dati che servono e possibilmente veritieri. In questo senso non si può che auspicare che si utilizzino sempre più dati certificati e nella forma e quantità adeguata.

Il paradosso dei Big Data: scambiare un prodotto con una descrizione

Anche se non ci facciamo più caso, “dato” è un participio passato. Un dato infatti è un prodotto, un qualcosa di realizzato dall’umano attraverso una rilevazione ed esplicitato secondo una convenzione.

Ne consegue che un “dato” non è solo descrizione di un fatto, ma “fatto” esso stesso. Dunque, ciò che chiamiamo Big Data è una estesa collezione di prodotti umani che descrivono fatti.

Quando Maurizio Ferraris dice che siamo in un tempo in cui la gran parte della vita umana è descritta in tempo reale dalla sua traccia digitale, afferma realisticamente uno stato di cose che sta davanti ai nostri occhi e che resiste ad ogni tentativo logico di dimostrarne l’insussistenza.

Gli esiti dell’insufficienza della nostra odierna capacità di produrre nuovi algoritmi sono peggiorati dall’apporto quantitativo (i troppi calzini nel cassetto, se non siamo stati capaci di selezionarli) e dalla loro qualità, per stabilire la quale abbiamo bisogno di ulteriori sforzi ed energia.

Mettendo assieme questo assunto e quello di Ferraris, si capisce bene che anche solo la descrizione della giornata di una singola persona diventa molto più complessa di quanto i film di spionaggio ci hanno fatto credere.

Conclusioni

Siamo in un bosco molto luminoso (le capacità cognitive umane e le loro corrispondenti informatiche) e coperto di neve (i dati), in cui cerchiamo di rintracciare il percorso di un animale e le sue tracce (i dati tipologicamente prescelti), appunto, sono confuse con quelle di altre specie, quelle di altri individui della sua e quelle sue proprie marcate in altri momenti.

Un’attività che riesce benissimo nella finzione cinematografica se il protagonista è Unghia d’Orso in “Corvo Rosso non avrai il mio scalpo”, ma molto meno bene nella realtà digitale.

Se amplifichiamo tutto questo sulla scala macroscopica dei fenomeni economici, per limitarci a quelli, la possibilità di darne una descrizione fedele, e dunque utile, si riduce.

Proprio per questo la necessità che i dati siano pre-processati e verificati ab initio si fa preponderante e si deve considerare quale enorme ricchezza la disponibilità di enti come InfoCamere che rendono fruibili informazioni attendibili.

Un certo uso della nostra lingua ha portato ad una coloritura negativa l’aggettivo “ufficiale”, come se con esso si dia per certo che l’oggetto a cui esso si riferisce sia stato manipolato in modo tale da renderlo strumento di un qualche interesse particolare e non confessabile.

Anche qui il facile complottismo che trova in poltrona e tastiera il suo ecosistema di riferimento, può essere rapidamente affrontato ricordando che l’ora che leggiamo sul nostro orologio o telefonino è essa stessa “ufficiale”, così come la moneta che usiamo, il peso della frutta o la temperatura segnata dal nostro termometro.

Insomma, “ufficiale” vuol dire convenuto, concordato, standardizzato. È bene ricordarsene quando si svaluta l’affidabilità di una fonte attendibile in quanto essa è “ufficiale”, tanto più quando i dati da essa resi disponibili provengono da osservazioni portate avanti in maniera scientificamente corretta, non inquinata da pregiudizi capaci di orientarne i risultati.

Proprio i soggetti pubblici devono dunque in ogni modo lavorare affinché il dato, cioè il loro prodotto, sia quanto più possibile corrispondente al reale, ma a ciò deve collegarsi una maggior fiducia in chi li utilizza e un concreto impegno del legislatore nello stabilire tutele per chi rende un servizio alla comunità raccogliendo e diffondendo “impronte” davvero utili a descrivere la società e il suo cammino.

___________________________________________