Manipolazione dei dati, statuto epistemologico della scienza, racconto della verità. La riflessione semiotica permette di far emergere moltissime questioni centrali rispetto al dibattito contemporaneo sulla circolazione delle informazioni e la disinformazione.
La nostra società è pervasa dai dati: da quelli che produciamo con la nostra attività online a quelli che vengono raccolti da parte delle grandi imprese per orientare la loro attività commerciale e di promozione, fino a quelli che animano dibattiti politici, pagine di quotidiani e di inserti culturali, o che orientano la ricerca e servono come base per le interpretazioni di studiosi e scienziati.
Ma qual è lo statuto di questi dati? Sono delle rappresentazioni fedeli del reale, o possono essere messi in discussione? Emergono da un’osservazione semplice dello stato del mondo, o dipendono da una mediazione simbolica? Lo studio critico dei dati che emerge da discipline come i critical data studies, gli science and technology studies e la semiotica, può offrirci degli spunti per guardare ai dati in maniera non ingenua.
I dati non sono dati ma “capta”, raccolti
Il complesso sistema sociotecnico in cui siamo inseriti ci ha catapultato, in tempi molto brevi, all’interno di quella che viene definita la società dei dati.
Nel corso degli ultimi anni, lo studio dei dati è entrato a pieno titolo all’interno dell’elaborazione culturale e della riflessione umanistica, emergendo dagli ambiti disciplinari più tradizionalmente legati all’elaborazione dei dati – informatica, statistica, la più recente data science – contaminando la produzione filosofica, la critica politica e nutrendo il pensiero sociologico.
Non è un caso che sia proprio all’interno degli Science and Technology Studies, il campo di ricerca che indaga le intersezioni tra sapere scientifico, tecnologia e società, che si è sviluppata l’indagine dei Critical Data Studies.
Allargando lo sguardo, la riflessione critica dei dati può essere ritrovata in tutti gli ambiti che cercano di offrire una lettura umanistica di tecnologia e fenomeni digitali. Più di dieci anni fa, la studiosa di digital humanities Johanna Drucker (2011) ci invitava a ripensare le visualizzazioni di dati (“data visualization”) come esposizioni grafiche (“graphical display”) non di dati, ma di capta, di ‘raccolti’, secondo l’assunto fondamentale che i dati non si danno, non sono ‘dati’ nel mondo fenomenico ma sono il frutto di un’attività di raccolta e categorizzazione: il prodotto di un lavoro umano e, di conseguenza, inevitabilmente sociale.
La riflessione di Drucker parte dal carattere rappresentazionale – e squisitamente semiotico – delle data visualization per abbracciare contemporaneamente il loro statuto epistemico e la loro collocazione culturale:
“Thus the representation of knowledge is as crucial to its cultural force as any other facet of its production. The graphical forms of display that have come to the fore in digital humanities in the last decade are borrowed from a mechanistic approach to realism, and the common conception of data in those forms needs to be completely rethought for humanistic work”. (Drucker 2011: 2).
Il punto non è quindi riconoscere che le visualizzazioni di dati semplifichino e mistifichino dei dataset perfettamente fedeli al reale, ma che proprio i dati da cui provengono non corrispondono alla comune promessa di trasparenza e di obiettività.
Questa, infatti, non appartiene neanche ai principi epistemologici delle scienze cosiddette dure: gli scienziati e le scienziate statistici, infatti, sanno bene che i dati su cui lavorano sono sempre il risultato di un campionamento, e che proprio a partire dalla sua efficacia, costruzione e affidabilità scientifica si possono iniziare a fare osservazioni e analisi sul reale (cfr. ivi.):
“The point I’m making is that the basic categories of supposedly quantitative information, the fundamental parameters of chart production, are already interpreted expressions. But they do not present themselves as categories of interpretation, riven with ambiguity and uncertainty, because of the representational force of the visualization as a “picture” of “data”” (Drucker 2011: 5).
Il dato spurio come ossimoro
È proprio nella direzione aperta dai critical data studies che si inserisce la prospettiva di Lisa Gitelman (2013), la cui fortunata citazione riporta come l’espressione “dato spurio”, Raw Data, costituisca un ossimoro.
Piuttosto che costituire una rappresentazione fedele della realtà, il dato consiste già nella risposta a una domanda, una domanda con cui si interroga, si misura e si dà forma al mondo che ci circonda. Il dato non esiste in natura, e anche la più basilare schematizzazione dell’indagine statistica (cfr. Spiegelhalter 2019) prevede una raccolta, una gestione e una pulizia dei dati preliminare all’analisi. Prima di poter applicare modelli predittivi o indagare nessi causali, devono essere valutate la coerenza e la scientificità del dataset.
Senza ricercare nessi causali diretti, è bene ricordare – e interrogarsi – sul fatto che proprio le riflessioni critiche dei dati nascono in un clima culturale segnato dalla diffusione dell’ideologia della end of theory (cfr. Gambetta 2018), secondo la quale non avremo più bisogno di teorie per interrogare la realtà ma potremmo semplicemente affidarci ai dati raccolti dalle tecnologie e dalle infrastrutture digitali che abitano, pervadono e sono protagoniste della nostra vita sociale. Secondo questa visione, se gli strumenti tecnologici possono contare il mondo, allora possono anche restituircene una versione classificata in maniera computazionale, priva di bias ed empiricamente fondata.
Il problema però è che questa stessa tecnologia è tutt’altro che neutrale: essa risponde a una progettazione che non è esente da bias e pregiudizi, e anche le intelligenze artificiali che regolano la nostra attività online rispondono a delle categorizzazioni socialmente determinate. Come illustra la celebre ricerca di Zuboff (2019) basata principalmente sulla domotica, la renderizzazione dell’esperienza (ivi: 247) – o datificazione della nostra esperienza – da parte delle tecnologie digitali è un’attività problematica dal punto di vista sia etico che politico.
Per una semiotica delle data visualization
All’interno del dibattito semiotico contemporaneo, due contributi sono dedicati espressamente alla semiotica dei dati. Entrambi partono dalla data visualization, prodotto privilegiato dell’information design, e si inseriscono all’interno del campo tracciato da questa disciplina per rivelarne la pertinenza semiotica e aprire un dialogo interdisciplinare.
Il lavoro di Valentina Manchia si concentra sulla dimensione del discorsivo, intesa come la “messa in prospettiva” (2020: 28), della data visualization:
Una visualizzazione di dati non è infatti soltanto un insieme di scelte visive effettuate per codificare singole informazioni quantitative: è la totalità, coerente e organizzata, di queste scelte in un artefatto comunicativo ben specifico, all’interno del quale è possibile distinguere un punto di vista, uno stile, una prospettiva di analisi che è al contempo una presa di posizione sui dati, proprio come un testo letterario o opera d’arte non possono essere ridotti alle parole e alle lettere – o alle linee e ai colori – di cui sono composte. (ivi: 27).
La raccolta di saggi procede a sviscerare lo statuto semiotico delle visualizzazioni di dati, ad esempio dimostrando il carattere retorico sottostante alla “visualizzazione” degli oggetti scientifici (Bastide 2001) e concentrandosi a più riprese sulla presunta trasparenza (e costitutiva opacità) delle visualizzazioni di dati, o riprendendo la distinzione tra “descrizione” e “racconto” proposta da Louis Marin (1983).
È proprio un’indagine sulla promessa di trasparenza dei dataset che permette a Manchia di riflettere sul carattere inevitabilmente relazionale di ogni raccolta dati:
Lasciando i dati a se stessi, detto altrimenti, si perderebbe del tutto l’effetto – che è del tutto e per tutto un effetto di senso – di evidenza della verità di cui si è parlato fin qui. Il paradosso è che i dati, senza più cornici interpretative, non diventano più aderenti alla realtà, più veri, di quando sono sottoposti a uno sguardo che li informa. Piuttosto diventano muti, privi di un senso che solo un’interpretazione che li tesse insieme può ricavare (Manchia 2020: 221)
Il lavoro di Valeria Burgio cerca di riflettere sulla presunta trasparenza delle visualizzazioni di dati concentrandosi su un concetto dissidente rispetto ai principi classici che regolano il design di questi artefatti grafici, il “rumore visivo”:
L’etichetta di “rumore visivo” ci aiuta dunque ad affrontare fenomeni legati al design dell’informazione che, pur diversi tra di loro, ci permettono tutti di osservare come un lento avanzamento nella conoscenza sia accompagnato da un riconoscimento dei suoi limiti: l’impossibilità di prescindere da un punto di vista, da valori e preferenze stilistiche radicate in una cultura, una nazione o un periodo storico; l’inscatolamento di ogni trasmissione d’informazione in una strategia comunicativa; la difficoltà di accesso a una “verità” che non sia risultato di prove, confronto intersoggettivo e stratificazione di richiami intertestuali. (Burgio 2021: 15)
Attraverso il suo “elogio del rumore”, la studiosa Burgio procede a delineare un’accurata storia critica delle infografiche, dimostrando che esse abbiano sempre costituito delle “forme di relazione” (ivi: 16) più che delle restituzioni di numeri attraverso il linguaggio visivo; in seguito, dà nuova dignità alla dimensione dell’incertezza, vero motore e orizzonte epistemico della conoscenza scientifica.
La sua riflessione permette di guardare da vicino al lavoro semiotico che sottende alla produzione di oggetti di conoscenza, della sua stratificazione e della compartecipazione di diverse dimensioni al suo interno:
“Per dirla in termini linguistico-semiotici, la prima fase di un processo di produzione di conoscenza è l’introduzione di pertinenze, considerando per pertinenza un processo che attribuisce del senso a delle forme che sono discriminate e rese rilevanti rispetto a uno sfondo amorfo: l’introduzione del discontinuo nel continuo. Questa operazione si svolge in primis sul piano semantico, da cui emergono gli elementi degni di essere significati, mentre sul piano del significante si cercano le forme adatte ad esprimere le loro relazioni. Identificare il dato significa dunque, prima di tutto, attribuire rilevanza a un oggetto e, in seconda istanza, includerlo in una classe che dipende dal punto di vista adottato e dalla pratica entro cui l’osservazione si situa. La pertinenza dunque dipende dalle situazioni e dalle condizioni in cui è applicata e risponde non solo alla predefinizione delle priorità da adottare, ma anche ai dispositivi tecnici utilizzati per la rilevazione e l’osservazione del dato”. (Burgio 2021: 72-73)
Entrambi i testi, oltre a costituire delle attualissime applicazioni del metodo semiotico ad oggetti normalmente considerati come unicamente affrontabili da scienze computazionali o matematiche, permettono di identificare con precisione i rischi di un approccio prettamente funzionalista alla visualizzazione di informazioni. Quest’ultimo, infatti, ne trascurerebbe il carattere diagrammatico (Deleuze 1986; Fabbri 2014), quindi di sistema di relazioni – o di relazione di relazioni – e imprescindibilmente legato a un confronto intersoggettivo di posizioni sul mondo, più che a una sua adesione alle cose.
Perché abbiamo bisogno di dati ben costruiti
Il dato, quindi, è una selezione prospettica di un aspetto del reale, dipendente da una categorizzazione che equivale a un punto di vista.
È difficile in questo caso non pensare alla lezione barthesiana sull’illusione referenziale (cfr. Barthes 1984): all’interno di un sistema semiotico non si può dare un riferimento diretto o im-mediato alla realtà, e l’oggettività si può raggiungere solo attraverso un lavoro di eliminazione delle tracce residuali dell’attività discorsiva.
Ma l’atto di messa in discorso, di testualizzazione o di enunciazione è un atto di mediazione che prevede la compresenza di diverse istanze sociali: è infatti impossibile pensarlo al di fuori di una rete intersoggettiva di mediatori (Paolucci 2020).
Spesso, questo tipo di riflessioni, fatte ricadere sotto una forma di costruttivismo ingenuo, sono accusate di lasciare la strada aperta a forme di neo-idealismo platonico o di portare inevitabilmente a un’inconoscibilità del reale (cfr. Ferraris 2014). Lungi però da voler considerare la realtà come inconoscibile, lo sguardo semiotico sull’oggettività e sulla dimensione sociale del discorso possono aiutarci a capire perché abbiamo di bisogno di dati ben costruiti e di una scienza statistica che, per mantenere il suo grado di scientificità, sia a tutti gli effetti una scienza sociale.
Se prendiamo una definizione elementare del lavoro dello scienziato statistico, possiamo innanzitutto osservare come il campionamento e la diffusione dei risultati siano parte integrante del processo conoscitivo che la scienza statistica ci permette:
“[…] se vogliamo usare la statistica per capire il mondo, le nostre esperienze quotidiane vanno trasformate in dati; ciò richiede di raggruppare gli eventi in categorie e assegnare loro etichette, svolgere misure, analizzare i dati e comunicare le conclusioni (Spiegelhalter 2019: XIV, corsivi nostri).”
Queste operazioni, lungi da essere “neutrali”, fanno parte di un lavoro prospettico, che proprio in virtù della sua parzialità e fallibilità può entrare all’interno di un dibattito scientifico e produrre nuova conoscenza.
La parzialità del dato è ciò che permette il confronto e la negoziazione all’interno della comunità scientifica; saranno poi le operazioni (modellizzazioni, analisi probabilistiche, studio di correlazioni, verifiche di significatività) fatte su quei dati a informare le ipotesi, verificarle o confutarle, e trarre delle conclusioni. Operazioni che, con buona pace della end of theory, sono tutto meno che non-teoriche o per le quali la ‘teoria’ sarebbe superflua.
La critica del mito del dato e la risposta di Ferraris
All’interno del suo saggio “Documanità”, Maurizio Ferraris (2021) attacca la tesi della “critica del mito del dato” sostenendo che dipenda da due tipi diversi di trascendentalismo. Da un lato questa sarebbe figlia dell’idea idealista prima, postmoderna poi, per cui il mondo dipenderebbe dalla nostra conoscenza, facendo riassorbire l’ontologia all’interno dell’epistemologia.
Dall’altro, individua nello scientismo positivista che attraversa empirismo logico e cognitivismo una pretesa di esaurimento del ruolo della filosofia nello spiegare i fenomeni del mondo, ruolo ormai ricoperto dalle scienze della natura.
Se il secondo tipo di trascendentalismo coincide con la critica alla end of theory e fa emergere il carattere etico-politico della costruzione dei dati (così come il ruolo delle scienze umane nel rilevarlo e portarne avanti una critica), non si possono condividere appieno le premesse della critica che egli muove a ciò che definisce come trascendentalismo del primo tipo. Le tesi critiche del “mito del dato” non dismettono la presenza di un mondo al di là dei nostri schemi conoscitivi, ma ci permettono di riflettere meglio sulla costruzione degli stessi e sul loro carattere inevitabilmente situato, sia socialmente che materialmente.
Conclusioni
In semiotica, la dimensione della manipolazione sottende ogni narrazione, ogni contratto enunciativo: ogni far-sapere corrisponde a un far-credere (cfr. Bastide 2001).
Non esistono dati non-manipolati, ma solo dati prodotti da qualcuno. Questo, invece che far crollare la nostra fede in questo potentissimo strumento epistemico, deve mobilitarci verso la richiesta – se non la pretesa – di dati aperti, pubblici e trasparenti: dati che possano essere condivisi in formati pubblicamente verificabili e analizzabili da soggetti pubblici, da ricercatori e da singoli privati.
Non bisogna solo orientarsi a una maggiore trasparenza a proposito della raccolta, elaborazione e pulizia dei dati, ma anche considerare la collocazione politica e situata di ciò che si dà come neutrale e obiettivo. Non si deve perdere fiducia nei confronti dei dati, ma interrogarli attraverso gli strumenti che le scienze umane ci consegnano. La “realtà” che queste ci insegnano a mettere in dubbio non è quella che coincide con l’esistenza delle cose, ma la necessità che queste cose debbano stare in un modo, e in quel modo soltanto; che non esista che un modo per quella realtà di darsi, e che i rapporti che la attraversano siano discreti, lineari, determinati.
Ciò che la riflessione sui dati ci consegna è la consapevolezza che ogni dato è una scelta, una porzione, una riduzione della complessità del mondo. Noi non possiamo esimerci dall’interrogarlo, con i limiti del nostro linguaggio e dei nostri strumenti conoscitivi, e la sua esistenza non dipende certo da questi ultimi. Allo stesso tempo, tuttavia, una sua descrizione fedele non potrà esimersi da quella pluralità di prospettive che brulica nel profondo della sua stessa complessità.
___________________________________________________________________________________
Bibliografia
Barthes, R. (1984), “Le bruissement de la langue. Essais critiques IV”, Éditions du Seuil, Parigi ; trad. it. “Il brusio della lingua. Saggi critici IV”, Torino, Einaudi, 1988.
Bastide, F., (2001), “Una notte con Saturno”, Meltemi, Roma.
Burgio, V. (2021), “Rumore visivo. Semiotica e critica dell’infografica”, Mimesis, Milano.
Deleuze, G. (1986), “Foucault”, Les Editions de Minuit, Parigi, 1986; tr. it. “Foucault”, Cronopio, Napoli.
Drucker, J (2011) “Humanities Approaches to Graphical Display”, DHQ: Digital Humanities Quarterly, (5)1.
Gambetta, D. (a cura di), (2018) “Datacrazia. Politica, cultura algoritmica e conflitti al tempo dei big data”, D Editore, Roma.
Gitelman, L. (a cura di), (2013), “Raw Data is an Oxymoron”, MIT Press,
Fabbri, P. (2014) “Diagrammi in filosofia: G. Deleuze e la semiotica ‘pura’”, in V. Manchia (a cura di), “Immagini che fanno segno. Modi e pratiche di rappresentazione diagrammatica nelle informational images”, Carte Semiotiche, Serie Annali 2 , pp. 27-35.
Ferraris, M. (2014) “Manifesto del nuovo realismo”, Laterza, Roma-Bari.
(2021) “Documanità”, Laterza, Roma-Bari.
Manchia, V. (2020) “Il discorso dei dati. Note semiotiche sulla visualizzazione delle informazioni”, Franco Angeli, Milano.
Marin, L. (1983),“La ville dans sa carte et son portrait. Proposition de receherche”, Cahier de l’école normale supérieure de Fontanay, 1983, pp. 30-31 ; tr. it. “La mappa della città e il suo ritratto. Proposte di ricerca”, Della rappresentazione, Milano, Mimesis, 2014, pp. 75-137.
Paolucci, C. (2020) “Persona. Soggettività nel linguaggio e semiotica dell’enunciazione”, Milano, Bompiani.
Spiegelhalter, D. (2019), “The Art of Statistics: How to Learn from Data”, Basic Books, New York; tr. it: “L’arte della statistica. Cosa ci insegnano i dati”, Einaudi, Torino, 2020.
Zuboff, S. (2019), “The Age of Surveillance Capitalism. The Fight for a Human Future at the New Frontier of Power”, Public Affairs, USA; trad.it “Il capitalismo della sorveglianza. Il futuro dell’umanità nell’era dei nuovi poteri”, Roma, Luiss University press, 2019.