PURL e DOI

Oblio digitale: come le riviste scientifiche combattono l’errore 404



Indirizzo copiato

Affrontare l’errore 404 e l’oblio digitale è una sfida costante nel mondo delle riviste scientifiche digitali. Il punto sulle strategie implementate per combattere la perdita di dati e l’instabilità dei contenuti, come l’uso di PURL e DOI

Pubblicato il 14 nov 2023

Giovanni Salmeri

Università degli Studi di Roma Tor Vergata



errore-404

Innumerevoli volte ci capita di cercare qualcosa che sappiamo di aver visto in rete, e non riuscire a ritrovarlo, oppure di seguire l’indirizzo dove sappiamo che un tempo si trovava, e incontrarci con il malinconico errore 404. È un destino inevitabile?

E che cosa dire quando questo destino riguarda riviste elettroniche di carattere scientifico, proprio le risorse cioè che ci aspettiamo siano stabili e affidabili come un volume sullo scaffale di una biblioteca? Per capire la posta in gioco, conviene cominciare dall’inizio.

La storia delle riviste scientifiche in formato elettronico

La storia delle riviste scientifiche in formato elettronico, benché iniziata solo pochi decenni fa, è già avvincente e sicuramente racconta una delle possibili trasformazioni più importanti e durature nei modi di elaborazione della cultura. Basta leggere le migliori analisi che venivano scritte alla metà degli anni 90 del secolo scorso per misurare quanto si avesse l’impressione (giusta) che qualcosa di veramente nuovo stava comparendo all’orizzonte.

Alcuni vantaggi delle nuove riviste diffuse su Internet apparivano evidenti: la velocità nella comunicazione; la caduta dei motivi per limitare le dimensioni di un singolo articolo; la possibilità di complementi multimediali; la scrittura di articoli sotto forma di ipertesto; i bassi costi di produzione e di immagazzinamento; la non deteriorabilità nelle mani di un lettore; la possibilità di sistemi di indicizzazione più raffinati rispetto ai tradizionali cataloghi. Il combinato di tutti questi vantaggi non fa forse presagire una nuova rivoluzione, dopo quella della scrittura e della stampa? Questo era ciò su cui si rifletteva all’epoca. Contemporaneamente venivano notati alcuni svantaggi delle riviste elettroniche: il loro minore prestigio; la poca visibilità; la mancanza di metodi uniformi per citarle; la possibilità di modificarli senza lasciar traccia di versioni precedenti; il rischio che una rivista vada completamente perduta, in mancanza di condivise pratiche prassi archivistiche.

Riviste elettroniche, un bilancio in chiaroscuro

A trent’anni di distanza, il bilancio è complesso. Anzitutto, alcuni degli sperati vantaggi sono stati ridimensionati. Riguardo alla velocità di comunicazione, per esempio, la previsione (ragionevolissima) secondo cui la nuova forma di pubblicazione avrebbe fatto scomparire l’idea di «numero» di una rivista (che cosa impedisce di pubblicare elettronicamente un articolo appena esso è pronto?) ha avuto poca ricezione proprio nel campo delle riviste scientifiche. Complementi multimediali sono stranamente più rari di quanto potrebbero essere. L’ipertestualità è pochissimo usata. Anche sistemi di indicizzazione più strutturati sono raramente messi in opera (perfino le «parole chiave» restano il più delle volte inusate).

Insomma: pare di poter dire che, a torto o a ragione, il modello del fascicolo stampato continua a gettare la sua ombra. Rispetto a tutto questo, c’è però un enorme vantaggio che all’epoca veniva appena intavisto: sono proprio le pubblicazioni elettroniche che, inizialmente attraverso la celebre «proposta sovversiva» di Stevan Harnad, fanno nascere ed entrare in circolo l’idea di Open Access: la proposta di una conoscenza aperta, disponibile per tutti e gratuita. È questo un tema che qui non affrontiamo, ma la cui importanza culturale e sociale è enorme.

Ma ciò che colpisce maggiormente è che gli svantaggi all’epoca citati paiono oggi fortemente ridimensionati. Certo, soprattutto nel campo umanistico qualcuno (me compreso) proverà sempre una dolce soddisfazione nello sfogliare una spessa carta che col suo delicato odore di inchiostro ha immortalato i propri pensamenti, e potrà anche ritenere (cosa che pare abbondantemente verificata) che leggere sulla carta incoraggi la comprensione più che osservare uno schermo di computer: ma sinceramente a questo intimo gaudio si può facilmente rinunciare dopo aver costatato che mentre ciò che si pubblica elettronicamente viene sicuramente letto da molte persone, ciò che si pubblica su carta in genere lo è da nessuno. Il problema della scarsa visibilità notato trent’anni fa è insomma capovolto. Inoltre, metodi uniformi e comunemente accettati di citazione ovviamente esistono, e il presunto problema della modificabilità di un testo non si è effettivamente mai manifestato: in questo, peraltro, vanificando anche un ipotetico vantaggio di una pubblicazione elettronica.

Il rischio della scomparsa o dell’irreperibilità delle riviste

Solo un pericolo manca all’appello di quelli sventati: il rischio che una rivista vada completamente perduta. Si tratta ovviamente di qualcosa di più di un rischio: moltissime riviste sono andate perdute, o comunque sono diventate difficilmente reperibili nei meandri di Internet: una situazione paradossalmente peggiore rispetto alle biblioteche tradizionali, che in massima parte hanno cataloghi federati che consentono di effettuare facilmente ricerche globali. La prima rivista elettronica che ricevette un ISSN fu nel 1987 Flora Online: si provi a trovare il suo archivio cercando con un comune motore di ricerca!

Per le riviste dei primi anni di Internet in realtà il motivo è dovuto anche alla varietà di protocolli con cui allora poteva essere effettuata la distribuzione: FTP, GOPHER, HTTP, posta elettronica, USENET, e altri ancora: se il loro contenuto quindi non è stato poi travasato nel vittorioso World Wide Web, oggi può essere considerato irreperibile.

Per gli anni successivi il problema principale invece è stato diverso: se un editore tradizionale termina le pubblicazioni, le riviste da lui stampate non si disintegrano magicamente negli scaffali di una biblioteca; ma se chi pubblica una rivista elettronica si ritira, o per qualsiasi altro motivo più o meno sensato decide di cancellarla dal suo server, essa improvvisamente scompare per tutti.

Sorte meno tragica, ma ugualmente spiacevole, è quella di una rivista il cui contenuto viene spostato su un altro server, o viene riorganizzato sul medesimo server: forse essa sarà reperibile grazie ai motori di ricerca, ma tutti gli indirizzi che puntavano ai suoi contenuti, fino a quel momento funzionanti, probabilmente non lo saranno più. (E inoltre: è prudente che la reperibilità di materiali scientificamente importanti dipenda dal buon cuore di questo o quel motore di ricerca, che è pur sempre uno strumento di profitto soggetto a logiche commerciali? Ed esso, per riprender l’esempio di prima, ha più interesse a far trovare mille siti di vendita di fiori con relativa pubblicità piuttosto che l’antica rivista Flora Online.)

Se l’Open Access ha alimentato l’entusiasmo attorno alle riviste elettroniche, il rischio della scomparsa o dell’irreperibilità ha quindi dominato timori e diffidenze.

Benché in genere non sia notato, le due cose hanno pure un evidente stretto legame: perché una risorsa sia accessibile gratuitamente a tutti, anzitutto deve esistere, e deve poter essere facilmente trovata. Che cosa replicare a chi osserva cinico che i testi incisi sugli obelischi egiziani sono ancora perfettamente leggibili, mentre chi prova a consultare il pioneristico progetto SWIF del teorico dell’infosfera Luciano Floridi, con le sue centinaia di pagine e i suoi tredici anni di contributi in tutti i campi della filosofia, si trova oggi di fronte al nulla? Certo: bisogna riconoscere che l’infrastruttura che ha vinto nell’uso di Internet come deposito di testi e altri materiali, il World Wide Web, in effetti venne pensata fin dall’inizio per essere continuamente e facilmente modificabile, non anzitutto per offrire un deposito stabile. Ma non si può contrastare in qualche modo questo suo carattere effimero?

Come contrastare il rischio di oblio digitale

La storia dei tentativi in questo senso è avvincente quasi quanto quella delle riviste elettroniche. Per fermarci al problema più semplice: come fare in modo che l’indirizzo di un articolo rimanga funzionante in futuro? La prima soluzione venne pensata nel 1994: le risorse nella rete vanno identificate non con un normale indirizzo (che è mutevole), ma con un URN (Uniform Resource Name), che è stabile. Tale soluzione può essere però tranquillamente dimenticata, visto che dopo trent’anni di riflessioni e proposte non ha partorito nulla di funzionante.

Nel 1998, invece, proprio Tim Berners-Lee (le cui opinioni sul World Wide Web hanno un indubbio peso, essendone lui l’inventore) offre una sua risposta: «i bravi indirizzi non cambiano». In effetti, egli argomenta, non c’è anzitutto nessun motivo per cancellare documenti dalla rete: «l’unica buona ragione per la quale un documento scompaia dalla rete è che l’azienda che possedeva il nome di dominio è fallita o non può più permettersi di mantenere in funzione il server». E anche l’indirizzo non ha nessun motivo di cambiare: basta pensare bene in anticipo la struttura di un sito. Tim Berners-Lee avrebbe potuto in questo contesto aggiungere un’ulteriore precisazione: anche se si decide di ristrutturare un sito, il protocollo HTTP offre tutti gli strumenti per ridirigere in maniera automatica e trasparente dal vecchio al nuovo indirizzo. Insomma: ogni volta che vediamo un errore «404 Not found» (senza aver scritto un indirizzo sbagliato nella barra del browser), questo è il segno che un sito è stato gestito male. (Nel caso che una pagina sia stata per qualche motivo intenzionalmente eliminata, l’errore che dovrebbe comparire è semmai «410 Gone».)

L’invito di Tim Berners-Lee è perfettamente sensato (dovrebbe essere lettura obbligatoria per tutti i gestori di siti importanti o addirittura pubblici, che ad ogni rifacimento fanno saltare con noncuranza i migliaia di collegamenti presenti in altri siti e distruggono il lavoro altrui!); lascia però un problema scoperto: quello appunto di aziende fallite o che non possono più permettersi di gestire un sito (o che, per qualche motivo, possono sì permetterselo, ma non vogliono configurare le ridirezioni ad un nuovo server).

Un catalogo di “indirizzi persistenti” (PURL)

Questo è il problema che venne affrontato nel 1995 all’Online Computer Library Center (il creatore di WorldCat, il più grande catalogo librario al mondo). La soluzione proposta fu semplice: mantenere un catalogo di «indirizzi persistenti» (PURL). Ognuno di questi indirizzi (della forma https://purl.org/…) svolge la duplice funzione di individuare in maniera unica una risorsa, e di ridirigere all’indirizzo reale dove la risorsa si trova. Il compito di creare questi indirizzi e di aggiornare la loro ridirezione è ovviamente di chi gestisce la singola risorsa, per esempio una rivista: ma il loro catalogo è centralizzato e dunque presumibilmente più stabile. In più, la creazione e modifica degli indirizzi viene offerta come un servizio gratuito. Dopo un breve periodo di incertezza, la gestione dei PURL venne demandata nel 2016 alla benemerita biblioteca digitale Internet Archive, dove ancor oggi prosegue eccellentemente (posso testimoniare che ad una richiesta di aiuto ho ricevuto risposta gentilissima appena qualche ora dopo!).

Quali problemi risolvono i PURL per una rivista elettronica

Quali problemi risolvono i PURL per una rivista elettronica? Risolvono il problema dell’eventuale ristrutturazione del sito che la ospita; risolvono il problema del cambiamento di server (per esempio per un mutamento dell’entità che la pubblica); offrono un modo sicuro per reperire un articolo, e quindi un modo chiaro per citarlo. Ovviamente, questi problemi non sono magicamente risolti: il PURL offre piuttosto lo strumento giusto per risolverli. Se la ridirezione di un PURL non viene aggiornata dal gestore quando necessario, la sua utilità si azzera. Quale problema invece i PURL non risolvono? Non risolvono il problema della persistenza della rivista in sé. Se la cancello dal server, essa è distrutta, PURL o non PURL. È però vero che un indirizzo persistente trasmette al lettore l’idea che i gestori della rivista hanno intenzione di preservarla. L’idea complessiva è in effetti tanto buona che è stata messa in opera con successo in almeno tre sistemi simili alternativi: Handle, Archival Resource Key e W3ID.

Il DOI

L’incarnazione di questa idea oggi però più comune è il DOI, l’identificatore (della forma https://doi.org/…) che ora quasi universalmente si trova negli articoli delle riviste elettroniche scientifiche. Un’incarnazione realmente migliore delle altre? A costo di suscitare la ferma disapprovazione della DOI Foundation (che in una ricca pagina sottolinea la superiorità tecnica del DOI), debbo confessare di non riuscire a vedere nessun reale vantaggio nell’uso del DOI rispetto ai sistemi concorrenti, e in particolare rispetto al progenitore PURL. È vero che possiede una qualità che a questo manca: al DOI sono associati anche i metadati di ogni articolo, in maniera tale che un sistema informatico può creare una citazione completa a partire, appunto, dal solo DOI. Ma anche questa non è una qualità magica: funziona se e come il gestore la ha usata (e un po’ di sondaggi casuali mi hanno mostrato come sia molto meglio non fidarsi dei metadati associati al DOI).

Le differenze tra PURL e DOI

Alla fine le uniche differenze evidenti rispetto al PURL paiono due, ed entrambe impongono un certo peso sul gestore di una rivista. La prima: l’assegnazione del DOI non è gratuita. La seconda: la sua configurazione è più elaborata (non esiste per esempio, intenzionalmente, il meccanismo che permette di creare in un solo colpo i PURL di tutti gli articoli di una rivista). Ma soprattutto (questo va sottolinato) neppure il DOI assicura nulla: esso, esattamente come gli altri sistemi, segnala solo che il gestore che lo ha richiesto ha a cuore la persistenza di una risorsa.

Conclusioni

Che dunque il buon vecchio PURL, perfettamente funzionante dopo quasi trent’anni, possa ancora svolgere la sua funzione?

Credo di sì. Così come (questo è il sugo della storia, direbbe Manzoni) credo che sia necessario prendere sempre più sul serio il problema della persistenza sia degli indirizzi, sia delle risorse in sé. Nelle cose umane c’è sempre una dose più o meno grande di incertezza: non c’è nulla che ci assicuri che una qualche catastrofe cancelli dalla faccia della terra la maggior parte delle manifestazioni culturali che conosciamo, ivi incluse le riviste elettroniche. Ma è anche vero che le catastrofi più verosimili e dunque pericolose sono quelle piccole: la disattenzione, l’incuria, l’imprevidenza. Non esiste nessuno strumento tecnico in quanto tale che possa sostituire la preoccupazione che gli esseri umani dovrebbero mettere per la conservazione e l’universale accessibilità di ciò che hanno scoperto e creato.

EU Stories - La coesione innova l'Italia

Tutti
Iniziative
Analisi
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia
Iniziative
Parte la campagna di comunicazione COINS
Analisi
La politica di coesione europea: motore della transizione digitale in Italia
Politiche UE
Il dibattito sul futuro della Politica di Coesione
Mobilità Sostenibile
L’impatto dei fondi di coesione sul territorio: un’esperienza di monitoraggio civico
Iniziative
Digital transformation, l’Emilia-Romagna rilancia sulle comunità tematiche
Politche ue
Fondi Coesione 2021-27: la “capacitazione amministrativa” aiuta a spenderli bene
Finanziamenti
Da BEI e Banca Sella 200 milioni di euro per sostenere l’innovazione di PMI e Mid-cap italiane
Analisi
Politiche di coesione Ue, il bilancio: cosa ci dice la relazione 2024
Politiche UE
Innovazione locale con i fondi di coesione: progetti di successo in Italia

Articoli correlati

Articolo 1 di 3