reactome

Open data fatti (un po’) bene, qualche lezione dalla comunità scientifica

Fare dati aperti fatti bene non è solo una sfida tecnica, ma anche (o soprattutto) una sfida sociale. Non c’è bacchetta magica e raramente una legge, un regolamento, un codice dell’amministrazione fa la differenza. Ecco allora una rassegna non esaustiva di opzioni mutuate dalla comunità scientifica per provare a fare meglio

Pubblicato il 16 Mag 2019

Marco Brandizi

Software Engineer & Bioinformatics Specialist at Rothamsted Research

Pubblicare dati qualsiasi è facile, pubblicare dati utili, che abbiano speranza di essere utilizzati, non è per niente facile. Non esiste nessuna bacchetta magica, nessun tool o atto normativo risolutivo, nessuna scorciatoia.

Questo perché essenzialmente stiamo parlando degli interessi e delle competenze di vaste comunità eterogenee, e metterle insieme per definire e condividere risorse digitali è un complesso processo di interazione sociale, che coinvolge la tecnica, il management, la giurisprudenza e un bel po’ di politica e diplomazia.

Proveremo però di seguito a fornire una rassegna eterogenea, e per niente esaustiva, di opzioni che abbiamo a disposizione per fare passi avanti nella produzione e consumo di dati aperti, prendendo come fonte di ispirazione l’ambito scientifico.

Indice degli argomenti

Reactome, gli open data fatti (un po’) bene

Come fa il virus dell’influenza A a infettare le cellule umane? Quali molecole sono coinvolte? In che rete di interazioni cellulari? Ci sono interazioni simili, per cui si usano farmaci noti?

Biologi e affini si pongono in continuazione il problema di trovare nel vasto scibile a loro disposizione risposte a domande come queste. Il resto del mondo “googlerebbe”, il che, in effetti, in molti casi funziona anche per la scienza, ma per investigare in modo preciso e sistematico ci vuole altro. Reactome, una delle maggiori risorse dedicate all’accesso a questo tipo di conoscenze accumulate dalla comunità scientifica, può fornirci una risposta più strutturata di una ricerca testuale, permettendo di esplorare vari tipi di influenza (per la cronaca, la A è una delle più famigerate per l’uomo), di avere un quadro preciso delle molecole coinvolte e delle loro funzioni, di vedere che letteratura scientifica di riferimento esiste.

Reactome e archivi simili raccolgono dati da una pluralità di fonti, diverse sia per origine (istituti, centri, qualche privato), che per tipologia di dati (biochimica, genetica, letteratura).

Come si riesce a realizzare applicazioni del genere? Ci sono voluti diversi anni e certamente un loro pilastro è il tipo di dati aperti che raccolgono e che spingono a pubblicare.

Per dirla con uno slogan, gli open data fatti (un po’) bene.

Le caratteristiche dei buoni dati aperti

Per cercare di riassumere un paio di testi fondativi, quello sui FAIR principle (Findable, Accessible, Interoperable, Reusable) e quello sulle 5 stelle degli open data (la politica non c’entra), le principali caratteristiche che dei buoni dati (aperti) dovrebbero avere sono:

Essere ben strutturati, in modo da favorirne l’accessibilità: non bastano i PDF per gestire bene grandi volumi di dati, perché i computer (nonché noi poveri sviluppatori) hanno bisogno di strutture regolari e con parti ben suddivise. Quindi, per esempio, tabelle nel formato aperto CSV sono già un passo avanti.
Essere basati su modelli e schemi standard (non è detto che serva scomodare paroloni come ontologie): per fare un esempio semplice, se tutti usano le stesse tabelle, con le stesse intestazioni nelle colonne, per descrivere i trasporti pubblici della propria città, è (più) facile fare applicazioni che mostrano all’utente come si può andare da un posto ad un altro (come fa Google, sfruttando il formato GTFS ).
Essere integrati (“linkati”): se tutti identificano una data molecola con lo stesso codice, è relativamente facile integrare dati riguardanti processi molecolari con informazioni esterne relative a quella stessa molecola. Questa è anche una delle cose che favorisce il riuso, un’altra ottima caratteristica dei buoni dati. Dati standardizzati ed integrati rispondono ad un principio di interoperabilità.
Avere la possibilità di trovarli, realizzando così un principio di findability (cerco di tradurre tutto, ma “trovabilità” mi sembra orribile), che è favorita dalla pubblicazione di opportuni descrittori di metadati, riguardanti intere collezioni di dati. DCAT è un noto standard per i metadati (anche per i metadati servono standard strutturati). Le sue estensioni europea e italiana sono già utilizzate in vari portali di dati. Le licenze d’uso aperte sono un’altra caratteristica importante, idealmente, trasformate in metadati strutturati anche loro, in modo da automatizzare ulteriormente le operazioni di accesso.
Hanno caratteristiche qualitative di completezza, correttezza e aggiornamento.

La situazione Open Data nella PA, e come migliorarla

Non è che la pubblicistica scientifica sia messa splendidamente, ma in vari casi è messa meglio dello stato dell’arte in vari ambiti di pubblica utilità e della PA. Quanti dipinti ad olio del periodo rinascimentale ci sono nei musei d’Italia? Questa è un’interrogazione che ha le stesse complessità e gli stessi requisiti dell’esempio sull’influenza. Come ho già accennato altrove, ci sono un po’ di dati delle PA italiane che potrebbero essere rilevanti in interrogazioni di questo genere, ma sono piuttosto lontani dall’avere le caratteristiche dette sopra, nonostante il fatto che i beni culturali siano uno dei domini che AgID ha iniziato a standardizzare.

Come si può migliorare la situazione? Nella comunità del web semantico si è parlato di killer application per diversi anni. Come dire, la bacchetta magica, l’uovo di Colombo. Appurato che non è così semplice e finito l’hype, non ci resta che passare in rassegna una serie di principi, buone pratiche, esperienze positive, lezioni imparate. L’ambito scientifico è appunto una buona fonte di ispirazione.

Fare leva sui casi d’uso

Una prima cosa che mi viene in mente è che è difficile mostrare la potenziale utilità dei dati usando solo i dati (o peggio, solo dello stucchevole storytelling sui dati), senza ricorrere a casi d’uso concreti. Un conto è dire che è cosa buona e giusta pubblicare dati sulla spesa pubblica, un altro discorso è mostrare ad amministrazioni sempre più alle strette “causa austerità” che possono risparmiare milioni in pochi minuti, semplicemente incrociando un po’ di numeri (esempio 1, esempio 2). Questo approccio verso le applicazioni concrete mi pare particolarmente rilevante laddove ci sono una certa stanchezza e scetticismo, in mezzo a storiche mancanze di risorse e carenze organizzative.

Coinvolgere tutti, il più possibile

Questa famosa vignetta è una sintesi del modo migliore di imbastire male un progetto di dati aperti. E’ un classico: servono dei dati, ce n’è in giro una pletora, ma disorganizzati e disomogenei, si immagina di riordinare tutto, dettando dall’alto procedure, formati, obblighi, cavilli. Io non ho mai visto un progetto impostato così ottenere un adeguato livello di successo, nemmeno quando si poteva far leva sul potere o su generosi finanziamenti. ISA-Tab è uno dei primi lavori di standardizzazione dati in cui sono stato coinvolto: in sostanza, si trattava di definire dei tracciati per dei fogli elettronici, ma mi ricordo che passammo un primo anno, tra incontri con utenti e dirigenti di istituti (un centinaio di persone almeno), a definire dettagli come inserire o meno certe colonne, o se certi valori fossero obbligatori o meno. Il risultato fu tutt’altro che perfetto, sia dal mio punto di vista di informatico con interessi nella logica formale, sia da quello di biologi con esigenze informatiche molto più pratiche.

Ma quel formato è ancora in uso, credo soprattutto perché fu il frutto di un compromesso raggiunto (molto a fatica) tra chi lo avrebbe dovuto adottare. Il problema è che fare dati fatti bene non è solo una sfida tecnica, ma anche (e spesso soprattutto) una sfida sociale. Raramente è una legge, un regolamento, un codice dell’amministrazione a fare molta differenza. E’ invece necessario coinvolgere quanti più attori coinvolti in un dato dominio applicativo fin dal giorno zero, ed è necessario ascoltare tutti e trovare soluzioni di compromesso, che vadano bene ai più, senza pretendere che siano perfette. Arrivare ad un risultato non è banale: occorre iniziare il progetto insieme ai maggiori attori coinvolti, partendo dalla discussione di una serie di idee, dal tracciare un po’ di schizzi, fare qualcosa di tanto pratico e prototipale, restando aperti alla partecipazione di tutti e a raffinamenti progressivi.

Recentemente abbiamo visto progressi del genere, col codice del Team Digitale condiviso su GitHub, anche se mi pare che ci sia ancora della strada da fare, ad esempio nel lavoro sulle ontologie.

Le azioni concrete

Si fa presto a dire dati aperti, ma nella pratica bisogna fornire alle persone strumenti concreti, riferimenti tangibili, esempi visibili, per realizzarli. Una rassegna dei più noti

Gli strumenti

Le linee guida minime, accessibili anche ai “non smanettoni”: formati/schemi/ontologie sono strumenti tecnici piuttosto difficili sia da definire, che da usare, ancor più difficile è accordarsi su soluzioni comuni. Una minimum guideline può essere un primo, più facile passaggio per arrivarci: non ti costringo a capire ed aderire ad una ontologia formale basata sulla description logics (né a capire ciò che ho appena scritto), ma ti fornisco uno o più documenti in inglese (se proprio si deve, in italiano…), in cui si spiegano cose come le entità che si devono assolutamente rappresentare per pubblicare dati in un dato dominio (es, opera, nome del museo che la detiene, indirizzo, curatori, ecc), insieme ad una lista minima di relativi attributi e relazioni (es, titolo, data, via, CAP, …).
I portali degli standard. L’ultimo arrivato in campo scientifico è FAIRSharing, e a livello comunitario c’è il portale joinUp (anche se quest’ultimo mi sembra troppo confuso e con contenuti troppo eterogenei). Tra le (piccole, ma pioneristiche) iniziative di gruppi indipendenti, c’è la Data Standard Directory. Se siete degli “open datari” tosti, avete a disposizione Linked Open Vocabularies (con un target generale), Bioportal (dedicato alla biologia) o AgroPortal (per l’agroalimentare). Questi esempi non sono dei classici portali di dati, non contengono file o accessi a database, piuttosto collezionano i contenitori che servono per mettere insieme buoni dati: formati, schemi, linee guida (comprese le citate minime), descrizioni di database. Se vogliamo che i curatori dei dati utilizzino gli standard, queste sono risorse importanti per farglieli conoscere, a cui attingere quando, appunto, hanno dei dati non standardizzati da standardizzare. Sarebbe bello se iniziassero a comparirne di più nell’ambito dei dati aperti civici e PA.
Le collezioni di casi notevoli. Un genere simile, ancora poco diffuso, è quello dei siti che parlano di casi d’uso o data set significativi. DataHub fa una rassegna ragionata dei dati che sono gestiti tramite questo servizio privato (e questa è una delle varie funzioni che lo rendono molto interessante). Singoli individui mantengono piccole ma ben curate collezioni come Awesome Datasets. Su un fronte istituzionale, il lavoro di AgID, Team Digitale e vari attori interessati è guidato dal metodo dei panieri. Quest’ultimo è ovviamente un progetto di più ampio respiro, anche se l’impressione è che soffra di una gestione burocratica ed eccessivamente centralizzata.
Gli strumenti software per gli utenti finali. Uno dei migliori modi di rendere popolari i dati è far sì che gli utenti finali li usino senza nemmeno accorgersene. I dati possono servire per organizzare complesse reti di conoscenze, ma quello che conta per l’utente finale è ottenere una rapida visualizzazione di quello che sta cercando (chiedo perdono per questa e altre auto-citazioni). Non solo, mettere in campo gli strumenti software giusti può influenzare molto l’opera di raccolta e cura dei dati. Strumenti come ISA-Creator, non solo facilitano tale opera all’utente finale, ma lo mettono in grado di descrivere dati secondo gli opportuni standard, senza necessità di conoscenze tecniche. Anche quando si deve partire da dati grezzi, poco strutturati e poco interoperabili, tool come TAGME o ZOOMA possono fornire utili integrazioni tra i propri dati e il resto del mondo, attraverso l’estrazione di entità rilevanti da testi in linguaggio naturale.

Le politiche

Gli strumenti concreti aiutano, ma nessun software, pubblicazione, o simile possono da solo cambiare più di tanto la testa delle persone, le loro abitudini e i loro pregiudizi. Bisogna attivarsi anche con una serie di azioni che riguardino le interazioni umane. Come scritto sopra, non credo più di tanto alle soluzioni d’imperio, ma un misto di bastone e carota spesso raggiunge risultati soddisfacenti. Ad esempio, sono ormai molti anni che, se vuoi pubblicare un articolo scientifico su materie come biologia molecolare, agricoltura, fisica, persino arte storia, gli editori ti obbligano a depositare i relativi dati sperimentali (anche se commerciali e non aperti) in qualche noto deposito pubblico, seguendo qualche noto formato di riferimento. Similmente, ormai quasi tutti i fondi di ricerca obbligano ad includere un piano di gestione dei dati nella domanda di finanziamento. Non sono sempre obblighi di legge e quasi sempre c’è molta liberalità sulla scelta di quale strumento concreto adottare, ma si riesce comunque a raggiungere il livello “meglio di niente”. Immaginiamo, per fare un esempio a caso, come sarebbero diverse le cose, se nei bandi pubblici su varie materie (sanità, edilizia, sociale sono le prime che mi vengono in mente), si valutassero anche i piani su quali dati pubblicare alla rendicontazione del progetto e in quali forme. E ovviamente vale la pena citare fondi e bandi, per ribadire che no money, no party: se nessuno mette i soldi, i dati aperti non si producono e non si consumano da soli, idem per, in generale, l’innovazione digitale.

Un’altra opzione è quella di promuovere organizzazioni dedicate ai dati. Il pubblico ha tanto da fare su questo fronte, ed in parte fa: formazione, coordinare personale tecnico e non, incentivi a progetti, forum. Ma, poiché ci sono anche non poche lacune, io credo al motto del fare le cose senza chiedere permesso, alle comunità che si auto-organizzano. A questo proposito, sul fronte della modellazione “tosta”, la Open Biological and Biomedical Ontology Foundry (OBO) da anni coordina e promuove lo sviluppo e l’uso di una serie di ontologie dedicate alla biologia, tra le altre cose, adottando dei principi di collaborazione pensati per favorire interoperabilità e riuso. Wikidata ha un approccio molto più dal basso verso la raccolta di ogni sorta di dati, ed è supportata da una fondazione, insieme a molto lavoro volontario, similmente alla più famosa Wikipedia, a cui Wikidata e altri progetti sono ispirati. Infine, come nel software open source, anche nel mondo dei dati esistono tutta una serie di sinergie tra profit e no-profit. Ad esempio, l’Open Data Institute offre regolarmente finanziamenti per aziende che, col loro business, possano essere utili alla diffusione di dati aperti. In Italia, SpazioDati è conosciuta anche per il rilascio in forma aperta di servizi (API) e dati (es, DBPedia Italiana), che sono anche asset aziendali.