Cosa c'è all'orizzonte per i servizi di dati scientifici? Le ultime dal World Data System

Il World Data System promuove la gestione a lungo termine e l'accesso universale ed equo a dati scientifici e servizi di dati, prodotti e informazioni di qualità garantita in tutte le discipline.

Cosa c'è all'orizzonte per i servizi di dati scientifici? Le ultime dal World Data System

L'ultimo anno è stato un periodo di transizione per il Sistema di dati mondiale (WDS), un organismo affiliato ISC.

L'International Program Office (IPO) si è trasferito a Knoxville, nel Tennessee, e Meredith Goins ne è stata nominata Direttore Esecutivo. Sono stati assunti altri tre membri del personale e anche il comitato scientifico del programma ha diversi nuovi membri.  

Abbiamo incontrato David Castle, presidente del comitato scientifico del WDS; Karen Payne, Direttore dell'Ufficio Tecnologico Internazionale WDS; Suzie Allard, Direttore del Center for Information & Communication Studies presso l'Università del Tennessee, dove ora ha sede la WDS IPO, e Meredith Goins, per saperne di più. 

Qual è stato l'impatto delle recenti modifiche per le attività WDS? 

David: Questo è un periodo di consolidamento e concentrazione. Quattro o cinque anni fa, abbiamo creato il WDS International Technology Office (ITO) presso l'Università di Victoria, presso Ocean Networks Canada, che è un'importante struttura di ricerca e membro di WDS. Abbiamo reclutato Karen come Direttore Associato dell'ITO e questo ci ha avviato lungo un percorso che ci ha consentito di fornire più volume e servizi diversificati ai nostri membri. Nell'ultimo anno, l'IPO si è spostata da Tokyo al Tennessee con il supporto dell'Università del Tennessee e dell'Oak Ridge National Lab, nonché del Dipartimento dell'Energia (DOE).  

Suzie: I due uffici stanno lavorando molto bene insieme e il supporto che possiamo fornire ai membri è ancora maggiore perché le attività sono coordinate in modo così stretto. Questo ci offre un grande potenziale per il futuro. 

David: Anche circa la metà dei membri del comitato scientifico è cambiata nell'ultimo anno. Abbiamo aggiunto alcune nuove persone chiave per unirsi ai membri di ritorno, i quali sono tutti nascosti nel mondo dei repository di dati. Negli ultimi anni abbiamo messo il WDS su basi solide da cui saremo in grado di avviare attività programmatiche e di realizzare un allineamento con i piani d'azione ISC.

Stiamo cercando di capire dove si trovano ora i repository e i dati e dove andranno nel prossimo periodo. Ciò include sollevare domande sulla provenienza dei dati, su come vengono gestiti e su come vengono mantenuti al sicuro. Stiamo lavorando su aspetti tecnici correlati come gli oggetti dati FAIR, in collaborazione con CODATA, e su come lavorare insieme per definire standard e aspettative di interoperabilità per questi. 

Stiamo anche affrontando una sfida che non viene sempre menzionata: c'è la convinzione e l'aspettativa che una volta che le cose saranno online e rese disponibili, persisteranno gratuitamente. Questo ovviamente non è vero. Per soddisfare l'aspettativa che i dati saranno aperti e accessibili il più possibile, dobbiamo avere conversazioni franche sulla provenienza delle risorse. Questo è un problema per i nostri membri e una delle nostre priorità principali è il modo in cui definiamo l'enorme valore che i repository apportano a livello nazionale e internazionale in un modo che aiuterà i repository a impegnarsi con i finanziatori che possono supportare piani sostenibili per rendere disponibili tali dati.  

Un'altra importante priorità è rendere i nostri membri più rappresentativi a livello globale. L'appartenenza al WDS proviene principalmente dal Nord del mondo e per noi ha senso collaborare con l'ISC e il CODATA per fare il punto sulle attività in Africa, America Latina e Sud America e Sud-est asiatico e potenzialmente identificare nuovi membri per WDS. Stiamo anche lavorando con altri gruppi che forniscono servizi di dati in modalità diverse rispetto al mantenimento di un repository.  

Meredith: Un altro modo in cui stiamo rendendo i nostri membri più rappresentativi è identificare archivi da una varietà di aree tematiche, oltre alle scienze biologiche e della terra, per aumentare la diversità dei nostri membri. I repository delle scienze sociali e delle discipline umanistiche digitali sono preziosi quanto le scienze naturali. Aumentando la nostra diversità di appartenenza, possiamo aumentare il nostro supporto per tutti i tipi di repository.  

Karen: Stiamo avendo una grande spinta su alcuni servizi federati. Ad esempio, per la ricerca polare abbiamo l'opportunità di mettere a disposizione dei ricercatori i dati di entrambi i poli in un modo completamente allineato, il che è estremamente eccitante: è qualcosa a cui la comunità sta lavorando da molto tempo e siamo felici di essere una parte di quello. 

I servizi federati per i dati polari sono suddivisi in due parti: la ricerca federata, che è andata avanti da molto tempo con la raccolta tradizionale di metadati, e un nuovo insieme di protocolli e processi per la raccolta di metadati più orientato al web. È meno di un tradizionale catalogo di servizi e più sulla falsariga di ciò che potresti trovare per Ricerca Google. L'infrastruttura che abbiamo costruito ci consente di inviare crawler per indicizzare le pagine di destinazione dei repository di dati che hanno implementato un particolare tipo di markup sulle loro pagine di destinazione dei metadati. Stiamo offrendo ai ricercatori la possibilità di cercare dati sia dall'Artico che dall'Antartico e stiamo lavorando con le comunità di ricerca per assicurarci che anche le ontologie che implementano (il markup) siano tutte allineate. 

Garantire finanziamenti per quel tipo di lavoro è davvero complicato. È un progetto internazionale, quindi ci sono molte conversazioni sui finanziamenti in diverse aree. Qui in Canada stanno esaminando diversi modelli di finanziamento, sia per gli investimenti nazionali che per far parte di un insieme cooperativo globale di finanziatori. Ad esempio, uno dei modelli che stanno esaminando è la Global Biodata Coalition, progettata per coordinare i finanziamenti globali per le risorse chiave nelle scienze della vita. 

Abbiamo anche un gruppo di lavoro all'interno della Research Data Alliance che esamina ciò che chiamiamo Global Open Research Commons. Esistono diverse organizzazioni nazionali, pannazionali e specifiche di dominio che stanno cercando di orchestrare l'accesso e l'interoperabilità a risorse come set di dati, software e risorse computazionali. A livello nazionale ha senso avere una buona struttura di governance e una tabella di marcia per tutti i loro investimenti nella ricerca, quindi vedi organizzazioni come l'Australian Research Data Commons o l'infrastruttura giapponese coordinata presso il National Institute of Informatics. A livello pannazionale si vedono progetti ambiziosi come l'European Open Science Cloud e l'African Open Science Platform. E domini come l'International Virtual Observatory Alliance che serve gli astronomi a livello globale sono tutti molto importanti per supportare le rispettive comunità di ricerca. L'obiettivo del gruppo RDA è creare una tabella di marcia su come questi beni comuni possono condividere le risorse senza problemi in modo che sia più facile per gli scienziati lavorare insieme a livello globale per il bene superiore. Stiamo costruendo su un lavoro che va avanti da molto tempo, ma sembra davvero che ci sia molta motivazione per mettere insieme questi pezzi ora. 

Può spiegare cosa significherà la ricerca federata per i ricercatori che stanno cercando di accedere ai dati in questione, ad esempio per la ricerca polare? Cosa cambierà? 

Karen: In questo momento i ricercatori devono recarsi in luoghi diversi per trovare i dati. E poi, una volta trovati quei dati, trascorri del tempo ad armonizzarne la struttura e quindi a ricontrollare il contenuto per assicurarti di capire qual è il significato semantico delle variabili misurate nei dati. Questo è un primo tentativo di rendere quel processo più coeso e perseguibile dalla macchina. A mia conoscenza questo è l'unico portale che consente agli utenti di cercare dati da entrambi i poli contemporaneamente. In questo momento ci concentriamo sulla ricerca e l'individuazione di set di dati e sull'inserimento di più repository nell'indice. Prevediamo che l'infrastruttura si evolverà per supportare o alimentare altre iniziative, come il Canadian Consortium for Arctic Data Interoperability (CCADI) che sta costruendo strumenti avanzati di visualizzazione e analisi. Vogliamo supportare i nostri partner, non reinventare la ruota. 

Suzie: L'IPO si impegna a spargere la voce su tutti i tipi di lavoro che Karen sta facendo e ad assicurarsi che sia ben diffuso. Stiamo anche lavorando per mettere tutti al passo con l'organizzazione di workshop o corsi di formazione e creando opportunità di partecipazione per le persone. L'ITO sta facendo un lavoro all'avanguardia insieme a tutti questi diversi gruppi. E l'IPO sta aiutando a garantire che tutti imparino cosa sta succedendo mentre continuiamo a costruire questi fantastici repository.

Dove vedi il lavoro su repository e dati oggi? E dove sta andando? Quali sono le nuove sfide o cose a cui le persone dovranno pensare nei prossimi cinque o dieci anni? 

David: Ci sono cose concrete che devono essere fatte. Uno di questi è garantire che i repository dei nostri membri siano sicuri. Questo è un fattore critico per poter garantire l'integrità dei dati, che è alla base di tutta la scienza. Un altro è che i volumi di dati sono cresciuti in modo così significativo che i vecchi modelli di spostamento dei dati dove si lavora effettivamente con essi in un ambiente di elaborazione ad alte prestazioni ora vengono capovolti. Ora è il caso che dobbiamo trovare il modo per essere in grado di analizzare i dati on-site, portando il computer ai dati. Una sfida consiste nell'aiutare i repository WDS a diventare abilitati per il cloud.  

L'altra parte riguarda la capacità e le competenze della forza lavoro, come la mobilitazione di data scientist, ricercatori tecnici e data steward. Si tratta di ruoli in evoluzione all'interno dell'impresa scientifica che devono essere monitorati attentamente in modo da garantire che siano presenti le giuste competenze e che abbiamo l'istruzione e la formazione da fornire alle persone interessate. 

Karen: Molte persone stanno lavorando su componenti che consentirebbero ai ricercatori di abbandonare la pubblicazione di articoli statici su riviste e creare invece un documento riproducibile disponibile online. Qualcuno potrebbe pubblicare un dato o fare un'analisi, quindi scriverlo e pubblicarlo come un tipo di pacchetto facilmente riutilizzabile che può essere utilizzato da qualcun altro per riprodurre gli stessi risultati, il che è importante per fare le affermazioni della scienza verificabile, o di riutilizzarla in un modo nuovo. Qualcuno potrebbe prendere il pacchetto, collegare un dato diverso o modificare un parametro su un software di analisi e creare un nuovo risultato da pubblicare. Quindi si tratta di un'atomizzazione dei dati e dei componenti software, in modo da poter prendere frammenti di cose e pubblicarli facilmente. La carta riproducibile aiuta a risolvere i problemi con la riproducibilità dei risultati, il riutilizzo dei dati e la potenziale ridondanza della ricerca. 

Vedete quella tendenza nello sviluppo del software, dove c'è una disaggregazione delle API (Application Programming Interface) sul back-end, in modo da poterne usare porzioni. All'interno della comunità di gestione dei dati c'è un'idea simile sugli oggetti digitali FAIR: non vuoi più pubblicare l'intero set di dati scaricabile, vuoi fornire un servizio dati per ogni osservazione o misurazione e vuoi rendere utilizzabili quelle macchine di misurazione, quindi che puoi selezionare e scegliere quali osservazioni desideri utilizzare senza molte elaborazioni da parte tua: i dati dovrebbero essere presentati nella sua forma più accessibile. 

I componenti, come i dati, devono essere disaggregati, atomizzati e accessibili sia dagli esseri umani che dalle macchine ovunque siano distribuiti in tutto il mondo. Dal punto di vista di un ricercatore e di un tecnologo, tutto sta accadendo dal basso verso l'alto. C'è quasi troppo per farti capire, quindi diventa il modo in cui fai piccole incursioni per renderlo significativo. L'American Geophysical Union (AGU), in particolare, ha svolto un ottimo lavoro concentrandosi sui quaderni di calcolo come primo passo per vedere come potrebbe essere realizzata una carta riproducibile. Questo è davvero un ottimo caso d'uso per quelle che diventeranno infrastrutture molto più complesse. 

È molto da affrontare e, a volte, è difficile sapere esattamente dove concentrare la tua attenzione. Ma si spera che questa sia una delle proposte di valore con cui l'IPO e l'ITO di WDS possono aiutare i nostri membri. 

In che modo i lettori possono saperne di più su WDS e come possono essere coinvolti nelle tue attività o diventare membri? 

David: Meredith ci ha riflettuto. Abbiamo intensificato le comunicazioni periodiche con i nostri membri e stiamo migliorando il nostro sito Web con aggiornamenti più regolari, che continueranno. Ci sarà anche tutta una serie di altre attività man mano che l'IPO riceverà il personale completo e una volta pubblicato il nostro piano d'azione biennale. 

Meredith: Oltre a rilanciare i nostri social media, stiamo attualmente finalizzando e testando un sito web riprogettato. Le iniziative future includono webinar di sensibilizzazione e di formazione per i nostri archivi membri, partner e organizzazioni associate WDS. Inoltre, abbiamo una newsletter bisettimanale per i membri, comunicazioni urgenti sulle opportunità inviate via e-mail ai membri e non vediamo l'ora di creare un rapporto annuale per l'organizzazione, cosa che non accadeva dal 2015-2016. Contemporaneamente quest'anno lanceremo anche il premio WDS Data Stewardship e ITO Data Prize per offrire agli ingegneri e agli scienziati all'inizio della carriera due opportunità per mostrare la loro eccellenza con i dati.


Immagine di NASA tramite Flickr.

VISUALIZZA TUTTI GLI ARTICOLI CORRELATI

Salta al contenuto