Verein registrieren

Was steht am Horizont für wissenschaftliche Datendienste? Das Neueste aus dem World Data System

Das World Data System fördert die langfristige Verwaltung – und den universellen und gleichberechtigten Zugang zu – qualitätsgesicherten wissenschaftlichen Daten und Datendiensten, Produkten und Informationen in allen Disziplinen.

Das letzte Jahr war eine Übergangszeit für die Weltdatensystem (WDS), eine dem ISC angeschlossene Einrichtung.

Das International Program Office (IPO) ist nach Knoxville, Tennessee, umgezogen, und Meredith Goins wurde zu seiner Geschäftsführerin ernannt. Drei weitere Mitarbeiter wurden eingestellt, und auch der Wissenschaftliche Ausschuss des Programms hat mehrere neue Mitglieder.  

Wir trafen uns mit David Castle, dem Vorsitzenden des WDS Scientific Committee; Karen Payne, Direktorin des WDS International Technology Office; Suzie Allard, Direktorin des Center for Information & Communication Studies an der University of Tennessee, wo das WDS IPO jetzt seinen Sitz hat, und Meredith Goins, um mehr zu erfahren. 

Welche Auswirkungen haben die jüngsten Änderungen auf WDS-Aktivitäten? 

David: Dies ist eine Phase der Konsolidierung und Fokussierung. Vor vier oder fünf Jahren haben wir das WDS International Technology Office (ITO) an der University of Victoria bei Ocean Networks Canada gegründet, einer großen Forschungseinrichtung und Mitglied von WDS. Wir rekrutierten Karen als stellvertretende Direktorin des ITO, und das brachte uns auf den Weg, unseren Mitgliedern mehr Volumen und diversifizierte Dienstleistungen anbieten zu können. Im letzten Jahr ist das IPO mit Unterstützung der University of Tennessee und des Oak Ridge National Lab sowie des Department of Energy (DOE) von Tokio nach Tennessee umgezogen.  

Suzie: Die beiden Büros arbeiten sehr gut zusammen, und die Unterstützung, die wir den Mitgliedern bieten können, ist noch größer, weil die Aktivitäten so eng koordiniert werden. Das gibt uns großes Potenzial für die Zukunft. 

David: Etwa die Hälfte der Mitglieder des Wissenschaftlichen Ausschusses hat sich im letzten Jahr ebenfalls verändert. Wir haben einige wichtige neue Personen hinzugefügt, um sich den wiederkehrenden Mitgliedern anzuschließen, die sich alle in der Welt der Datenspeicher niedergelassen haben. In den letzten Jahren haben wir die WDS auf eine solide Grundlage gestellt, von der aus wir in der Lage sein werden, programmatische Aktivitäten zu starten und eine Ausrichtung auf die ISC-Aktionspläne herbeizuführen.

Wir versuchen zu verstehen, wo sich Repositories und Daten jetzt befinden und wohin sie in der kommenden Zeit gehen werden. Dazu gehört auch, Fragen zur Herkunft von Daten, ihrer Verwaltung und ihrer Sicherheit zu stellen. Wir arbeiten in Partnerschaft mit CODATA an verwandten technischen Aspekten wie FAIR-Datenobjekten und wie wir zusammenarbeiten können, um Standards und Interoperabilitätserwartungen für diese zu erreichen. 

Wir stehen auch vor einer Herausforderung, die nicht immer erwähnt wird: Es gibt den Glauben und die Erwartung, dass Dinge, die einmal online und verfügbar sind, kostenlos bleiben. Das stimmt natürlich nicht. Um die Erwartung zu erfüllen, dass Daten im größtmöglichen Umfang offen und zugänglich sind, müssen wir offene Gespräche darüber führen, woher die Ressourcen kommen werden. Dies ist ein Thema für unsere Mitglieder, und eine Hauptpriorität für uns ist, wie wir den enormen Wert definieren, den Repositorien national und international bringen, um Repositorien dabei zu helfen, mit Geldgebern zusammenzuarbeiten, die nachhaltige Pläne zur Bereitstellung dieser Daten unterstützen können.  

Eine weitere wichtige Priorität ist es, unsere Mitgliedschaft weltweit repräsentativer zu machen. Die WDS-Mitgliedschaft stammt überwiegend aus dem globalen Norden, und es ist für uns sinnvoll, mit dem ISC und CODATA zusammenzuarbeiten, um eine Bestandsaufnahme der Aktivitäten in Afrika, Latein- und Südamerika und Südostasien vorzunehmen und möglicherweise neue Mitglieder für WDS zu identifizieren. Wir arbeiten auch mit anderen Gruppen zusammen, die Datendienste in anderen Modalitäten als der Aufrechterhaltung eines Repositorys anbieten.  

Meredith: Eine andere Möglichkeit, unsere Mitgliedschaft repräsentativer zu machen, besteht darin, neben den Bio- und Geowissenschaften Repositorien aus einer Vielzahl von Fachgebieten zu identifizieren, um die Vielfalt unserer Mitglieder zu erhöhen. Sozialwissenschaftliche und Digital Humanities Repositorien sind ebenso wertvoll wie die Naturwissenschaften. Indem wir unsere Mitgliedschaftsvielfalt erhöhen, können wir unsere Unterstützung für alle Arten von Repositories erhöhen.  

Karen: Wir haben einen großen Schub bei einigen föderierten Diensten. Für die Polarforschung haben wir zum Beispiel die Möglichkeit, den Forschern Daten von beiden Polen vollständig aufeinander abgestimmt zur Verfügung zu stellen, was enorm spannend ist: Darauf hat die Community lange hingearbeitet und wir freuen uns darüber abgesehen davon. 

Föderierte Dienste für Polardaten bestehen aus zwei Teilen: der föderierten Suche, die seit langem mit dem traditionellen Sammeln von Metadaten durchgeführt wird, und einem neuen Satz von Protokollen und Prozessen zum Sammeln von Metadaten, die stärker weborientiert sind. Es handelt sich weniger um einen traditionellen Katalog von Diensten, als vielmehr um das, was Sie für die Google-Suche finden würden. Die von uns aufgebaute Infrastruktur ermöglicht es uns, Crawler auszusenden, um die Zielseiten von Datenrepositorys zu indizieren, die eine bestimmte Art von Markup auf ihren Metadaten-Landingpages implementiert haben. Wir bieten Forschern die Möglichkeit, nach Daten sowohl aus der Arktis als auch aus der Antarktis zu suchen, und arbeiten mit den Forschungsgemeinschaften zusammen, um sicherzustellen, dass die von ihnen implementierten Ontologien (das Markup) ebenfalls alle aufeinander abgestimmt sind. 

Die Sicherstellung der Finanzierung für diese Art von Arbeit ist wirklich schwierig. Es ist ein internationales Projekt, daher gibt es viele Gespräche über die Finanzierung in verschiedenen Bereichen. Hier in Kanada prüfen sie verschiedene Finanzierungsmodelle, sowohl für nationale Investitionen als auch, um Teil eines globalen kooperativen Satzes von Geldgebern zu sein. Eines der Modelle, die sie prüfen, ist beispielsweise die Global Biodata Coalition, die die globale Finanzierung für Schlüsselressourcen in den Biowissenschaften koordinieren soll. 

Wir haben auch eine Arbeitsgruppe innerhalb der Research Data Alliance, die sich mit dem befasst, was wir die Global Open Research Commons nennen. Es gibt verschiedene nationale, pannationale und domänenspezifische Organisationen, die versuchen, den Zugriff und die Interoperabilität auf Ressourcen wie Datensätze, Software und Rechenressourcen zu orchestrieren. Auf nationaler Ebene ist es sinnvoll, eine gute Governance-Struktur und einen Fahrplan für alle ihre Forschungsinvestitionen zu haben, so dass Organisationen wie die australischen Research Data Commons oder die japanische Infrastruktur am National Institute of Informatics koordiniert werden. Länderübergreifend sieht man ambitionierte Projekte wie die European Open Science Cloud und die African Open Science Platform. Und Bereiche wie die International Virtual Observatory Alliance, die Astronomen weltweit dient, sind alle sehr wichtig für die Unterstützung ihrer jeweiligen Forschungsgemeinschaften. Das Ziel der RDA-Gruppe ist es, eine Roadmap zu erstellen, wie diese Commons Ressourcen nahtlos teilen können, damit es für Wissenschaftler einfacher ist, global für das Gemeinwohl zusammenzuarbeiten. Wir bauen auf Arbeit auf, die schon seit langem läuft, aber es fühlt sich wirklich so an, als gäbe es eine Menge Motivation, diese Teile jetzt zusammenzubringen. 

Können Sie erklären, was die föderierte Suche für Forscher bedeutet, die versuchen, auf die betreffenden Daten zuzugreifen, beispielsweise für die Polarforschung? Was wird sich ändern? 

Karen: Im Moment müssen Forscher an verschiedene Orte gehen, um Daten zu finden. Und sobald Sie diese Daten gefunden haben, verbringen Sie Zeit damit, ihre Struktur zu harmonisieren und dann den Inhalt zu überprüfen, um sicherzustellen, dass Sie verstehen, was die semantische Bedeutung der gemessenen Variablen in den Daten ist. Dies ist ein erster Versuch, diesen Prozess zusammenhängender und maschinengängiger zu machen. Meines Wissens nach ist dies das einzige Portal, das es Benutzern ermöglicht, gleichzeitig nach Daten von beiden Polen zu suchen. Im Moment konzentrieren wir uns auf die Suche und Entdeckung von Datensätzen und bringen mehr Repositories in den Index. Wir gehen davon aus, dass sich die Infrastruktur weiterentwickeln wird, um andere Initiativen zu unterstützen oder zu unterstützen, wie das Canadian Consortium for Arctic Data Interoperability (CCADI), das verbesserte Visualisierungs- und Analysetools entwickelt. Wir wollen unsere Partner unterstützen, nicht das Rad neu erfinden. 

Suzie: Das IPO hat es sich zur Aufgabe gemacht, alle Arten von Arbeit, die Karen tut, bekannt zu machen und dafür zu sorgen, dass sie gut verbreitet wird. Wir arbeiten auch daran, alle auf den neuesten Stand zu bringen, indem wir Workshops oder Schulungen veranstalten und Gelegenheiten zur Teilnahme schaffen. Das ITO leistet zusammen mit all diesen verschiedenen Gruppen Spitzenarbeit. Und der Börsengang trägt dazu bei sicherzustellen, dass jeder erfährt, was vor sich geht, während wir diese großartigen Repositories weiter aufbauen.

Wo sehen Sie heute die Arbeit an Repositories und Daten? Und wohin geht es? Was sind die neuen Herausforderungen oder Dinge, über die die Menschen in den nächsten fünf bis zehn Jahren nachdenken müssen? 

David: Es gibt konkrete Dinge, die getan werden müssen. Eine davon ist sicherzustellen, dass unsere Mitglieder-Repositories sicher sind. Das ist ein kritischer Faktor, um die Integrität der Daten gewährleisten zu können, die die Grundlage aller Wissenschaft ist. Ein weiterer Grund ist, dass die Datenmengen so stark angewachsen sind, dass alte Modelle zum Verschieben von Daten dorthin, wo Sie in einer Hochleistungs-Computing-Umgebung tatsächlich damit arbeiten würden, jetzt umgedreht werden. Es ist jetzt so, dass wir Wege finden müssen, Daten analysieren zu können in situ, bringt den Computer zu den Daten. Eine Herausforderung besteht darin, WDS-Repositorys dabei zu unterstützen, Cloud-fähig zu werden.  

Der andere Teil betrifft die Kapazitäten und Kompetenzen der Arbeitskräfte, wie z. B. die Mobilisierung von Datenwissenschaftlern, technischen Forschungswissenschaftlern und Datenverwaltern. Dies sind sich entwickelnde Rollen innerhalb des wissenschaftlichen Unternehmens, die sorgfältig überwacht werden müssen, um sicherzustellen, dass die richtigen Kompetenzen vorhanden sind und dass wir die Aus- und Weiterbildung haben, die wir interessierten Menschen anbieten können. 

Karen: Viele Leute arbeiten an Komponenten, die es Forschern ermöglichen würden, von der Veröffentlichung statischer Artikel in Zeitschriften wegzukommen und stattdessen einen reproduzierbaren Artikel zu erstellen, der online verfügbar ist. Jemand könnte ein Stück Daten veröffentlichen oder eine Analyse durchführen, es dann aufschreiben und als eine Art leicht wiederverwendbares Paket veröffentlichen, das von jemand anderem übernommen werden kann, um entweder die gleichen Ergebnisse zu reproduzieren, was wichtig ist, um die Behauptungen aufzustellen der Wissenschaft verifizierbar oder neu zu verwenden. Jemand könnte das Paket nehmen, ein anderes Datenelement einfügen oder einen Parameter einer Analysesoftware ändern und ein neues Ergebnis erstellen, das veröffentlicht wird. Es geht also um eine Zerstäubung der Daten und der Softwarekomponenten, sodass man Teile davon nehmen und einfach veröffentlichen kann. Das reproduzierbare Papier hilft bei der Lösung von Problemen mit der Reproduzierbarkeit von Ergebnissen, der Wiederverwendung von Daten und potenzieller Redundanz der Forschung. 

Sie sehen diesen Trend in der Softwareentwicklung, wo es eine Disaggregation der APIs (Application Programming Interfaces) im Backend gibt, sodass Sie Teile davon verwenden können. Innerhalb der Datenmanagement-Community gibt es eine ähnliche Idee in Bezug auf digitale FAIR-Objekte – Sie möchten diesen ganzen herunterladbaren Datensatz nicht mehr veröffentlichen, Sie möchten einen Datendienst für jede Beobachtung oder Messung bereitstellen und diese Messungen maschinell verwertbar machen dass Sie auswählen können, welche Beobachtungen Sie verwenden möchten, ohne viel Verarbeitung auf Ihrer Seite – die Daten sollten in ihrer zugänglichsten Form präsentiert werden. 

Die Komponenten müssen ebenso wie die Daten disaggregiert und atomisiert und sowohl für Menschen als auch für Maschinen zugänglich sein, wo immer sie auf der ganzen Welt verteilt sind. Aus der Sicht eines Forschers und Technologen geschieht alles von unten nach oben. Es gibt fast zu viel, um sich zu konzentrieren, also geht es darum, wie Sie kleine Fortschritte machen, um es sinnvoll zu machen. Insbesondere die American Geophysical Union (AGU) hat wirklich gute Arbeit geleistet, indem sie sich als ersten Schritt auf Computer-Notebooks konzentriert hat, um zu sehen, wie ein reproduzierbares Papier entstehen könnte. Das ist ein wirklich großartiger Anwendungsfall für viel komplexere Infrastrukturen. 

Es ist eine Menge zu bewältigen, und manchmal ist es schwierig, genau zu wissen, worauf Sie sich konzentrieren sollen. Aber das ist hoffentlich eines der Wertversprechen, bei denen der Börsengang von WDS und ITO unseren Mitgliedern helfen können. 

Wie können Leser mehr über WDS erfahren und sich an Ihren Aktivitäten beteiligen oder Mitglied werden? 

David: Meredith hat darüber nachgedacht. Wir haben unsere regelmäßige Kommunikation mit unseren Mitgliedern intensiviert und verbessern unsere Website mit regelmäßigeren Updates, die fortgesetzt werden. Es wird auch eine ganze Reihe anderer Aktivitäten geben, wenn der Börsengang voll besetzt ist und sobald unser zweijähriger Aktionsplan veröffentlicht ist. 

Meredith: Neben dem Relaunch unserer sozialen Medien stellen wir derzeit eine neu gestaltete Website fertig und testen sie. Zukünftige Initiativen umfassen Outreach- und Bildungs-Webinare für unsere WDS-Mitgliedsrepositorys, Partner und assoziierten Organisationen. Darüber hinaus haben wir einen zweiwöchentlichen Newsletter für Mitglieder, zeitkritische Mitteilungen über Möglichkeiten, die per E-Mail an Mitglieder gesendet werden, und wir freuen uns darauf, einen Jahresbericht für die Organisation zu erstellen, etwas, das seit 2015-2016 nicht mehr vorgekommen ist. Außerdem werden wir in diesem Jahr gleichzeitig den WDS Data Stewardship Prize und den ITO Data Prize ins Leben rufen, um jungen Ingenieuren und Wissenschaftlern zwei Gelegenheiten zu geben, ihre Exzellenz im Umgang mit Daten unter Beweis zu stellen.


Bild von NASA über Flickr.

Zum Inhalt