Verein registrieren

Implementierung von FAIR-Datenprinzipien – was steckt hinter dem Akronym?

Wir haben mit Simon Hodson, Executive Director, ISC Committee on Data (CODATA), gesprochen, um mehr zu erfahren.

Die Daten, die die wissenschaftliche Forschung untermauern, sind der Treibstoff für Fortschritte im wissenschaftlichen Verständnis. Diese Datensätze enthalten wichtige Hinweise auf viele der drängendsten Fragen, mit denen Wissenschaftler heute konfrontiert sind, und können neues Licht auf vergangene Erkenntnisse werfen – entweder die bestehenden wissenschaftlichen Aufzeichnungen bestätigen oder entkräften und Möglichkeiten für neue Forschung und neues Verständnis eröffnen. Diese Art von Informationen verschwindet jedoch oft während des Prozesses der Veröffentlichung wissenschaftlicher Ergebnisse, entweder weil Daten nicht geteilt oder nicht in einem Format zur Verfügung gestellt werden, das leicht zugänglich und abfragbar ist.

„In der Wissenschaft werden viele wunderbare Arbeiten als PDF-Dokumente veröffentlicht. Die Möglichkeit, einen Artikel zu drucken und zu lesen, ist großartig für Menschen, aber viele Informationen, die in die Erstellung des PDF-Berichts eingeflossen sind, bleiben verborgen. Wenn wir uns einen Gesamtüberblick verschaffen und alle Experimente betrachten möchten, die zu einem bestimmten Prozess oder einer bestimmten Reaktion durchgeführt und in der Literatur beschrieben wurden, ist es sehr schwierig für uns, all diese Informationen aus all diesen PDFs zu extrahieren “, erklärt Simon Hodson, Executive Director von ISC-CODATA.

Mit den Worten des Chemikers Peter Murray-Rust kann das Herausholen nützlicher Informationen aus PDFs so sein, als würde man „eine Kuh aus einem Rindfleischburger rekonstruieren“.

Gleiten Sie vorbei Dunk über Flickr.

Es gibt eine Fülle von wissenschaftlichen Daten, die im Laufe vieler Jahre der Forschung produziert wurden, aber in vielen Fällen ist es nicht möglich - und sicher nicht einfach - um diese Daten zu finden und abzufragen, um sie mit anderen Erkenntnissen oder laufenden Arbeiten zu vergleichen. Angesichts dieses Rätsels und im Einklang mit dem Open-Science-Imperativ arbeiten Forscher derzeit daran, die datengesteuerte Wissenschaft durch Frameworks weiter zu ermöglichen, die die Zugänglichkeit und Interoperabilität von Daten unterstützen.

Einer der neuesten und prominentesten Ansätze dazu ist FAIR, der zusammenfasst, was Daten sein müssen, um so nutzbar und wertvoll wie möglich zu sein: FAIR-Daten sind Daten, die sind Findierbar; Azugänglich; Iinteroperabel und RE-nutzbar.

„Auffindbar“ bedeutet, dass die wissenschaftlichen Daten, die als Teil der Belege für wissenschaftliche Erkenntnisse veröffentlicht oder als Ergebnis öffentlich finanzierter Forschung erstellt wurden, für andere auffindbar und nutzbar sein sollten. Daten sollten eine dauerhafte und eindeutige Kennung sowie ausreichend reichhaltige Metadaten haben, um die Erkennung zu ermöglichen.

„Es gibt gute Gründe, einige Daten zu schützen“, sagt Simon Hodson, „aber wo diese Überlegungen nicht zutreffen, bedeuten die FAIR-Prinzipien, dass Sie über das Internet auf die Daten zugreifen können sollten, vielleicht mit Autorisierung, wenn es Sicherheitsprobleme gibt . Entscheidend ist, dass die FAIR-Prinzipien besagen, dass Wissenschaftler programmatisch, also auch über ihre Maschinen, auf Forschungsdaten zugreifen können sollten. Man kann die Daten nicht nur abrufen und herunterladen: Idealerweise sollte man sie auch per Computercode abfragen können.“

Das i in FAIR bezieht sich auf „interoperabel“ – was bedeutet, dass Sie Daten aus verschiedenen Quellen kombinieren können: Dies hängt weitgehend von Standards für Metadaten und vereinbarten Terminologien oder Vokabularen ab. Beispielsweise würden die Metadaten für eine Sozialerhebung aus einem bestimmten Land die verwendeten Alterskategorien oder sozioökonomischen Kategorien und die Kategoriengrenzen klar erläutern, sodass die Daten leicht mit Daten einer Sozialerhebung verglichen werden könnten in einem anderen Land.

R steht für Wiederverwendbarkeit: Dazu gehört auch eine Lizenz, die es Personen ermöglicht, die Daten wiederzuverwenden und die Bedingungen für jede Wiederverwendung klar angibt. Es bedeutet auch, Informationen über die Herkunft der Daten zu haben (z. B. wie sie gesammelt wurden, welche Anpassungen oder Kalibrierungen verwendet wurden, welcher Weiterverarbeitung und Bereinigung der Daten unterzogen wurden usw.), damit Forscher die potenziellen Stärken und Einschränkungen von verstehen können die Daten, und verwenden Sie sie mit Zuversicht.

FAIR data ist auch „Fully AI Ready“. Um maschinelles Lernen zu verwenden, um Muster zu identifizieren und mit der Vorhersage von Ergebnissen über verschiedene Datensätze hinweg zu beginnen, ist es wichtig, Definitionen für verschiedene Variablen im Datensatz zu haben, und die Definitionen müssen leicht zugänglich sein.

„Wenn Daten und zugehörige Dienste FAIR sind, dann wird alles so beschrieben, dass der Computer – und jeder, der den Code verwendet – weiß, welche Definition für das Konzept und die zugehörige Variable verwendet wurde, wie die Messwerte erhalten wurden und wie Werte selbst. Dann können wir mit dem Datencode interagieren, ihn vielleicht zerlegen, eine Teilmenge nehmen und ihn mit anderen Daten kombinieren. Wenn die Daten FAIR sind, kann dies viel effizienter erfolgen, und die Analyse und Forschung selbst profitieren davon“, sagt Simon Hodson.

Die Idee eines standardisierten Vokabulars, mit dem die Kernkonzepte in verschiedenen Bereichen der Wissenschaft ausgedrückt werden können, ist keineswegs neu. Das Internationale Union für reine und angewandte Chemie (IUPAC), ein Mitglied des ISC, reagiert seit seiner Gründung im Jahr 1919 auf die Notwendigkeit einer internationalen Standardisierung in der Chemie. Heute ist es zwingend erforderlich, dass Standardvokabulare an das digitale Zeitalter angepasst und selbst FAIR gemacht werden. Als Ergebnis eines mit der Data Documentation Initiative organisierten Workshops veröffentlichte eine Gruppe unter der Leitung von Simon Cox (ehemaliges Mitglied des CODATA Executive Committee und Experte für die Verwendung von Terminologien) „Zehn einfache Regeln für einen fairen Wortschatz'.

Gemäß diesen Richtlinien arbeitet CODATA derzeit an einem FAIR-Vokabular für die Gefahreninformationsprofile veröffentlicht vom ISC im Oktober 2021. Dadurch wird eine webbasierte Terminologie für alle beschriebenen Gefahren erstellt, die auf GitHub und über den Dienst Research Vocabularies Australia für jedermann zur Verfügung gestellt wird. Dies bedeutet, dass Regierungen, die ihre Strategien und Maßnahmen zur Risikominderung und zum Management entwickeln, die Daten beispielsweise schnell mit ihren eigenen Statistiken über Katastrophenschäden oder Berichtsrahmen vergleichen können.

CODATA arbeitet auch mit mehreren verschiedenen ISC-Mitgliedern an FAIR-Vokabularen, beispielsweise mit der International Union for the Scientific Study of Population (IUSSP). Die Demographie ist ein datenreiches Gebiet und von großer Bedeutung für das Verständnis nachhaltiger menschlicher Entwicklung. Indem Schlüsselterminologien in der Bevölkerungswissenschaft FAIR gemacht werden, wird IUSSP dazu beitragen, demografische Daten für statistische Ämter und Sozialwissenschaftler sowie für diejenigen, die solche Daten in den vielen Studienbereichen verwenden, die Bevölkerungsdaten verwenden, einschließlich der meisten Bereiche, die sich auf die Nachhaltigkeit beziehen, nützlicher zu machen Entwicklungsziele (SDGs).

CODATA wird auch ähnliche Arbeiten mit IUPAC im Rahmen des neuen zweijährigen Projekts 'WeltFAIR: Globale Zusammenarbeit zu FAIRer Datenpolitik und -praxis', finanziert von der Europäischen Kommission durch ihre Rahmenprogramm Horizont Europa. Koordiniert von CODATA, Mit dem Forschungsdaten-Allianz Association als Hauptpartner wird das WorldFAIR-Projekt mit einer Reihe von elf domänen- und domänenübergreifenden Fallstudien arbeiten, um die Umsetzung der FAIR-Datenprinzipien voranzutreiben, insbesondere diejenigen für die Interoperabilität, und um eine Reihe von Empfehlungen und einen Rahmen für FAIR zu entwickeln Bewertung in einer Reihe von Disziplinen oder interdisziplinären Forschungsbereichen. WorldFAIR wird den Kern des Beitrags von CODATA zum ISC-Projekt bilden Daten für domänenübergreifende große Herausforderungen nutzbar machen.

Die IUPAC leitet die Chemie-Fallstudie und untersucht, wie die von der IUPAC kuratierten Informationsressourcen und Terminologien für das Zeitalter der Digitalisierung und FAIR-Daten geeignet gemacht werden können. IUPAC wird sich auch an anderen WorldFAIR-Fallstudien zu Nanomaterialien und Geochemie beteiligen.

Ein weiterer WorldFAIR-Partner ist die Drexel University, USA, die das Projekt Salud Urbana en América Latina („Urban Health in Latin America“) (SALURBAL) leitete. SALURBAL entwickelte a länderübergreifender Datensatz zu Bereichen wie demografische Merkmale, Sterblichkeitsraten, Gesundheitsverhalten und -risiken, das soziale Umfeld und die bebaute Umwelt, was Vergleiche von Städten und Stadtteilen innerhalb von Städten in ganz Lateinamerika ermöglicht. Diese erstaunliche Ressource wird politikrelevante Forschung zu den Ursachen von Gesundheit und gesundheitlicher Ungleichheit in den Städten der Region ermöglichen. SALURBAL hat bereits umfangreiche Arbeiten zur Datenharmonisierung durchgeführt. WorldFAIR wird dazu beitragen, mehr Licht in diese Arbeit zu bringen und Empfehlungen für FAIR-Terminologien in der städtischen Gesundheit geben.

Das könnte Sie auch interessieren

CAG-CEPT, CODATA und UHWB Podcast-Reihe zum Thema „Data-Wissen-Action for Urban Systems

Die Podcast-Reihe Data-Knowledge-Action for Urban Systems untersucht Systeme, die zum Aufbau intelligenter urbaner Systeme verwendet werden. Die Serie reflektiert die systematischen Veränderungen, die Städte erfordern, um anpassungsfähig und intelligent für den Umgang mit urbanem Wohlbefinden zu werden. Es wird vom Center for Applied Geomatics, CODATA und dem Urban Health and Wellbeing Program (UHWB) veranstaltet.


Am 15. und 16. Februar hielt Simon Hodson im Rahmen einer Sitzung zum Wissensaustausch für ISC-Mitglieder ein Briefing über die Arbeit von CODATA Konvergierende Wissenschaft und Technologie in einem digitalen Zeitalter.

Video ansehen

Erfahren Sie mehr über das WorldFAIR-Projekt, über die Arbeit von CODATA an FAIR-Vokabularen und über Initiativen in verschiedenen Forschungsdisziplinen, um Daten- und Informationsbestände FAIR zu machen Internationale Datenwoche 2022, 20.-23. Juni.


Bild von École polytechnique – J.Barande via Flickr.

Zum Inhalt