实施 FAIR 数据原则——首字母缩略词的含义是什么?

我们采访了 ISC 数据委员会 (CODATA) 执行董事 Simon Hodson 以了解更多信息。

实施 FAIR 数据原则——首字母缩略词的含义是什么?

支撑科学研究的数据是推动科学理解进步的动力。 这些数据集为当今科学家面临的许多最紧迫的问题提供了重要线索,并且可以为过去的发现提供新的线索——验证或否定现有的科学记录,并为新的研究和新的理解开辟可能性。 然而,这类信息在发表科学发现的过程中经常会消失,要么是因为数据没有共享,要么是因为数据没有以易于访问和查询的格式提供。

“在科学领域,许多精彩的作品最终都以 PDF 文件的形式出版。 能够打印和阅读一篇文章对人类来说非常棒,但是用于构建 PDF 中报告内容的大量信息最终被隐藏起来了。 如果我们想获得一个全局视图,并查看所有已经完成并在文献中报告的与某个过程或反应相关的实验,我们很难从所有这些 PDF 中提取所有这些信息,' 执行董事 Simon Hodson 解释说 ISC-CODATA.

用化学家 Peter Murray-Rust 的话来说,从 PDF 中获取有用的信息就像“从牛肉汉堡中重建一头牛”。

滑过 通过 Flickr 扣篮.

在多年的研究过程中产生了丰富的科学数据,但在很多情况下,这是不可能的 - 当然不容易 - 查找该数据并对其进行查询,以便将其与其他发现或正在进行的工作进行比较。 面对这一难题,并根据开放科学的必要性,研究人员目前正在努力通过支持数据可访问性和互操作性的框架进一步实现数据驱动的科学。

执行此操作的最新和最突出的方法之一是 FAIR,它封装了为了尽可能可用和有价值的数据:FAIR 数据是 F不耐烦的; A可访问的; I可互操作和 R电子可用。

“可找到”是指作为科学发现的基础证据的一部分发布的科学数据,或作为公共资助研究的结果而产生的科学数据,应该可供其他人查找和使用。 数据应具有持久且明确的标识符,以及足够丰富的元数据以支持发现。

“保护某些数据有充分的理由,”Simon Hodson 说,“但在这些考虑不适用的情况下,公平原则意味着您应该能够通过网络访问数据,如果存在安全问题,可能需要获得授权. 至关重要的是,FAIR 原则认为科学家应该能够以编程方式访问研究数据,也就是通过他们的机器。 这不仅仅是你可以获得数据并下载它:理想情况下,你应该能够使用计算机代码查询它。”

FAIR 中的 i 指的是“可互操作的”——这意味着您可以组合来自不同来源的数据:这在很大程度上取决于元数据标准和商定的术语或词汇表。 例如,来自给定国家的社会调查的元数据将清楚地解释已使用的年龄类别或社会经济类别,以及类别边界在哪里,以便可以轻松地将数据与来自社会调查的数据进行比较在不同的国家。

R 代表可重用性:这包括拥有允许人们重用数据并明确说明任何重用条件的许可证。 这还意味着拥有有关数据来源的信息(例如,如何收集数据、使用了哪些调整或校准、数据经过了哪些进一步处理和清理等),以便研究人员能够了解数据的潜在优势和局限性数据,并放心使用。

FAIR 数据也是“完全 AI 就绪”。 为了使用机器学习来识别模式并开始预测跨不同数据集的结果,必须对数据集中的不同变量进行定义,并且这些定义必须易于访问。

“当数据和相关服务是公平的,那么一切都被描述,以便计算机——以及任何使用代码的人——知道概念和相关变量的定义是什么,获得测量的方式,以及重视自己。 然后我们可以与数据代码交互,也许分解它,获取一个子集,将它与其他数据组合。 如果数据是公平的,这可以更有效地完成,分析和研究本身也会受益,”Simon Hodson 说。

用标准化的词汇表来表达各个科学领域的核心概念的想法绝不是新的。 这 国际纯粹与应用化学联盟 (IUPAC)作为 ISC 的成员,自 1919 年成立以来,它一直在响应国际化学标准化的需求。今天,标准词汇必须适应数字时代,并使其本身变得公平。 作为与数据文档倡议组织的研讨会的结果,由 Simon Cox(CODATA 执行委员会的前成员和术语使用专家)领导的一个小组发表了“打造词汇公平的十个简单规则“。

遵循这些指导方针,CODATA 目前正在为 危害信息简介 由 ISC 于 2021 年 XNUMX 月发布。这将为所描述的所有危害创建一个基于网络的术语,该术语将在 GitHub 上和通过 Research Vocabularies Australia 服务提供,供任何人使用。 这意味着,制定降低风险和管理战略和行动的政府将能够快速将数据与他们自己的灾害损失统计数据或报告框架进行比较。

CODATA 还与几个不同的 ISC 成员合作开发 FAIR 词汇表,例如国际人口科学研究联盟 (IUSSP)。 人口学是一个数据丰富的领域,与理解人类可持续发展高度相关. 通过使人口科学中的关键术语公平,IUSSP 将有助于使人口数据对统计机构和社会科学家以及在使用人口数据的许多研究领域中使用此类数据的人更有用,包括与可持续发展相关的大多数领域发展目标(SDG)。

作为新的两年项目的一部分,CODATA 也将与 IUPAC 开展类似的工作。世博会: FAIR数据政策和实践的全球合作',由欧盟委员会通过其资助 地平线欧洲框架计划. 协调人 数据,与 研究数据联盟 作为主要合作伙伴,WorldFAIR 项目将与一组 XNUMX 个领域和跨领域案例研究合作,以推进 FAIR 数据原则的实施,特别是互操作性原则,并为 FAIR 制定一套建议和框架在一组学科或跨学科研究领域进行评估。 WorldFAIR 将成为 CODATA 对 ISC 项目贡献的核心 让数据为跨领域的重大挑战工作.

IUPAC 正在领导化学案例研究,着眼于如何使 IUPAC 策划的信息资产和术语适合数字化和公平数据时代。 IUPAC 还将参与其他关于纳米材料和地球化学的 WorldFAIR 案例研究。

WorldFAIR 的另一个合作伙伴是美国德雷塞尔大学,该大学领导了 Salud Urbana en América Latina(“拉丁美洲的城市健康”)(SALURBAL)项目。 SALURBAL 开发了一种 人口特征、死亡率、健康行为和风险、社会环境和建筑环境等领域的多国数据集,允许比较拉丁美洲城市内的城市和社区。 这一惊人的资源将使有关该地区城市健康和健康不平等的驱动因素的政策相关研究成为可能。 SALURBAL 已经在数据协调方面做了大量工作。 WorldFAIR 将有助于更多地阐明这项工作,并将就城市健康中的 FAIR 术语提出建议。

您可能也有兴趣

CAG-CEPT、CODATA 和 UHWB 播客系列关于“城市系统的数据-知识-行动”

城市系统播客系列的数据-知识-行动探索了用于构建智能城市系统的系统。 该系列反映了城市为适应和智能处理城市福祉所需的系统性变化。 它由应用地理信息中心、CODATA 和城市健康与福祉计划 (UHWB) 主办。


15 月 16 日至 XNUMX 日,西蒙·霍德森(Simon Hodson)简要介绍了 CODATA 的工作,作为 ISC 成员知识共享会议的一部分 数字时代的科技融合.

您可以在以下位置找到更多关于 WorldFAIR 项目、CODATA 在 FAIR 词汇表方面的工作以及各种研究学科中使数据和信息资产 FAIR 的举措的信息 2022年国际数据周, 20 月 23 日至 XNUMX 日。


图片来自 École polytechnique – J.Barande,来自 Flickr。

查看所有相关项目

跳到内容