Внедрение принципов данных FAIR — что стоит за аббревиатурой?

Данные, лежащие в основе научных исследований, — это то, что способствует прогрессу в научном понимании. Эти наборы данных содержат жизненно важные ключи к разгадке многих наиболее насущных вопросов, стоящих сегодня перед учеными, и могут пролить новый свет на прошлые открытия, подтверждая или опровергая существующие научные данные и открывая возможности для новых исследований и нового понимания. Однако такая информация часто исчезает в процессе публикации научных результатов либо потому, что данные не распространяются, либо не предоставляются в формате, удобном для доступа и изучения.

«В науке многие замечательные работы публикуются в виде PDF-документов. Возможность распечатать и прочитать статью полезна для людей, но большая часть информации, которая использовалась для построения того, что сообщается в PDF, в конечном итоге оказывается скрытой. Если мы хотим получить общую картину и посмотреть на все эксперименты, которые были проведены и описаны в литературе, относящиеся к определенному процессу или реакции, нам очень сложно извлечь всю эту информацию из всех этих PDF-файлов. , — объясняет Саймон Ходсон, исполнительный директор ISC-КОДАТА.

По словам химика Питера Мюррея-Раста, получение полезной информации из PDF-файлов может быть похоже на «реконструкцию коровы из говяжьего бургера».

Слайд мимо Данк через Flickr.

В ходе многолетних исследований было получено множество научных данных, но во многих случаях это невозможно. - и конечно не просто - найти эти данные и запросить их, чтобы сравнить их с другими результатами или текущей работой. Столкнувшись с этой загадкой и в соответствии с императивом открытой науки, исследователи в настоящее время работают над дальнейшим внедрением науки, основанной на данных, с помощью сред, поддерживающих доступность и совместимость данных.

Одним из последних и наиболее известных подходов к этому является FAIR, который инкапсулирует то, какими должны быть данные, чтобы быть максимально полезными и ценными: FAIR данные — это данные, которые Fневероятный; Aдоступный; Iинтероперабельный и Rэлектронное использование.

«Доступность для поиска» означает, что научные данные, опубликованные как часть подтверждения научных результатов или полученные в результате исследований, финансируемых государством, должны быть доступны для поиска и использования другими лицами. Данные должны иметь постоянный и недвусмысленный идентификатор, а также достаточно подробные метаданные, чтобы их можно было обнаружить.

«Есть веские причины для защиты некоторых данных, — говорит Саймон Ходсон, — но там, где эти соображения неприменимы, принципы FAIR означают, что вы должны иметь доступ к данным через Интернет, возможно, с авторизацией, если есть проблемы с безопасностью. . Важно отметить, что принципы FAIR утверждают, что ученые должны иметь возможность доступа к исследовательским данным программно, то есть также с помощью своих машин. Дело не только в том, что вы можете получить данные и загрузить их: в идеале вы должны иметь возможность запрашивать их с помощью компьютерного кода».

Буква i в слове FAIR означает «интероперабельность» — это означает, что вы можете комбинировать данные из разных источников: это во многом зависит от наличия стандартов для метаданных и согласованной терминологии или словарей. Например, метаданные для социального опроса из данной страны будут четко объяснять возрастные категории или социально-экономические категории, которые использовались, и где проходят границы категорий, чтобы данные можно было легко сравнивать с данными социального опроса. в другой стране.

R означает возможность повторного использования: это включает в себя наличие лицензии, которая позволяет людям повторно использовать данные и четко определяет условия любого повторного использования. Это также означает наличие информации о происхождении данных (например, как они были собраны, какие корректировки или калибровки использовались, какой дальнейшей обработке и очистке подвергались данные и т. д.), чтобы исследователи могли понять потенциальные сильные стороны и ограничения данные и использовать их с уверенностью.

Данные FAIR также «полностью готовы к ИИ». Чтобы использовать машинное обучение для выявления закономерностей и начала прогнозирования результатов для разных наборов данных, важно иметь определения для различных переменных в наборе данных, и определения должны быть легко доступны.

«Когда данные и связанные с ними услуги являются ЧЕСТНЫМИ, тогда все описывается так, чтобы компьютер — и любой, кто использует код — знал, какое определение использовалось для понятия и связанной переменной, каким образом были получены измерения и ценит себя. Затем мы можем взаимодействовать с кодом данных, возможно, разлагая его, беря подмножество, комбинируя его с другими данными. Если данные ЧЕСТНЫ, это можно сделать гораздо эффективнее, а сам анализ и исследование принесут пользу», — говорит Саймон Ходсон.

Идея стандартизированных словарей, с помощью которых можно выразить основные понятия в различных областях науки, отнюдь не нова. Международный союз теоретической и прикладной химии (IUPAC), член ISC, отвечает на потребность в международной стандартизации в химии с момента своего основания в 1919 году. Сегодня крайне важно, чтобы стандартные словари были адаптированы к цифровой эпохе и сами были сделаны ЧЕСТНЫМИ. В результате семинара, организованного в рамках инициативы Data Documentation, группа под руководством Саймона Кокса (бывший член исполнительного комитета CODATA и эксперт по использованию терминологии) опубликовала «Десять простых правил составления словарного запаса FAIR.

Следуя этим рекомендациям, CODATA в настоящее время работает над словарем FAIR для Профили информации об опасностях опубликовано ISC в октябре 2021 года. Это позволит создать веб-терминологию для всех описанных опасностей, которая будет доступна на GitHub и через службу Research Vocabularies Australia для всех желающих. Это означает, что правительства, разрабатывающие свои стратегии и действия по снижению рисков и управлению ими, смогут быстро сравнивать данные, например, со своими собственными статистическими данными об ущербе от стихийных бедствий или системами отчетности.

CODATA также работает над словарями FAIR с несколькими различными членами ISC, например, с Международным союзом научных исследований населения (IUSSP). Демография — это богатая данными область, которая имеет большое значение для понимания устойчивого человеческого развития.. Делая ключевые термины в науке о народонаселении FAIR, IUSSP будет способствовать тому, чтобы демографические данные стали более полезными для статистических агентств и социологов, а также для тех, кто использует такие данные во многих областях исследований, в которых используются данные о народонаселении, включая большинство областей, связанных с устойчивым развитием. Цели развития (ЦУР).

CODATA также проведет аналогичную работу с IUPAC в рамках нового двухлетнего проекта «Всемирная выставка : Глобальное сотрудничество в области политики и практики использования данных FAIR', финансируется Европейской комиссией через ее Рамочная программа Horizon Europe. Координируется КОДАТА, С Альянс исследований данных Ассоциация в качестве основного партнера, проект WorldFAIR будет работать с набором из одиннадцати доменных и междисциплинарных тематических исследований для продвижения реализации принципов данных FAIR, в частности, для функциональной совместимости, а также для разработки набора рекомендаций и структуры для FAIR. оценка в наборе дисциплин или междисциплинарных областях исследований. WorldFAIR станет основой вклада CODATA в проект ISC. Как заставить данные работать для решения междоменных задач.

IUPAC возглавляет тематическое исследование по химии, изучая, как сделать информационные ресурсы и терминологию, которые курирует IUPAC, подходящими для эпохи оцифровки и данных FAIR. IUPAC также примет участие в других тематических исследованиях WorldFAIR по наноматериалам и геохимии.

Еще одним партнером WorldFAIR является Университет Дрекселя, США, который руководил проектом Salud Urbana en América Latina («Городское здоровье в Латинской Америке») (SALURBAL). САЛУРБАЛ разработал набор данных по нескольким странам по таким областям, как демографические характеристики, уровень смертности, поведение и риски для здоровья, социальная среда и искусственная среда, что позволяет сравнивать города и районы внутри городов по всей Латинской Америке. Этот удивительный ресурс позволит проводить актуальные для политики исследования движущих сил здоровья и неравенства в отношении здоровья в городах региона. SALURBAL уже проделал большую работу по гармонизации данных. WorldFAIR поможет пролить больше света на эту работу и даст рекомендации по терминологии FAIR в области городского здравоохранения.

Вы также можете быть заинтересованы в

Серия подкастов CAG-CEPT, CODATA и UHWB на тему «Данные-знания-действия для городских систем»

Серия подкастов Data-Knowledge-Action for Urban Systems исследует системы, используемые для создания интеллектуальных городских систем. Сериал отражает систематические изменения, необходимые для того, чтобы города стали адаптивными и разумными для обеспечения благополучия в городах. Он проводится Центром прикладной геоматики, CODATA и Программой городского здоровья и благополучия (UHWB).

15 и 16 февраля Саймон Ходсон провел брифинг о работе CODATA в рамках сессии по обмену знаниями для членов ISC по Конвергенция науки и техники в эпоху цифровых технологий.

Вы можете узнать больше о проекте WorldFAIR, о работе CODATA над словарями FAIR и об инициативах в различных исследовательских дисциплинах, направленных на то, чтобы сделать данные и информационные активы FAIR на Международная неделя данных 2022 г., 20-23 июня.

Изображение École polytechnique – J.Barande через Flickr.

ПОСМОТРЕТЬ ВСЕ СВЯЗАННЫЕ ТОВАРЫ

Вы также можете быть заинтересованы в

Сопутствующие товары

Центр будущего науки ISC получил грант на сумму более миллиона долларов для изучения влияния искусственного интеллекта на научные системы на Глобальном Юге.

Научный комитет Всемирной системы данных (WDS-SC) на 2024 год уже открыт

Данные о биоразнообразии искажены прошлым неравенством. Ученые пытаются получить более ясную картину.

От авторитарных угроз к неравенству в финансировании: ключевые проблемы глобальной науки

Что ждет на горизонте службы научных данных? Последние новости из World Data System

WorldFAIR: глобальное сотрудничество в области политики и практики использования данных FAIR

Аналитическая записка: Использование данных для ускорения перехода от реагирования на бедствия к восстановлению

CODATA и ISC отмечают Всемирный день метрологии в области метрологии в эпоху цифровых технологий

Совместное заявление о намерениях цифровой трансформации международной научной инфраструктуры и инфраструктуры качества

Африканская открытая научная платформа начинает обретать форму

Лучшие советы по представлению данных согласно исследованиям

Большие данные о Земле продвигают науку и технику для достижения ЦУР

Глобальный обзор науки дает надежду и сложные уроки

Гражданские ученые: возможно, без ученой степени, но, безусловно, имеют значение

Новый взгляд на привычный бизнес для научных публикаций

Пандемия COVID-19 свидетельствует о необходимости открытой науки

Статистическое мышление как важнейший навык чтения новостей

Экосистема данных для победы над COVID-19

Как заставить данные работать для решения сложных междоменных задач

Приглашение к выражению заинтересованности в размещении международного программного офиса World Data System (разрешены частичные заявки)

Зачем нужна хартия ООН

Премия World Data System Data Stewardship Award 2019

Достижение снижения рисков в Сендае, Париже и ЦУР

Данные о потерях в результате бедствий при мониторинге реализации Сендайской рамочной программы

Видение Африканской открытой научной платформы

В Габороне, Ботсвана, стартовала международная неделя данных

Вакансия: Исполнительный директор ICSU World Data System (WDS) (объявлено повторно)

Семинар по Мировой системе данных прошел в Рио-де-Жанейро

Международный технологический офис ICSU World Data System откроется в Канаде

IAMAS призывает США продолжать поддержку систем наблюдения за Землей

Параллельное мероприятие COP23 по изменению климата - когда и где будут достигнуты пределы обитаемости?

Крупнейшее собрание ученых на Ближнем Востоке для Всемирного научного форума 2017 г.

Belmont Forum объявляет о назначении Мустафы Мокрана новым соруководителем инициативы по открытым данным

Будущее науки: голоса наших партнеров

Комитет по данным (CODATA)

Мировая система данных (WDS)

Соглашение «Открытые данные в мире больших данных» получило 120 одобрений

Правительство Новой Зеландии благодарит группы IRDR и CODATA за их помощь после землетрясения в Каикоуре в 2016 году

Африканская открытая научная платформа усилит влияние открытых данных на науку и общество

Открытые данные в мире больших данных

World Data System отмечает пятилетие Международного программного офиса

Ведущие научные группы призывают к глобальному соглашению об открытых данных в мире больших данных

Science International подпишет международное соглашение об открытых данных

Назначены новый Научный комитет и председатель Всемирной системы данных МСНС

Конференция Landmark по научным данным завершилась решительной поддержкой обмена данными в целях устойчивого развития

Открытый доступ к научным данным и литературе и оценка исследований по метрикам

Международный совет по науке одобряет открытый доступ к научным записям; предостережения против неправильного использования показателей

Обзор CODATA, Комитета по данным для науки и технологий

Специальный стратегический координационный комитет по информации и данным (отчет SCCID)

Как описывать наноматериалы - семинар ICSU в Париже

Новая система World Data System ICSU открывает новый международный программный офис в Токио

Открытие международного программного офиса новой системы World Data System МСНС

Проведение экспертного анализа ICSU Foresight Analysis

Практикум по описанию наноматериалов

Консультативная записка о доступе к совместно используемым данным для уменьшения глобального неравенства

Консультативная записка по обмену научными данными с акцентом на развивающиеся страны

Международное научное сообщество договорилось о первых шагах по созданию глобальной виртуальной библиотеки научных данных

Доклад Специального стратегического комитета по информации и данным

На ключевом мероприятии в Китае Международный совет по науке обнародовал новую стратегию по укреплению международной науки на благо общества.

Международные эксперты призывают к новому подходу к тому, чтобы проблемы, связанные с доступом к данным и управлением, не замедляли научный прогресс

Социально-экономические данные в связи с Партнерством по Комплексной стратегии глобальных наблюдений IGOS-P (2004 г.)

Оценка приоритетной области научных данных и информации

ЦЕРН объявляет о крупной конференции по информационному обществу

МСНС запускает Программу действий в преддверии Всемирного саммита по информационному обществу

Наука в информационном обществе: вопросы политики в отношении научной информации (2003 г.)

Наука в информационном обществе: оптимизация знаний (2003 г.)

Наука в информационном обществе: принятие решений и управление (2003 г.)

Наука в информационном обществе: всеобщий доступ к научным знаниям (2003 г.)

ICSU / CODATA запускает онлайн-форум для Всемирного саммита по информационному обществу

Поделиться