Впровадження принципів FAIR щодо даних – що стоїть за абревіатурою?

Дані, що лежать в основі наукових досліджень, — це те, що сприяє розвитку наукового розуміння. Ці набори даних містять життєво важливі ключі до багатьох найактуальніших питань, що стоять перед науковцями сьогодні, і можуть пролити нове світло на минулі висновки – або підтверджуючи, або скасовувати наявні записи науки, і відкриваючи можливості для нових досліджень і нового розуміння. Однак така інформація часто зникає під час опублікування наукових висновків через те, що дані не передаються, або вони недоступні у легкодоступному форматі.

«У науці багато чудових робіт публікуються у форматі PDF-документів. Можливість друкувати та читати статтю чудово підходить для людей, але багато інформації, яка була використана для створення того, що повідомляється у PDF-файлі, в кінцевому підсумку приховано. Якщо ми хочемо отримати велике зображення та подивитися на всі експерименти, які були проведені та про які повідомлялося в літературі, що стосуються певного процесу чи реакції, нам дуже важко витягти всю цю інформацію з усіх цих PDF-файлів. », – пояснює Саймон Ходсон, виконавчий директор ISC-CODATA.

За словами хіміка Пітера Мюррея-Раста, отримання корисної інформації з PDF-файлів може бути схоже на «реконструкцію корови з бургера з яловичини».

Проскочи Dunk через Flickr.

Існує велика кількість наукових даних, які були отримані в ході багаторічних досліджень, але в багатьох випадках це неможливо - і звичайно не легко - щоб знайти ці дані та запитати їх, щоб порівняти їх з іншими результатами чи поточною роботою. Зіткнувшись з цією загадкою та відповідно до імперативу відкритої науки, дослідники наразі працюють над тим, щоб далі впровадити науку, керовану даними, за допомогою структур, які підтримують доступність та сумісність даних.

Одним з останніх і найвідоміших підходів до цього є FAIR, який інкапсулює, які дані повинні бути, щоб бути максимально корисними та цінними: FAIR дані – це дані, які Fнепрохідний; Aдоступний; Iсумісний і Rелектронне використання.

«Можливість знайти» означає, що наукові дані, які опубліковані як частина доказів, що підтверджують наукові висновки, або отримані в результаті досліджень, що фінансуються державою, повинні бути доступні для пошуку та використання іншими. Дані повинні мати постійний і однозначний ідентифікатор, а також достатньо багаті метадані, щоб уможливити виявлення.

«Існують вагомі причини для захисту деяких даних, — каже Саймон Ходсон, — але якщо ці міркування не застосовуються, принципи FAIR означають, що ви повинні мати доступ до даних через Інтернет, можливо, з авторизацією, якщо є проблеми з безпекою. . Важливо те, що принципи FAIR підтверджують, що вчені повинні мати доступ до даних досліджень програмно, тобто також за допомогою своїх машин. Справа не тільки в тому, що ви можете отримати дані та завантажити їх: в ідеалі ви повинні мати можливість запитувати їх за допомогою комп’ютерного коду».

I в FAIR означає «сумісність» — це означає, що ви можете комбінувати дані з різних джерел: це значною мірою залежить від наявності стандартів для метаданих та узгодженої термінології чи словників. Наприклад, метадані соціального опитування з певної країни чітко пояснюють вікові категорії або соціально-економічні категорії, які були використані, і де проходять межі категорій, щоб дані можна було легко порівняти з даними соціального опитування. в іншій країні.

R означає можливість повторного використання: це включає наявність ліцензії, яка дозволяє людям повторно використовувати дані та чітко вказує умови будь-якого повторного використання. Це також означає наявність інформації про походження даних (наприклад, як вони були зібрані, які налаштування або калібрування були використані, яка подальша обробка та очищення даних зазнали тощо), щоб дослідники могли зрозуміти потенційні сильні сторони та обмеження дані та впевнено користуйтеся ними.

Дані FAIR також є «повністю готовими до штучного інтелекту». Щоб використовувати машинне навчання для визначення закономірностей і початку прогнозування результатів у різних наборах даних, важливо мати визначення для різних змінних у наборі даних, а визначення мають бути легко доступними.

«Коли дані та пов’язані послуги є ЧЕСНИМИ, тоді все описується так, щоб комп’ютер – і будь-хто, хто використовує код – знав, яке визначення було використано для поняття та пов’язаної змінної, спосіб, яким були отримані вимірювання, та самі цінності. Тоді ми можемо взаємодіяти з кодом даних, можливо, розкладаючи його, беручи підмножину, об’єднуючи її з іншими даними. Якщо дані є ЧЕСНИМИ, це можна зробити набагато ефективніше, а аналіз і дослідження принесуть користь», – каже Саймон Ходсон.

Ідея мати стандартизовані словники, за допомогою яких можна виражати основні поняття в різних галузях науки, аж ніяк не нова. The Міжнародний союз чистої та прикладної хімії (IUPAC), член ISC, реагує на потребу міжнародної стандартизації в хімії з моменту свого заснування в 1919 році. Сьогодні вкрай важливо, щоб стандартні словники були адаптовані до цифрової епохи і самі по собі були СПРАВЕДЛИВІ. В результаті семінару, організованого з ініціативою Data Documentation, група під керівництвом Саймона Кокса (колишнього члена виконавчого комітету CODATA і експерта з використання термінології) опублікувала «Десять простих правил створення словникового запасу.

Дотримуючись цих рекомендацій, CODATA зараз працює над словником FAIR для Профілі інформації про небезпеку опублікований ISC у жовтні 2021 року. Це створить веб-термінологію для всіх описаних небезпек, яка буде доступна на GitHub та через службу Research Vocabularies Australia, щоб усі могли користуватися. Це означає, що уряди, які розробляють свої стратегії та дії щодо зменшення ризиків та управління ними, зможуть швидко порівнювати дані зі своєю власною статистикою щодо втрат від стихійних лих або структурою звітності, наприклад.

CODATA також працює над словниками FAIR з кількома різними членами ISC, наприклад, з Міжнародним союзом для наукових досліджень населення (IUSSP). Демографія — це сфера, багата даними, і дуже актуальна для розуміння сталого людського розвитку. Роблячи ключову термінологію в народонауці FAIR, IUSSP сприятиме тому, щоб демографічні дані були кориснішими для статистичних агентств і суспільствознавців, а також тих, хто використовує такі дані в багатьох галузях досліджень, які використовують дані про населення, включаючи більшість областей, що стосуються сталого розвитку. Цілі розвитку (ЦУР).

CODATA також буде проводити подібну роботу з IUPAC в рамках нового дворічного проекту.Всесвітня ярмарок : Глобальне співробітництво щодо політики та практики даних FAIR', що фінансується Європейською комісією через її Рамкова програма Horizon Europe. Координує КОДАТА, С Research Data Alliance асоціації як головного партнера, проект WorldFAIR працюватиме з набором одинадцяти доменних та міждоменных тематичних досліджень для просування впровадження принципів даних FAIR, зокрема принципів сумісності, а також для розробки набору рекомендацій та основи для FAIR оцінювання за набором дисциплін або міждисциплінарних дослідницьких областей. WorldFAIR стане основою внеску CODATA в проект ISC Змусити дані працювати для великого міждоменного завдання.

IUPAC очолює тематичне дослідження хімії, розглядаючи, як зробити інформаційні активи та термінологію, яку курує IUPAC, відповідними епоху цифровізації та даних FAIR. IUPAC також співпрацюватиме з іншими тематичними дослідженнями WorldFAIR з наноматеріалів та геохімії.

Іншим партнером WorldFAIR є Університет Дрекселя, США, який очолив проект Salud Urbana en América Latina («Здоров’я міст у Латинській Америці») (SALURBAL). SALURBAL розробив a набір даних для кількох країн у таких областях, як демографічні характеристики, рівень смертності, поведінка та ризики для здоров’я, соціальне середовище та забудоване середовище, що дозволяє порівняти міста та райони в містах у Латинській Америці. Цей дивовижний ресурс дозволить проводити дослідження, пов’язані з політикою, щодо факторів здоров’я та нерівності у здоров’ї в містах регіону. SALURBAL вже провів велику роботу з гармонізації даних. WorldFAIR допоможе пролити більше світла на цю роботу та надасть рекомендації щодо термінології FAIR у міському здоров’ї.

Вас також можуть зацікавити

Серія подкастів CAG-CEPT, CODATA та UHWB на тему «Дані-знання-дія для міських систем

Серія подкастів Data-Knowledge-Action for Urban Systems досліджує системи, які використовуються для побудови інтелектуальних міських систем. У серіалі розповідається про систематичні зміни, необхідні для того, щоб міста стали адаптованими та розумними для забезпечення добробуту міст. Його проводять Центр прикладної геоматики, CODATA та Програма міського здоров’я та благополуччя (UHWB).

15 і 16 лютого Саймон Ходсон провів брифінг про роботу CODATA в рамках сесії обміну знаннями для членів ISC про Конвергенція науки і техніки в цифрову еру.

Ви можете дізнатися більше про проект WorldFAIR, про роботу CODATA над словниками FAIR та про ініціативи в різних наукових дисциплінах щодо створення даних та інформаційних ресурсів FAIR на Міжнародний тиждень даних 2022, 20-23 червня.

Зображення École Polytechnique – J.Barande через Flickr.

ПЕРЕГЛЯНУТИ ВСІ ПОТУЖНІ ПУНКТИ

Вас також можуть зацікавити

супутні товари

Центр наукового майбутнього ISC отримує грант понад один мільйон доларів на дослідження впливу ШІ на наукові системи на Глобальному Півдні

Науковий комітет Всесвітньої системи даних (WDS-SC) на 2024 рік відкрито

Дані про біорізноманіття спотворені минулими несправедливостями. Вчені борються, щоб отримати чіткішу картину.

Від авторитарних загроз до диспропорцій у фінансуванні: ключові виклики глобальної науки

Що очікує на горизонті служб наукових даних? Останні з World Data System

WorldFAIR: Глобальна співпраця щодо політики та практики даних FAIR

Опис політики: використання даних для прискорення переходу від реагування на катастрофу до відновлення

CODATA та ISC відзначають Метрологію в цифрову еру у Всесвітній день метрології

Спільна заява про наміри щодо цифрової трансформації в міжнародній науковій та якісній інфраструктурі

Африканська відкрита наукова платформа починає формуватися

Основні поради щодо представлення даних відповідно до досліджень

Big Earth Data вдосконалює науку та інженерію для досягнення ЦУР

Глобальне дослідження науки дає надію та складні уроки

Громадяни-науковці: можливо, без вченого ступеня, але, безумовно, має значення

Переосмислення звичної для наукової публікації справи

Пандемія COVID-19 ілюструє потребу відкритої науки

Статистичне мислення як необхідний навик для читання новин

Екосистема даних для подолання COVID-19

Робота з даними для вирішення міждоменних грандіозних завдань

Заклик для висловлення зацікавленості для розміщення Міжнародного програмного офісу World Data System (Дозволяється часткове подання)

Навіщо нам потрібен статут ООН

Премія World Data Stewardship Award 2019

Досягнення зниження ризику в Сендаї, Парижі та ЦУР

Дані про втрати катастроф під час моніторингу впровадження Сендайської системи

Бачення Африканської відкритої наукової платформи

У Габороне, Ботсвана, починається Міжнародний тиждень даних

Вакансія: виконавчий директор ICSU World Data System (WDS) (повторно оголошено)

Семінар World Data System відбувся в Ріо-де-Жанейро

Міжнародний технологічний офіс ICSU World Data System відкриється в Канаді

IAMAS закликає США продовжувати підтримувати системи спостереження за Землею

Побічна подія COP23 щодо зміни клімату - коли і де будуть досягнуті межі проживання?

Найбільша наукова зустріч на Близькому Сході для Всесвітнього наукового форуму 2017 року

Форум Belmont оголошує Мустафу Мокрана новим співпровідним ініціативи відкритих даних

Майбутнє науки: Голоси наших партнерів

Угода «Відкриті дані у світі великих даних» має 120 схвалення

Уряд Нової Зеландії дякує групам IRDR і CODATA за допомогу після землетрусу в Кайкурі 2016 року

Африканська відкрита наукова платформа для посилення впливу відкритих даних для науки та суспільства

Відкриті дані у світі великих даних

World Data System відзначає п'яту річницю Міжнародного програмного офісу

Провідні наукові групи закликають до глобальної згоди щодо відкритих даних у світі великих даних

Science International узгодить міжнародну угоду про відкриті дані

Призначений новий науковий комітет і голова для ICSU World Data System

Знакова конференція з наукових даних закінчується потужною підтримкою обміну даними для забезпечення сталого розвитку

Відкритий доступ до наукових даних та літератури та оцінка досліджень за показниками

Міжнародна рада з науки схвалює відкритий доступ до наукових записів; застерігає від неправильного використання показників

Огляд CODATA, Комітет з даних для науки і технологій

Спеціальний стратегічний координаційний комітет з питань інформації та даних (Звіт SCCID)

Як описати наноматеріали – семінар ICSU у Парижі

Нова Всесвітня система даних ICSU відкриває новий офіс міжнародної програми в Токіо

Відкриття міжнародного програмного офісу нової World Data System ICSU

Аналіз прогнозування МГСУ рецензований

Семінар з опису наноматеріалів

Консультативна примітка щодо доступу до спільних даних для зменшення глобальної нерівності

Консультативна записка щодо обміну науковими даними, зосереджена на країнах, що розвиваються

Міжнародна наукова спільнота домовилася про перші кроки щодо створення глобальної віртуальної бібліотеки для наукових даних

Звіт спеціального стратегічного комітету з інформації та даних

На ключовій події в Китаї Міжнародна наукова рада оприлюднила нову стратегію зміцнення міжнародної науки на благо суспільства

Міжнародні експерти закликають до нового підходу, щоб проблеми з доступом до даних і управління ними не сповільнювали науковий прогрес

Соціально-економічні дані щодо Партнерства з інтегрованої глобальної стратегії спостереження IGOS-P (2004)

Оцінка пріоритетної сфери наукових даних та інформації

ЦЕРН оголошує велику конференцію з інформаційного суспільства

ICSU запускає Програму дій напередодні Всесвітнього саміту з інформаційного суспільства

Наука в інформаційному суспільстві: політичні питання щодо наукової інформації (2003)

Наука в інформаційному суспільстві: оптимізація знань (2003)

Наука в інформаційному суспільстві: прийняття рішень та управління (2003)

Наука в інформаційному суспільстві: універсальний доступ до наукових знань (2003)

ICSU/CODATA запускає онлайн-форум для Всесвітнього саміту з інформаційного суспільства

Поділитись