Подписаться

Что ждет на горизонте службы научных данных? Последние новости из World Data System

Мировая система данных способствует долгосрочному управлению и универсальному и равноправному доступу к научным данным гарантированного качества и услугам данных, продуктам и информации по всем дисциплинам.

Прошлый год стал переходным периодом для Мировая система данных (WDS), аффилированная организация ISC.

Офис международных программ (IPO) переехал в Ноксвилл, штат Теннесси, и Мередит Гоинс была назначена его исполнительным директором. Были приняты на работу еще три сотрудника, а в Научный комитет программы также вошли несколько новых членов.  

Мы встретились с Дэвидом Каслом, председателем научного комитета WDS; Карен Пейн, директор международного технологического офиса WDS; Сьюзи Аллард, директор Центра информационных и коммуникационных исследований Университета Теннесси, где в настоящее время базируется IPO WDS, и Мередит Гоинс, чтобы узнать больше. 

Как повлияли недавние изменения на деятельность WDS? 

Дэвид: Это период консолидации и концентрации. Четыре или пять лет назад мы создали Международный технологический офис WDS (ITO) в Университете Виктории, Ocean Networks Canada, который является крупным исследовательским центром и членом WDS. Мы наняли Карен в качестве помощника директора ITO, и это дало нам возможность встать на путь предоставления более объемных и разнообразных услуг нашим членам. В прошлом году IPO было перенесено из Токио в Теннесси при поддержке Университета Теннесси и Национальной лаборатории Ок-Риджа, а также Министерства энергетики (DOE).  

Сьюзи: Два офиса очень хорошо сотрудничают, и поддержка, которую мы можем оказать членам, еще больше, потому что деятельность координируется очень тесно. Это дает нам большой потенциал на будущее. 

Дэвид: Примерно половина членов Научного комитета также изменилась за последний год. Мы добавили несколько ключевых новых людей, чтобы присоединиться к постоянным участникам, все из которых укрылись в мире хранилищ данных. За последние несколько лет мы создали для WDS прочную основу, на которой мы сможем начать программную деятельность и привести ее в соответствие с планами действий ISC.

Мы пытаемся понять, где сейчас находятся репозитории и данные и куда они будут двигаться в предстоящий период. Это включает в себя поднятие вопросов о происхождении данных, о том, как они управляются и как они обеспечиваются в безопасности. Мы работаем над связанными техническими аспектами, такими как объекты данных FAIR, в партнерстве с CODATA, и над тем, как работать вместе, чтобы обеспечить стандарты и ожидаемую совместимость для них. 

Мы также сталкиваемся с проблемой, о которой не всегда упоминают: существует убеждение и ожидание того, что, как только вещи появятся в сети и станут доступными, они останутся бесплатными. Это, конечно, неправда. Чтобы оправдать надежду на то, что данные будут максимально открытыми и доступными, нам необходимо вести откровенные разговоры о том, откуда будут поступать ресурсы. Это проблема для наших членов, и главный приоритет для нас заключается в том, как мы определяем огромную ценность, которую репозитории приносят на национальном и международном уровнях, таким образом, чтобы помочь репозиториям взаимодействовать со спонсорами, которые могут поддержать устойчивые планы по предоставлению этих данных.  

Еще один важный приоритет – сделать наше членство более представительным в глобальном масштабе. Членами WDS являются преимущественно жители Глобального Севера, и для нас имеет смысл сотрудничать с ISC и CODATA в подведении итогов деятельности в Африке, Латинской и Южной Америке и Юго-Восточной Азии и потенциальном выявлении новых членов для WDS. Мы также работаем с другими группами, которые предоставляют услуги по работе с данными в различных модальностях, а не поддерживают репозиторий.  

Мередит: Еще один способ сделать наше членство более представительным — определить репозитории из различных предметных областей, в дополнение к биологическим наукам и наукам о Земле, чтобы увеличить разнообразие наших членов. Репозитории социальных и цифровых гуманитарных наук так же ценны, как и естественные науки. Увеличивая разнообразие нашего членства, мы можем увеличить нашу поддержку всех типов репозиториев.  

Карен: Мы активно продвигаем некоторые федеративные сервисы. Например, для полярных исследований у нас есть возможность сделать данные с обоих полюсов доступными для исследователей таким образом, чтобы они были полностью согласованы, что чрезвычайно интересно: это то, над чем сообщество работало в течение долгого времени, и мы рады этому. часть этого. 

Федеративные сервисы для полярных данных состоят из двух частей: федеративный поиск, который уже давно используется при традиционном сборе метаданных, и новый набор протоколов и процессов для сбора метаданных, более ориентированный на Интернет. Это не столько традиционный каталог услуг, сколько то, что вы найдете в поиске Google. Созданная нами инфраструктура позволяет нам отправлять сканеры для индексации целевых страниц репозиториев данных, которые реализовали определенный тип разметки на своих целевых страницах метаданных. Мы предоставляем исследователям возможность искать данные как из Арктики, так и из Антарктики, и работаем с исследовательскими сообществами, чтобы убедиться, что онтологии, которые они реализуют (разметка), также согласованы. 

Найти финансирование для такой работы очень сложно. Это международный проект, поэтому много разговоров о финансировании в разных областях. Здесь, в Канаде, они рассматривают разные модели финансирования, как для национальных инвестиций, так и для того, чтобы они могли стать частью глобального кооперативного набора спонсоров. Например, одной из рассматриваемых ими моделей является Глобальная коалиция по биоданным, предназначенная для координации глобального финансирования ключевых ресурсов в области наук о жизни. 

У нас также есть рабочая группа в рамках Research Data Alliance, занимающаяся тем, что мы называем Global Open Research Commons. Существуют различные национальные, общенациональные и специализированные организации, которые пытаются организовать доступ и взаимодействие к таким ресурсам, как наборы данных, программное обеспечение и вычислительные ресурсы. На национальном уровне имеет смысл иметь надлежащую структуру управления и дорожную карту для всех их инвестиций в исследования, поэтому вы видите такие организации, как Австралийское общество исследований данных или японская инфраструктура, координируемая Национальным институтом информатики. На общенациональном уровне вы видите амбициозные проекты, такие как European Open Science Cloud и African Open Science Platform. И такие домены, как Международный альянс виртуальных обсерваторий, который обслуживает астрономов по всему миру, очень важны для поддержки соответствующих исследовательских сообществ. Цель группы RDA — создать дорожную карту того, как эти общие ресурсы могут беспрепятственно делиться ресурсами, чтобы ученым было легче работать вместе во всем мире для общего блага. Мы опираемся на работу, которая велась долгое время, но действительно кажется, что теперь есть много мотивации, чтобы собрать эти части воедино. 

Можете ли вы объяснить, что будет означать федеративный поиск для исследователей, которые пытаются получить доступ к рассматриваемым данным, например, для полярных исследований? Что изменится? 

Карен: Сейчас исследователи должны отправиться в разные места, чтобы найти данные. И затем, как только вы найдете эти данные, вы тратите время на согласование их структуры, а затем дважды проверяете содержание, чтобы убедиться, что вы понимаете, каково семантическое значение измеряемых переменных в данных. Это первая попытка сделать этот процесс более целостным и машинным. Насколько мне известно, это единственный портал, который позволяет пользователям искать данные с обоих полюсов одновременно. Сейчас мы сосредоточены на поиске и обнаружении наборов данных и включении в индекс большего количества репозиториев. Мы ожидаем, что инфраструктура будет развиваться для поддержки или использования других инициатив, таких как Канадский консорциум по совместимости арктических данных (CCADI), который создает улучшенные инструменты визуализации и аналитики. Мы хотим поддерживать наших партнеров, а не изобретать велосипед. 

Сьюзи: IPO стремится распространять информацию обо всех видах работы, которую делает Карен, и обеспечивать ее широкое распространение. Мы также работаем над тем, чтобы ввести всех в курс дела, проводя семинары или тренинги и создавая возможности для участия людей. ITO ведет передовую работу вместе со всеми этими различными группами. И IPO помогает убедиться, что все узнают, что происходит, поскольку мы продолжаем создавать эти замечательные репозитории.

Где вы видите работу над репозиториями и данными сегодня? И куда это идет? О каких новых задачах или вещах людям нужно будет думать в ближайшие пять-десять лет? 

Дэвид: Есть конкретные вещи, которые нужно сделать. Одним из них является обеспечение безопасности репозиториев участников. Это критический фактор для обеспечения целостности данных, которая лежит в основе всей науки. Во-вторых, объемы данных выросли настолько значительно, что старые модели перемещения данных туда, где вы фактически будете работать с ними в высокопроизводительной вычислительной среде, теперь переворачиваются. Теперь дело в том, что нам нужно найти способы анализировать данные на месте, доведя компьютер до данных. Задача состоит в том, чтобы помочь репозиториям WDS стать облачными.  

Другая часть этого касается кадрового потенциала и компетенций, таких как мобилизация специалистов по данным, ученых-исследователей и распорядителей данных. Это развивающиеся роли в рамках научного предприятия, которые необходимо тщательно контролировать, чтобы гарантировать наличие нужных компетенций, а также наличие образования и подготовки для предоставления заинтересованным людям. 

Карен: Многие люди работают над компонентами, которые позволили бы исследователям отказаться от публикации статичных статей в журналах и вместо этого создать воспроизводимую статью, доступную в Интернете. Кто-то может опубликовать часть данных или выполнить часть анализа, затем написать ее и опубликовать в виде легко используемого повторно пакета, который может быть использован кем-то другим для воспроизведения тех же результатов, что важно для утверждения. научно проверяемому или повторно использовать его по-новому. Кто-то может взять пакет, подключить другой фрагмент данных или изменить параметр в программном обеспечении для анализа и создать новый результат, который они опубликуют. Таким образом, речь идет об атомизации данных и программных компонентов, чтобы вы могли брать кусочки и легко публиковать их. Воспроизводимая статья помогает решить проблемы с воспроизводимостью результатов, повторным использованием данных и потенциальной избыточностью исследований. 

Вы видите эту тенденцию в разработке программного обеспечения, когда происходит разукрупнение API (интерфейсов прикладного программирования) на серверной части, так что вы можете использовать их части. В сообществе управления данными существует аналогичная идея относительно цифровых объектов FAIR — вы больше не хотите публиковать весь этот загружаемый набор данных, вы хотите предоставить услугу данных для каждого наблюдения или измерения, и вы хотите, чтобы эти измерения можно было выполнять с помощью машины, поэтому что вы можете выбрать, какие наблюдения вы хотите использовать без большой обработки с вашей стороны — данные должны быть представлены в наиболее доступной форме. 

Компоненты, такие как данные, должны быть дезагрегированы и атомизированы и доступны как людям, так и машинам, где бы они ни находились по всему миру. С точки зрения исследователя и технолога все происходит снизу вверх. Там почти слишком много, чтобы разобраться, поэтому речь идет о том, как вы делаете небольшие вторжения, чтобы сделать это значимым. Американский геофизический союз (AGU), в частности, проделал действительно хорошую работу, сосредоточившись на вычислительных блокнотах в качестве первого шага к тому, чтобы увидеть, как может получиться воспроизводимая статья. Это действительно отличный вариант использования того, что станет гораздо более сложной инфраструктурой. 

Приходится много брать на себя, и иногда трудно понять, на чем именно сосредоточить свое внимание. Но мы надеемся, что это одно из ценных предложений, с которым IPO и ITO WDS могут помочь нашим членам. 

Как читатели могут узнать больше о WDS и как они могут принять участие в вашей деятельности или стать членами? 

Дэвид: Мередит обдумывала это. Мы активизировали нашу периодическую связь с нашими участниками и улучшаем наш веб-сайт за счет более регулярных обновлений, которые будут продолжаться. Также будет целый ряд других мероприятий, когда IPO будет полностью укомплектовано персоналом и когда будет опубликован наш двухлетний план действий. 

Мередит: Помимо перезапуска наших социальных сетей, в настоящее время мы дорабатываем и тестируем обновленный веб-сайт. Будущие инициативы включают информационные и образовательные вебинары для наших репозиториев членов WDS, партнеров и ассоциированных организаций. Кроме того, у нас есть информационный бюллетень для участников раз в две недели, срочные сообщения о возможностях, отправляемые по электронной почте членам, и мы с нетерпением ждем создания годового отчета для организации, чего не было с 2015–2016 годов. В этом году мы также совместно учредим призы WDS Data Stewardship и ITO Data Prize, чтобы предоставить начинающим инженерам и ученым две возможности продемонстрировать свое превосходство в работе с данными.


Изображение на НАСА через Flickr.

перейти к содержанию