O que está no horizonte para serviços de dados científicos? O mais recente do World Data System

O World Data System promove a administração de longo prazo – e o acesso universal e equitativo a – dados científicos e serviços de dados, produtos e informações com qualidade garantida em todas as disciplinas.

Nas fronteiras dos dados polares

O último ano foi um período de transição para o Sistema de Dados Mundiais (WDS), um Órgão Afiliado do ISC.

O International Program Office (IPO) mudou-se para Knoxville, Tennessee, e Meredith Goins foi nomeada sua Diretora Executiva. Outros três funcionários foram recrutados, e o Comitê Científico do programa também tem vários novos membros.  

Conversamos com David Castle, Presidente do Comitê Científico da WDS; Karen Payne, Diretora do Escritório Internacional de Tecnologia WDS; Suzie Allard, Diretora do Centro de Estudos de Informação e Comunicação da Universidade do Tennessee, onde o IPO da WDS está sediado, e Meredith Goins, para saber mais. 

Qual tem sido o impacto das mudanças recentes nas atividades do WDS? 

David: Este é um período de consolidação e foco. Há quatro ou cinco anos, criamos o WDS International Technology Office (ITO) na Universidade de Victoria, na Ocean Networks Canada, que é um importante centro de pesquisa e membro da WDS. Recrutamos Karen para ser a Diretora Associada da ITO, e isso nos iniciou no caminho de poder fornecer mais volume e serviços diversificados aos nossos membros. No ano passado, o IPO mudou de Tóquio para o Tennessee com o apoio da Universidade do Tennessee e do Oak Ridge National Lab, bem como do Departamento de Energia (DOE).  

Suzie: Os dois escritórios estão trabalhando muito bem juntos, e o apoio que podemos oferecer aos membros é ainda maior porque as atividades estão sendo coordenadas de forma muito próxima. Isso nos dá um grande potencial para o futuro. 

David: Cerca de metade dos membros do Comitê Científico também mudou no ano passado. Adicionamos alguns novos indivíduos importantes para se juntar aos membros que retornam, todos eles abrigados no mundo dos repositórios de dados. Ao longo dos últimos anos, colocamos o WDS em uma base sólida a partir da qual poderemos lançar atividades programáticas e promover um alinhamento com os Planos de Ação do ISC.

Estamos tentando entender onde estão os repositórios e dados agora e para onde eles irão no próximo período. Isso inclui levantar questões sobre a proveniência dos dados, como eles são administrados e como são mantidos em segurança. Estamos trabalhando em aspectos técnicos relacionados, como objetos de dados FAIR, em parceria com a CODATA, e como trabalhar juntos para criar padrões e expectativas de interoperabilidade para eles. 

Também estamos enfrentando um desafio que nem sempre é mencionado: há uma crença e uma expectativa de que, uma vez que as coisas estejam online e disponibilizadas, elas persistirão gratuitamente. Isto naturalmente não é verdade. Para atender à expectativa de que os dados sejam abertos e acessíveis o máximo possível, precisamos ter conversas francas sobre de onde virão os recursos. Este é um problema para nossos membros, e uma grande prioridade para nós é como definimos o enorme valor que os repositórios trazem nacional e internacionalmente de uma forma que ajudará os repositórios a se envolverem com financiadores que possam apoiar planos sustentáveis ​​para disponibilizar esses dados.  

Outra grande prioridade é tornar nossos membros mais representativos globalmente. Os membros do WDS são predominantemente do Norte Global, e faz sentido colaborarmos com o ISC e o CODATA para fazer um balanço das atividades na África, América Latina e do Sul e Sudeste Asiático e potencialmente identificar novos membros para o WDS. Também estamos trabalhando com outros grupos que fornecem serviços de dados em modalidades diferentes das que sustentam um repositório.  

Meredith: Outra maneira pela qual estamos tornando nossos membros mais representativos é identificar repositórios de uma variedade de áreas temáticas, além das ciências biológicas e da terra, para aumentar a diversidade de nossos membros. Os repositórios de ciências sociais e humanidades digitais são tão valiosos quanto as ciências naturais. Ao aumentar nossa diversidade de membros, podemos aumentar nosso suporte para todos os tipos de repositórios.  

Karen: Estamos tendo um grande impulso em alguns serviços federados. Por exemplo, para a pesquisa polar, temos a oportunidade de disponibilizar os dados de ambos os pólos aos pesquisadores de uma forma totalmente alinhada, o que é tremendamente empolgante: é algo que a comunidade vem trabalhando há muito tempo e estamos felizes em Além disso. 

Os serviços federados para dados polares vêm em duas partes: a pesquisa federada, que já vem acontecendo há muito tempo com a coleta de metadados tradicional, e um novo conjunto de protocolos e processos para coleta de metadados mais orientados para a web. É menos um catálogo de serviços tradicional e mais parecido com o que você encontraria na Pesquisa do Google. A infraestrutura que construímos nos permite enviar rastreadores para indexar as páginas de destino dos repositórios de dados que implementaram um tipo específico de marcação em suas páginas de destino de metadados. Estamos fornecendo aos pesquisadores a capacidade de pesquisar dados do Ártico e da Antártida e trabalhando com as comunidades de pesquisa para garantir que as ontologias que eles implementam (a marcação) também estejam alinhadas. 

Garantir financiamento para esse tipo de trabalho é realmente complicado. É um projeto internacional, então há muitas conversas sobre financiamento em diferentes áreas. Aqui no Canadá, eles estão analisando diferentes modelos de financiamento, tanto para investimentos nacionais quanto para que possam fazer parte de um conjunto cooperativo global de financiadores. Por exemplo, um dos modelos que eles estão revisando é a Global Biodata Coalition, projetada para coordenar o financiamento global de recursos-chave nas ciências da vida. 

Também temos um grupo de trabalho dentro da Research Data Alliance analisando o que chamamos de Global Open Research Commons. Existem diferentes organizações nacionais, pan-nacionais e específicas de domínio que estão tentando orquestrar o acesso e a interoperabilidade a recursos como conjuntos de dados, software e recursos computacionais. No nível nacional, faz sentido ter uma boa estrutura de governança e um roteiro para todos os seus investimentos em pesquisa, então você vê organizações como o Australian Research Data Commons ou a infraestrutura japonesa coordenada no National Institute of Informatics. Em todo o país, você vê projetos ambiciosos como o European Open Science Cloud e o African Open Science Platform. E domínios como o International Virtual Observatory Alliance, que atende astrônomos globalmente, são todos muito importantes para apoiar suas respectivas comunidades de pesquisa. O objetivo do grupo RDA é criar um roteiro de como esses bens comuns podem compartilhar recursos de forma transparente, para que seja mais fácil para os cientistas trabalharem juntos globalmente para um bem maior. Estamos construindo um trabalho que vem acontecendo há muito tempo, mas realmente parece que há muita motivação para juntar essas peças agora. 

Você pode explicar o que a pesquisa federada significará para pesquisadores que estão tentando acessar os dados em questão, por exemplo, para pesquisa polar? O que vai mudar? 

Karen: No momento, os pesquisadores precisam ir a locais diferentes para encontrar dados. E depois de encontrar esses dados, você gasta tempo harmonizando sua estrutura e, em seguida, verificando novamente o conteúdo para ter certeza de que entendeu qual é o significado semântico das variáveis ​​medidas nos dados. Esta é uma primeira tentativa de tornar esse processo mais coeso e acionável por máquina. Que eu saiba, este é o único portal que permite aos usuários pesquisar dados de ambos os polos simultaneamente. No momento, estamos focados na pesquisa e descoberta de conjuntos de dados e em trazer mais repositórios para o índice. Prevemos que a infraestrutura evoluirá para apoiar ou alimentar outras iniciativas, como o Consórcio Canadense para Interoperabilidade de Dados do Ártico (CCADI), que está criando ferramentas aprimoradas de visualização e análise. Queremos apoiar nossos parceiros, não reinventar a roda. 

Suzie: O IPO está comprometido em divulgar todos os tipos de trabalho que Karen está fazendo e garantir que seja bem divulgado. Também estamos trabalhando para manter todos atualizados, realizando workshops ou treinamentos e criando oportunidades para as pessoas participarem. A ITO está fazendo um trabalho de ponta em conjunto com todos esses diferentes grupos. E o IPO está ajudando a garantir que todos saibam o que está acontecendo à medida que continuamos a construir esses grandes repositórios.

Onde você vê o trabalho em repositórios e dados hoje? E para onde vai? Quais são os novos desafios ou coisas que as pessoas precisarão pensar nos próximos cinco a dez anos? 

David: Há coisas concretas que precisam ser feitas. Uma delas é garantir que nossos repositórios de membros sejam seguros. Esse é um fator crítico para garantir a integridade dos dados, que sustenta toda a ciência. Outra é que os volumes de dados cresceram tão significativamente que os antigos modelos de movimentação de dados para onde você realmente trabalharia com eles em um ambiente de computação de alto desempenho agora estão sendo invertidos. Agora é o caso de que precisamos encontrar maneiras de analisar os dados no local, trazendo o computador para os dados. Um desafio é ajudar os repositórios WDS a se tornarem habilitados para nuvem.  

A outra parte é sobre a capacidade e as competências da força de trabalho, como a mobilização de cientistas de dados, cientistas de pesquisa técnica e administradores de dados. Esses são papéis em evolução dentro do empreendimento científico que precisam ser monitorados cuidadosamente para garantir que as competências certas estejam em vigor e que tenhamos a educação e o treinamento para fornecer às pessoas interessadas. 

Karen: Muitas pessoas estão trabalhando em componentes que permitiriam aos pesquisadores deixar de publicar artigos estáticos em periódicos e, em vez disso, criar um artigo reproduzível disponível online. Alguém poderia publicar um dado ou fazer uma análise, então escrevê-lo e publicá-lo como um tipo de pacote facilmente reutilizável que pode ser usado por outra pessoa para reproduzir os mesmos resultados, o que é importante para fazer as afirmações de ciência verificável, ou reutilizá-lo de uma nova maneira. Alguém pode pegar o pacote, conectar um dado diferente ou alterar um parâmetro em um software de análise e criar um novo resultado que publica. Portanto, trata-se de uma atomização dos dados e dos componentes de software, para que você possa pegar pedaços de coisas e publicá-los facilmente. O papel reproduzível ajuda a resolver problemas com reprodutibilidade de resultados, reutilização de dados e potencial redundância de pesquisa. 

Você vê essa tendência no desenvolvimento de software, onde há uma desagregação das APIs (Application Programming Interfaces) no back-end, para que você possa usar partes delas. Dentro da comunidade de gerenciamento de dados, há uma ideia semelhante em torno dos objetos digitais FAIR – você não deseja mais publicar todo esse conjunto de dados para download, deseja fornecer um serviço de dados para cada observação ou medição e deseja tornar essas medições acionáveis ​​por máquina, então que você pode escolher quais observações deseja usar sem muito processamento de sua parte – os dados devem ser apresentados em sua forma mais acessível. 

Os componentes, como os dados, precisam ser desagregados e atomizados e acessíveis por humanos e máquinas onde quer que estejam distribuídos pelo mundo. Do ponto de vista de um pesquisador e tecnólogo, tudo está acontecendo de baixo para cima. Há quase muita coisa para entender, então se trata de como você faz pequenas incursões para torná-lo significativo. A American Geophysical Union (AGU), em particular, fez um bom trabalho ao focar em notebooks computacionais como um primeiro passo para ver como um papel reproduzível poderia acontecer. Esse é um ótimo caso de uso para o que se tornará infraestruturas muito mais complexas. 

É muito para enfrentar, e às vezes é difícil saber exatamente onde colocar seu foco. Mas esperamos que essa seja uma das propostas de valor com as quais o IPO e a ITO da WDS possam ajudar nossos membros. 

Como os leitores podem saber mais sobre o WDS e como podem se envolver em suas atividades ou se tornar membros? 

David: Meredith tem pensado nisso. Intensificamos nossas comunicações periódicas com nossos membros e estamos melhorando nosso site com atualizações mais regulares, que continuarão. Haverá também uma série de outras atividades à medida que o IPO for totalmente preenchido e assim que nosso plano de ação de dois anos for publicado. 

Meredith: Além de relançar nossas mídias sociais, estamos finalizando e testando um site redesenhado. As iniciativas futuras incluem webinars educativos e de divulgação para nossos repositórios membros do WDS, parceiros e organizações associadas. Além disso, temos um boletim informativo quinzenal para os membros, comunicações urgentes sobre oportunidades enviadas por e-mail aos membros e esperamos criar um relatório anual para a organização, algo que não ocorria desde 2015-2016. Também lançaremos o prêmio WDS Data Stewardship e o ITO Data Prize ao mesmo tempo este ano para dar aos engenheiros e cientistas em início de carreira duas oportunidades de mostrar sua excelência com dados.


Imagem por NASA através do Flickr.

Compartilhar

Ir para o conteúdo