Os dados que sustentam a pesquisa científica são o que alimenta os avanços na compreensão científica. Esses conjuntos de dados contêm pistas vitais para muitas das questões mais urgentes que os cientistas enfrentam hoje e podem lançar uma nova luz sobre descobertas passadas – validando ou invalidando o registro existente da ciência e abrindo possibilidades para novas pesquisas e novos entendimentos. No entanto, esse tipo de informação muitas vezes desaparece durante o processo de publicação de descobertas científicas, seja porque os dados não são compartilhados ou não são disponibilizados em um formato de fácil acesso e interrogatório.
“Na ciência, muitos trabalhos maravilhosos acabam publicados como documentos PDF. Ser capaz de imprimir e ler um artigo é ótimo para humanos, mas muitas informações que foram usadas para construir o que é relatado no PDF acabam escondidas. Se quisermos ter uma visão geral e observar todos os experimentos que foram feitos e relatados na literatura relacionados a um determinado processo ou reação, é muito difícil extrair todas essas informações de todos esses PDFs ,' explica Simon Hodson, Diretor Executivo da ISC-CODATA.
Nas palavras do químico Peter Murray-Rust, obter informações úteis de PDFs pode ser como 'reconstruir uma vaca a partir de um hambúrguer de carne bovina'.

Há uma riqueza de dados científicos que foram produzidos ao longo de muitos anos de pesquisa, mas em muitos casos, não é possível - e certamente não é fácil - encontrar esses dados e consultá-los para compará-los com outras descobertas ou trabalhos em andamento. Diante desse enigma, e de acordo com o imperativo da ciência aberta, os pesquisadores estão atualmente trabalhando para habilitar ainda mais a ciência orientada por dados por meio de estruturas que suportam a acessibilidade e a interoperabilidade dos dados.
Uma das abordagens mais recentes e proeminentes para fazer isso é o FAIR, que encapsula o que os dados precisam ser para serem tão úteis e valiosos quanto possível: dados FAIR são dados que são Finabalável; Aacessível; Iinteroperável e Re-utilizável.
'Encontrável' significa que os dados científicos que são publicados como parte das evidências subjacentes às descobertas científicas, ou produzidos como resultado de pesquisas com financiamento público, devem estar disponíveis para outros encontrarem e usarem. Os dados devem ter um identificador persistente e inequívoco, bem como metadados suficientemente ricos para permitir a descoberta.
“Existem boas razões para proteger alguns dados”, diz Simon Hodson, “mas onde essas considerações não se aplicam, os princípios FAIR significam que você deve poder acessar os dados pela web, talvez com autorização se houver problemas de segurança . Fundamentalmente, os princípios FAIR sustentam que os cientistas devem ser capazes de acessar dados de pesquisa programaticamente, ou seja, também por meio de suas máquinas. Não é apenas que você pode obter os dados e baixá-los: o ideal é que você possa consultá-los com código de computador.”
O i em FAIR refere-se a 'interoperável' – o que significa que você pode combinar dados de diferentes fontes: isso depende muito de ter padrões para metadados e terminologias ou vocabulários acordados. Por exemplo, os metadados de uma pesquisa social de um determinado país explicariam claramente as categorias de idade ou categorias socioeconômicas que foram usadas e onde estão os limites da categoria, para que os dados possam ser facilmente comparados com os dados de uma pesquisa social em um país diferente.
R significa reusabilidade: isso inclui ter uma licença que permite que as pessoas reutilizem os dados e declare claramente as condições de qualquer reutilização. Também significa ter informações sobre a proveniência dos dados (por exemplo, como eles foram coletados, quais ajustes ou calibrações foram usados, quais processamentos e limpezas os dados sofreram etc.) os dados e usá-los com confiança.
Os dados FAIR também são 'Totalmente AI Ready'. Para usar o aprendizado de máquina para identificar padrões e começar a prever resultados em diferentes conjuntos de dados, é essencial ter definições para diferentes variáveis no conjunto de dados, e as definições precisam ser facilmente acessíveis.
“Quando os dados e serviços relacionados são FAIR, então tudo é descrito para que o computador – e qualquer pessoa que use o código – saiba qual definição foi usada para o conceito e variável relacionada, a forma como as medições foram obtidas e a valoriza a si mesmo. Então podemos interagir com o código de dados, talvez decompondo-o, pegando um subconjunto, combinando-o com outros dados. Se os dados forem JUSTOS, isso pode ser feito com muito mais eficiência e a própria análise e pesquisa se beneficia”, diz Simon Hodson.
A ideia de ter vocabulários padronizados com os quais expressar os conceitos centrais em vários domínios da ciência não é nova. o União Internacional de Química Pura e Aplicada (IUPAC), membro do ISC, vem respondendo à necessidade de padronização internacional em química desde sua fundação em 1919. Hoje, é imperativo que os vocabulários padrão sejam adaptados à era digital e sejam eles próprios FAIR. Como resultado de um workshop organizado com a iniciativa Data Documentation, um grupo liderado por Simon Cox (ex-membro do Comitê Executivo CODATA e especialista no uso de terminologias) publicou 'Dez regras simples para fazer um vocabulário JUSTO'.
Seguindo essas diretrizes, a CODATA está atualmente trabalhando em um vocabulário FAIR para o Perfis de informação de perigo publicado pelo ISC em outubro de 2021. Isso criará uma terminologia baseada na web para todos os perigos descritos, que será disponibilizada no GitHub e por meio do serviço Research Vocabularies Australia, para qualquer pessoa usar. Isso significa que os governos que desenvolvem suas estratégias e ações de redução e gestão de riscos poderão comparar rapidamente os dados com suas próprias estatísticas sobre perdas por desastres ou estruturas de relatórios, por exemplo.
A CODATA também está trabalhando em vocabulários FAIR com vários membros diferentes do ISC, como com a União Internacional para o Estudo Científico da População (IUSSP). A demografia é um campo rico em dados e é altamente relevante para entender o desenvolvimento humano sustentável. Ao tornar FAIR as terminologias-chave da ciência populacional, o IUSSP contribuirá para tornar os dados demográficos mais úteis para agências estatísticas e cientistas sociais, bem como para aqueles que usam esses dados em muitos campos de estudo que usam dados populacionais, incluindo a maioria das áreas relacionadas ao Desenvolvimento Sustentável Objetivos de Desenvolvimento (ODS).
A CODATA também realizará um trabalho semelhante com a IUPAC como parte do novo projeto de dois anos 'Feira mundial: Cooperação global na política e prática de dados FAIR', financiado pela Comissão Europeia através do seu Programa-Quadro Horizonte Europa. Coordenado por CODADOS, Com o Aliança de dados de pesquisa como um parceiro importante, o projeto WorldFAIR trabalhará com um conjunto de onze estudos de caso de domínio e domínio cruzado para avançar na implementação dos princípios de dados FAIR, em particular aqueles para interoperabilidade, e desenvolver um conjunto de recomendações e uma estrutura para FAIR avaliação em um conjunto de disciplinas, ou áreas de pesquisa interdisciplinar. WorldFAIR será o núcleo da contribuição da CODATA para o Projeto ISC Fazendo os dados funcionarem para grandes desafios entre domínios.
A IUPAC está liderando o estudo de caso de química, analisando como tornar os ativos de informação e terminologias que a IUPAC seleciona apropriados para a era da digitalização e dados FAIR. A IUPAC também se envolverá com outros estudos de caso da WorldFAIR sobre nanomateriais e geoquímica.
Outro parceiro da WorldFAIR é a Drexel University, EUA, que liderou o projeto Salud Urbana en América Latina (“Saúde Urbana na América Latina”) (SALURBAL). A SALURBAL desenvolveu um conjunto de dados de vários países sobre domínios como características demográficas, taxas de mortalidade, comportamentos e riscos de saúde, o ambiente social e o ambiente construído, permitindo comparações de cidades e bairros dentro de cidades da América Latina. Esse recurso incrível permitirá pesquisas relevantes para políticas sobre os impulsionadores da saúde e das desigualdades em saúde nas cidades da região. A SALURBAL já realizou um extenso trabalho de harmonização de dados. WorldFAIR ajudará a lançar mais luz sobre este trabalho e fará recomendações para terminologias FAIR em saúde urbana.
Você também pode estar interessado em

Série de podcasts CAG-CEPT, CODATA e UHWB sobre 'Ação de conhecimento de dados para sistemas urbanos
A série de podcasts Data-Knowledge-Action for Urban Systems explora os sistemas usados para construir sistemas urbanos inteligentes. A série reflete sobre as mudanças sistemáticas necessárias para que as cidades se tornem adaptáveis e inteligentes para lidar com o bem-estar urbano. É hospedado pelo Centro de Geomática Aplicada, CODATA e Programa de Saúde e Bem-Estar Urbano (UHWB).
Nos dias 15 e 16 de fevereiro, Simon Hodson deu um briefing sobre o trabalho da CODATA como parte da sessão de compartilhamento de conhecimento para os membros do ISC sobre Convergindo Ciência e Tecnologia na Era Digital.
Você pode descobrir mais sobre o projeto WorldFAIR, sobre o trabalho da CODATA em vocabulários FAIR e sobre iniciativas em várias disciplinas de pesquisa para tornar os ativos de dados e informações FAIR em Semana Internacional de Dados de 2022, 20 a 23 de junho.
Imagem por École polytechnique – J.Barande via Flickr.