Qu'est-ce qui se profile à l'horizon pour les services de données scientifiques ? Les dernières nouveautés du World Data System

Le Système mondial de données promeut la gestion à long terme et l'accès universel et équitable à des données scientifiques de qualité garantie et à des services, produits et informations dans toutes les disciplines.

Qu'est-ce qui se profile à l'horizon pour les services de données scientifiques ? Les dernières nouveautés du World Data System

L'année dernière a été une période de transition pour le Système mondial de données (WDS), un organisme affilié à l'ISC.

Le Bureau du programme international (IPO) a déménagé à Knoxville, Tennessee, et Meredith Goins a été nommée directrice exécutive. Trois autres membres du personnel ont été recrutés et le comité scientifique du programme compte également plusieurs nouveaux membres.  

Nous avons rencontré David Castle, président du comité scientifique du WDS ; Karen Payne, directrice du Bureau international de la technologie WDS ; Suzie Allard, directrice du Center for Information & Communication Studies de l'Université du Tennessee, où l'introduction en bourse de WDS est désormais basée, et Meredith Goins, pour en savoir plus. 

Quel a été l'impact des changements récents sur les activités WDS ? 

David : C'est une période de consolidation et de concentration. Il y a quatre ou cinq ans, nous avons créé le WDS International Technology Office (ITO) à l'Université de Victoria, chez Ocean Networks Canada, qui est un important centre de recherche et membre du WDS. Nous avons recruté Karen pour être la directrice associée de l'ITO, et cela nous a permis de fournir plus de volume et des services diversifiés à nos membres. L'année dernière, l'introduction en bourse est passée de Tokyo au Tennessee avec le soutien de l'Université du Tennessee et du laboratoire national d'Oak Ridge, ainsi que du Département de l'énergie (DOE).  

Suzie : Les deux bureaux travaillent très bien ensemble, et le soutien que nous pouvons apporter aux membres est d'autant plus important que les activités sont étroitement coordonnées. Cela nous donne un grand potentiel pour l'avenir. 

David : Environ la moitié des membres du comité scientifique ont également changé au cours de la dernière année. Nous avons ajouté quelques nouvelles personnes clés pour rejoindre les membres qui reviennent, qui sont tous installés dans le monde des référentiels de données. Au cours des dernières années, nous avons mis le WDS sur une base solide à partir de laquelle nous pourrons lancer une activité programmatique et réaliser un alignement avec les plans d'action de l'ISC.

Nous essayons de comprendre où se trouvent actuellement les référentiels et les données et où ils vont aller dans la période à venir. Cela inclut de soulever des questions sur la provenance des données, leur gestion et leur sécurité. Nous travaillons sur des aspects techniques connexes tels que les objets de données FAIR, en partenariat avec CODATA, et sur la manière de travailler ensemble pour créer des normes et des attentes d'interopérabilité pour ceux-ci. 

Nous sommes également confrontés à un défi qui n'est pas toujours mentionné : il y a une croyance et une attente qu'une fois que les choses seront en ligne et rendues disponibles, elles persisteront gratuitement. Ceci n'est bien sûr pas vrai. Pour répondre à l'attente que les données seront ouvertes et accessibles dans toute la mesure du possible, nous devons avoir des conversations franches sur la provenance des ressources. C'est un problème pour nos membres, et une priorité majeure pour nous est de définir la valeur considérable que les référentiels apportent à l'échelle nationale et internationale d'une manière qui aidera les référentiels à s'engager avec des bailleurs de fonds qui peuvent soutenir des plans durables pour rendre ces données disponibles.  

Une autre priorité majeure est de rendre nos membres plus représentatifs à l'échelle mondiale. Les membres de WDS proviennent principalement du Nord, et il est logique pour nous de collaborer avec l'ISC et CODATA pour faire le point sur les activités en Afrique, en Amérique latine et du Sud et en Asie du Sud-Est et éventuellement identifier de nouveaux membres pour WDS. Nous travaillons également avec d'autres groupes qui fournissent des services de données selon des modalités différentes de celles qui soutiennent un référentiel.  

Meredith : Une autre façon de rendre nos membres plus représentatifs est d'identifier des référentiels dans une variété de domaines, en plus des sciences biologiques et de la terre, afin d'accroître la diversité de nos membres. Les référentiels des sciences sociales et des humanités numériques sont tout aussi précieux que les sciences naturelles. En augmentant la diversité de nos membres, nous pouvons augmenter notre prise en charge de tous les types de référentiels.  

Karen : Nous avons une grande poussée sur certains services fédérés. Par exemple, pour la recherche polaire, nous avons l'opportunité de mettre les données des deux pôles à la disposition des chercheurs d'une manière totalement alignée, ce qui est extrêmement excitant : c'est quelque chose sur lequel la communauté travaille depuis longtemps et nous sommes heureux d'être à part ça. 

Les services fédérés pour les données polaires se divisent en deux parties : la recherche fédérée, qui existe depuis longtemps avec la collecte de métadonnées traditionnelle, et un nouvel ensemble de protocoles et de processus de collecte de métadonnées qui est davantage orienté Web. Il s'agit moins d'un catalogue de services traditionnel que de ce que vous trouveriez pour la recherche Google. L'infrastructure que nous avons construite nous permet d'envoyer des crawlers pour indexer les pages de destination des référentiels de données qui ont implémenté un type particulier de balisage sur leurs pages de destination de métadonnées. Nous offrons aux chercheurs la possibilité de rechercher des données provenant à la fois de l'Arctique et de l'Antarctique, et de travailler avec les communautés de recherche pour nous assurer que les ontologies qu'ils implémentent (le balisage) sont également toutes alignées. 

Obtenir un financement pour ce genre de travail est vraiment délicat. C'est un projet international, donc il y a beaucoup de discussions sur le financement dans différents domaines. Ici, au Canada, ils envisagent différents modèles de financement, tant pour les investissements nationaux que pour faire partie d'un ensemble coopératif mondial de bailleurs de fonds. Par exemple, l'un des modèles qu'ils examinent est la Global Biodata Coalition qui est conçue pour coordonner le financement mondial des ressources clés dans les sciences de la vie. 

Nous avons également un groupe de travail au sein de la Research Data Alliance qui examine ce que nous appelons le Global Open Research Commons. Il existe différentes organisations nationales, pannationales et spécifiques à un domaine qui tentent d'orchestrer l'accès et l'interopérabilité à des ressources telles que des ensembles de données, des logiciels et des ressources informatiques. Au niveau national, il est logique d'avoir une bonne structure de gouvernance et une feuille de route pour tous leurs investissements dans la recherche, vous voyez donc des organisations comme l'Australian Research Data Commons ou l'infrastructure japonaise coordonnée à l'Institut national d'informatique. À l'échelle pannationale, vous voyez des projets ambitieux comme le European Open Science Cloud et la African Open Science Platform. Et des domaines comme l'International Virtual Observatory Alliance qui sert les astronomes du monde entier sont tous très importants pour soutenir leurs communautés de recherche respectives. L'objectif du groupe RDA est de créer une feuille de route sur la manière dont ces biens communs peuvent partager les ressources de manière transparente afin qu'il soit plus facile pour les scientifiques de travailler ensemble à l'échelle mondiale pour le plus grand bien. Nous nous appuyons sur un travail qui dure depuis longtemps, mais on a vraiment l'impression qu'il y a beaucoup de motivation pour rassembler ces pièces maintenant. 

Pouvez-vous expliquer ce que signifiera la recherche fédérée pour les chercheurs qui essaient d'accéder aux données en question, par exemple pour la recherche polaire? Qu'est-ce qui va changer ? 

Karen : À l'heure actuelle, les chercheurs doivent se rendre à différents endroits pour trouver des données. Et puis une fois que vous avez trouvé ces données, vous passez du temps à harmoniser leur structure, puis à revérifier le contenu pour vous assurer que vous comprenez la signification sémantique des variables mesurées dans les données. Il s'agit d'une première tentative pour rendre ce processus plus cohérent et exploitable par la machine. A ma connaissance c'est le seul portail qui permet aux utilisateurs de rechercher des données des deux pôles simultanément. À l'heure actuelle, nous nous concentrons sur la recherche et la découverte d'ensembles de données et sur l'intégration de davantage de référentiels dans l'index. Nous prévoyons que l'infrastructure évoluera pour soutenir ou alimenter d'autres initiatives, comme le Consortium canadien pour l'interopérabilité des données dans l'Arctique (CCADI) qui élabore des outils de visualisation et d'analyse améliorés. Nous voulons soutenir nos partenaires, pas réinventer la roue. 

Suzie : L'IPO s'engage à faire connaître tous les types de travail que Karen fait et à s'assurer qu'ils sont bien diffusés. Nous nous efforçons également de mettre tout le monde au courant en organisant des ateliers ou des formations et en créant des opportunités pour les gens de participer. L'ITO fait un travail de pointe avec tous ces différents groupes. Et l'introduction en bourse contribue à faire en sorte que tout le monde sache ce qui se passe alors que nous continuons à construire ces grands référentiels.

Où voyez-vous le travail sur les référentiels et les données aujourd'hui ? Et où va-t-il ? Quels sont les nouveaux défis ou choses auxquels les gens devront réfléchir au cours des cinq à dix prochaines années ? 

David : Il y a des choses concrètes à faire. L'un d'eux consiste à s'assurer que nos référentiels membres sont sécurisés. C'est un facteur essentiel pour pouvoir garantir l'intégrité des données, qui sous-tend toute science. Une autre est que les volumes de données ont tellement augmenté que les anciens modèles de déplacement des données vers l'endroit où vous les utiliseriez réellement dans un environnement informatique à hautes performances sont désormais renversés. C'est maintenant le cas que nous devons trouver des moyens d'être en mesure d'analyser les données sur place, amenant l'ordinateur aux données. Un défi consiste à aider les référentiels WDS à devenir compatibles avec le cloud.  

L'autre partie concerne la capacité et les compétences de la main-d'œuvre, telles que la mobilisation de data scientists, de chercheurs techniques et de data stewards. Ce sont des rôles en évolution au sein de l'entreprise scientifique qui doivent être surveillés attentivement afin de s'assurer que les bonnes compétences sont en place et que nous avons l'éducation et la formation à offrir aux personnes intéressées. 

Karen : Beaucoup de gens travaillent sur des composants qui permettraient aux chercheurs de s'éloigner de la publication d'articles statiques dans des revues et de créer à la place un article reproductible disponible en ligne. Quelqu'un pourrait publier une donnée ou faire une analyse, puis l'écrire et la publier sous la forme d'un type de package facilement réutilisable qui peut être repris par quelqu'un d'autre pour reproduire les mêmes résultats, ce qui est important pour faire les affirmations de la science vérifiable, ou de le réutiliser d'une manière nouvelle. Quelqu'un pourrait prendre le package, brancher une autre donnée ou modifier un paramètre sur un logiciel d'analyse et créer un nouveau résultat qu'il publierait. Il s'agit donc d'une atomisation des données et des composants logiciels, de sorte que vous pouvez prendre des éléments et les publier facilement. L'article reproductible aide à résoudre les problèmes de reproductibilité des résultats, de réutilisation des données et de redondance potentielle de la recherche. 

Vous voyez cette tendance dans le développement de logiciels, où il y a une désagrégation des API (Application Programming Interfaces) sur le back-end, de sorte que vous pouvez en utiliser des parties. Au sein de la communauté de gestion des données, il y a une idée similaire autour des objets numériques FAIR - vous ne voulez plus publier tout cet ensemble de données téléchargeables, vous voulez fournir un service de données à chaque observation ou mesure et vous voulez rendre ces mesures exploitables par la machine, donc que vous pouvez choisir les observations que vous souhaitez utiliser sans beaucoup de traitement de votre part - les données doivent être présentées sous leur forme la plus accessible. 

Les composants, comme les données, doivent être désagrégés et atomisés et accessibles à la fois par les humains et les machines, où qu'ils soient répartis dans le monde. Du point de vue d'un chercheur et d'un technologue, tout se passe de bas en haut. Il y a presque trop de choses à penser, alors il s'agit de savoir comment vous faites de petites incursions pour le rendre significatif. L'American Geophysical Union (AGU), en particulier, a fait un très bon travail en se concentrant sur les cahiers de calcul comme première étape pour voir comment un article reproductible pourrait se produire. C'est un très bon cas d'utilisation pour ce qui deviendra des infrastructures beaucoup plus complexes. 

C'est beaucoup à assumer, et il est parfois difficile de savoir exactement où se concentrer. Mais c'est, espérons-le, l'une des propositions de valeur avec lesquelles l'introduction en bourse et l'ITO de WDS peuvent aider nos membres. 

Comment les lecteurs peuvent-ils en savoir plus sur WDS et comment ils peuvent s'impliquer dans vos activités ou devenir membres ? 

David : Meredith y a réfléchi. Nous avons intensifié nos communications périodiques avec nos membres et améliorons notre site Web avec des mises à jour plus régulières, qui se poursuivront. Il y aura également toute une série d'autres activités au fur et à mesure que l'IPO sera entièrement doté en personnel et une fois que notre plan d'action de deux ans sera publié. 

Meredith : En plus de relancer nos médias sociaux, nous finalisons et testons actuellement un site Web repensé. Les initiatives futures comprennent des webinaires de sensibilisation et de formation pour nos référentiels membres WDS, nos partenaires et les organisations associées. De plus, nous avons un bulletin d'information bihebdomadaire pour les membres, des communications urgentes sur les opportunités envoyées par e-mail aux membres, et nous sommes impatients de créer un rapport annuel pour l'organisation, ce qui ne s'est pas produit depuis 2015-2016. Nous co-lancerons également le prix WDS Data Stewardship et le prix ITO Data au même moment cette année pour donner aux ingénieurs et scientifiques en début de carrière deux opportunités de montrer leur excellence avec les données.


Image NASA via Flickr.

VOIR TOUS LES ARTICLES CONNEXES

Passer au contenu