¿Qué hay en el horizonte para los servicios de datos científicos? Lo último del Sistema Mundial de Datos

El Sistema Mundial de Datos promueve la administración a largo plazo y el acceso universal y equitativo a datos científicos y servicios de datos, productos e información de calidad garantizada en todas las disciplinas.

En las fronteras de los datos polares

El último año ha sido un período de transición para la Sistema mundial de datos (WDS), un organismo afiliado de ISC.

La Oficina de Programas Internacionales (IPO) se ha mudado a Knoxville, Tennessee, y Meredith Goins ha sido nombrada Directora Ejecutiva. Se contrataron otros tres miembros del personal, y el Comité Científico del programa también tiene varios miembros nuevos.  

Nos reunimos con David Castle, presidente del Comité Científico de WDS; Karen Payne, Directora de la Oficina de Tecnología Internacional de WDS; Suzie Allard, directora del Centro de Estudios de la Información y la Comunicación de la Universidad de Tennessee, donde ahora tiene su sede WDS IPO, y Meredith Goins, para obtener más información. 

¿Cuál ha sido el impacto de los cambios recientes en las actividades de WDS? 

David: Este es un período de consolidación y enfoque. Hace cuatro o cinco años, creamos la Oficina Internacional de Tecnología (ITO) de WDS en la Universidad de Victoria, en Ocean Networks Canada, que es una importante instalación de investigación y miembro de WDS. Reclutamos a Karen para que sea la Directora Asociada de ITO, y eso nos inició en el camino de poder brindar más volumen y servicios diversificados a nuestros miembros. En el último año, la IPO se mudó de Tokio a Tennessee con el apoyo de la Universidad de Tennessee y el Laboratorio Nacional de Oak Ridge, así como del Departamento de Energía (DOE).  

Suzie: Las dos oficinas están trabajando muy bien juntas, y el apoyo que podemos brindar a los miembros es aún mayor porque las actividades se coordinan muy de cerca. Eso nos da un gran potencial para el futuro. 

David: Alrededor de la mitad de los miembros del Comité Científico también han cambiado en el último año. Hemos agregado algunas personas nuevas clave para que se unan a los miembros que regresan, todos los cuales están instalados en el mundo de los repositorios de datos. En los últimos años, hemos puesto al WDS sobre una base sólida desde la cual podremos lanzar actividades programáticas y lograr una alineación con los planes de acción de ISC.

Estamos tratando de entender dónde están ahora los repositorios y los datos y hacia dónde se dirigirán en el próximo período. Esto incluye plantear preguntas sobre la procedencia de los datos, cómo se administran y cómo se mantienen seguros. Estamos trabajando en aspectos técnicos relacionados, como los objetos de datos FAIR, en asociación con CODATA, y cómo trabajar juntos para generar estándares y expectativas de interoperabilidad para ellos. 

También nos enfrentamos a un desafío que no siempre se menciona: existe la creencia y la expectativa de que una vez que las cosas estén en línea y disponibles, persistirán de forma gratuita. Por supuesto que esto no es cierto. Para cumplir con la expectativa de que los datos serán abiertos y accesibles en la mayor medida posible, debemos tener conversaciones francas sobre de dónde provendrán los recursos. Este es un problema para nuestros miembros, y una prioridad importante para nosotros es cómo definimos el tremendo valor que los repositorios aportan a nivel nacional e internacional de una manera que ayudará a los repositorios a comprometerse con financiadores que puedan respaldar planes sostenibles para hacer que esos datos estén disponibles.  

Otra prioridad importante es hacer que nuestra membresía sea más representativa a nivel mundial. La membresía de la WDS proviene predominantemente del Norte Global, y tiene sentido que colaboremos con el ISC y CODATA para hacer un balance de las actividades en África, América Latina y del Sur y el Sudeste Asiático y para identificar potencialmente nuevos miembros para la WDS. También estamos trabajando con otros grupos que brindan servicios de datos en diferentes modalidades además de mantener un repositorio.  

Meredith: Otra forma en que estamos haciendo que nuestra membresía sea más representativa es identificar repositorios de una variedad de áreas temáticas, además de las ciencias biológicas y de la tierra, para aumentar la diversidad de nuestros miembros. Los repositorios de ciencias sociales y humanidades digitales son tan valiosos como las ciencias naturales. Al aumentar nuestra diversidad de miembros, podemos aumentar nuestro soporte para todo tipo de repositorios.  

Karen: Estamos teniendo un gran impulso en algunos servicios federados. Por ejemplo, para la investigación polar tenemos la oportunidad de hacer que los datos de ambos polos estén disponibles para los investigadores de una manera que esté completamente alineada, lo cual es tremendamente emocionante: es algo en lo que la comunidad ha estado trabajando durante mucho tiempo y nos complace estar aparte de eso. 

Los servicios federados para datos polares se dividen en dos partes: la búsqueda federada, que se ha utilizado durante mucho tiempo con la recopilación de metadatos tradicional, y un nuevo conjunto de protocolos y procesos para la recopilación de metadatos que está más orientado a la web. Es menos un catálogo tradicional de servicios, y más en la línea de lo que encontraría para la Búsqueda de Google. La infraestructura que construimos nos permite enviar rastreadores para indexar las páginas de destino de los repositorios de datos que han implementado un tipo particular de marcado en sus páginas de destino de metadatos. Brindamos a los investigadores la capacidad de buscar datos tanto del Ártico como de la Antártida, y trabajamos con las comunidades de investigación para asegurarnos de que las ontologías que implementan (el marcado) también estén alineadas. 

Asegurar la financiación para ese tipo de trabajo es realmente complicado. Es un proyecto internacional, por lo que hay muchas conversaciones sobre financiación en diferentes áreas. Aquí en Canadá están buscando diferentes modelos de financiamiento, tanto para inversiones nacionales como para que puedan ser parte de un conjunto cooperativo mundial de financiadores. Por ejemplo, uno de los modelos que están revisando es la Coalición Global de Biodatos, que está diseñada para coordinar la financiación mundial de recursos clave en las ciencias de la vida. 

También tenemos un grupo de trabajo dentro de Research Data Alliance que analiza lo que llamamos Global Open Research Commons. Existen diferentes organizaciones nacionales, pannacionales y de dominio específico que intentan orquestar el acceso y la interoperabilidad a recursos como conjuntos de datos, software y recursos computacionales. A nivel nacional, tiene sentido tener una buena estructura de gobierno y una hoja de ruta para todas sus inversiones en investigación, por lo que se ven organizaciones como Australian Research Data Commons o la infraestructura japonesa coordinada en el Instituto Nacional de Informática. A nivel nacional, se ven proyectos ambiciosos como la Nube Europea de Ciencia Abierta y la Plataforma Africana de Ciencia Abierta. Y dominios como la Alianza Internacional de Observatorios Virtuales que sirve a los astrónomos a nivel mundial son todos muy importantes para apoyar a sus respectivas comunidades de investigación. El objetivo del grupo RDA es crear una hoja de ruta sobre cómo estos bienes comunes pueden compartir recursos sin problemas para que sea más fácil para los científicos trabajar juntos a nivel mundial por el bien común. Estamos construyendo sobre un trabajo que ha estado ocurriendo durante mucho tiempo, pero realmente se siente como si hubiera mucha motivación para juntar estas piezas ahora. 

¿Puede explicar qué significará la búsqueda federada para los investigadores que intentan acceder a los datos en cuestión, por ejemplo, para la investigación polar? ¿Qué cambiará? 

Karen: En este momento, los investigadores tienen que ir a diferentes lugares para encontrar datos. Y luego, una vez que encuentra esos datos, dedica tiempo a armonizar su estructura y luego verifica dos veces el contenido para asegurarse de que comprende cuál es el significado semántico de las variables medidas en los datos. Este es un primer intento de hacer que ese proceso sea más cohesivo y accionable por máquina. Que yo sepa, este es el único portal que permite a los usuarios buscar datos de ambos polos simultáneamente. En este momento, estamos enfocados en la búsqueda y el descubrimiento de conjuntos de datos y en traer más repositorios al índice. Anticipamos que la infraestructura evolucionará para respaldar o alimentar otras iniciativas, como el Consorcio Canadiense para la Interoperabilidad de Datos del Ártico (CCADI) que está construyendo herramientas mejoradas de visualización y análisis. Queremos apoyar a nuestros socios, no reinventar la rueda. 

Suzie: La IPO se compromete a correr la voz sobre todos los tipos de trabajo que está haciendo Karen y asegurarse de que esté bien difundido. También estamos trabajando para que todos se pongan al día organizando talleres o capacitaciones y creando oportunidades para que las personas participen. El ITO está haciendo un trabajo de vanguardia junto con todos estos diferentes grupos. Y la IPO está ayudando a garantizar que todos sepan lo que sucede a medida que continuamos construyendo estos grandes repositorios.

¿Dónde ve el trabajo en repositorios y datos hoy? ¿Y adónde va? ¿Cuáles son los nuevos desafíos o cosas en las que la gente tendrá que pensar en los próximos cinco a diez años? 

David: Hay cosas concretas que hay que hacer. Uno de ellos es garantizar que nuestros repositorios de miembros sean seguros. Ese es un factor crítico para poder garantizar la integridad de los datos, que sustenta toda la ciencia. Otra es que los volúmenes de datos han crecido tan significativamente que los viejos modelos de mover datos a donde realmente trabajaría con ellos en un entorno informático de alto rendimiento ahora se están cambiando. Ahora es el caso de que necesitamos encontrar formas de poder analizar datos in situ, acercando la computadora a los datos. Un desafío es ayudar a los repositorios de WDS a estar habilitados para la nube.  

La otra parte de esto tiene que ver con la capacidad y las competencias de la fuerza laboral, como la movilización de científicos de datos, científicos de investigación técnica y administradores de datos. Estos son roles en evolución dentro de la empresa científica que deben monitorearse cuidadosamente para garantizar que se cuente con las competencias adecuadas y que tengamos la educación y la capacitación para brindar a las personas interesadas. 

Karen: Mucha gente está trabajando en componentes que permitirían a los investigadores alejarse de la publicación de artículos estáticos en revistas y, en cambio, crear un artículo reproducible que esté disponible en línea. Alguien podría publicar un dato o hacer un análisis, luego escribirlo y publicarlo como un tipo de paquete fácilmente reutilizable que otra persona puede tomar para reproducir los mismos resultados, lo cual es importante para hacer las afirmaciones. de la ciencia verificable, o para reutilizarlo de una nueva manera. Alguien podría tomar el paquete, conectar un dato diferente o cambiar un parámetro en un software de análisis y crear un nuevo resultado que publicar. Entonces se trata de una atomización de los datos y los componentes del software, para que puedas tomar partes de las cosas y publicarlas fácilmente. El documento reproducible ayuda a resolver problemas con la reproducibilidad de los resultados, la reutilización de datos y la posible redundancia de la investigación. 

Ve esa tendencia en el desarrollo de software, donde hay una desagregación de las API (interfaces de programación de aplicaciones) en el back-end, para que pueda usar partes de ellas. Dentro de la comunidad de gestión de datos hay una idea similar en torno a los objetos digitales FAIR: ya no desea publicar todo este conjunto de datos descargables, desea proporcionar un servicio de datos para cada observación o medición y desea que esas mediciones sean procesables por la máquina, por lo que que puede seleccionar y elegir qué observaciones desea usar sin mucho procesamiento de su parte: los datos deben presentarse en su forma más accesible. 

Los componentes, como los datos, deben ser desagregados y atomizados y accesibles tanto para humanos como para máquinas dondequiera que estén distribuidos en todo el mundo. Desde el punto de vista de un investigador y un tecnólogo, todo sucede de abajo hacia arriba. Hay casi demasiado en lo que pensar, por lo que se trata de cómo haces pequeños avances para que tenga sentido. La Unión Geofísica Estadounidense (AGU), en particular, ha hecho un muy buen trabajo al centrarse en los cuadernos computacionales como un primer paso para ver cómo podría suceder un papel reproducible. Ese es un gran caso de uso para lo que se convertirá en infraestructuras mucho más complejas. 

Es mucho para asumir y, a veces, es difícil saber exactamente dónde poner su atención. Pero es de esperar que esa sea una de las propuestas de valor con las que WDS IPO e ITO pueden ayudar a nuestros miembros. 

¿Cómo pueden los lectores obtener más información sobre WDS y cómo pueden participar en sus actividades o convertirse en miembros? 

David: Meredith ha estado pensando en esto. Hemos intensificado nuestras comunicaciones periódicas con nuestros miembros y estamos mejorando nuestro sitio web con actualizaciones más periódicas, que continuarán. También habrá una gran cantidad de otras actividades a medida que la OPI cuente con todo el personal y una vez que se publique nuestro plan de acción de dos años. 

Meredith: Además de relanzar nuestras redes sociales, actualmente estamos finalizando y probando un sitio web rediseñado. Las iniciativas futuras incluyen seminarios web educativos y de divulgación para nuestros repositorios miembros, socios y organizaciones asociadas de WDS. Además, tenemos un boletín quincenal para miembros, comunicaciones urgentes sobre oportunidades enviadas por correo electrónico a los miembros, y esperamos crear un informe anual para la organización, algo que no ha ocurrido desde 2015-2016. También lanzaremos conjuntamente el premio WDS Data Stewardship y el ITO Data Prize al mismo tiempo este año para brindarles a los ingenieros y científicos principiantes dos oportunidades para mostrar su excelencia con los datos.


Imagen de NASA a través de Flickr.

Compartir:

Ir al contenido