Implementació dels principis de dades FAIR: què hi ha darrere de l'acrònim?

Hem parlat amb Simon Hodson, director executiu del Comitè de Dades de l'ISC (CODATA) per obtenir més informació.

Implementació dels principis de dades FAIR: què hi ha darrere de l'acrònim?

Les dades que sustenten la investigació científica són les que impulsen els avenços en la comprensió científica. Aquests conjunts de dades contenen pistes vitals per a moltes de les qüestions més urgents a què s'enfronten els científics d'avui, i poden aportar una nova llum sobre les troballes anteriors, ja sigui validant o invalidant el registre de ciència existent i obrint possibilitats per a noves investigacions i noves comprensió. No obstant això, aquest tipus d'informació sovint desapareix durant el procés de publicació de les troballes científiques, ja sigui perquè les dades no es comparteixen o no es posen a disposició en un format de fàcil accés i consulta.

"En ciència, moltes obres meravelloses acaben publicades com a documents PDF. Poder imprimir i llegir un article és fantàstic per als humans, però molta informació que va servir per construir el que s'informa al PDF acaba amagada. Si volem tenir una visió general i mirar tots els experiments que s'han fet i s'han informat a la literatura relacionats amb un procés o reacció determinat, ens costa molt extreure tota aquesta informació de tots aquests PDF. ", explica Simon Hodson, director executiu de ISC-CODATA.

En paraules del químic Peter Murray-Rust, obtenir informació útil dels PDF pot ser com "reconstruir una vaca a partir d'una hamburguesa de vedella".

Fes lliscar Dunk a través de Flickr.

Hi ha una gran quantitat de dades científiques que s'han produït al llarg de molts anys d'investigació, però en molts casos, no és possible - i certament no és fàcil - per trobar aquestes dades i consultar-les per comparar-les amb altres troballes o treballs en curs. Davant d'aquest enigma, i d'acord amb l'imperatiu de la ciència oberta, els investigadors estan treballant actualment per habilitar encara més la ciència basada en dades mitjançant marcs que donen suport a l'accessibilitat i la interoperabilitat de les dades.

Un dels enfocaments més recents i destacats per fer-ho és FAIR, que encapsula quines dades han de ser per tal que siguin el més utilitzables i valuoses possible: les dades FAIR són dades que són Findable; Aaccessible; Iinteroperable i Re-utilitzable.

"Trobable" vol dir que les dades científiques que es publiquen com a part de l'evidència que sustenten les troballes científiques, o que es produeixen com a resultat d'investigacions finançades amb fons públics, haurien d'estar disponibles perquè altres les trobin i les utilitzin. Les dades han de tenir un identificador persistent i inequívoc, així com metadades prou riques per permetre la descoberta.

"Hi ha bones raons per protegir algunes dades", diu Simon Hodson, "però quan aquestes consideracions no s'apliquen, els principis FAIR volen dir que hauríeu de poder accedir a les dades a través del web, potser amb autorització si hi ha problemes de seguretat. . De manera crucial, els principis FAIR sostenen que els científics haurien de poder accedir a les dades de recerca de manera programàtica, és a dir, també mitjançant les seves màquines. No és només que pugueu obtenir les dades i descarregar-les: idealment hauríeu de poder consultar-les amb codi informàtic".

La i a FAIR fa referència a "interoperable", és a dir, podeu combinar dades de diferents fonts: això depèn en gran mesura de tenir estàndards per a metadades i terminologies o vocabularis acordats. Per exemple, les metadades d'una enquesta social d'un país determinat explicarien clarament les categories d'edat o les categories socioeconòmiques que s'han utilitzat, i on es troben els límits de les categories, de manera que les dades es podrien comparar fàcilment amb les dades d'una enquesta social. en un país diferent.

R significa reutilitzabilitat: això inclou tenir una llicència que permeti a la gent reutilitzar les dades i estableix clarament les condicions de qualsevol reutilització. També significa tenir informació sobre la procedència de les dades (per exemple, com s'han recopilat, quins ajustos o calibracions s'han utilitzat, quins processaments i neteja posteriors han patit les dades, etc.) perquè els investigadors puguin entendre els possibles punts forts i limitacions de les dades i utilitzeu-les amb confiança.

Les dades de FAIR també són "Completament a punt per a IA". Per utilitzar l'aprenentatge automàtic per identificar patrons i començar a predir resultats en diferents conjunts de dades, és essencial tenir definicions per a diferents variables al conjunt de dades i les definicions han de ser fàcilment accessibles.

“Quan les dades i els serveis relacionats són JUSTS, aleshores tot es descriu perquè l'ordinador –i qualsevol que faci servir el codi– sàpiga quina definició s'ha fet servir per al concepte i la variable relacionada, la manera com s'han obtingut les mesures i la els mateixos valors. Aleshores podem interactuar amb el codi de dades, potser descomposant-lo, agafant un subconjunt, combinant-lo amb altres dades. Si les dades són JUSTES, això es pot fer de manera molt més eficient i l'anàlisi i la investigació en si mateixos es beneficien", diu Simon Hodson.

La idea de disposar de vocabularis estandarditzats amb els quals expressar els conceptes bàsics en diversos àmbits de la ciència no és gens nova. El Unió Internacional de Química Pura i Aplicada (IUPAC), membre de l'ISC, ha estat responent a la necessitat d'estandardització internacional en química des de la seva fundació l'any 1919. Avui dia, és imprescindible que els vocabularis estàndard s'adaptin a l'era digital i es facin per si mateixos JUSTS. Com a resultat d'un taller organitzat amb la iniciativa Data Documentation, un grup liderat per Simon Cox (antic membre del Comitè Executiu de CODATA i expert en l'ús de terminologies) va publicar 'Deu regles senzilles per fer un vocabulari FAIR'.

Seguint aquestes directrius, CODATA està treballant actualment en un vocabulari FAIR per al Perfils d'informació de perill publicat per l'ISC l'octubre de 2021. Això crearà una terminologia basada en web per a tots els perills descrits, que estarà disponible a GitHub i a través del servei Research Vocabularies Australia, perquè tothom la pugui utilitzar. Això vol dir que els governs que desenvolupin les seves estratègies i accions sobre reducció i gestió de riscos podran comparar ràpidament les dades amb les seves pròpies estadístiques sobre pèrdues de desastres o marcs d'informació, per exemple.

CODATA també està treballant en vocabularis FAIR amb diferents membres de l'ISC, com ara amb la Unió Internacional per a l'Estudi Científic de la Població (IUSSP). La demografia és un camp ric en dades i és molt rellevant per entendre el desenvolupament humà sostenible. Mitjançant que les terminologies clau en ciències de la població FAIR, la IUSSP contribuirà a fer que les dades demogràfiques siguin més útils per a les agències d'estadística i els científics socials, així com per a aquells que utilitzen aquestes dades en els molts camps d'estudi que utilitzen dades de població, incloses la majoria de les àrees relacionades amb la sostenibilitat. Objectius de Desenvolupament (ODS).

CODATA també realitzarà un treball similar amb la IUPAC com a part del nou projecte de dos anys "FIRA MUNDIAL: Cooperació global en política i pràctica de dades FAIR', finançat per la Comissió Europea a través del seu Programa Marc Horitzó Europa. Coordinat per CODATA, Amb la Aliança de dades de recerca associació com a soci principal, el projecte WorldFAIR treballarà amb un conjunt d'onze estudis de cas de domini i entre dominis per avançar en la implementació dels principis de dades FAIR, en particular els d'interoperabilitat, i per desenvolupar un conjunt de recomanacions i un marc per a FAIR. avaluació en un conjunt de disciplines o àrees de recerca transversals. WorldFAIR serà el nucli de la contribució de CODATA al projecte ISC Fer que les dades funcionin per a grans reptes entre dominis.

La IUPAC lidera l'estudi de cas de química, buscant com fer que els actius d'informació i les terminologies que IUPAC cura siguin adequats per a l'era de la digitalització i les dades FAIR. La IUPAC també col·laborarà amb altres estudis de cas de WorldFAIR sobre nanomaterials i geoquímica.

Un altre soci de WorldFAIR és Drexel University, EUA, que va liderar el projecte Salud Urbana en América Latina (“Salut Urbana a Amèrica Llatina”) (SALURBAL). SALURBAL va desenvolupar a conjunt de dades de diversos països sobre dominis com ara característiques demogràfiques, taxes de mortalitat, comportaments i riscos per a la salut, entorn social i entorn construït, que permet comparar ciutats i barris dins de ciutats d'Amèrica Llatina. Aquest increïble recurs permetrà investigacions rellevants per a les polítiques sobre els factors que impulsen la salut i les desigualtats sanitàries a les ciutats de la regió. SALURBAL ja ha fet un ampli treball en l'harmonització de dades. WorldFAIR ajudarà a fer més llum sobre aquest treball i farà recomanacions per a les terminologies FAIR en salut urbana.

També us pot interessar

Sèrie de podcasts CAG-CEPT, CODATA i UHWB sobre 'Data-Coneixement-Acció per a sistemes urbans

La sèrie de podcasts Data-Knowledge-Action for Urban Systems explora els sistemes utilitzats per construir sistemes urbans intel·ligents. La sèrie reflexiona sobre els canvis sistemàtics necessaris perquè les ciutats es tornin adaptatives i intel·ligents per gestionar el benestar urbà. Està organitzat pel Centre de Geomàtica Aplicada, CODATA i el Programa de Salut i Benestar Urbans (UHWB).


Els dies 15 i 16 de febrer, Simon Hodson va oferir una sessió informativa sobre el treball de CODATA com a part de la sessió d'intercanvi de coneixement per als membres de l'ISC sobre Convergència de ciència i tecnologia en una era digital.

Podeu obtenir més informació sobre el projecte WorldFAIR, sobre el treball de CODATA sobre vocabularis FAIR i sobre iniciatives en diverses disciplines de recerca per fer que les dades i els actius d'informació siguin FAIR a Setmana Internacional de les Dades 2022, 20-23 de juny.


Imatge de l'École polytechnique – J.Barande via Flickr.

VEURE TOTS ELS ARTICLES RELACIONATS

Anar al contingut