Efektivigo de FAIR-datumprincipoj - kio estas malantaŭ la akronimo?

Ni parolis kun Simon Hodson, Plenuma Direktoro, ISC-Komitato pri Datumoj (CODATA) por ekscii pli.

Efektivigo de FAIR-datumprincipoj - kio estas malantaŭ la akronimo?

La datumoj subtenantaj sciencan esploradon estas kio instigas progresojn en scienca kompreno. Ĉi tiuj datumaroj enhavas esencajn indicojn al multaj el la plej urĝaj demandoj alfrontantaj sciencistoj hodiaŭ, kaj povas verŝi novan lumon sur pasintaj trovoj - aŭ validigi aŭ nuligi la ekzistantan rekordon de scienco, kaj malfermi eblecojn por nova esplorado kaj nova kompreno. Tamen, ĉi tiu speco de informoj ofte malaperas dum la procezo de publikigado de sciencaj trovoj, ĉu ĉar datumoj ne estas kunhavataj, ĉu ne haveblaj en formato facile alirebla kaj pridemandita.

— En scienco, multaj mirindaj verkoj finas eldonitaj kiel PDF-dokumentoj. Povi presi kaj legi artikolon estas bonega por homoj, sed multaj informoj, kiuj eniris en la konstruadon de tio, kio estas raportita en la PDF, finiĝas kaŝitaj. Se ni volas havi grandan bildon, kaj rigardi ĉiujn eksperimentojn, kiuj estis faritaj kaj raportitaj en la literaturo rilate al certa procezo aŭ reago, estas tre malfacile por ni ĉerpi ĉiujn tiujn informojn el ĉiuj tiuj PDF-oj. ,' klarigas Simon Hodson, Plenuma Direktoro de ISC-KODATA.

En la vortoj de kemiisto Peter Murray-Rust, ricevi utilajn informojn el PDF-oj povas esti kiel "rekonstrui bovinon el bova hamburgero".

Gliti per Dunk per Flickr.

Estas amaso da sciencaj datumoj, kiuj estis produktitaj en la daŭro de multaj jaroj da esplorado, sed en multaj kazoj, ĝi ne eblas. - kaj certe ne facila - trovi tiujn datumojn kaj pridemandi ĝin por kompari ĝin kun aliaj trovoj aŭ daŭranta laboro. Fronte al ĉi tiu enigmo, kaj konforme al la malferma scienca imperativo, esploristoj nuntempe laboras por plue ebligi datuman sciencon per kadroj kiuj subtenas alireblecon kaj kunfunkcieblecon de datumoj.

Unu el la plej novaj kaj plej elstaraj aliroj por fari tion estas FAIR, kiu enkapsuligas kiajn datumojn devas esti por esti kiel eble plej uzeblaj kaj valoraj: FAIR-datumoj estas datumoj kiuj estas. Fneindebla; Aatingebla; Ininteroperable kaj Re-uzebla.

"Trovebla" signifas ke la sciencaj datumoj kiuj estas publikigitaj kiel parto de la subtena indico por sciencaj trovoj, aŭ produktitaj kiel rezulto de publike financita esplorado, devus esti haveblaj por aliaj por trovi kaj uzi. Datumoj havu konstantan kaj malambiguan identigilon, kaj ankaŭ sufiĉe riĉajn metadatenojn por ebligi malkovron.

"Estas bonaj kialoj por protekti iujn datumojn," diras Simon Hodson, "sed kie tiuj konsideroj ne validas, la FAIR-principoj signifas, ke vi devus povi aliri la datumojn per la reto, eble kun rajtigo se estas sekurecaj problemoj. . Esence, la FAIR-principoj asertas, ke sciencistoj devus povi aliri esplorajn datumojn programe, tio estas ankaŭ per siaj maŝinoj. Ne estas nur ke vi povas akiri la datumojn kaj elŝuti ĝin: vi devus ideale povi pridemandi ĝin per komputila kodo."

La i en FAIR rilatas al "interoperable" - tio signifas, ke vi povas kombini datumojn de malsamaj fontoj: tio plejparte dependas de havado de normoj por metadatenoj kaj interkonsentitaj terminologioj aŭ vortprovizoj. Ekzemple, la metadatenoj por socia enketo de antaŭfiksita lando klare klarigus la aĝkategoriojn aŭ sociekonomikajn kategoriojn kiuj estis uzitaj, kaj kie situas la kategorilimoj, tiel ke la datenoj povus esti facile komparitaj kun datumoj de socia enketo. en alia lando.

R signifas reuzeblecon: ĉi tio inkluzivas havi permesilon, kiu ebligas al homoj reuzi la datumojn kaj deklaras klare la kondiĉojn pri iu reuzo. Ĝi ankaŭ signifas havi informojn pri la deveno de la datumoj (ekzemple, kiel ĝi estis kolektita, kiaj alĝustigoj aŭ alĝustigoj estis uzitaj, kian pluan prilaboradon kaj purigadon la datumoj spertis ktp) por ke esploristoj povu kompreni la eblajn fortajn punktojn kaj limojn de la datumojn, kaj uzu ĝin kun konfido.

FAIR-datumoj ankaŭ estas 'Tute AI Ready'. Por uzi maŝinlernadon por identigi ŝablonojn kaj komenci antaŭdiri rezultojn tra malsamaj datumaroj, estas esence havi difinojn por malsamaj variabloj en la datumaro, kaj la difinoj devas esti facile alireblaj.

"Kiam datumoj kaj rilataj servoj estas JUSTAJ, tiam ĉio estas priskribita tiel ke la komputilo - kaj iu ajn uzanta la kodon - sciu kian difinon estis uzata por la koncepto kaj rilata variablo, la manieron kiel la mezuradoj estis akiritaj, kaj la valoroj mem. Tiam ni povas interagi kun la datumkodo, eble malkomponante ĝin, prenante subaron, kombinante ĝin kun aliaj datumoj. Se la datumoj estas JUSTAJ, tio povas esti farita multe pli efike kaj analizo kaj esplorado mem profitas,” diras Simon Hodson.

La ideo de havi normigitajn vortprovizojn kun kiuj esprimi la kernkonceptojn en diversaj sferoj de scienco estas neniel nova. La Internacia Unio de Pura kaj Aplikata Kemio (IUPAC), membro de la ISC, respondas al la bezono de internacia normigado en kemio ekde sia fondo en 1919. Hodiaŭ, estas nepre, ke normaj vortprovizoj estas adaptitaj al la cifereca epoko kaj mem fariĝas JUSTA. Rezulte de laborrenkontiĝo organizita kun la iniciato Data Documentation, grupo gvidata de Simon Cox (iama membro de la Plenuma Komitato de CODATA kaj fakulo pri la uzo de terminologioj) publikigis 'Dek Simplaj Reguloj por Fari Vortprovizon FAIR'.

Sekvante ĉi tiujn gvidliniojn, CODATA nuntempe laboras pri FAIR-vortprovizo por la Danĝeraj Informo-Profiloj publikigita de la ISC en oktobro 2021. Ĉi tio kreos ret-bazitan terminologion por ĉiuj priskribitaj danĝeroj, kiuj estos disponeblaj en GitHub kaj per la servo Research Vocabularies Australia, por ke iu ajn uzu. Ĉi tio signifas, ke registaroj disvolvantaj siajn strategiojn kaj agojn pri riskoredukto kaj administrado povos rapide kompari la datumojn kun siaj propraj statistikoj pri katastrofperdo aŭ raportkadroj, ekzemple.

CODATA ankaŭ laboras pri FAIR-vortprovizoj kun pluraj malsamaj ISC-Membroj, kiel ekzemple kun la Internacia Unio por la Scienca Studo de Populacio (IUSSP). Demografio estas datumriĉa kampo, kaj tre gravas por kompreni daŭripovan homan evoluon. Farante ŝlosilajn terminologiojn en populacia scienco FOIA, IUSSP kontribuos al igi demografiajn datumojn pli utilaj por statistikaj agentejoj kaj sociaj sciencistoj, same kiel tiuj uzantaj tiajn datumojn en la multaj studkampoj kiuj uzas populaciodatenojn, inkluzive de la plej multaj areoj rilataj al la Daŭripova. Evoluigaj Celoj (SDGoj).

CODATA ankaŭ faros similan laboron kun IUPAC kiel parto de la nova dujara projekto "Monda FOIRO: Tutmonda kunlaboro pri FAIR-datumpolitiko kaj praktiko', financita de la Eŭropa Komisiono per sia Kadra Programo Horizonteŭropo. Kunordigita de CODATA, Kun la Research Data Alliance asocio kiel grava partnero, la WorldFAIR-projekto laboros kun aro de dek unu domajnaj kaj transdomajnaj kazesploroj por antaŭenigi efektivigon de la FAIR-datumprincipoj, aparte tiuj por Kunfunkciebleco, kaj evoluigi aron de rekomendoj kaj kadron por FAIR. taksado en aro de disciplinoj, aŭ trans-disciplinaj esploraj areoj. WorldFAIR formos la kernon de la kontribuo de CODATA al la ISC-Projekto Farante Datumojn Funkcii Por Inter-Domajnaj Grandaj Defioj.

IUPAC gvidas la kemian kazesploron, rigardante kiel igi la informajn aktivojn kaj terminologiojn, kiujn IUPAC kuras, taŭgaj por la aĝo de ciferecigo kaj FAIR-datumoj. IUPAC ankaŭ okupiĝos pri aliaj kazesploroj de WorldFAIR pri nanomaterialoj kaj geokemio.

Alia WorldFAIR-partnero estas Universitato Drexel, Usono, kiu gvidis la projekton Salud Urbana en América Latina ("Urba Sano en Latin-Ameriko") (SALURBAL). SALURBAL disvolvis a multlanda datumaro pri domajnoj kiel ekzemple demografiaj trajtoj, mortoprocentoj, sankondutoj kaj riskoj, la socia medio kaj la konstruita medio, enkalkulante komparojn de grandurboj kaj najbarecoj ene de grandurboj en tuta Latin-Ameriko. Ĉi tiu mirinda rimedo ebligos politik-rilatan esploradon pri la kondukantoj de sano kaj sano-neegalecoj en la urboj de la regiono. SALURBAL jam faris ampleksan laboron pri harmoniigo de datumoj. WorldFAIR helpos verŝi pli da lumo pri ĉi tiu laboro kaj faros rekomendojn por FAIR-terminologioj en urba sano.

Vi eble ankaŭ interesiĝas

CAG-CEPT, CODATA kaj UHWB Podkasto-Serio pri 'Datumoj-Scio-Agado por Urbaj Sistemoj

La podkastserio Data-Knowledge-Action for Urban Systems esploras sistemojn uzatajn por konstrui inteligentajn urbajn sistemojn. La serio pripensas la sistemajn ŝanĝojn necesajn por grandurboj por iĝi adaptaj kaj inteligentaj por pritrakti urban bonfarton. Ĝi estas gastigita fare de la Centro por Aplikata Geomatiko, CODATA, kaj Urba Sano kaj Bonfarta Programo (UHWB).


La 15an kaj 16an de februaro Simon Hodson donis informkunvenon pri la laboro de CODATA kadre de scio-kundivida sesio por ISC-membroj pri Konverĝanta Scienco kaj Teknologio en Cifereca Epoko.

Vi povas ekscii pli pri la projekto WorldFAIR, pri la laboro de CODATA pri FAIR-vortprovizoj kaj pri iniciatoj en diversaj esploraj fakoj por fari datumojn kaj informajn valoraĵojn FAIR ĉe Internacia Datuma Semajno 2022, 20-23 junio.


Bildo de École polytechnique – J.Barande per Flickr.

VIDU ĈIUJN RILATANJ ARTOJN

Rekte al enhavo