Iscriviti adesso

Implementazione dei principi dei dati FAIR: cosa c'è dietro l'acronimo?

Abbiamo parlato con Simon Hodson, Direttore Esecutivo, ISC Committee on Data (CODATA) per saperne di più.

I dati alla base della ricerca scientifica sono ciò che alimenta i progressi nella comprensione scientifica. Questi set di dati contengono indizi vitali su molte delle domande più urgenti che gli scienziati devono affrontare oggi e possono gettare nuova luce sulle scoperte passate, convalidando o invalidando il record scientifico esistente e aprendo possibilità per nuove ricerche e nuove comprensioni. Tuttavia, questo tipo di informazioni spesso scompare durante il processo di pubblicazione dei risultati scientifici, o perché i dati non sono condivisi o non sono resi disponibili in un formato di facile accesso e interrogazione.

'Nella scienza, molti lavori meravigliosi finiscono per essere pubblicati come documenti PDF. Essere in grado di stampare e leggere un articolo è fantastico per gli esseri umani, ma molte informazioni che sono state utilizzate per costruire ciò che è riportato nel PDF finiscono per essere nascoste. Se vogliamo avere una visione d'insieme e guardare tutti gli esperimenti che sono stati fatti e sono stati riportati nella letteratura relativa a un determinato processo o reazione, è molto difficile per noi estrarre tutte queste informazioni da tutti quei PDF ,' spiega Simon Hodson, Direttore Esecutivo di CODICE ISC.

Nelle parole del chimico Peter Murray-Rust, ottenere informazioni utili dai PDF può essere come "ricostruire una mucca da un hamburger di manzo".

Scorri vicino Dunk tramite Flickr.

C'è una ricchezza di dati scientifici che è stata prodotta nel corso di molti anni di ricerca, ma in molti casi non è possibile - e certamente non facile - per trovare quei dati e interrogarli in modo da confrontarli con altri risultati o lavori in corso. Di fronte a questo enigma e in linea con l'imperativo della scienza aperta, i ricercatori stanno attualmente lavorando per abilitare ulteriormente la scienza basata sui dati attraverso strutture che supportano l'accessibilità e l'interoperabilità dei dati.

Uno degli approcci più recenti e più importanti per farlo è FAIR, che incapsula quali dati devono essere per essere il più utilizzabili e preziosi possibile: i dati FAIR sono dati che sono Findisponibile; Aaccessibile; Iinteroperabile e Re-usabile.

"Ritrovabile" significa che i dati scientifici pubblicati come parte delle prove alla base delle scoperte scientifiche, o prodotti come risultato di ricerche finanziate con fondi pubblici, dovrebbero essere disponibili per essere trovati e utilizzati da altri. I dati devono avere un identificatore persistente e non ambiguo, nonché metadati sufficientemente ricchi per consentire il rilevamento.

"Ci sono buone ragioni per proteggere alcuni dati", afferma Simon Hodson, "ma laddove queste considerazioni non si applicano, i principi FAIR significano che dovresti essere in grado di accedere ai dati tramite il web, magari con autorizzazione se ci sono problemi di sicurezza . Fondamentalmente, i principi FAIR sostengono che gli scienziati dovrebbero essere in grado di accedere ai dati della ricerca in modo programmatico, cioè anche dalle loro macchine. Non è solo che puoi ottenere i dati e scaricarli: dovresti idealmente essere in grado di interrogarli con il codice del computer. "

La i in FAIR si riferisce a "interoperabile", il che significa che puoi combinare dati da diverse fonti: questo dipende in gran parte dall'avere standard per i metadati e terminologie o vocabolari concordati. Ad esempio, i metadati di un'indagine sociale di un determinato paese spiegherebbero chiaramente le categorie di età o le categorie socioeconomiche utilizzate e dove si trovano i confini delle categorie, in modo che i dati possano essere facilmente confrontati con i dati di un'indagine sociale in un paese diverso.

R sta per riutilizzabilità: questo include avere una licenza che consente alle persone di riutilizzare i dati e indica chiaramente le condizioni su qualsiasi riutilizzo. Significa anche avere informazioni sulla provenienza dei dati (ad esempio, come sono stati raccolti, quali aggiustamenti o calibrazioni sono stati utilizzati, quali ulteriori elaborazioni e puliture sono stati sottoposti ai dati, ecc.) in modo che i ricercatori possano comprendere i potenziali punti di forza e i limiti di i dati e utilizzarli con sicurezza.

I dati FAIR sono anche "Fully AI Ready". Per utilizzare l'apprendimento automatico per identificare i modelli e iniziare a prevedere i risultati in diversi set di dati, è essenziale disporre di definizioni per diverse variabili nel set di dati e le definizioni devono essere facilmente accessibili.

“Quando i dati e i relativi servizi sono FAIR, tutto viene descritto in modo che il computer – e chiunque utilizzi il codice – sappia quale definizione è stata utilizzata per il concetto e la relativa variabile, il modo in cui sono state ottenute le misurazioni e il valori stessi. Quindi possiamo interagire con il codice dei dati, magari scomponendolo, prendendo un sottoinsieme, combinandolo con altri dati. Se i dati sono FAIR, questo può essere fatto in modo molto più efficiente e l'analisi e la ricerca stessa ne traggono vantaggio", afferma Simon Hodson.

L'idea di avere vocabolari standardizzati con cui esprimere i concetti fondamentali in vari ambiti della scienza non è affatto nuova. Il Unione internazionale di chimica pura e applicata (IUPAC), membro dell'ISC, ha risposto alla necessità di una standardizzazione internazionale in chimica sin dalla sua fondazione nel 1919. Oggi è imperativo che i vocabolari standard siano adattati all'era digitale e siano essi stessi FAIR. A seguito di un workshop organizzato con l'iniziativa Data Documentation, un gruppo guidato da Simon Cox (ex membro del Comitato Esecutivo CODATA ed esperto sull'uso delle terminologie) ha pubblicato 'Dieci semplici regole per rendere FAIR un vocabolario'.

Seguendo queste linee guida, CODATA sta attualmente lavorando su un vocabolario FAIR per il Profili di informazioni sui rischi pubblicato dall'ISC nell'ottobre 2021. Ciò creerà una terminologia basata sul Web per tutti i pericoli descritti, che sarà resa disponibile su GitHub e tramite il servizio Research Vocabularies Australia, per l'utilizzo da parte di chiunque. Ciò significa che i governi che sviluppano le proprie strategie e azioni sulla riduzione e la gestione del rischio saranno in grado di confrontare rapidamente i dati con le proprie statistiche sulle perdite dovute a calamità o con i quadri di riferimento, ad esempio.

CODATA sta anche lavorando su vocabolari FAIR con diversi membri ISC, come con l'Unione internazionale per lo studio scientifico della popolazione (IUSSP). La demografia è un campo ricco di dati ed è molto importante per comprendere lo sviluppo umano sostenibile. Rendendo FAIR le terminologie chiave nella scienza della popolazione, l'IUSSP contribuirà a rendere i dati demografici più utili per le agenzie statistiche e gli scienziati sociali, nonché per coloro che utilizzano tali dati nei molti campi di studio che utilizzano i dati sulla popolazione, inclusa la maggior parte delle aree relative alla sostenibilità Obiettivi di sviluppo (SDG).

CODATA intraprenderà un lavoro simile anche con IUPAC nell'ambito del nuovo progetto biennale 'Fiera mondiale: Cooperazione globale sulla politica e la pratica dei dati FAIR', finanziato dalla Commissione Europea attraverso il suo Programma quadro Orizzonte Europa. Coordinato da CODATA, Con l' Research Data Alliance come partner principale, il progetto WorldFAIR lavorerà con una serie di undici studi di casi di dominio e interdominio per promuovere l'attuazione dei principi dei dati FAIR, in particolare quelli per l'interoperabilità, e per sviluppare una serie di raccomandazioni e un quadro per FAIR valutazione in un insieme di discipline o aree di ricerca interdisciplinari. WorldFAIR costituirà il fulcro del contributo di CODATA al progetto ISC Far funzionare i dati per grandi sfide tra domini.

IUPAC sta guidando il caso di studio della chimica, esaminando come rendere le risorse informative e le terminologie che IUPAC cura appropriate per l'era della digitalizzazione e dei dati FAIR. L'IUPAC si impegnerà anche con altri casi studio WorldFAIR sui nanomateriali e la geochimica.

Un altro partner di WorldFAIR è la Drexel University, USA, che ha guidato il progetto Salud Urbana en América Latina ("Salute urbana in America Latina") (SALURBAL). SALURBAL ha sviluppato a set di dati multi-paese su domini quali caratteristiche demografiche, tassi di mortalità, comportamenti e rischi sanitari, ambiente sociale e ambiente costruito, consentendo il confronto di città e quartieri all'interno di città in tutta l'America Latina. Questa straordinaria risorsa consentirà la ricerca rilevante per le politiche sui fattori che determinano la salute e le disuguaglianze sanitarie nelle città della regione. SALURBAL ha già svolto un ampio lavoro sull'armonizzazione dei dati. WorldFAIR aiuterà a fare più luce su questo lavoro e formulerà raccomandazioni per le terminologie FAIR nella salute urbana.

Potrebbe anche interessarti

Serie di podcast CAG-CEPT, CODATA e UHWB su 'Data-Knowledge-Action for Urban Systems

La serie di podcast Data-Knowledge-Action for Urban Systems esplora i sistemi utilizzati per costruire sistemi urbani intelligenti. La serie riflette sui cambiamenti sistematici necessari affinché le città diventino adattive e intelligenti per gestire il benessere urbano. È ospitato dal Center for Applied Geomatics, CODATA e Urban Health and Wellbeing Program (UHWB).


Il 15 e 16 febbraio Simon Hodson ha tenuto un briefing sul lavoro di CODATA nell'ambito della sessione di condivisione delle conoscenze per i membri ISC su Scienza e tecnologia convergenti in un'era digitale.

Guarda il video

Puoi scoprire di più sul progetto WorldFAIR, sul lavoro di CODATA sui vocabolari FAIR e sulle iniziative in varie discipline di ricerca per rendere FAIR gli asset di dati e informazioni su Settimana internazionale dei dati 2022, 20-23 giugno.


Immagine di École polytechnique – J.Barande via Flickr.

Salta al contenuto