Deljenje raziskovalnih podatkov po načelih FAIR

Foto: Marina Noordegraaf, via Flickr

Ko v kontekstu odprte znanosti govorimo o vprašanju podatkov, so prvi izraz, ki pride na misel odprti podatki. Gre za idejo o prosti dostopnosti (nekaterih) podatkov vsem za ponovno uporabo in objavo, brez omejitev avtorskih pravic in prepovedi kopiranja in objavljanja. Sliši se silno preprosto in marsikdo si predstavlja, da prakticiranje odprte znanosti pomeni objavo podatkovne datoteke na spletu, a to ni dovolj. Za odprtost je pomembneje, da se podatki delijo po načelih FAIR. Menim, da bi ta načela moral poznati vsak raziskovalec, zato jih bom predstavila v tokratnem prispevku v rubriki #OdprimoZnanost.

NAČELA FAIR

Če prvič slišite za načela FAIR, niste edini. Lanska anketa revije Springer Nature je pokazala, da več kot polovica raziskovalcev še ni slišala zanje. Gre namreč za razmeroma nov koncept, saj so bila načela prvič objavljena marca 2016 v članku Wilkinsona in sodelavcev, ki so skušali podati smernice, kako izboljšati najdljivost (Findability), dostopnost (Accessibility), interoperabilnost (Interoperability) in ponovno uporabnost (Reusability) podatkov.

Kratica nosi prizvok poštenosti, kar ni naključje, saj z upoštevanjem FAIR načel krepimo raziskovalno integriteto.

Za uresničevanje FAIR načel si v poročilu in akcijskem načrtu Turning FAIR into reality prizadeva tudi Evropska komisija, zato je pomembno, da so raziskovalci dobro razumemo, kaj pomenijo te štiri dimenzije.

Podatki so najdljivi (findable), ko jim je dodeljen trajni identifikator, so opisani z bogatimi metapodatki in so registrirani ali indeksirani v iskalnem viru. Metapodatki so preprosto rečeno podatki o podatkih. Poleg identifikatorja so kot metapodatki navadno vključeni še vsaj datum nastanka, naslov, avtorji, ključne besede, uporabljena licenca, financiranje, itd. Ko nekdo preko iskalnega vira želi najti podatkovno datoteko, jo namreč išče na podlagi metapodatkov – zanimajo ga na primer raziskave z določeno ključno besedo, ki so nastale v določenem obdobju in so prostodostopne. Če podatkovno datoteko samo naložite na svojo spletno stran in je ne opremite z metapodatki, ne bo najdljiva.

Podatki so dostopni (accessible), ko do njih lahko dostopamo preko standardiziranega komunikacijskega protokola, ki je idealno odprt, brezplačen in univerzalen. Če so za dostop potrebni postopki avtentifikacije in avtorizacije, mora biti uporabnik s tem seznanjen. Pomembno je poudariti, da dostopnost ne pomeni popolne odprtosti. Kar mora biti vedno vsem odprto so le metapodatki, medtem ko so za neagregirane mikropodatke pogosto obstajajo utemeljeni razlogi, zakaj ne smejo biti dostopni prav vsakomur.

Velja načelo “toliko odprti, kot je mogoče, toliko zaprti, kot je potrebno” (angl. as open as possible, as closed as necessary).

Pri družboslovnih raziskavah moramo na primer upoštevati etične in pravne vidike povezane z varstvom podatkov in s pridobivanjem soglasja udeležencev raziskav. Do določenih podatkov tako lahko dostopamo samo pod določenimi pogoji ali pa le v agregirani obliki.

Podatki so interoperabilni (interoperable), ko jih lahko združimo z drugimi podatkovnimi nizi in povežemo z aplikacijami ali delovnimi procesi za analizo, hrambo in obdelavo podatkov. V bibliotekarskem terminološkem slovarju je opredeljena kot sposobnost sistema, da sodeluje z okoljem drugega sistema brez uporabnikovega poseganja. Interoperabilnost izboljšamo tako, da namesto lastniških podatkovnih formatov, kot je xls (Excel) uporabljamo lastniške, kot je npr. csv (comma-separated values).

Podatki so ponovno uporabni (reusable), ko so opremljeni z bogatimi metapodatki, ki jih opišejo dovolj natančno, da se lahko ponovno uporabijo v različnih okoljih. Na konferenci Odprti raziskovalni podatki, ki jo je RDA vozlišče Slovenije z Mlado akademijo in drugimi partnerji organiziralo lani jeseni, me je presenetila navedbe vabljene govorke Edit Herczog, da čeprav je več kot 80 % virov raziskovalcev porabljenih za zbiranje podatkov, je od tega dejansko zabeleženih manj kot 20 % podatkov. Od teh pa jih je manj kot petina vsaj enkrat uporabljenih.

Da izboljšamo ponovno uporabnost naših raziskav, je pomembno, da dokumentacija raziskave vsebuje podrobnosti o uporabljeni metodologiji, informacije o analizah in drugih postopkih obdelave podatkov, definicije uporabljenih spremenljivk, slovarjev in enot merjenja, predopostavke ter format in tip podatkov. 

V kakšnem odnosu pa so načela FAIR s konceptom odprtih podatkov? Kot prikazuje spodnji diagram, so podatki lahko odprti, a ne sledijo načelom FAIR, tj. niso najdljivi, dostopni, interoperabilni in ponovno uporabni. In obratno, kot sem omenila že pri razlagi dostopnosti, načela FAIR ne zahtevajo popolne odprtosti podatkov, ampak zadostuje odprtost metapodatkov.

Jones, S. 2018. Open data, FAIR data and RDM: the ugly duckling.

Za konec bi poudarila, da ne gre za binaren koncept. Za podatke ne moremo reči, da so ali niso FAIR, ampak je treba načela razumeti kot kontinuum – podatki so lahko bolj ali manj FAIR. S tem, kako meriti najdljivost, dostopnost, interoperabilnost in ponovno uporabnost se trenutno ukvarjamo v delovni skupini za načela FAIR pri Evropskem oblaku odprte znanosti, kjer smo februarja letos objavili prvi osnutek priporočil.