Neizkoriščen potencial odprtih raziskovalnih podatkov

Foto: PxHere

Ko sem v rubriki #OdprimoZnanost pisala o načelih ravnanja s podatki FAIR, sem pri zadnjem, ponovna uporabljivost (Reusability), omenila zelo nizek delež ponovno uporabljenih raziskovalnih podatkov. Na eni strani je razlog seveda to, da nekateri raziskovalci svojih podatkov iz različnih razlogov niso pripravljeni deliti – če jih delijo, pa niso opremljeni z dovolj bogatimi metapodatki in zato jih drugi raziskovalci ne najdejo in/ali niso primerni za ponovno rabo.

Po drugi strani pa je razlog za nizko stopnjo ponovne uporabe še to, da veliko raziskovalcev podatkov, ki so jih zbrali drugi – tudi ko gre za kakovostne podatke –  ne želi uporabljati. Uporabo podatkov prejšnjih raziskav zavračajo misleč, da njihovo delo, če bo temeljilo na sekundarnih podatkih, ne bo dovolj izvirno.

Predsodke do sekundarne rabe podatkov prenašajo tudi na študente, ki jih mentorirajo. Ko se kdo name obrne za pomoč pri diplomskih, magistrskih in doktorski nalogah, pogosto svetujem, naj najprej poiščejo obstoječe podatke o njihovi temi. Na marsikatero raziskovalno vprašanje je namreč možno (vsaj delno) odgovoriti na podlagi že zbranih podatkov, ki jih najdemo v podatkovnih arhivih in repozitorijih.

Zbiranje lastnih primarnih podatkov ni predpogoj za dobro raziskavo. Tudi naloge narejene na podlagi sekundarnih podatkov so lahko izvirne.

Zavedati se je treba, da zbiranje visoko kakovostnih podatkov zahteva veliko sredstev, znanja in izkušenj, ki jih predvsem tisti na nižjih ravneh študija nimajo. Na nekaterih področjih so z zbiranjem podatkov povezane tudi določene pravne in etične zahteve. V praksi resne raziskave načrtuje interdisciplinarna ekipa strokovnjakov. Primer take raziskave je Evropska družboslovna raziskava, ko jo najdete v katalogu Arhiva družboslovnih podatkov (ADP), kjer hranijo še veliko drugih podatkov družboslovnih raziskav.  Še več podatkovnih repozitorijev za različna raziskovalna področja pa lahko najdete preko brskalnika re3data.org, kjer lahko brskate po temi, tipu podatkov in drugih kriterijih.

Poleg ADP imamo v Sloveniji še (vsaj) tri podatkovne repozitorije, CLARIN za jezikovne vire, InGeoCloudS za okoljske podatke ter MODES za podnebne podatke.

Kako raziskovalce spodbuditi sekundarno rabo podatkov? Pred leti smo s sodelavci na ADP na Metini listi urejali rubriko #PodatkiADP, v kateri so dajalci podatkov predstavljali svoje raziskave. Ker smo želeli pokazati, da so tej podatki lahko podlaga za kakovostne raziskovalne naloge, smo k pisanju v rubriki povabili tudi dve uporabnici podatkov, katerih nalogi sta prejeli nagrado sklada namenjenega delom, ki temeljijo na podatkih ADP, da opišeta svojo izkušnjo uporabe, in sicer dr. Meto Novak in mag. Živo Broder.

S sekundarno rabo podatkov imam tudi sama pozitivne izkušnje. Pred desetimi leti sem v svojem diplomskem delu, za katerega sem prejela Prešernovo nagrado Fakultete za družbene vede, uporabila podatke raziskave Flash Eurobarometer, ki jih hrani repozitorij nemškega inštituta za družbene vede GESIS. Trenutno pa v eni izmed raziskav, pri katerih sodelujem, uporabljam podatke Statističnega urada in Eurostata.

Našteti primeri so s področja družboslovja, saj ga najbolje poznam, vendar podobno slišim od kolegov naravoslovcev dejavnih na področju ravnanja s podatki: ogromno podatkov ni v celoti izkoriščenih in veliko je odvečnega zbiranja podatkov v raziskavah, ki niso zastavljene dovolj kakovostno. Potegnemo lahko analogijo s ponovno uporabo potrošniških izdelkov.

Tako za okolje kot našo denarnico je bolj prijazno, da kupujemo kakovostne izdelke, ki jih lahko večkrat uporabimo, namesto tistih za enkratno uporabo.

Manj je več. Seveda s tem ne želim reči, da se primarnega zbiranja podatkov ne smemo lotiti, ampak da je treba to početi z ustreznim znanjem in sredstvi, da se lahko zagotovimo kakovost podatkov. Predvsem pa bodimo odgovorni raziskovalci in dokumentirajmo vsak korak naših postopkov ter podatke opremimo z metapodatki, da bodo primerni za ponovno uporabo.