Jättiaineiston avaamisen pioneerityötä

0

HAMKin Bioeconomy 4.0 ja Carbon 4.0 -hankkeissa on kerätty aineistoa dronella. Käytännössä aineisto koostuu metsä-, pelto- ja pihakuvista. Osa aineistosta on jo avoimesti saatavilla. Tällä kertaa blogissa syvennytään aineistojen ihmeelliseen maailmaan ja kysytään, miksi aineistoja kannattaa ylipäätänsä avata.

Hankeaineisto on iso, kuusi teratavua. Sitä mukaan kun datasettejä syntyy, aineistoa tallennetaan IDAan, opetus- ja kulttuuriministeriön järjestämään datan säilytyspalveluun. Aineiston kokoluokasta kertoo jotakin se, että koko Hämeen ammattikorkeakoulun kiintiö IDAssa on ollut alun perin alun perin alle kaksi teratavua.

“Data on tieteellistä raakadataa. Se on siis tieteellisen tutkimuskäyttöön soveltuvaa lähtödataa, eikä sitä ole vielä analysoitu. Tällaisen massadatan tarkasteluun voi hyödyntää esimerkiksi koneoppimista”, kertoo HAMK Smartin projektityöntekijä Olli Niemitalo.

HAMKin jättiaineiston kohdalla päädyttiin tekemään anomus korkeakoulukohtaisen tallennuskiintiön kasvattamiseksi. Anomuksen hyväksyi IDA-palvelua ylläpitävä Tieteen tietotekniikan keskus CSC tänä syksynä. Kiintiön kasvattaminen teki HAMKista korkeakoulun, jolla on tällä hetkellä suurin IDA-kiintiö kaikista Suomen ammattikorkeakouluista.

Miksi aineistoa kannattaa avata ja jakaa?

Fairdata.fi -verkkosivuilla  kerrotaan IDA-palvelun soveltuvan mm. datan tallentamiseen, järjestelyyn ja datan jakamiseen. Lisäksi kerrotaan, että ennen kuin datan voi avata, sille pitää lisätä kuvailutietoja Qvain-työkalulla. Mitä se tarkoittaa käytännössä?

“Tämä on yksi tapa säilyttää dataa. Aineistoa ei vain viedä IDAan säilöön. Esimerkiksi aineiston metadata pitää kuvailla. Metadata tarkoittaa muun muassa aineiston tietosuoja-, omistus- ja oikeusasioita. Kun kuvailutiedot hoitaa oikein, aineistojen avaaminen ja jakaminen on aika helppoa”, Niemitalo selittää.

Kun data on avointa, siihen voi suoraan viitata esimerkiksi tieteellisessä artikkelissa. Tällöin artikkelin lukija pääsee suoraan katsomaan aineistoa, mikä edelleen lisää tutkimuksen ja tieteen luotettavuutta ja läpinäkyvyyttä. Aineistojen avaaminen siis edistää tiedettä.

“Vaikka aineistomme on iso, ei esimerkiksi siitä johdettu koneoppimismalli voi olla kovin yleispätevä ilmakuvien tulkitsija. Kun kaikki jotka tuottavat esimerkiksi dronekuvadataa, jakaisivat aineistonsa, saisimme enemmän hyötyä irti kuin yksittäisestä aineistosta.”

Avoimuuteen kannustetaan niin kansallisesti kuin kansainvälisesti. Opetus- ja kulttuuriministeriö arvioi vuosittain korkeakoulujen avoimen tieteen tasoa. Data-asioiden kansalliskomitea suosittaa, että tutkimusaineistot otettaisiin mukaan kansallisessa päätöksenteossa. Kansainvälinen DORA-julistus puolestaan suosittaa rahoittajia huomioimaan aineistojen avoimuuden rahoituspäätöksiä tehdessä.

“Se että avaamme aineistoja, profiloi HAMKia varteenotettavana tutkimuskumppanina. Lisäksi aineiston avaamisesta ja jakamisesta hyötyy oman organisaation muut työntekijät. Data ei katoa, sitä voi uudelleen käyttää ja ehkä tarkastella uudesta näkökulmasta. Data on jo itsessään arvokasta”, Niemitalo muistuttaa.

Entäpä mitä hyötyä HAMKin keräämästä droneaineistosta voi olla meille ja muille?

“On vielä avoinna, mitä kaikkea aineistosta saamme irti. Sitä voisi hyödyntää esimerkiksi kasvillisuuden ja puiden tunnistamisessa, metsänhoidossa, maanviljelyssä tai vaikkapa muissa hiilidioksidipäästöjen sidontaan liittyvissä tutkimuksissa. Dronella pääsee lähemmäksi maata ja kasvillisuutta kuin satelliitilla.”

Aineiston avaamisessa on kuitenkin myös kimurantti puolensa. Sopimus- ja lupa-asiat voivat olla monimutkaisia ja vaativat pitkäjänteistä selvitystyötä ja lakiosaamista.

HAMKin droneaineisto sisältää mm. kuvia ihmisten pihoista. Tällä hetkellä selvityksen alla on, miten tällainen aineisto voidaan avata.

“Olemme pyytäneet kuvaamiseen eli aineiston keräämiseen asianmukaiset luvat. Kuitenkin kaikki henkilöihin kytkeytyvä tieto on henkilötietoa, minkä takia selvitämme nyt, miten voimme julkaista pihakuvia sisältävän aineistomme.”

Vinkkejä aineistonhallintaan

Jo suunnitteluvaiheessa on tärkeää miettiä ja kirjoittaa auki, avataanko aineisto sekä miten se kerätään, tallennetaan ja julkaistaan. Lisäksi aineiston omistajuudesta ja tekijyydestä pitää sopia ja huolehtia tarvittavat luvat kuntoon. HAMKissa aineistonhallinnassa hyödynnetään DMPTuuli-työkalua ja aineistonhallintasuunnitelman laatiminen on kaikille aloittaville hankkeille pakollista. Tarvittaessa tukea tarjoaa HAMKin TKI-tuen tiimi.

“Olisi hyvä ajatella, ettei aineistonhallintasuunnitelma ole vain pakollinen paha vaan pikemminkin työkalu, jota käyttää ja päivittää pitkin hanketta.”

IDA on yksi hyvä tapa tallentaa aineistoja, vaikka siinäkin on haasteensa.

“IDAn käyttäminen vaatii riittävää tutkimuksellista ja teknistä osaamista. Datan kokoamiseen kannattaa varata aikaa ja tehdä sitä koko hankkeen aikana, ei vain hankkeen lopussa. Henkilötietoja sisältäviin aineistoihin liittyvät lakiasiat ovat monimutkaisia. Pyrin kartuttamaan kokemusta lakiosaamisesta. Kannattaa myös rohkeasti kysyä muilta tukea. Kaikkea ei tarvitse itse heti osata ja tietää.”

Lisäksi keskeistä on keskustella ja sopia yhteisistä toimintavoista aineiston parissa työskentelevien kanssa.

“Avoimuudesta kannattaa myös keskustella avoimesti. On tärkeää sopia hankekumppaneiden, tutkijoiden ja muiden hanketoimijoiden kanssa, miten aineistot säilytetään, ketkä aineiston omistavat, miten varmistetaan tietosuoja-asiat ja mitkä aineistot avataan. Myös haasteisiin on hyvä varautua ja varata aikaa”, Niemitalo toteaa.

Kirjoittaja: Inka Stormi 
Kuva: Olli Niemitalo / Eero Koskinen

Leave A Reply