• OpenRefinen hyödyntäminen Wikidata-siirroissa

  • Back
25.01.2021 by 

OpenRefinen peruskäyttö

OpenRefine on avoimen lähdekoodin ohjelmisto, millä on helppo siistiä, muokata ja yhtenäistää taulukkomuodossa olevia tiedostoja. Esimerkiksi exceliin taulukoidut museoiden kokoelmaluettelot saa siirrettyä OpenRefineen ja sieltä Wikidataan käden käänteessä. Muita tuettuja tiedostomuotoja ovat esimerkiksi CSV, XML ja Googlen datadokumentit. Voit siirtää tietoa OpenRefineen myös leikkeenä tai suoraan URL-osoitteista. OpenRefine toimii selaimessa, mutta ei tarvitse internet-yhteyttä toimiakseen tietojen käsittelyn aikana.

Projektin luominen ja aloitus

Kun aloitat uuden projektin, valitse aloitussivun vasemmasta yläreunasta Create Project. Sen jälkeen voit valita tiedostoja omalta koneeltasi tai muista annetuista vaihtoehdoista. Next -näppäimellä pääset katsomaan, miten valitsemasi tiedosto asettuu OpenRefinen sarakkeisiin. Voit kokeilla muokata asetuksia ruudun alareunassa näkyvistä vaihtoehdoista, jos tiedot eivät asetu automaattisesti haluamallasi tavalla.

1. Asettelunäkymä ennen projektin luomista. Kokeile erilaisia vaihtoehtoja ja löydä sopivin.

Pystyt esimerkiksi erottelemaan tietoa eri sarakkeisiin pilkun tai lainausmerkin kohdalta, sekä jättämään taulukosta pois haluamasi määrän rivejä ja näin valitsemaan tietyn rivin otsikkoriviksi. Sarakkeiden poistaminen ja siirtäminen onnistuu projektin luomisen jälkeen. Projektin voit nimetä uudelleen missä tahansa vaiheessa.

Kun olet tyytyväinen siihen, miten tiedot ovat asettuneet valitse Create project. Jos kuitenkin käy niin, ettei luotu projekti asetu haluamallasi tavalla, voit helposti poistaa luodun projektin ja kokeilla uudelleen. Heti aluksi kannattaa selailla taulukko läpi pidemmällekin ja huomioida, ovatko taulukon tiedot loppuun saakka jakautuneet oikein. Samalla voi löytyä esimerkiksi turhia/tyhjiä sarakkeita tai sarakkeita, joissa toistuu sama tieto kuin jossakin toisessa sarakkeessa. Sarakkeiden järjestäminen loogiseen ja työskentelyä helpottavaan järjestykseen kannattaa tehdä jo heti alussa, samoin kuin uudelleen nimeäminen ja mahdollinen sarakkeiden yhdistäminen. Työskentelyn helpottamiseksi on mahdollista myös pienentää pois näkyvistä sarakkeet, joita ei juuri sillä hetkellä tarvitse (alasvetovalikosta view-> collapse).

2. Sarakkeen poisto. Valitse haluamasi sarakkeen otsikkoriviltä kolmiolla merkitty alasvetovalikko. Jos haluat vain väliaikaisesti sarakkeen tai sarakkeita pois näkyvistä, käytä View -toimintoa sarakkeiden supistamiseen.
3. Sarakkeiden yhdistäminen. Voit yhdistää niin monta saraketta kuin haluat, ja erotella yhdistettyyn sarakkeeseen tulevan tiedon haluamallasi välimerkillä tai vaikkapa välilyönnillä. Kun olet yhdistänyt sarakkeet, voit poistaa ylimääräiset käsin tai valitsemalla ensin Write result in new column named.. ja ruksimalla Delete joined columns.

Tietojen käsittely OpenRefinessa

Jokaisen sarakkeen otsikkorivillä on nuolinäppäin alasvetovalikkoon, josta aukeaa vaihtoehtoja sarakkeiden, rivien ja solujen muokkaamiseen. Kannattaa katsella vaihtoehdot läpi ja kokeilla sekä käyttää hyväkseen massatoimintoja, joilla työskentely nopeutuu huomattavasti. Kokeile rohkeasti, sillä toimintoja on helppo myös perua!

4. Toimintojen peruminen
5. Fasetointi liputusten ja tähditysten mukaan

Jos haluaisit esimerkiksi perua toiminnon nro 8, siirrä hiiri toiminnon nro 7 päälle ja klikkaa. Tämä peruu kaiken nro 7 jälkeen tehdyn, joten huomioi, että et esimerkiksi toiminnossa 13 ollessasi pysty enää perumaan pelkästään numeroa 8, vaan kaikki sen jälkeen tehty peruuntuu. Ole siis tarkkana, missä vaiheessa haluat peruuttaa toimintoja!

Ensimmäisen sarakkeen (All) alasvetovalikosta voit valita sarakkeiden uudelleenjärjestelyn, jos haluat siirrellä useita sarakkeita, tai sarakkeita useita askeleita kerrallaan. Rivien poistaminen tai merkitseminen tähdellä tai lipulla (tai tarvittaessa molemmilla) onnistuu myös tästä sarakkeesta. Tähti- ja lippumerkintää kannattaa käyttää esimerkiksi ongelmakohtien merkitsemiseen tai silloin, kun haluat merkitä tietyt rivit tiettyyn kokonaisuuteen kuuluvaksi. Facet / Filter -toiminto (kts. alempana) on tässäkin kohtaa hyödyksi.

Facet / filter -toiminnolla pystyt tuomaan vasemmalle käsittelyruutuun tietyn sarakkeen tai tietynsisältöiset rivit. Jos esimerkiksi olet tähdittänyt rivejä, saat pelkästään tähdellä merkityt näkyviin fasetointitoiminnon avulla, kun valitset ensin Facet by star ja sen jälkeen vaihtoehdon true. Jos haluat vielä erotella tähdellä merkityistä riveistä vaikkapa ajoittamattomat teokset omaksi ryhmäkseen, tee uusi fasetti valitsemalla ajoitussarakkeesta fasetointitoiminto, kun sinulla on tähditetyt rivit aktiivisena. Sen jälkeen voit joko liputtaa ajoittamattomat teokset myöhempiä toimenpiteitä varten tai valita ne heti aktiiviseksi klikkaamalla fasetointiruudussa niitä.

Fasetointitoiminnolla on helppo tarkistaa kirjoitusasujen yhtenäisyys ja korjata ne kerralla kuntoon. Esimerkiksi taidekokoelman tekniikkateksteissä saattaa esiintyä erilaisia tapoja ilmaista öljymaalauksen tekniikka. Valitse tekniikkasarakkeesta text facet ja sen jälkeen ilmaantuneesta laatikosta oikeasta ylälaidasta cluster. Saat näkyviin löydetyt samankaltaiset ilmaisut ja ehdotuksen, miten ne voisi yhdistää. Pystyt myös muokkaamaan sitä, millaisessa muodossa haluat ilmaista tiedon. Merkitse rasti ruutuun (Merge?) niiden kohdalle, mitkä haluat yhdistää ja lopuksi valitse ruudun alareunasta tarpeen mukainen toiminto.

Fasetointitoiminto on hyödyllinen aina, kun haluat käsitellä vain pientä osaa tiedoista. Faseteissa voit myös halutessasi editoida kerralla kaikki samansisältöiset solut painamalla edit-näppäintä fasetointivalikossa sen tiedon kohdalla, mitä haluat editoida. Esimeriksi Öljy pellavakankaalle -ilmaisun muuttaminen öljy kankaalle -muotoon onnistuu kerralla kaikille sen tiedon sisältäville soluille. Jos taas koko sarakkeen jokaisessa solussa on vaikkapa jokin välimerkki tai ilmaisu, minkä haluat korvata toisella, onnistuu se parhaiten sarakkeen alasvetovalikosta Edit cells-> Replace -toiminnolla.

Huomioitavia asioita ennen tietojen siirtoa

Wikidatan logiikkana on tarjota toisiinsa linkitettyä, luotettavista lähteistä peräisin olevaa metatietoa kaikkien saataville ja lisättäväksi sekä muokattavaksi. Vapaita tekstikenttiä ei kuvauskentän lisäksi ole, mutta Wikipedia-artikkelin aiheesta saa linkitettyä wikidatasivuun helposti. Teos- ym. kuvia Wikidataan pystyy lisäämään ainoastaan Wikimedia Commonsin kautta.

Lähteet ja tietosisältö

Wikidatassa tiedon täytyy perustua lähteisiin, joita voivat olla esimerkiksi kirjalliset teokset tai verkkosivut. URL-osoitteet saa lisättyä lähteeksi ilman, että niillä on oma kohde Wikidatassa, mutta mikäli lähteenä on kirjallinen teos, pitää se löytyä omana kohteenaan. Katso lähteistämisestä tarkemmin: https://www.wikidata.org/wiki/Help:Sources/fi .

Tiedon tulee olla pilkottuna mahdollisimman pieniksi osasiksi. Esimerkiksi jos teoksen materiaalisarakkeessa lukee “öljy, kangas, jne..”, täytyy sarake jakaa niin moneen osaan, kuin materiaaleja on enimmillään. Jako on helppo tehdä esimerkiksi pilkun perusteella. Ajoitus-, tekijä-, luokitus- ja mittasarakkeet ovat myös sellaisia, jotka tulevat Wikidataan ja joissa voi olla vain yksi tieto per sarake. Aikavälillinen ajoitus tulee siis alkuvuosi– ja loppuvuosi -sarakkeisiin ja tarkka ajoitus omaan sarakkeeseensa. Kirjoita aikavälillisissä ajoituksissa tarkka ajoitus -sarakkeeseen vielä vuosisadan tai -kymmenen tarkkuudella ajoitus; esimerkiksi jos teos on ajoitettu 1960–1969, kirjoita sarakkeeseen 1960. Tällöin Wikidataan saadaan ajoitus ensin vuosisadan tai -kymmenen tarkkuudella, ja tarkenteeksi aikaisin ja myöhäisin mahdollinen ajankohta. Kokonaan tyhjäksi jätetään siis tarkkaan ajoitettujen teosten alkuvuosi- ja loppuvuosisarakkeet, ja luonnollisesti kaikki sellaiset solut, joihin jokin tieto ei päde. Ajoittamaton-arvot poistetaan myös, koska Wikidata ei tunne sellaista arvoa.

6. Tässä on fasetoitu ensin tähdelliset rivit, sen jälkeen niistä liputetut rivit ja vielä lopuksi ajoitussarake. Fasettien avulla pystyt tekemään haluamiasi kokonaisuuksia käsiteltäväksi.

Kun solu on tyhjä, Wikidata jättää sen huomiotta. Erilaiset poistot, lisäykset ja muutokset ovat helposti toteutettavissa fasettien avulla. Mittasarakkeessa kannattaa olla tarkkana siinä, että kaikki mitat on ilmaistu samassa mittayksikössä ja pilkun sijasta on käytetty pistettä.

Teosnimet ja kuvaukset

Toisinaan samalla taiteilijalla on useita saman nimisiä teoksia toteutettuna samalla tekniikalla. Tämä aiheuttaa hankaluuksia tiedonsiirtovaiheessa, koska kohteiden nimi ja kuvaus (kts. seuraava kappale) ovat samanlaiset. Ongelma ratkeaa, kun lisäät kuvauksen perään (kaikille kielille) esimerkiksi sulkuihin teoksen inventaarionumeron, jolloin kohteet on helpompi erottaa toisistaan Wikidatan näkökulmasta.

Teosnimi -sarakkeet on syytä olla niin monikielisenä, kuin dataa saatavilla on. Teosnimi ja teosnimi_fi -sarakkeet kannattaa molemmat pitää mukana, vaikka ne olisivatkin pääosin samanlaiset. Toisinaan teoksen nimi saattaa olla kielellä, johon ei ole mahdollisuutta saada käännöstä. Nimen puuttuminen aiheuttaa hankaluuksia latausvaiheessa, joten suomenkieliseksi nimeksi kannattaa lisätä varsinainen (erikielinen) teosnimi ja esimerkiksi kirjoittaa perään sulkuihin ”teosnimi”. Tee tarvittaessa oma sarakkeensa teosnimien aliaksille (niin monta saraketta kuin on kieliä).

Luo lisäksi erillinen kuvaussarake ainakin suomeksi ja englanniksi. Tämä auttaa sinua tiedonsiirtovaiheessa, ja saat massana kaikkiin kohteisiin myös kuvauksen. Luo sarake esimerkiksi yhdistämällä luokitus- ja tekijäsarakkeet, jolloin yksittäisen solun tekstiksi tulee esimerkiksi ”Maalaus: Greta Schalin”. Jos rivejä on vähän, voit myös yhdistää sarakkeet toisin päin ja muokata solun sisällöksi ”Greta Schalinin maalaus”.

Materiaalit

Materiaalit on syytä yksinkertaistaa mahdollisimman pitkälle, jotta Wikidata tunnistaa ne. Installaatioissa tai esineteoksissa esiintyvät “valmiit” esineet kannattaa harkita tapaus kerrallaan, muuntaako tiedon kokonaisesta esineestä sen materiaaliksi; esimerkiksi metalliämpärin voi muuntaa metalliksi, mutta ”metalli” materiaalina saattaa antaa väärän mielikuvan teoksen olemuksesta. Jos haluat säilyttää materiaalina metalliämpärin, kannattaa solu jättää kokonaan rekonsilioimatta (kts. Tiedon siirto Wikidataan). Rekonsilioimattomat solut eivät näy Wikidatassa, eli jos jokin oleellinen tieto, esimerkiksi taiteilijan nimi, halutaan näkyviin kannattaa se lisätä jo kuvaukseen. Vaikka Wikidata tunnistaakin tietyt esineet, ne eivät ole luokitukseltaan materiaaleja. Tämä aiheuttaa virheilmoituksen lopullisessa kohdesivussa.

OpenRefinessa kannattaa kokeilla erilaisia toimintoja jopa mielikuvitustakin käyttäen! Saatat löytää huomattavasti työskentelyäsi helpottavia toimintoja ilman että tuhoa pääsee syntymään. Pääset aina askelia taaksepäin ja alkupeäinen tiedosto säilyy koskemattomana siellä, mistä olet sen ladannut. Moninkertaista työtä välttääkseen on kuitenkin syytä pohtia tarkoin, millaisen taulukon haluaa saada aikaiseksi ja palata väärät askeleet taaksepäin heti kun ne on tehty.

Tiedon siirto Wikidataan

Tässä vaiheessa taulukkosi on täysin valmis ja sisältää kaikki tarvittavat tiedot riittävän pienissä yksiköissä. Tarkista se siis vielä ennen kuin alat rekonsilioimaan! Huomioi myös, että sinulla on käyttäjätunnus Wikidataan ja mielellään myös jonkin verran jo tehtyjä editointeja. Tiedonsiirto saattaa estyä, jos uusi käyttäjä yrittää siirtää isoja tietomassoja kerralla.

Mikäli Wikidata on sinulle vieras, tai olet epävarma miten jokin tieto ilmaistaan, kannattaa tarkastella miltä yksittäisen kohteen näkymä siellä näyttää ja ottaa mallia. Alkuun pääset vaikkapa tältä sivulta, missä on muutakin hyödyllistä tietoa taideteosten luetteloimisesta Wikidataan: https://www.wikidata.org/wiki/Wikidata:WikiProject_Visual_arts/Item_structure .

Rekonsiliointi

Sarakkeet, jotka teosluetteloiden kohdalla rekonsilioidaan ovat: haltija, kokoelma, tekijät*, teosnimi (rekonsiliointi tehdään vain teosnimisarakkeelle, loput teosnimeen liittyvät sarakkeet lisätään skeemaan tiedonsiirtovaiheessa), luokitus* ja materiaali*. Tähdellä merkittyjä sarakkeita on todennäköisesti enemmän kuin yksi. Valmistustekniikan kohdalla voi harkita miten sen haluaa ilmaista, esimerkiksi suoraan kuvauksessa tai erikseen rekonsilioituna skeemassa. OpenRefine löytää rekonsiliointivaiheessa ne kohteet, jotka ovat Wikidatassa, mutta saattaa ehdottaa matchiksi myös vääriä kohteita. Mitat ja ajoitukset ym. tiedot, joilla ei kohdetta Wikidatassa voisikaan olla, siirretään skeemaan siis ilman rekonsiliointia.

Sarakkeita voi rekonsilioida yksi kerrallaan. Valitse rekonsiliointikohteeksi listasta Wikidata ja aloita. Jos dataa on paljon, rekonsiliointi saattaa ottaa reilusti aikaa. Rekonsilionnin aikana voit tehdä koneellasi muuta, mutta OpenRefine kannattaa jättää rauhaan.

7. Rekonsilioinnin aloittaminen. Valitse kullekin sarakkeelle sopivin toiminto. Kun luodaan uusia kohteita, valitaan teosnimisarakkeen rekonsilioinnin jälkeen toiminnoista Create one new item for each cell.
8. Osumien valinta ja tarkistaminen.

Kun rekonsiliointi on valmis, on sinulla todennäköisesti kohteita, jotka on yhdistetty automaattisesti Wikidatassa olevaan kohteeseen sekä kohteita, joissa on useita saman nimisiä vaihtoehtoja. Automaattisesti yhdistetytkin kannattaa tarkistaa läpi, jotta kyseessä on varmasti se henkilö tai asia, mihin halutaan yhdistää. Mikäli sopivaa yhdistämiskohdetta ei löydy, voi solun jättää rekonsilioimatta painamalla Search for match-> don’t reconcile cell. Harkitse myös, päteekö toiminto kaikkiin saman nimisiin soluihin vai pelkästään käsittelyssä olevaan, ja valitse ruudusta sopiva vaihtoehto. 

Mikäli sinulla on paljon dataa, tässä kohtaa tulee yksi ohjelman bugeista vastaan. Jos haluat, että toiminto koskee kaikkia saman nimisiä soluja ja valitset sen vaihtoehdon, palaa taulukko ensimmäiselle sivulle. Tämä aiheuttaa välillä turhaa klikkailua takaisin oikealle sivulle palaamiseksi. Harkitse siis tästäkin näkökulmasta pääsetkö helpommalla valitsemalla toiminnon vain käsittelyssä olevalle solulle vai kaikille saman sisältöisille. Fasettien avulla pystyt myös pienentämään käsiteltävien sivujen määrää tarkistamalla ensin “matchit”, sitten vaihtoehdoilla varustetut ja lopuksi ne, joihin ei löytynyt sopivaa osumaa.

Skeeman rakentaminen

Kun olet rekonsilioinut kaikki tarvittavat sarakkeet, pääset varsinaiseen tiedonsiirtovaiheeseen. Valitse sinisestä yläpalkista Wikidata-> edit Wikidata schema. Valitse add item, ja siirrä rekonsilioidun teosnimisarakkeen kuvake laatikkoon. Sen jälkeen skeemaan lisätään termejä -> add terms ja valitse joko description, label tai alias ja niille oikea kieli. Description-kohtaan siirretään kuvaussarake ainakin englanniksi ja suomeksi. Label-laatikot sisältävät teosnimen muunkieliset käännökset ja mahdolliseen alias-laatikkoon siirretään teoksen nimen muut versiot.

Nyt sinulla on skeemassasi valmis kohde, mutta vielä tarvitsemme sille ominaisuuksia. Lisää ominaisuudeksi Instance of (esiintymä kohteesta), ja siirrä rekonsilioitu luokitukset-kuvake tai -kuvakkeet siihen. Lisää tämän jälkeen Creator (tekijät), Inception (ajoitus) tarkenteineen (earliest date ja latest date) ja Inventory number (esinetunnus, jonka tarkenteeksi voi halutessaan laittaa kokoelman nimen.)

Kokoelma kannattaa silti laittaa vielä erikseen. Collection (kokoelma / haltija; tarvittaessa eroteltuna), Location (ainakin, jos haltijaa ei ole erikseen mainittu. Sijainti voi olla vaikkapa museo tai kaupuki, missä museo / teos sijaitsee), Material used (materiaalit kaikki erikseen), Height, Width, Horizontal depth ja Diameter (kaikki mitat erikseen). Voit lisätä skeemaan muutakin tietoa jos katsot sen tarpeelliseksi. Muista myös lisätä lähde jokaiseen antamaasi ominaisuuteen! Saat kopioitua lähdeviitteen sen kerran lisättyäsi. 

9. Skeeman rakentaminen. Varmista, että kaikki tarvittavat sarakkeet on rekonsilioitu tässä vaiheessa. Voit palata vielä muokkaamaan taulukkoa, mikäli jotain on unohtunut.

Siirto Wikidataan

Kun olet saanut kaikki tarvitsemasi tiedot aseteltua oikeisiin paikkoihin, valitse sinisestä yläpalkista Preview. Jos skeemassasi ei ole ongelmia näet tässä kohtaa, miltä kohde tulee Wikidatassa näyttämään. Mikäli ongelmia on, valitettavasti OpenRefine ei kerro mitä kohtaa pitää korjata. Käy siis skeemarakenne huolellisesti läpi, ja pyri löytämään ongelmakohta. Issues -kohdasta löytyvät ongelmat mitkä eivät välttämättä vaikuta tiedonsiirron onnistumiseen, mutta ne kannattaa katsoa myös huolellisesti läpi.

10. Esikatselu ennen Wikidataan lataamista. Mikäli esikatselu ei aukea, on skeemarakenteessa jokin puute. Tarkista skeema ja sarakkeiden sisältämät tiedot ja kokeile uudelleen! Issues-linkki kannattaa myös tarkistaa ongelmien varalta.

Kun kaikki on kunnossa, voit valita Wikidata-alasvetovalikosta Upload edits to Wikidata.  Lataaminen saattaa kestää hetken, suuria massoja ladatessa jopa useita tunteja. Välillä osa lataamista odottavista tiedoista saattaa jäädä syystä tai toisesta Wikidatan suodattimeen. Kokeile kuitenkin uudelleen niin monta kertaa, että saat tarvittavat siirrot tehtyä! Tuplasti et voi vahingossa tehdä kohteita samasta taulukosta. Jos olet epävarma siirtyivätkö tiedot, tai mitkä tiedot siirtyivät, voit tarkastaa asian omasta Wikidataprofiilistasi kohdasta Muokkaukset. Wikidataan linkittyneet kohteet näkyvät myös taulukossasi sinisinä linkkeinä. Linkit kannattaa tarkistella vielä läpi, jotta tiedonsiirrossa ei ole sattunut mitään omituista matkan varrella.

Mikäli huomaat siirtämissäsi tiedoissa jälkeenpäin puutteita, voit siirtää skeeman avulla jo olemassa oleviin kohteisiin jonkin lisäominaisuuden tai tarvittaessa muokata yksittäisiä kohteita käsin.

Onnea tiedonsiirtoon!

Ohjeen laatinut 5.5.2020 Sanna Oikarinen / Porin taidemuseo

Leave your comment

Sähköpostiosoitettasi ei julkaista. Pakolliset kentät on merkitty *