Page 28 - Työpoliittinen aikakauskirja 1 2018
P. 28
Artikkeleita
Työpoliittinen aikakauskirja 1/2018
Työhistorian vaikutus työllistymistodennäköi- syyteen nousee hieman nopeampaa 0-0,3 välissä, jossa on mukana sellaisiakin siirtymiä, mitkä eivät ole samasta ammatista samaan ammat- tiin. Myös välillä 0,3-1 yhteys on positiivinen, mutta tällä välillä esiintyvät samasta ammatista samaan ammattiin siirtymäerot ovat aavistuksen pienempiä.
Työsuhteen tyyppi erottelee työpaikkoja vahvimmin sillä perusteella, ovatko ne vuo- rotteluvapaita vai ei. Vuorotteluvapaalle työl- listymismahdollisuudet ovat mallin mukaan moninkertaisesti paremmat. Tämä johtuu otan- ta-asetelmasta. Ne työtarjoukset, joita annetaan vuorotteluvapaapaikkoihin johtavat työllistymi- seen todennäköisemmin, koska työlliset eivät voi hakea näihin työpaikkoihin. Tämän muuttujan poistaminen mallista voi olla harkinnanarvoista.
Sillä, montako ensimmäistä yhteistä merkkiä on siinä hakijan ISCO-koodissa, joka parhaiten vastaa avoinna olevaa työpaikkaa, on looginen yhteys työllistymistodennäköisyyteen. Kun yhteisten merkkien määrä haetun ISCO-koodin ja työpaikan ISCO-koodin välillä kasvaa yhdellä, työllistymistodennäköisyys karkeasti kolmin- kertaistuu.
Menetelmävertailun tulos
Menetelmävertailussa havaittiin, että parhai- ten toimivia algoritmeja ovat ”random forest” ja gbm. Näissä laajalla selittävien muuttujien joukolla päädytään parhaaseen lopputulok- seen. Molemmat mallit suosittelevat parhaim- millaan 96 % niistä työpaikkoja, joihin työnha- kija työtarjouksen kautta työllistyi parhaaseen kolmeen prosenttiin kaikista työpaikoista tes- tiaineistossa.
Yksinkertaisempien mallien, naivin bayesin (73 %), lähimmän naapurin menetelmän (70 %) ja päätöksentekopuun (80 %) tulokset ovat sel- västi heikompia. Logistinen regressio suoriutuu hyvin (93 %). Neuroverkkojen (86 %) suoritusta- sossa on eniten vaihtelua, joten niissä laajempi hyperparametrien testaaminen olisi saattanut johtaa parempaan lopputulokseen. Tässä on esi-
tetty algoritmien kohdalla parhaan hyperpara- metrin ja selittävien muuttujien yhdistelmä.
Indikaattorimuuttujien lisäämisellä puut- tuvalle tiedolle on vain vähän vaikutusta. Parhaiden mallien yhdistäminen keskiarvolla tuottaa aavistuksen (0,1 %) paremman lopputu- loksen kuin parhaat yksittäiset mallit.
Erilaiset algoritmit hyötyvät siitä, että selittä- viä muuttujia käsitellään niissä vähän eri tavalla, mutta sadan algoritmin hienosäätäminen on työ- lästä, joten kuvaamme tarkemmin tutkimuk- sessa parhaiten toimineen yksittäisen algorit- min ”random forest” 1000 puulla ja 20 kerrallaan testattavalla muuttujalla ja hienosäädämme sitä. Tavoitteena on mahdollisuuksien mukaan yksin- kertaistaa algoritmia jättämällä pois muuttujia, jotka eivät paranna sen ennustuskykyä olennai- sesti, jotta algoritmia olisi helpompi hyödyntää käytännössä.
Parhaan menetelmän kuvailu
Kun muuttujien vaikutusta ”random forest” -mallissa tarkastellaan gini impurity -suureella (Menze 2009) havaitaan, että sijainti on selvästi eniten vaikuttava kokonaisuus. Selvänä kakko- sena on työpaikkahistoria, eli kuinka suuria siir- tymiä haetusta ISCO-koodista oli siihen ISCO- koodiin, joka oli avoinna. Seuraavaksi vaikutta- vin muuttuja on työsuhteen tyyppi ja tätä seuraa- vat muuttujat ovat parhaiten sopiva ISCO-koodi ja postinumero. Muita kärkipäässä olleita teki- jöitä olivat ISCO-luokitusten korrelaatio, haettu ISCO-ammattikoodi, koulutus ja yksi tekstiana- lytiikkamuuttuja. Ajokortin ja asiointikielen vai- kutus oli hyvin pieni. Myöskään ikä tai hakijan koulutus sellaisenaan eivät nousseet esiin, mutta tätä voi osin selittää otanta- asetelma, johon palataan myöhemmässä kappaleessa.
Etäisyys vaikuttaa varmasti paljon siihen, hakeutuuko työntekijä avoimeen työpaikkaan, mutta toki tässä asuinpaikan postinumeroa kos- kevassa mätsissä on mahdollista sekin, että työn- tekijä on vasta työllistymisensä jälkeen muut- tanut lähelle työpaikkaa ja tämä voi vääristää tulosta. Etäisyys oli tärkein muuttuja ja etäisyy-
28