Page 27 - Työpoliittinen aikakauskirja 1 2018
P. 27

Työpoliittinen aikakauskirja 1/2018
Artikkeleita
 det läpi yksi kerrallaan. Lopussa testasimme vielä muutaman malliyhdistelmän (ensemble). Malliyhdistelmä tarkoittaa sitä, että yhdistetään useamman mallin ennusteet.
Puuttuvaa dataa käsiteltiin ensin korvaamalla numeeriset muuttujat mediaanilla ja käyttä- mällä laatueroasteikollisissa muuttujissa yhtenä lisäluokkana puuttuvaa tietoa. Toisessa käsitte- lytavassa lisättiin malleihin selittäviksi muuttu- jiksi myös indikaattorimuuttujia, jotka kuvaavat sitä, puuttuuko tieto vai ei.
Algoritmit, joita mallin rakentamisessa käy- tettiin olivat naiivi bayes, lähimmän naapurin menetelmä, logistinen regressio, päätöksenteko- puu, ”random forest”, ”gradient boosting (gbm)” ja neuroverkko. Koska ”random forestin” todet- tiin pääasiassa suorituskykyä painottaen tuloso- siossa toimivan parhaiten, kuvataan sitä ja pää- töksentekopuuta, joista ”random forest” koostuu tarkemmin. Käytetyt lähteet eivät ole niitä, joissa algoritmi on ensimmäisen kerran esitelty, vaan sellaisia, joissa algoritmin toimintaa on pyritty esittämään yksinkertaisemmin.
Päätöksentekopuut ovat yksinkertainen monimuuttujamenetelmä, jonka tulokset on helppo havainnollistaa. Niissä on ideana, että haetaan tapa jakaa aineisto kahtia niin, että ryhmät erottuvat mahdollisimman hyvin seli- tettävän muuttujan luokissa. Kun on tehty yksi jako, mennään puussa alaspäin ja tehdään jäljellejääneeseen aineistoon uusia jakoja. Menetelmä mahdollistaa monimutkaistenkin yhdysvaikutusten löytämisen ja ne selviävät hyvin siitä, että yhteydet eivät ole lineaarisia. Päätöksentekopuusta on kuvaesimerkki tulokset -osiossa. Menetelmään voi tutustua tarkemmin käyttäen lähdettä Loh (2011).
”Random forest” on kokoelma päätöksente- kopuita. Aineistosta ja selittävistä muuttujista otetaan otoksia ja tehdään niille päätöksenteko- puut ja lopputulos on kaikkien yksittäisten pää- töksentekopuiden keskiarvo. Näin yksittäisten puiden virheiden merkitys pienenee. Lisätietoa tästä algoritmista voi katsoa esimerkiksi läh- teestä Polamuri (2017). Toteutimme ”random
forestin” R:n ranger-paketin ranger -algoritmilla (Marvin 2017).
Yksittäisten muuttujien vaikutus
Katsoimme aluksi eri tekijöiden ennustekykyä yksi muuttujakokonaisuus kerrallaan käyttäen logistista regressiota. Muuttujakokonaisuuksien perässä sulkeissa oleva prosenttiosuus kuvaa sitä, kuinka suuren osan työllistymiseen johta- vista työtarjouksista algoritmi olisi suositellut työnhakijalle parhaiten sopivaan kolmeen pro- senttiin avoimista työpaikoista.
Yhtä muuttujakokonaisuutta kerrallaan tar- kasteltaessa, työpaikkahistoria (71 %) ja sijainti (63 %) ennustavat parhaiten työllistymistä. Myös muut ISCO -luokitukseen perustuvat muuttujat ammattikoodi (43 %) ja korrelaatio (44 %) ovat hyviä.
Seuraavana tuleva työsuhteen tyyppi (35 %) on aavistuksen ongelmallisempi. Se, onko haettu työpaikka vuorotteluvapaa-paikka, provisiopal- kattu tai yrittäjyystyöpaikka luultavasti sinänsä vaikuttaa työllistymistodennäköisyyteen, mutta osa vaikutuksesta voi tulla myös sitä kautta, että tällaisiin työpaikkoihin on tehty työtarjouksia erilaisin kriteerein kuin palkkatyöpaikkoihin.
Koulutusmuuttujilla (22 %) ja paikkojen luku- määrällä (10 %) on jonkin verran ennustearvoa, kun taas muiden muuttujien yksinään katsottu ennustearvo ei erotu kovin olennaisesti siitä, että työpaikkoja tarjottaisiin satunnaisesti, jolloin tulos olisi 3 %. Esimerkiksi tekstianalytiikka- muuttujilla (4 %) ennustekykyä oli väin vähän.
Mitä lähempänä työpaikkaa hakija asuu, sitä todennäköisemmin hän työllistyy sinne. Todennäköisyys työllistyä laskee suhteellisen lineaarisesti nollasta kilometristä noin 80 kilo- metriin. Jos etäisyys työpaikkaan on yli 100 kilo- metriä ei enää ole juuri vaikutusta sillä, kuinka paljon enemmän se on.
Työhistoria kuvaa sitä, kuinka suuri osuus niistä, joiden aiemman työn ISCO -koodi oli tietty, päätyy haettavan työn ISCO-koodiin. Suuremmat luvut luonnollisesti johtavat suu- rempaan työllistymistodennäköisyyteen.
27



















































































   25   26   27   28   29