Page 31 - Työpoliittinen aikakauskirja 1 2018
P. 31
Työpoliittinen aikakauskirja 1/2018
Artikkeleita
kyseistä työtä. Tästä johtuen algoritmi toimi- nee käytännössä jonkin verran huonommin kuin tässä tutkimuksessa.
Algoritmi muodostettiin käyttämällä tapaus-verrokki -tyyppistä asetelmaa. Lisäksi algoritmia opetettiin hyödyntäen työtarjousten kautta tapahtuneita työllistymisiä. Molemmilla tekijöillä on hyviä puolia, mutta myös heikkouk- sia. Tapaus-verrokki -asetelma helpotti mallien vertailua ja työtarjoukset tarjosivat ainoan ikku- nan siihen, minne työnhakijat olivat työllisty- neet. Toisaalta otanta-asetelma peitti joiden- kin työnhakijan ominaisuuksien vaikutuksia ja se, miten työtarjouksia on annettu voi ohjata algoritmin toimintaa myös huonolla tavalla opettaen algoritmin esimerkiksi tarjoamaan liikaa vuorotteluvapaapaikkoja. Työnhakijat, jotka ovat työllistyneet työtarjouksien kautta eivät ole edustava otos kaikista työnhakijoista. Algoritmia on opetettu käyttäen tätä ryhmää, koska se oli ainoa ryhmä, joiden työllistymiskoh- teet olivat tiedossa. Tästä seuraa, että algoritmi toimii parhaiten ryhmällä, jotka ovat voineet työllistyä työtarjousten kautta.
Tutkimusmenetelmän ansiosta pystyttiin valitsemaan paras algoritmi isosta joukosta algoritmeja. URA- järjestelmässä on työnhaki- joista ja työpaikoista paljon informaatiota, mitä muualla ei välttämättä ole saatavilla ja tätä pys- tyttiin hyödyntämään algoritmia muodostet- taessa. Suomalaisilla tiedoilla tämänkaltaista tutkimusta ei ole aiemmin julkaistu, eikä kan- sainvälisiäkään julkaisuja ole paljon.
Yhteenveto
Vertasimme eri mätsäysalgoritmeja löytääk- semme algoritmin, jolla pystytään ennusta- maan työllistymistä mahdollisimman hyvin. Vertailua varten saimme käyttöömme aineiston, jossa oli tietoja työnhakijoista ja työpaikoista. Käytössämme oli työpaikat vuodesta 2015 eteen- päin ja työntekijöiden tiedot yksittäisenä aika- hetkenä vuonna 2017. Muodostimme näiden tie- tojen kautta selittäviä muuttujia, joita käytimme syötteinä eri algoritmeille.
Testasimme kaikkiaan yli sataa algoritmia. Kuten monissa kone-oppimisongelmissa aiem- minkin, algoritmeista parhaisiin lopputuloksiin päästiin ”random forest” ja gbm- menetelmillä. Eri menetelmien yhdistelmät tuottivat vielä aavistuksen parempia tuloksia, jos arviointikri- teerinä käytetään pelkästään ennustetarkkuutta.
Osoittautui, että selvästi vahvimmin työllis- tymistä pystytään ennustamaan sillä, kuinka lähellä työpaikkaa työnhakija asuu ja ISCO - koodin avulla. ISCO -koodeja käsittelimme rat- kaisussa useammalla tavalla, mutta hyödyllisin oli tapa, jossa katsoimme ISCO -koodien välistä siirtymää. Tällä tarkoitetaan sitä, kuinka suuri osa niistä, joilla oli tietty ISCO-koodi, työllistyi seuraavaksi minkäkin ISCO -koodin omaavaan työpaikkaan.
Sillä, kuinka nopeasti ja kuinka usein ennus- teita on pystyttävä käyttäjälle tarjoamaan, on myös vaikutusta siihen, miten algoritmin käytän- nön toiminta pitää järjestää. Mätsäysten saami- nen lähes reaaliaikaisesti vaatii enemmän kuin niiden tuottaminen esimerkiksi kerran viikossa. Yleisesti esimerkiksi ”random forest” -algorit- missa puiden määrän kasvattaminen kasvattaa ennustetarkkuutta, mutta lisää laskentakapasi- teetin tarvetta. Pääasiassa ennustetarkkuuden perusteella ”random forest”, jossa on 1000 puuta 15 selittävää muuttujaa, oli algoritmeista paras, mutta tuotannollistettaessa algoritmin yksinker- taistaminen voi olla tarpeen. Parhaiten toimiva algoritmi suositteli yli 95 prosenttia työpaikoista, joihin työnhakija työllistyi, parhaiten sopivaan kolmeen prosenttiin kaikista työpaikoista.
31