Page 26 - Työpoliittinen aikakauskirja 1 2018
P. 26
Artikkeleita
Työpoliittinen aikakauskirja 1/2018
ensimmäisen ja neljän ensimmäisen merkin perusteella. Osa koulutuksista on harvinaisia ja suorat prosentuaaliset osuudet eivät huomioi todistusaineiston vahvuutta kasvaneen havain- tolukumäärän johdosta. Siksi se, kuinka suuri osa koulutetuista päätyi tiettyyn ammattiin, laskettiin käyttäen Laplace tasoitusta (Laplace smoothing/additive smoothing). Laplace tasoi- tuksessa ennen osuuksien laskemista kaikkiin soluihin lisättiin pieni luku.
Hakijan koulutusluokittelu on rakenteeltaan samankaltainen kuin ISCO -luokittelukin, eli ensimmäinen merkki jakaa sen karkeimmalla tasolla ja lisänumerot tarkentavat, millaisesta koulutuksesta on kysymys. Tästä muuttujasta muodostettiin myös muuttuja koulutustaso, joka on koulutuskoodin ensimmäinen merkki.
Tietoja ajokortista, työn kestosta, työajasta ja työsuhteen tyypistä poimittiin työpaikkailmoi- tuksista sekä työnhakijoiden preferensseistä. Selittävänä muuttujana käytettiin sitä, vastaa- vatko työpaikan ja työnhakijan toiveet toisiaan.
Työnhakualueen perusteella määriteltiin kaksi eri tyyppistä muuttujaa. Ensimmäinen muuttuja kuvasi sitä, hakeeko työnhakija työtä koko maasta. Toinen muuttuja kuvasi, hakiko työnhakija töitä pääkaupunkiseudulta. Myös avoimista työpaikoista määriteltiin sijaitsevatko ne pääkaupunkiseudulla.
Keräsimme tietoja siitä, millaisista työpai- koista on siirrytty mihinkin työpaikkoihin. Eli kuinka suurella osalla niistä, joiden edellisen työ- paikan ISCO -koodi on x, seuraava ISCO -koodi on y. Näitä tarkasteltiin kahdella tavalla, käyt- tämällä ISCO -koodeista viittä ja neljää ensim- mäistä merkkiä. Käytimme myös tässä Laplace tasoitusta.
Myös tekstianalytiikalla muodostettuja muut- tujia käytettiin selittäjinä. Koska nämä muut- tujat eivät lopulta tuoneet merkittävää lisäar- voa malliin, niiden muodostus on kuvattu tässä vain lyhyesti. Tekstianalytiikan pohjana käytet- tiin avoimia tekstejä työpaikkailmoituksista ja työnhakijan itsestään antamista tiedoista. Teksti muutettiin vektorimuotoiseksi joukoksi doku-
mentteja (corpus), josta muodostettiin termi dokumentti –matriisi ja painotettiin ”term-fre- quency inverse document frequency” -menetel- mällä. Tämän jälkeen työpaikat ja työnhakijat klusteroitiin samankaltaisten käytettyjen käsit- teiden avulla.
Tutkimuksessa käytetyt menetelmät
Mätsäyksen toimivuutta voidaan arvioida monella tavalla ja nämä tulokset korreloivat vah- vasti mätsin hyvyyteen, mutta on vaikeaa arvi- oida mikä arviointitapa on paras. Osa mahdolli- sista mätsin onnistumista kuvaavista suureista on helpommin tulkittavissa, jos kaikkia mätsejä verrataan yhtä moneen työpaikkaan.
Tätä taustaa vasten poimittiin mätsäysalgo- ritmin opettamiseen kaikki työpaikka- ja työn- hakijakombinaatiot, joihin oli olemassa työl- listymiseen johtanut työtarjous ja määriteltiin nämä mätseiksi. Lisäksi poimittiin jokaiselle tällä tavalla määritellylle mätsille 99 verrokkia niistä työpaikka- ja työnhakijakombinaatioista, joihin ei ollut työllistymiseen johtanutta työtarjousta. Verrokit poimitaan sillä perusteella, että työn- hakija on sama ja työpaikkojen julkaisupäivä on mahdollisimman lähellä sitä työpaikkaa, jolle verrokki määritellään.
Prosessin lopputulemana saatiin aineisto, jossa jokaista työnhakijalle annettua työtarjousta kohti opetusaineistossa on 100 havaintoa, joista yksi on mätsi. Tällöin voidaan verrata, kuinka suuressa osassa tapauksista työtarjous on kolmen parhaan joukossa näistä sadasta. Kun havaintoja on 100, tämä suure on tulkittavissa myös niin, että kuinka suuri osa työhönosoituksista on par- haassa kolmessa prosentissa. Tätä suuretta on käytetty eri algoritmien vertaamiseen.
Testasimme kahta eri tapaa käsitellä puuttu- via havaintoja, kolmea eri selittävien muuttujien kokonaisuutta (suppea, normaali, laaja) ja seitse- mää algoritmia, joista osaa testattiin useammilla eri hyperparametrien arvoilla. Yhteensä erilaisia testattuja kombinaatioita oli 102.
Lisäksi katsoimme ratkaisussa käytetty data -kohdan alla esitellyt muuttujakokonaisuu-
26