Page 25 - Työpoliittinen aikakauskirja 1 2018
P. 25

Työpoliittinen aikakauskirja 1/2018
Artikkeleita
 telmiin perustuen. Tulosten esittäminen näin on johtanut parempaan lopputulokseen työpaik- kasuosituksissa kuin vain toisen menetelmän käyttö yksinään.
Indeedin (Preetha 2016) kokemusten mukaan järjestelmä kannattaa rakentaa iteratiivisesti aloittaen ensin vähimmäistuotteesta (mini- mum viable product), jota kehitetään myöhem- min eteenpäin. Sivusto hyödyntää klusterointia ja minhash –menetelmää nopeuttaakseen las- kentaa mätsäystarkkuuden kustannuksella.
Googlen (Posse 2016) työpaikkojen mätsäys- palvelu on tällä hetkellä vasta kehitteillä alfa -vaiheessa. Google kuitenkin pystyy hyödyntä- mään kehittämänsä kääntäjän tekstianalytiik- kaa samankaltaisten termien tunnistamisessa. Tämä menetelmä käyttää ontologioita ja yhdis- tää käyttäjän haun laajempaan konseptiin, jota hakukoskee.
Stack Over ow (Gasser 2017) aloitti mät- säyspalvelunsa yksinkertaisesta algoritmista ja kehitti sitä eteenpäin hyödyntäen A/B testausta. Ensimmäisenä he huomioivat työpaikkailmoi- tuksen iän ja sen jälkeen toisena työn sijainnin. Algoritmin kehitysvaiheessa käyttäjiltä pyydet- tiin preferenssejä työpaikkakiinnostusten suh- teen. Näitä tietoja hyödyntämällä muokattiin työpaikkasuosituksia myös niille käyttäjille, jotka eivät olleet ilmoittaneet omia preferenssejään.
Tutkimuksessa käytetty data
Tutkimuksemme ehdottama ratkaisu perustuu aineistoon, jonka saimme työ- ja elinkeinohal- linnon KEHA-keskuksen ylläpitämästä URA- järjestelmästä. Käytettävissämme oli dataa työ- paikoista ja työnhakijoista vuoden 2015 alusta toukokuuhun 2017. Käytimme opetusaineistona vuoden 2016 tietoja ja testasimme algoritmin toimintaa vuoden 2017 tiedoilla. Työnhakijoista oli saamassamme datassa monessa kohtaa uusin tieto, eikä sitä tietoa, jolla työtä on haettu esi- merkiksi vuonna 2015. Seuraavaksi kuvaamme poimitut muuttujat.
Käytimme työnhakijan ja työpaikan postinu- meroa sijainnin määrittelyyn ja tämän avulla las-
kimme työpaikan ja työnhakijan välisen etäisyy- den kilometreinä. Etäisyyden ja työllistymisto- dennäköisyyden välinen suhde ei ole lineaarinen ja kaikki testatut algoritmit eivät osaa itse huo- mioida selittävän muuttujan epälineaarisuutta hyvin, joten sitä varten käytimme myös etäisyy- den luonnollista logaritmia. Koska luvun nolla logaritmia ei ole määritelty, käytimme muun- nosta logaritminen etäisyys=ln(10 + etäisyys).
Asiointikieli- muuttuja sai arvon 1, jos työ- paikan julkaisukieli oli sama kuin työnhakijan asiointikieli ja muulloin arvon 0.
Datoista poimittuja muuttujia, joita käsi- teltiin sellaisenaan ilman muunnoksia olivat: haussa avoinna olevien työpaikkojen lukumäärä, työnhakijan ikä, työnhakijan työkokemuksen määrä ja postinumero.
Aineistosta poimittiin avoinna olleen työpai- kanISCO-ammattikoodijaISCO-ammattikoodi, jota hakija hakee (KEHA-keskus 2016). Näiden tietojen perusteella muodostettiin useita selit- täviä muuttujia. Yksi niistä oli se, kuinka monta ensimmäistä merkkiä molemmissa ammatti- koodeissa oli samoja. Lisäksi tietokanta sisälsi monille työnhakijoille useita ammatteja, joiden töitä he hakivat. Käytimme näitä tietoja mää- rittelemään sitä, kuinka lähellä ammattikoo- dit ovat toisiaan. Tämä tehtiin muodostamalla ensin termi- dokumenttimatriisi, jossa riveillä ovat hakijat ja sarakkeissa ammattien frekvens- sit hakijoilla. Tämän jälkeen laskimme korre- laatiot tämän matriisin työpaikkakoodeille ja käytimme näitä koodeja selittävinä muuttujina.
Poimimme opetushallituksen tilastopalve- lusta tietoja työllisten koulutuksesta ja amma- tista (Opetushallituksen tilastopalvelu 2017). Palvelusta saimme tiedon siitä, kuinka suuri määrä suomalaisista työllisistä on työllistynyt mihinkin ammattiin milläkin koulutustaus- talla. Laskimme prosenttiosuudet sille, kuinka suuri osa tietyn koulutusasteen suorittaneista päätyi tiettyyn ammattikoodiin. Samoin lasket- tiin osuudet koulutusaloille ja näiden kahden yhdistelmälle. Ammattikoodeja käsiteltiin sekä ensimmäisen, kahden ensimmäisen, kolmen
25




















































































   23   24   25   26   27