haku: @instructor Kurimo, Mikko / yhteensä: 19
viite: 11 / 19
Tekijä:Engström, Sam
Työn nimi:Unsupervised learning of morphology in information retrieval
Ohjaamaton morfologian oppiminen tiedonhaussa
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2008
Sivut:(4) + 58      Kieli:   eng
Koulu/Laitos/Osasto:Tietojenkäsittelytieteen laitos
Oppiaine:Informaatiotekniikka   (T-61)
Valvoja:Oja, Erkki
Ohjaaja:Kurimo, Mikko
Digitoitu julkaisu: https://aaltodoc.aalto.fi/handle/123456789/95706
OEVS:
Digitoitu arkistokappale on julkaistu Aaltodocissa
Sijainti:P1 Ark Aalto  8596   | Arkisto
Avainsanat:information retrieval
statistical natural language processing
unsupervised morphological analysis
vector space model
tiedonhaku
luonnollisen kielen tilastollinen käsittely
ohjaamaton morfologinen analyysi
vektoriavaruusmalli
Tiivistelmä (fin): Hakusanojen esikäsittely on tärkeää tiedonhaussa, sillä sen avulla samankaltaisten sanojen eri kieliasuja voidaan yhdenmukaistaa.
Erityisen haasteellista tämä on hakukielen ollessa voimakkaasti taipuva kieli, kuten suomi.
Perinteisesti hakusanoja on yhdenmukaistettu stemmereillä ja kaksitasomorfologisilla jäsentimillä, mutta näitä ei ole kaikille kielille saatavilla, ja niiden luominen vaatii paljon työtä ja hakukielen kielitieteellistä tuntemusta.

Uusilla menetelmillä on mahdollista jakaa ohjaamattomasti sanoja morfeemien kaltaisiksi yksiköiksi käyttäen apuna tilastotietoa niiden esiintymisestä tekstiaineistossa.
Tiedonhakuun tämä sopii hyvin, koska tekstiaineisto on yleensä helposti saatavilla.

Tässä diplomityössä verrataan ohjaamattomia morfologisia analyysimenetelmiä stemmereihin ja kaksitasomorfologioihin, sekä tehdään kokeita suomen- ja englanninkielisillä aineistoilla.
Ohjaamattomien menetelmien havaitaan suoriutuvan esikäsittelytehtävästä vähintään yhtä hyvin kuin perinteisten menetelmien.
ED:2008-08-21
INSSI tietueen numero: 36048
+ lisää koriin
INSSI