search query: @keyword information retrieval / total: 18
reference: 11 / 18
« previous | next »
Author:Engström, Sam
Title:Unsupervised learning of morphology in information retrieval
Ohjaamaton morfologian oppiminen tiedonhaussa
Publication type:Master's thesis
Publication year:2008
Pages:(4) + 58      Language:   eng
Department/School:Tietojenkäsittelytieteen laitos
Main subject:Informaatiotekniikka   (T-61)
Supervisor:Oja, Erkki
Instructor:Kurimo, Mikko
Digitized copy: https://aaltodoc.aalto.fi/handle/123456789/95706
OEVS:
Digitized archive copy is available in Aaltodoc
Location:P1 Ark Aalto  8596   | Archive
Keywords:information retrieval
statistical natural language processing
unsupervised morphological analysis
vector space model
tiedonhaku
luonnollisen kielen tilastollinen käsittely
ohjaamaton morfologinen analyysi
vektoriavaruusmalli
Abstract (fin): Hakusanojen esikäsittely on tärkeää tiedonhaussa, sillä sen avulla samankaltaisten sanojen eri kieliasuja voidaan yhdenmukaistaa.
Erityisen haasteellista tämä on hakukielen ollessa voimakkaasti taipuva kieli, kuten suomi.
Perinteisesti hakusanoja on yhdenmukaistettu stemmereillä ja kaksitasomorfologisilla jäsentimillä, mutta näitä ei ole kaikille kielille saatavilla, ja niiden luominen vaatii paljon työtä ja hakukielen kielitieteellistä tuntemusta.

Uusilla menetelmillä on mahdollista jakaa ohjaamattomasti sanoja morfeemien kaltaisiksi yksiköiksi käyttäen apuna tilastotietoa niiden esiintymisestä tekstiaineistossa.
Tiedonhakuun tämä sopii hyvin, koska tekstiaineisto on yleensä helposti saatavilla.

Tässä diplomityössä verrataan ohjaamattomia morfologisia analyysimenetelmiä stemmereihin ja kaksitasomorfologioihin, sekä tehdään kokeita suomen- ja englanninkielisillä aineistoilla.
Ohjaamattomien menetelmien havaitaan suoriutuvan esikäsittelytehtävästä vähintään yhtä hyvin kuin perinteisten menetelmien.
ED:2008-08-21
INSSI record number: 36048
+ add basket
« previous | next »
INSSI