search query: @keyword information retrieval / total: 18
reference: 11 / 18
Author: | Engström, Sam |
Title: | Unsupervised learning of morphology in information retrieval |
Ohjaamaton morfologian oppiminen tiedonhaussa | |
Publication type: | Master's thesis |
Publication year: | 2008 |
Pages: | (4) + 58 Language: eng |
Department/School: | Tietojenkäsittelytieteen laitos |
Main subject: | Informaatiotekniikka (T-61) |
Supervisor: | Oja, Erkki |
Instructor: | Kurimo, Mikko |
Digitized copy: | https://aaltodoc.aalto.fi/handle/123456789/95706 |
OEVS: | Digitized archive copy is available in Aaltodoc
|
Location: | P1 Ark Aalto 8596 | Archive |
Keywords: | information retrieval statistical natural language processing unsupervised morphological analysis vector space model tiedonhaku luonnollisen kielen tilastollinen käsittely ohjaamaton morfologinen analyysi vektoriavaruusmalli |
Abstract (fin): | Hakusanojen esikäsittely on tärkeää tiedonhaussa, sillä sen avulla samankaltaisten sanojen eri kieliasuja voidaan yhdenmukaistaa. Erityisen haasteellista tämä on hakukielen ollessa voimakkaasti taipuva kieli, kuten suomi. Perinteisesti hakusanoja on yhdenmukaistettu stemmereillä ja kaksitasomorfologisilla jäsentimillä, mutta näitä ei ole kaikille kielille saatavilla, ja niiden luominen vaatii paljon työtä ja hakukielen kielitieteellistä tuntemusta. Uusilla menetelmillä on mahdollista jakaa ohjaamattomasti sanoja morfeemien kaltaisiksi yksiköiksi käyttäen apuna tilastotietoa niiden esiintymisestä tekstiaineistossa. Tiedonhakuun tämä sopii hyvin, koska tekstiaineisto on yleensä helposti saatavilla. Tässä diplomityössä verrataan ohjaamattomia morfologisia analyysimenetelmiä stemmereihin ja kaksitasomorfologioihin, sekä tehdään kokeita suomen- ja englanninkielisillä aineistoilla. Ohjaamattomien menetelmien havaitaan suoriutuvan esikäsittelytehtävästä vähintään yhtä hyvin kuin perinteisten menetelmien. |
ED: | 2008-08-21 |
INSSI record number: 36048
+ add basket
INSSI