haku: @keyword vector space model / yhteensä: 2
viite: 2 / 2
« edellinen | seuraava »
Tekijä: | Engström, Sam |
Työn nimi: | Unsupervised learning of morphology in information retrieval |
Ohjaamaton morfologian oppiminen tiedonhaussa | |
Julkaisutyyppi: | Diplomityö |
Julkaisuvuosi: | 2008 |
Sivut: | (4) + 58 Kieli: eng |
Koulu/Laitos/Osasto: | Tietojenkäsittelytieteen laitos |
Oppiaine: | Informaatiotekniikka (T-61) |
Valvoja: | Oja, Erkki |
Ohjaaja: | Kurimo, Mikko |
Digitoitu julkaisu: | https://aaltodoc.aalto.fi/handle/123456789/95706 |
OEVS: | Digitoitu arkistokappale on julkaistu Aaltodocissa
|
Sijainti: | P1 Ark Aalto 8596 | Arkisto |
Avainsanat: | information retrieval statistical natural language processing unsupervised morphological analysis vector space model tiedonhaku luonnollisen kielen tilastollinen käsittely ohjaamaton morfologinen analyysi vektoriavaruusmalli |
Tiivistelmä (fin): | Hakusanojen esikäsittely on tärkeää tiedonhaussa, sillä sen avulla samankaltaisten sanojen eri kieliasuja voidaan yhdenmukaistaa. Erityisen haasteellista tämä on hakukielen ollessa voimakkaasti taipuva kieli, kuten suomi. Perinteisesti hakusanoja on yhdenmukaistettu stemmereillä ja kaksitasomorfologisilla jäsentimillä, mutta näitä ei ole kaikille kielille saatavilla, ja niiden luominen vaatii paljon työtä ja hakukielen kielitieteellistä tuntemusta. Uusilla menetelmillä on mahdollista jakaa ohjaamattomasti sanoja morfeemien kaltaisiksi yksiköiksi käyttäen apuna tilastotietoa niiden esiintymisestä tekstiaineistossa. Tiedonhakuun tämä sopii hyvin, koska tekstiaineisto on yleensä helposti saatavilla. Tässä diplomityössä verrataan ohjaamattomia morfologisia analyysimenetelmiä stemmereihin ja kaksitasomorfologioihin, sekä tehdään kokeita suomen- ja englanninkielisillä aineistoilla. Ohjaamattomien menetelmien havaitaan suoriutuvan esikäsittelytehtävästä vähintään yhtä hyvin kuin perinteisten menetelmien. |
ED: | 2008-08-21 |
INSSI tietueen numero: 36048
+ lisää koriin
« edellinen | seuraava »
INSSI