haku: @keyword speech recognition / yhteensä: 24
viite: 12 / 24
Tekijä: | Turunen, Ville Tapani |
Työn nimi: | Spoken document retrieval in Finnish based on morpheme-like subword units |
Morfeemien kaltaisiin yksiköihin perustuva suomenkielinen puhehaku | |
Julkaisutyyppi: | Diplomityö |
Julkaisuvuosi: | 2005 |
Sivut: | 61 Kieli: eng |
Koulu/Laitos/Osasto: | Tietotekniikan osasto |
Oppiaine: | Informaatiotekniikka (T-61) |
Valvoja: | Oja, Erkki |
Ohjaaja: | Kurimo, Mikko |
OEVS: | Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossaOppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa. Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/ Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.
Kirjautuminen asiakaskoneille
Opinnäytteen avaaminen
Opinnäytteen lukeminen
Opinnäytteen tulostus
|
Sijainti: | P1 Ark Aalto 8597 | Arkisto |
Avainsanat: | spoken document retrieval speech recognition information retrieval puhehaku puhetiedonhaku puheentunnistus tiedonhaku |
Tiivistelmä (fin): | Puhedokumenttien haku, eli kiinnostavien kohtien löytäminen tallennetusta puheesta, on haastava ongelma. Muita kieliä varten kehitettyjä menetelmiä ei voi käyttää suomenkieliseen puhehakuun sellaisenaan, koska suomenkielessä on erityispiirteitä, kuten suuri määrä eri sijamuotoja. Aiemmin on käytetty sanoihin tai fooneihin perustuvia ratkaisumalleja. Sanapohjaisen järjestelmän haittapuoli on puheentunnistimen rajoitettu sanasto, kun taas foonipohjainen järjestelmä kärsii korkeista virhemääristä. Tässä työssä käytetään morfeemien kaltaisiin yksiköihin perustuvaa puheentunnistinta, joka pystyy saavuttamaan alhaisen virhemäärän ja samalla tarjoamaan rajoittamattoman sanaston tunnistuksen. Puhe tunnistetaan jonona morfeemien kaltaisia yksiköitä, sanarajat merkattuina. Transkriptio voidaan indeksoida käyttäen indeksitermeinä joko sanoja tai morfeemein kaltaisia yksiköitä. Sanaindeksiä varten sananmuodot palautetaan perusmuotoihinsa morfologista analysaattoria käyttäen. Morfeemien kaltaiset yksiköt todetaan toimivan hyvin indeksitermeinä, suorituskyky on yhtä hyvä tai parempi kuin perusmuotoisilla sanoilla. Morfologisen analysaattorin käyttö voidaan siis välttää ja prosessi yksinkertaistuu. Työssä tutkittiin ja kokeiltiin myös menetelmiä tunnistusvirheiden haittavaikutuksen pienentämiseen. Ensimmäiseksi muodostettiin indeksi, joka yhdistää morfeemi- ja perusmuotoindeksit. Toiseksi muokattiin puheentunnistinta niin, että transkriptioon lisättiin vaihtoehtoisia tunnistustuloksia. Kolmanneksi laajennettiin kysymyslauseita niin, että rinnakkaisesta tekstikorpuksesta lisättiin niihin relevantteja sanoja. Kaikki menetelmät havaittiin hyödyllisiksi sekä absoluuttisen suorituskyvyn parantamiseen, että tunnistetun tekstin ja alkuperäisen tekstin hakujen suorituskykyjen välisen eron pienentämiseen. Parhaat tulokset saavutettiin kysymyslauseiden laajentamisella, jolla suorituskyky nousee samalle tasolle kuin tekstidokumenttien haulla, jopa tunnistuksi11a, joiden virhemäärä on suuri. Lopuksi todettiin, että hakujen suorituskyky ei huonone herkästi vaikka tunnistusvirheiden määrä lisääntyisi. |
ED: | 2006-01-04 |
INSSI tietueen numero: 30461
+ lisää koriin
INSSI