haku: @keyword speech recognition / yhteensä: 24
viite: 12 / 24
Tekijä:Turunen, Ville Tapani
Työn nimi:Spoken document retrieval in Finnish based on morpheme-like subword units
Morfeemien kaltaisiin yksiköihin perustuva suomenkielinen puhehaku
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2005
Sivut:61      Kieli:   eng
Koulu/Laitos/Osasto:Tietotekniikan osasto
Oppiaine:Informaatiotekniikka   (T-61)
Valvoja:Oja, Erkki
Ohjaaja:Kurimo, Mikko
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto  8597   | Arkisto
Avainsanat:spoken document retrieval
speech recognition
information retrieval
puhehaku
puhetiedonhaku
puheentunnistus
tiedonhaku
Tiivistelmä (fin): Puhedokumenttien haku, eli kiinnostavien kohtien löytäminen tallennetusta puheesta, on haastava ongelma.
Muita kieliä varten kehitettyjä menetelmiä ei voi käyttää suomenkieliseen puhehakuun sellaisenaan, koska suomenkielessä on erityispiirteitä, kuten suuri määrä eri sijamuotoja.

Aiemmin on käytetty sanoihin tai fooneihin perustuvia ratkaisumalleja.
Sanapohjaisen järjestelmän haittapuoli on puheentunnistimen rajoitettu sanasto, kun taas foonipohjainen järjestelmä kärsii korkeista virhemääristä.
Tässä työssä käytetään morfeemien kaltaisiin yksiköihin perustuvaa puheentunnistinta, joka pystyy saavuttamaan alhaisen virhemäärän ja samalla tarjoamaan rajoittamattoman sanaston tunnistuksen.
Puhe tunnistetaan jonona morfeemien kaltaisia yksiköitä, sanarajat merkattuina.
Transkriptio voidaan indeksoida käyttäen indeksitermeinä joko sanoja tai morfeemein kaltaisia yksiköitä.
Sanaindeksiä varten sananmuodot palautetaan perusmuotoihinsa morfologista analysaattoria käyttäen.

Morfeemien kaltaiset yksiköt todetaan toimivan hyvin indeksitermeinä, suorituskyky on yhtä hyvä tai parempi kuin perusmuotoisilla sanoilla.
Morfologisen analysaattorin käyttö voidaan siis välttää ja prosessi yksinkertaistuu.

Työssä tutkittiin ja kokeiltiin myös menetelmiä tunnistusvirheiden haittavaikutuksen pienentämiseen.
Ensimmäiseksi muodostettiin indeksi, joka yhdistää morfeemi- ja perusmuotoindeksit.
Toiseksi muokattiin puheentunnistinta niin, että transkriptioon lisättiin vaihtoehtoisia tunnistustuloksia.
Kolmanneksi laajennettiin kysymyslauseita niin, että rinnakkaisesta tekstikorpuksesta lisättiin niihin relevantteja sanoja.
Kaikki menetelmät havaittiin hyödyllisiksi sekä absoluuttisen suorituskyvyn parantamiseen, että tunnistetun tekstin ja alkuperäisen tekstin hakujen suorituskykyjen välisen eron pienentämiseen.
Parhaat tulokset saavutettiin kysymyslauseiden laajentamisella, jolla suorituskyky nousee samalle tasolle kuin tekstidokumenttien haulla, jopa tunnistuksi11a, joiden virhemäärä on suuri.

Lopuksi todettiin, että hakujen suorituskyky ei huonone herkästi vaikka tunnistusvirheiden määrä lisääntyisi.
ED:2006-01-04
INSSI tietueen numero: 30461
+ lisää koriin
INSSI