haku: @keyword speech recognition / yhteensä: 24
viite: 6 / 24
Tekijä:Hyyrynen, Lasse
Työn nimi:Towards multilingual speech recognition Decreasing foreign word error rate
Kohti monikielistä puheentunnistusta; Vierasperäisten sanojen tunnistusvirheiden vähentäminen
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2012
Sivut:61      Kieli:   eng
Koulu/Laitos/Osasto:Tietotekniikan laitos
Oppiaine:Tietokoneverkot   (T-110)
Valvoja:Kurimo, Mikko
Ohjaaja:Varjokallio, Matti ; Pylkkönen, Janne
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto  7347   | Arkisto
Avainsanat:speech recognition
joint-sequence model
pronunciation
puheentunnistus
ääntäminen
Tiivistelmä (fin): Sanojen ääntämys on yksi puheentunnistuksen tärkeimmistä osista.
Ääntämys on usein vahvasti sääntöpohjainen tapa muuttaa jono kirjaimia jonoksi foneemeita.
Koska sanojen ääntämys on kieliriippuvaista ja koska sanoja lainataan kielirajojen yli, täytyy puheentunnistus järjestelmän kyetä muodostamaan ääntämys sanalle eri kielien ääntämyssääntöjen mukaisesti.

Tässä työssä tutkittiin vierasperäisten sanojen tunnistusta suomenkielisen puheen tunnistukseen suunnatussa järjestelmässä.
Rakensimme menetelmän, jonka avulla pieni joukko vierasperäisiä sanoja pyrittiin tunnistamaan sanojen alkuperäisen ääntämyssäännöstön perusteella.
Menetelmään kuului kyky määrittää sanan vierasperäisyyden numeerinen arvo ja ääntämysmalli, jolla sanan kirjaimien perusteella kyettiin määrittämään todennäköisimmät tavat lausua kukin sana.
Vierasperäisten sanojen kohdalla käytettiin alan kehittyneintä yhdistettyjen jonojen mallinnusta (eng. joint-sequence model).

Menetelmän evaluointiin rakensimme kolme testiaineistoa.
Ensimmäinen aineisto rakennettiin lähes puhtaasta Suomen kielestä.
Tämän avulla pyrimme arvioimaan kuinka paljon vierasperäisten sanojen ääntämysasut tuovat heikennystä alkuperäiseen puhtaan suomenkielen tunnistukseen.
Toinen aineisto sisälsi lauseita joissa oli vähintään yksi vierasperäinen sana.
Viimeisessä aineistossa oli vain yksittäisiä vierasperäisiä sanoja.
Näiden aineistojen avulla selvitettiin kuinka paljon vierasperäisten sanojen tunnistus parantui.

Työssä käytettiin morfeemi-pohjaista sanalistaa, joka sisälsi 15152 morfeemia.
Tulokset antoivat parhaimmillaan 6.74 % vähemmän kirjainvirheitä lauseissa, joissa esiintyi paljon vierasperäisiä sanoja.
Puhtaasti suomenkieltä sisältävien lauseiden kohdalla kirjainvirheet lisääntyivät lähes lineaarisesti 8,47 %:sta 9,13 %:iin kun vierasperaisiä ääntämysasuja annettiin 0:sta 8000:een todennäköisimmin vierasperäiseen sanaan.
Tulosten perusteella voidaan päätellä, että vierasperäisiä sanoja voidaan tunnistaa ääntämysasuilla jotka ovat rakennettu yhdistettyjen jonojen mallinnuksella.
Tiivistelmä (eng): Word pronunciation is an essential piece in a speech recognition or synthesis system.
Words are pronounced by rules specific to the language.
Some words and names are commonly used and pronounced similarly across languages.
For a system to be able to recognize or pronounce these loanwords and foreign names, one needs a method to determine the language of the word and a method for converting the letters of the word to a phoneme sequence in that language.

In this thesis we present methods that can be used to achieve a multilingual speech recognition system that would be able to recognize some commonly used foreign names and words in Finnish speech.
To achieve this we first applied a method to determine how foreign each word in our dictionary is by comparing the word or subword occurrence frequencies across languages.
For pronouncing the most foreign-like words, we chose the joint-sequence model.
The model aligns known letter and phoneme sequences and applies a probabilistic framework to find the most probable joint sequence for unknown words.

To evaluate the methods, we used three types of datasets.
First a dataset of almost purely Finnish speech was used to see how much the pronunciation variants degrade the baseline system.
The second dataset contained sentences with a lot of foreign words and the last dataset utterances of single foreign words.

The foreign pronunciation variants produced by the joint-sequence model were applied to a morpheme-based speech recognition system.
The lexicon in this work contained 15152 morphemes.
The results show up to 6.74% decrease in the letter error rate on documents with a lot of foreign words.
For documents that contain a minimal amount of foreign words, letter error rate increases almost linearly from 8.47% to 9.13% as foreign pronunciation variants are given from 0 to 8000 morphemes respectively.
These results indicate that foreign words can be recognized with pronunciation from the joint-sequence model.
ED:2013-01-18
INSSI tietueen numero: 45833
+ lisää koriin
INSSI