haku: @keyword speech recognition / yhteensä: 24
viite: 6 / 24
Tekijä: | Hyyrynen, Lasse |
Työn nimi: | Towards multilingual speech recognition Decreasing foreign word error rate |
Kohti monikielistä puheentunnistusta; Vierasperäisten sanojen tunnistusvirheiden vähentäminen | |
Julkaisutyyppi: | Diplomityö |
Julkaisuvuosi: | 2012 |
Sivut: | 61 Kieli: eng |
Koulu/Laitos/Osasto: | Tietotekniikan laitos |
Oppiaine: | Tietokoneverkot (T-110) |
Valvoja: | Kurimo, Mikko |
Ohjaaja: | Varjokallio, Matti ; Pylkkönen, Janne |
OEVS: | Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossaOppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa. Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/ Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.
Kirjautuminen asiakaskoneille
Opinnäytteen avaaminen
Opinnäytteen lukeminen
Opinnäytteen tulostus
|
Sijainti: | P1 Ark Aalto 7347 | Arkisto |
Avainsanat: | speech recognition joint-sequence model pronunciation puheentunnistus ääntäminen |
Tiivistelmä (fin): | Sanojen ääntämys on yksi puheentunnistuksen tärkeimmistä osista. Ääntämys on usein vahvasti sääntöpohjainen tapa muuttaa jono kirjaimia jonoksi foneemeita. Koska sanojen ääntämys on kieliriippuvaista ja koska sanoja lainataan kielirajojen yli, täytyy puheentunnistus järjestelmän kyetä muodostamaan ääntämys sanalle eri kielien ääntämyssääntöjen mukaisesti. Tässä työssä tutkittiin vierasperäisten sanojen tunnistusta suomenkielisen puheen tunnistukseen suunnatussa järjestelmässä. Rakensimme menetelmän, jonka avulla pieni joukko vierasperäisiä sanoja pyrittiin tunnistamaan sanojen alkuperäisen ääntämyssäännöstön perusteella. Menetelmään kuului kyky määrittää sanan vierasperäisyyden numeerinen arvo ja ääntämysmalli, jolla sanan kirjaimien perusteella kyettiin määrittämään todennäköisimmät tavat lausua kukin sana. Vierasperäisten sanojen kohdalla käytettiin alan kehittyneintä yhdistettyjen jonojen mallinnusta (eng. joint-sequence model). Menetelmän evaluointiin rakensimme kolme testiaineistoa. Ensimmäinen aineisto rakennettiin lähes puhtaasta Suomen kielestä. Tämän avulla pyrimme arvioimaan kuinka paljon vierasperäisten sanojen ääntämysasut tuovat heikennystä alkuperäiseen puhtaan suomenkielen tunnistukseen. Toinen aineisto sisälsi lauseita joissa oli vähintään yksi vierasperäinen sana. Viimeisessä aineistossa oli vain yksittäisiä vierasperäisiä sanoja. Näiden aineistojen avulla selvitettiin kuinka paljon vierasperäisten sanojen tunnistus parantui. Työssä käytettiin morfeemi-pohjaista sanalistaa, joka sisälsi 15152 morfeemia. Tulokset antoivat parhaimmillaan 6.74 % vähemmän kirjainvirheitä lauseissa, joissa esiintyi paljon vierasperäisiä sanoja. Puhtaasti suomenkieltä sisältävien lauseiden kohdalla kirjainvirheet lisääntyivät lähes lineaarisesti 8,47 %:sta 9,13 %:iin kun vierasperaisiä ääntämysasuja annettiin 0:sta 8000:een todennäköisimmin vierasperäiseen sanaan. Tulosten perusteella voidaan päätellä, että vierasperäisiä sanoja voidaan tunnistaa ääntämysasuilla jotka ovat rakennettu yhdistettyjen jonojen mallinnuksella. |
Tiivistelmä (eng): | Word pronunciation is an essential piece in a speech recognition or synthesis system. Words are pronounced by rules specific to the language. Some words and names are commonly used and pronounced similarly across languages. For a system to be able to recognize or pronounce these loanwords and foreign names, one needs a method to determine the language of the word and a method for converting the letters of the word to a phoneme sequence in that language. In this thesis we present methods that can be used to achieve a multilingual speech recognition system that would be able to recognize some commonly used foreign names and words in Finnish speech. To achieve this we first applied a method to determine how foreign each word in our dictionary is by comparing the word or subword occurrence frequencies across languages. For pronouncing the most foreign-like words, we chose the joint-sequence model. The model aligns known letter and phoneme sequences and applies a probabilistic framework to find the most probable joint sequence for unknown words. To evaluate the methods, we used three types of datasets. First a dataset of almost purely Finnish speech was used to see how much the pronunciation variants degrade the baseline system. The second dataset contained sentences with a lot of foreign words and the last dataset utterances of single foreign words. The foreign pronunciation variants produced by the joint-sequence model were applied to a morpheme-based speech recognition system. The lexicon in this work contained 15152 morphemes. The results show up to 6.74% decrease in the letter error rate on documents with a lot of foreign words. For documents that contain a minimal amount of foreign words, letter error rate increases almost linearly from 8.47% to 9.13% as foreign pronunciation variants are given from 0 to 8000 morphemes respectively. These results indicate that foreign words can be recognized with pronunciation from the joint-sequence model. |
ED: | 2013-01-18 |
INSSI tietueen numero: 45833
+ lisää koriin
INSSI