search query: @keyword speech recognition / total: 24
reference: 6 / 24
« previous | next »
Author:Hyyrynen, Lasse
Title:Towards multilingual speech recognition Decreasing foreign word error rate
Kohti monikielistä puheentunnistusta; Vierasperäisten sanojen tunnistusvirheiden vähentäminen
Publication type:Master's thesis
Publication year:2012
Pages:61      Language:   eng
Department/School:Tietotekniikan laitos
Main subject:Tietokoneverkot   (T-110)
Supervisor:Kurimo, Mikko
Instructor:Varjokallio, Matti ; Pylkkönen, Janne
OEVS:
Electronic archive copy is available via Aalto Thesis Database.
Instructions

Reading digital theses in the closed network of the Aalto University Harald Herlin Learning Centre

In the closed network of Learning Centre you can read digital and digitized theses not available in the open network.

The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/

You can read theses on the Learning Centre customer computers, which are available on all floors.

Logging on to the customer computers

  • Aalto University staff members log on to the customer computer using the Aalto username and password.
  • Other customers log on using a shared username and password.

Opening a thesis

  • On the desktop of the customer computers, you will find an icon titled:

    Aalto Thesis Database

  • Click on the icon to search for and open the thesis you are looking for from Aaltodoc database. You can find the thesis file by clicking the link on the OEV or OEVS field.

Reading the thesis

  • You can either print the thesis or read it on the customer computer screen.
  • You cannot save the thesis file on a flash drive or email it.
  • You cannot copy text or images from the file.
  • You cannot edit the file.

Printing the thesis

  • You can print the thesis for your personal study or research use.
  • Aalto University students and staff members may print black-and-white prints on the PrintingPoint devices when using the computer with personal Aalto username and password. Color printing is possible using the printer u90203-psc3, which is located near the customer service. Color printing is subject to a charge to Aalto University students and staff members.
  • Other customers can use the printer u90203-psc3. All printing is subject to a charge to non-University members.
Location:P1 Ark Aalto  7347   | Archive
Keywords:speech recognition
joint-sequence model
pronunciation
puheentunnistus
ääntäminen
Abstract (eng): Word pronunciation is an essential piece in a speech recognition or synthesis system.
Words are pronounced by rules specific to the language.
Some words and names are commonly used and pronounced similarly across languages.
For a system to be able to recognize or pronounce these loanwords and foreign names, one needs a method to determine the language of the word and a method for converting the letters of the word to a phoneme sequence in that language.

In this thesis we present methods that can be used to achieve a multilingual speech recognition system that would be able to recognize some commonly used foreign names and words in Finnish speech.
To achieve this we first applied a method to determine how foreign each word in our dictionary is by comparing the word or subword occurrence frequencies across languages.
For pronouncing the most foreign-like words, we chose the joint-sequence model.
The model aligns known letter and phoneme sequences and applies a probabilistic framework to find the most probable joint sequence for unknown words.

To evaluate the methods, we used three types of datasets.
First a dataset of almost purely Finnish speech was used to see how much the pronunciation variants degrade the baseline system.
The second dataset contained sentences with a lot of foreign words and the last dataset utterances of single foreign words.

The foreign pronunciation variants produced by the joint-sequence model were applied to a morpheme-based speech recognition system.
The lexicon in this work contained 15152 morphemes.
The results show up to 6.74% decrease in the letter error rate on documents with a lot of foreign words.
For documents that contain a minimal amount of foreign words, letter error rate increases almost linearly from 8.47% to 9.13% as foreign pronunciation variants are given from 0 to 8000 morphemes respectively.
These results indicate that foreign words can be recognized with pronunciation from the joint-sequence model.
Abstract (fin): Sanojen ääntämys on yksi puheentunnistuksen tärkeimmistä osista.
Ääntämys on usein vahvasti sääntöpohjainen tapa muuttaa jono kirjaimia jonoksi foneemeita.
Koska sanojen ääntämys on kieliriippuvaista ja koska sanoja lainataan kielirajojen yli, täytyy puheentunnistus järjestelmän kyetä muodostamaan ääntämys sanalle eri kielien ääntämyssääntöjen mukaisesti.

Tässä työssä tutkittiin vierasperäisten sanojen tunnistusta suomenkielisen puheen tunnistukseen suunnatussa järjestelmässä.
Rakensimme menetelmän, jonka avulla pieni joukko vierasperäisiä sanoja pyrittiin tunnistamaan sanojen alkuperäisen ääntämyssäännöstön perusteella.
Menetelmään kuului kyky määrittää sanan vierasperäisyyden numeerinen arvo ja ääntämysmalli, jolla sanan kirjaimien perusteella kyettiin määrittämään todennäköisimmät tavat lausua kukin sana.
Vierasperäisten sanojen kohdalla käytettiin alan kehittyneintä yhdistettyjen jonojen mallinnusta (eng. joint-sequence model).

Menetelmän evaluointiin rakensimme kolme testiaineistoa.
Ensimmäinen aineisto rakennettiin lähes puhtaasta Suomen kielestä.
Tämän avulla pyrimme arvioimaan kuinka paljon vierasperäisten sanojen ääntämysasut tuovat heikennystä alkuperäiseen puhtaan suomenkielen tunnistukseen.
Toinen aineisto sisälsi lauseita joissa oli vähintään yksi vierasperäinen sana.
Viimeisessä aineistossa oli vain yksittäisiä vierasperäisiä sanoja.
Näiden aineistojen avulla selvitettiin kuinka paljon vierasperäisten sanojen tunnistus parantui.

Työssä käytettiin morfeemi-pohjaista sanalistaa, joka sisälsi 15152 morfeemia.
Tulokset antoivat parhaimmillaan 6.74 % vähemmän kirjainvirheitä lauseissa, joissa esiintyi paljon vierasperäisiä sanoja.
Puhtaasti suomenkieltä sisältävien lauseiden kohdalla kirjainvirheet lisääntyivät lähes lineaarisesti 8,47 %:sta 9,13 %:iin kun vierasperaisiä ääntämysasuja annettiin 0:sta 8000:een todennäköisimmin vierasperäiseen sanaan.
Tulosten perusteella voidaan päätellä, että vierasperäisiä sanoja voidaan tunnistaa ääntämysasuilla jotka ovat rakennettu yhdistettyjen jonojen mallinnuksella.
ED:2013-01-18
INSSI record number: 45833
+ add basket
« previous | next »
INSSI