search query: @keyword automatic speech recognition / total: 10
reference: 7 / 10
« previous | next »
Author:Karhila, Reima
Title:Cross-lingual acoustic model adaptation for speaker-independent speech recognition
Akustisten mallien adaptointi kielten yli puhujariippumattomassa puheentunnistuksessa
Publication type:Master's thesis
Publication year:2010
Pages:[12] + 124      Language:   eng
Department/School:Elektroniikan, tietoliikenteen ja automaation tiedekunta
Main subject:Akustiikka ja äänenkäsittelytekniikka   (S-89)
Supervisor:Alku, Paavo
Instructor:Kurimo, Mikko
Electronic version URL: http://urn.fi/URN:NBN:fi:aalto-201203131511
OEVS:
Electronic archive copy is available via Aalto Thesis Database.
Instructions

Reading digital theses in the closed network of the Aalto University Harald Herlin Learning Centre

In the closed network of Learning Centre you can read digital and digitized theses not available in the open network.

The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/

You can read theses on the Learning Centre customer computers, which are available on all floors.

Logging on to the customer computers

  • Aalto University staff members log on to the customer computer using the Aalto username and password.
  • Other customers log on using a shared username and password.

Opening a thesis

  • On the desktop of the customer computers, you will find an icon titled:

    Aalto Thesis Database

  • Click on the icon to search for and open the thesis you are looking for from Aaltodoc database. You can find the thesis file by clicking the link on the OEV or OEVS field.

Reading the thesis

  • You can either print the thesis or read it on the customer computer screen.
  • You cannot save the thesis file on a flash drive or email it.
  • You cannot copy text or images from the file.
  • You cannot edit the file.

Printing the thesis

  • You can print the thesis for your personal study or research use.
  • Aalto University students and staff members may print black-and-white prints on the PrintingPoint devices when using the computer with personal Aalto username and password. Color printing is possible using the printer u90203-psc3, which is located near the customer service. Color printing is subject to a charge to Aalto University students and staff members.
  • Other customers can use the printer u90203-psc3. All printing is subject to a charge to non-University members.
Location:P1 Ark Aalto  848   | Archive
Keywords:automatic speech recognition
multi-lingual acoustic modelling
acoustic model adaptation
cross-lingual speaker adaptation
puheentunnistus
monikielinen akustinen mallinnus
akustisten mallien adaptaatio
kielten yli tapahtuva puhuja-adaptaatio
Abstract (eng): For good quality speech recognition, the ability of the recognition system to adapt itself to each speaker's voice and speaking style is more than necessary.
Most of speech recognition systems are developed for very specific purposes for a linguistically homogenous group.
However, as user groups are formed out of people from differing linguistic backgrounds, there is an ever-growing demand for efficient multi-lingual speech technology that takes into account not only varying dialects and accents but also different languages.

This thesis investigated how the acoustic models for English and Finnish can be efficiently combined to create a multilingual speech recognition system.
Also how these combined systems perform speaker adaptation within languages and across languages using data from one language to improve recognition of the same speaker speaking another language was investigated.
Recognition systems were trained based on large Finnish and English corpora, and tested both on monolingual and bilingual material.

This study shows that the thresholds for safe merging of the model sets of Finnish and English are so low that the merging can hardly be motivated from the point of view of efficiency.

Also it was found out that the recognition of native Finnish can be improved with the use of English speech data from the same speaker.
This only works one-way, as the foreign English recognition could not be significantly improved with the help of Finnish speech data.
Abstract (fin): Laadukas puheentunnistus vaatii tunnistussysteemiltä kykyä mukautua puhujan ääneen ja puhetapaan.
Suurin osa puheentunnistusjärjestelmistä on rakennettu kielellisesti yhtenäisten ryhmien käyttöön.
Kun erilaisista kielellisistä taustoista tulevat ihmiset muodostavat enemmän ja enemmän käyttäjäryhmiä, tarve lisääntyy tehokkaalle monikieliselle puheentunnistukselle, joka ottaa huomioon murteiden ja painotusten lisäksi myös eri kielet.

Tässä työssä tutkittiin, miten englannin ja suomen puheen akustisia malleja voidaan yhdistellä ja näin rakentaa monikielinen puheentunnistin.
Työssä tutkittiin myös miten puhuja-adaptaatio toimii näissä järjestelmissä kielten sisällä ja kielirajan yli niin, että yhden kielen puhedataa käytetään adaptaatioon toisella kielellä.
Puheentunnistimia rakennettiin suurilla suomen- ja englanninkielisillä puhekorpuksilla ja testattiin sekä yksi- että kaksikielisellä aineistolla.

Tulosten perusteella voidaan todeta, että englannin ja suomen akustisten mallien yhdistelemisessä turvallisen klusteroinnin raja on niin alhaalla, että yhdistely ei juurikaan kannata tunnistimen tehokkuuden parantamiseksi.

Tuloksista nähdään myös, että äidinkielenä puhutun suomen tunnistamista voitiin parantaa käyttämällä vieraana kielenä puhutun englannin dataa.
Tämä mekanismi toimi vain yksisuuntaisesti: Vieraana kielenä puhutun englannin tunnistusta ei voinut parantaa äidinkielenä puhutun suomen datan avulla.
ED:2010-08-20
INSSI record number: 40199
+ add basket
« previous | next »
INSSI