haku: @keyword automatic speech recognition / yhteensä: 10
viite: 4 / 10
Tekijä:Smit, Peter
Työn nimi:Stacked transformations for foreign accented speech recognition
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2011
Sivut:vii + 54      Kieli:   eng
Koulu/Laitos/Osasto:Tietotekniikan laitos
Oppiaine:Informaatiotekniikka   (T-61)
Valvoja:Kurimo, Mikko
Ohjaaja:Pylkkönen, Janne
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201207022663
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto     | Arkisto
Avainsanat:automatic speech recognition
foreign accent recognition
linear transformation
stacked transformations
Tiivistelmä (eng): Nowadays, large vocabulary speech recognizers exist that are performing reasonably well for specific conditions and environments.
When the conditions change however, performance degrades quickly.
For example, when the person to be recognized has a foreign accent the conditions could mismatch with the model, resulting in high error rates.

The problem in recognizing foreign accented speech is the lack of sufficient training data.
If enough data would be available of the same accent, from numerous different speakers, a well performing accented speech model could be built.

Besides the lack of speech data, there are more problems with training a complete new model.
It costs a lot of computational resources and storage space to train a new model.
If speakers with different accents must be recognized, these costs explode as every accent needs retraining.
A common solution for preventing retraining is to adapt (transform) an existing model, such that it better matches the recognition conditions.

In this thesis multiple different adaptation transformations are considered.
Speaker Transformations are using speech data from the target speaker, Accent Transformations use speech data from different speakers, who have the same accent as the speech that needs to be recognized.
Neighbour Transformations are estimated with speech from different speakers that are automatically determined to be similar to the target speaker.

Novelty in this work is the stack wise combination of these adaptations.
Instead of using a single transformation, multiple transformations are 'stacked together'.
Because all adaptations except the speaker specific adaptation can be precomputed, no extra computational costs at recognition time occur compared to normal speaker adaptation and the adaptations that can be precomputed are much more refined as they can use more and better adaptation data.
In addition, they need only a very small amount storage space, compared to a retrained model.

The effect of Stacked Transformations is that the models have a better fit for the recognition utterances.
When compared to no adaptation, improvements up to 30% in Word Error Rate can be achieved.
In adaptation with a small number (5) of sentences, improvements up to 15% are gained.
ED:2011-06-29
INSSI tietueen numero: 42159
+ lisää koriin
INSSI