haku: @instructor Kurimo, Mikko / yhteensä: 19
viite: 8 / 19
Tekijä:Mansikkaniemi, André
Työn nimi:Acoustic model and language model adaptation for a mobile dictation service
Adaptering av akustiska modeller och språkmodeller för en mobil dikteringstjänst
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2010
Sivut:iv + 75 s. + liitt. 8      Kieli:   eng
Koulu/Laitos/Osasto:Elektroniikan, tietoliikenteen ja automaation tiedekunta
Oppiaine:Laskennallinen tekniikka   (S-114)
Valvoja:Sams, Mikko
Ohjaaja:Kurimo, Mikko
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201203131407
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto  1166   | Arkisto
Avainsanat:automatic speech recognition
mobile dictation
acoustic model adaptation
language model adaptation
automatisk taligenk anning
mobil diktering
adaptering av akustiska modeller
adaptering av språkmodeller
Tiivistelmä (eng): Automatic speech recognition is the machine-based method of converting speech to text.
MobiDic is a mobile dictation service which uses a server-side speech recognition system to convert speech recorded on a mobile phone to readable and editable text notes.

In this work, performance of the TKK speech recognition system has been evaluated on law-related speech recorded on a mobile phone with the MobiDic client application.
There was mismatch between testing and training data in terms of both of acoustics and language.
The background acoustic models were trained on speech recorded on PC microphones.
The background language models were trained on texts from journals and news wire services.
Because of the special nature of the testing data, main focus has been on using acoustic model and language model adaptation methods to enhance speech recognition performance.

Acoustic model adaptation gives the highest and most reliable performance increase.
Using the global cMLLR method, word error rate reductions between 15-22% can be reached with only 2 minutes of adaptation data.
Regression class cMLLR can give even higher performance boosts if larger sets of audio adaptation data (> 10 min) are available.

Language model adaptation was not able to significantly improve performance in this task.
The main problems were differences between language adaptation data and language of the law-related speech data.
Tiivistelmä (swe): Automatisk taligenkänning är en maskinstyrd metod genom vilken tal omvandlas till text.
MobiDic är en mobil dikteringstjänst som använder ett serverbaserat automatiskt taligenkänningssystem för att omvandla tal inspelat på en mobiltelefon till läsbara och editerbara textdokument.
I detta arbete undersöktes förmågan hos Tekniska Högskolans taligenkänningssystem att omvandla juridik-relaterat tal inspelat på en mobiltelefon med MobiDics klientprogram till korrekt text.
Det fanns skillnader mellan test- och träningsdata gällande både akustik och språk.
De akutiska bakgrundsmodellerna var tränade med tal som hade spelats in på en datormikrofon.
Språkmodellerna var tränade med text från olika tidningar och nyhetstjänster.
På grund av testdatans speciella karaktär har tyngdpunkten i arbetet legat på att förbättra taligenkänningsförmågan hos systemet genom adaptering av akustiska modeller och språkmodeller.

Adaptering av akustiska modeller ger de bästa och pålitligaste resultaten i syftet att förbättra taligenkänningsförmågan.
Genom att använda den globala cMLLR-metoden och endast 2 minuter av adapteringsdata kan man förminska antalet feltolkade ord med 15-22%.
Genom att använda den regressionsklassbaserade cMLLR-metoden kan man uppnåytterligare förbättringar i taligenkänningsförmågan om det finns större mängder av adapteringsdata (> 10 min.) tillgängligt.

Adaptering av språkmodellen gav ingen betydande förbättring av taligenkännings förmågan.
Det främsta problemet var de stora skillnaderna mellan språkadapteringsdata och språket som förekom i de juridik-relaterade talinspelningarna.
ED:2010-04-07
INSSI tietueen numero: 39404
+ lisää koriin
INSSI