haku: @keyword pattern recognition / yhteensä: 31
viite: 20 / 31
Tekijä:Sääksjärvi, Joonas
Työn nimi:Erillisten sanojen puhentunnistimen toteutus signaaliprosessorilla
Implementation of isolated word speech recognizer on a digital sitnal processor
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2002
Sivut:66      Kieli:   fin
Koulu/Laitos/Osasto:Sähkö- ja tietoliikennetekniikan osasto
Oppiaine:Laitteistotekniikka   (S-88)
Valvoja:Laine, Unto K.
Ohjaaja:Lipasti, Lauri
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark S80     | Arkisto
Avainsanat:isolated word
speech recognition
pattern recognition
digital signal processor
fixed-point calculation
hidden Markov -model
DHMM
SCHMM
discrete MAP-adaptation
MFCC speech feature
BFCC
OPD-word rejection
puheentunnistus
sanatunnistus
hahmontunnistus
kiinteänpilkun laskenta
Markov- malli
signaaliprosessori
DHMM
SCHMM
MFCC
BFCC
diskreetti MAP-adaptaatio
OPD-hylkäysfunktio
Tiivistelmä (fin):Tässä diplomityössä tarkastellaan puheentunnistimen toteutusvaihtoehtoja.
Tunnistin on erillään puhuttujen sanojen puheentunnistin, joka käyttää toimintoihinsa yhtä kiinteänpilkun laskentaa suorittavaa signaaliprosessoria.
Toteutuksen tarvitseman signaaliprosessoriohjelman muistin määrä ja laskennan tarve ovat rajoitettuja, mikä on otettava huomioon vaihtoehtoja tarkasteltaessa.
Kätkettyä Markov- paradigmaa (HMM) hyödyntävän tunnistimen toteuttamiseen valitaan kaksi eri Markov-mallin variaatiota.
Diskreetti Markov- malli (DHMM) ja puolijatkuvan sekajakauman Markov- malli (SCHMM) vaikuttavat tunnistimen tarvitsemaan laskennan ja muistin määrään.
Myös tunnistimen opetukseen tarvittavan datan määrä, ja siten tunnistimen käytettävyys, riippuu valitusta HMM-mallin tyypistä.
Mallin ja sen parametroinnin ohella toinen puheentunnistimelle tärkeä toiminto on esikäsittely, jonka tarkoituksena on johtaa aikatason puhesignaalista piirrekuvaus, jonka luokittelu olisi mahdollisimman helppoa.
Puheäänen laajan vaihtelevuuden takia tulisi piirrekuvauksen kyetä erottelemaan ne puhesignaalin ominaisuudet, jotka ovat kaikkein oleellisimpia tunnistuksen kannalta.
Esikäsittelyn menetelminä työssä verrataan Mel-kepstrikertoimia (MFCC) ja Bark-kepstrikertoimia (BFCC), jotka molemmat hyödyntävät ihmisen kuuloaistia mallintavaa auditorista mallia.
Puheentunnistimen toiminta huononee usein kuitenkin taustakohinan lisääntyessä.
Taustakohinan ja -melun vaikutuksen vähentäminen on mahdollista joukolla kohinasietoisuutta parantavia menetelmiä.
Tässä työssä kokeillaan kohinaspektrin vähennystä sekä puhuja-adaptaatiota MAP-menetelmällä.
Parhaimman toteutusvaihtoehdon löytämiseksi arvioidaan kiinteänpilkun laskennan, sekä muisti- ja laskentakuorman tarve eri toteutusvaihtoehdoilla sekä tunnistimen toiminta mallinnetaan simulaatioiden avulla.
Tulokset esitetään menetelmien vertailun, sekä tunnistimen käytettävyyttä parantavien lisäominaisuuksien, kuten sanahylkäyksen, osalta.
ED:2002-01-30
INSSI tietueen numero: 18241
+ lisää koriin
INSSI