haku: @keyword speech recognition / yhteensä: 24
viite: 7 / 24
Tekijä:Nikula, Jarkko
Työn nimi:Speech Recognition Application in an Embedded System
Puheentunnistussovellus eräässä sulautetussa järjestelmässä
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2010
Sivut:x + 69      Kieli:   eng
Koulu/Laitos/Osasto:Informaatio- ja luonnontieteiden tiedekunta
Koulutusohjelma:Tietotekniikan tutkinto-ohjelma
Oppiaine:Signaalinkäsittelytekniikka   (S-88)
Valvoja:Skyttä, Jorma
Ohjaaja:Forsten, Juha
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto     | Arkisto
Avainsanat:speech recognition
hidden Markov models
embedded system
Linux
puheentunnistus
kätketyt Markov-mallit
sulautettu järjestelmä
Linux
Tiivistelmä (fin): Edullisten ja suorituskykyisten sulautettujen laskenta-alustojen yleistyminen on luonut uusia mahdollisuuksia kehittää monimutkaisia sulautettuja järjestelmiä.
Tämä yhdessä tietojenkäsittelytieteestä tuttujen suunnittelumetodiikkojen käyttöönoton kanssa ja saatavilla olevien valmiiden ohjelmistojen runsaus mahdollistavat sulautettujen järjestelmien tuotekehityksen ilman suuria investointeja ja laajaa erityisosaamista.
Tuotekehityksessä tarvittavia resursseja voidaan vähentää huomattavasti suunnittelemalla järjestelmä modulaarisesti ja käyttämällä mahdollisimman paljon valmiita laitteisto- ja ohjelmistoratkaisuja.

Tämän diplomityön tavoitteena oli toteuttaa prototyyppi puheohjatusta sulautetusta järjestelmästä ja arvioida sen käyttökelpoisuutta kotiympäristöön.
Työssä tutustutaan nykyisin vallitsevaan kätkettyihin Markov-malleihin perustuvan puheentunnistuksen teoriaan ja niihin metodiikkoihin, joilla sulautettu puheentunnistusjärjestelmä voidaan toteuttaa.
Toteutusosassa annetaan katsaus käytettyyn laskenta-alustaan, vertaillaan GNU/Linux-käyttöjärjestelmään saatavia puheentunnistusohjelmistoja ja kuvataan prototyypin toteutusratkaisut.

Prototyypin käyttökelpoisuutta kotiympäristöön arvioitiin mittausjärjestelyllä, joka testasi koko järjestelmän puheentunnistuksen tarkkuutta.
Mittauksissa kotiympäristöä mallinnettiin malleilla, joilla kuvattiin puhesignaalin laadun heikkenemistä kotiympäristössä.
Testiaineistona käytettiin lausenäytteitä kuudelta puhujalta.
Puhujista viisi oli luonnollisia henkilöitä ja yksi oli puhesyntetisaattori.
Mittaustuloksista havaittiin, että puheentunnistus on erittäin herkkä signaalivoimakkuudelle, additiiviselle Gaussian-jakautuneelle valkoiselle kohinalle ja taustapuheelle.

Työn tuloksena todetaan, että käyttämällä edullista suorituskykyistä sulautettua laskenta-alustaa ja avoimen lähdekoodin ohjelmistoja on mahdollista toteuttaa ominaisuuksiltaan monimutkainen sulautettu järjestelmä ilman merkittäviä kehityskustannuksia.
Prototyypin puheentunnistuksen tarkkuus on kuitenkin käytännössä riittämätön, jotta sitä voisi ajatella käytettäväksi kodinjärjestelmien ohjaukseen oikeassa käyttöympäristössä.
Jatkotutkimusta varten esitetään muutamia parannusehdotuksia, joilla puheentunnistustarkkuutta voitaisiin parantaa.
Tiivistelmä (eng): Availability of low-cost and high-performance embedded computing platforms has created new possibilities to develop complex embedded systems.
By combining this with adoption of design methodologies from the computer science and by using readily available software makes possible to develop embedded systems without high investments and expertise.

The purpose of this thesis was to implement a prototype of embedded speech recognition application and to evaluate the suitability of the prototype for use in home kind of environment.
The thesis studies the theory of modern speech recognition based on hidden Markov models and studies design methodologies that are relevant to design of embedded speech recognition system.
Implementation part of the thesis describes the embedded computing platform used in this thesis, evaluates available speech recognition software for the GNU Linux operating system and depicts the implementation details of the prototype.

The usability of the prototype in home environment was evaluated with a measurement setup that was testing the speech recognition accuracy of the whole system.
The home environment was modelled by decreasing the quality of the speech signal by modelling the speech signal degradation in acoustic environment.
Sample sentences from six speakers were used as test material.
Five of those speakers were humans while one of them was a speech synthesizer.
Results show that the speech recognition accuracy is very sensitive to signal strength, additive white Gaussian noise and background talk.

Thesis concludes that by using open-source software combined with low-cost and high-performance embedded computing platform makes possible to implement a prototype of embedded speech recognition application rapidly without high development investments.
However, the robustness of speech recognition accuracy to the real-world speech signal conditions limits the use of prototype in home environment.
A few improvement ideas are proposed for improving the speech recognition accuracy as a possible future study.
ED:2010-04-13
INSSI tietueen numero: 39447
+ lisää koriin
INSSI