search query: @keyword embedded system / total: 30
reference: 7 / 30
« previous | next »
Author:Nikula, Jarkko
Title:Speech Recognition Application in an Embedded System
Puheentunnistussovellus eräässä sulautetussa järjestelmässä
Publication type:Master's thesis
Publication year:2010
Pages:x + 69      Language:   eng
Department/School:Informaatio- ja luonnontieteiden tiedekunta
Degree programme:Tietotekniikan tutkinto-ohjelma
Main subject:Signaalinkäsittelytekniikka   (S-88)
Supervisor:Skyttä, Jorma
Instructor:Forsten, Juha
OEVS:
Electronic archive copy is available via Aalto Thesis Database.
Instructions

Reading digital theses in the closed network of the Aalto University Harald Herlin Learning Centre

In the closed network of Learning Centre you can read digital and digitized theses not available in the open network.

The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/

You can read theses on the Learning Centre customer computers, which are available on all floors.

Logging on to the customer computers

  • Aalto University staff members log on to the customer computer using the Aalto username and password.
  • Other customers log on using a shared username and password.

Opening a thesis

  • On the desktop of the customer computers, you will find an icon titled:

    Aalto Thesis Database

  • Click on the icon to search for and open the thesis you are looking for from Aaltodoc database. You can find the thesis file by clicking the link on the OEV or OEVS field.

Reading the thesis

  • You can either print the thesis or read it on the customer computer screen.
  • You cannot save the thesis file on a flash drive or email it.
  • You cannot copy text or images from the file.
  • You cannot edit the file.

Printing the thesis

  • You can print the thesis for your personal study or research use.
  • Aalto University students and staff members may print black-and-white prints on the PrintingPoint devices when using the computer with personal Aalto username and password. Color printing is possible using the printer u90203-psc3, which is located near the customer service. Color printing is subject to a charge to Aalto University students and staff members.
  • Other customers can use the printer u90203-psc3. All printing is subject to a charge to non-University members.
Location:P1 Ark Aalto     | Archive
Keywords:speech recognition
hidden Markov models
embedded system
Linux
puheentunnistus
kätketyt Markov-mallit
sulautettu järjestelmä
Linux
Abstract (eng): Availability of low-cost and high-performance embedded computing platforms has created new possibilities to develop complex embedded systems.
By combining this with adoption of design methodologies from the computer science and by using readily available software makes possible to develop embedded systems without high investments and expertise.

The purpose of this thesis was to implement a prototype of embedded speech recognition application and to evaluate the suitability of the prototype for use in home kind of environment.
The thesis studies the theory of modern speech recognition based on hidden Markov models and studies design methodologies that are relevant to design of embedded speech recognition system.
Implementation part of the thesis describes the embedded computing platform used in this thesis, evaluates available speech recognition software for the GNU Linux operating system and depicts the implementation details of the prototype.

The usability of the prototype in home environment was evaluated with a measurement setup that was testing the speech recognition accuracy of the whole system.
The home environment was modelled by decreasing the quality of the speech signal by modelling the speech signal degradation in acoustic environment.
Sample sentences from six speakers were used as test material.
Five of those speakers were humans while one of them was a speech synthesizer.
Results show that the speech recognition accuracy is very sensitive to signal strength, additive white Gaussian noise and background talk.

Thesis concludes that by using open-source software combined with low-cost and high-performance embedded computing platform makes possible to implement a prototype of embedded speech recognition application rapidly without high development investments.
However, the robustness of speech recognition accuracy to the real-world speech signal conditions limits the use of prototype in home environment.
A few improvement ideas are proposed for improving the speech recognition accuracy as a possible future study.
Abstract (fin): Edullisten ja suorituskykyisten sulautettujen laskenta-alustojen yleistyminen on luonut uusia mahdollisuuksia kehittää monimutkaisia sulautettuja järjestelmiä.
Tämä yhdessä tietojenkäsittelytieteestä tuttujen suunnittelumetodiikkojen käyttöönoton kanssa ja saatavilla olevien valmiiden ohjelmistojen runsaus mahdollistavat sulautettujen järjestelmien tuotekehityksen ilman suuria investointeja ja laajaa erityisosaamista.
Tuotekehityksessä tarvittavia resursseja voidaan vähentää huomattavasti suunnittelemalla järjestelmä modulaarisesti ja käyttämällä mahdollisimman paljon valmiita laitteisto- ja ohjelmistoratkaisuja.

Tämän diplomityön tavoitteena oli toteuttaa prototyyppi puheohjatusta sulautetusta järjestelmästä ja arvioida sen käyttökelpoisuutta kotiympäristöön.
Työssä tutustutaan nykyisin vallitsevaan kätkettyihin Markov-malleihin perustuvan puheentunnistuksen teoriaan ja niihin metodiikkoihin, joilla sulautettu puheentunnistusjärjestelmä voidaan toteuttaa.
Toteutusosassa annetaan katsaus käytettyyn laskenta-alustaan, vertaillaan GNU/Linux-käyttöjärjestelmään saatavia puheentunnistusohjelmistoja ja kuvataan prototyypin toteutusratkaisut.

Prototyypin käyttökelpoisuutta kotiympäristöön arvioitiin mittausjärjestelyllä, joka testasi koko järjestelmän puheentunnistuksen tarkkuutta.
Mittauksissa kotiympäristöä mallinnettiin malleilla, joilla kuvattiin puhesignaalin laadun heikkenemistä kotiympäristössä.
Testiaineistona käytettiin lausenäytteitä kuudelta puhujalta.
Puhujista viisi oli luonnollisia henkilöitä ja yksi oli puhesyntetisaattori.
Mittaustuloksista havaittiin, että puheentunnistus on erittäin herkkä signaalivoimakkuudelle, additiiviselle Gaussian-jakautuneelle valkoiselle kohinalle ja taustapuheelle.

Työn tuloksena todetaan, että käyttämällä edullista suorituskykyistä sulautettua laskenta-alustaa ja avoimen lähdekoodin ohjelmistoja on mahdollista toteuttaa ominaisuuksiltaan monimutkainen sulautettu järjestelmä ilman merkittäviä kehityskustannuksia.
Prototyypin puheentunnistuksen tarkkuus on kuitenkin käytännössä riittämätön, jotta sitä voisi ajatella käytettäväksi kodinjärjestelmien ohjaukseen oikeassa käyttöympäristössä.
Jatkotutkimusta varten esitetään muutamia parannusehdotuksia, joilla puheentunnistustarkkuutta voitaisiin parantaa.
ED:2010-04-13
INSSI record number: 39447
+ add basket
« previous | next »
INSSI