haku: @supervisor Laine, Unto K. / yhteensä: 15
viite: 3 / 15
Tekijä:Räsänen, Okko
Työn nimi:Speech Segmentation and Clustering Methods for a New Speech Recognition Architecture
Puheen segmentointi ja klusterointi uutta puheentunnistimen arkkitehtuuria varten
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2007
Sivut:vii + 87 s. + liitt. 2      Kieli:   eng
Koulu/Laitos/Osasto:Sähkö- ja tietoliikennetekniikan osasto
Oppiaine:Akustiikka ja äänenkäsittelytekniikka   (S-89)
Valvoja:Laine, Unto K.
Ohjaaja:
Elektroninen julkaisu: http://urn.fi/urn:nbn:fi:tkk-010123
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark S80     | Arkisto
Avainsanat:speech segmentation
speech clustering
data classification
feature extraction
speech perception
pattern recognition
bottom-up processing
top-down processing
puheen segmentointi
puheen klusterointi
äänimateriaalin luokittelu
piirteistys
hahmontunnistus
puheen havaitseminen
bottom-up prosessointi
top-down prosessointi
Tiivistelmä (fin):Perinteiset automaattiset puheentunnistusmenetelmät eivät pärjää suorituskyvyssä ihmisen puheenhavaintokyvylle.
Voidaksemme kuroa tämän eron umpeen, on kehitettävä täysin uudentyyppisiä arkkitehtuureja puheentunnistusta varten.
Puhetta ja kieltä itsestään ihmisen lailla oppiva järjestelmä on yksi tällainen vaihtoehto.

Tämä diplomityö esittelee erään lähtökohdan oppivalle järjestelmälle, koostuen uudenlaisesta sokeasta puheen segmentointialgoritmista, segmenttien piirteistyksestä, sekä menetelmistä vähittäiselle puhedatan luokittelulle klusteroinnin avulla.
Kaikki metodit arvioitiin kattavilla kokeilla, ja itse arviontimenetelmien luonteeseen kiinnitettiin huomiota.
Segmentoinnissa saavutettiin alan kirjallisuuteen nähden hyvät tulokset.
Järjestelmän mahdollisia jatkokehityssuuntauksia on hahmoteltu muunmuassa mahdollisten muistiarkkitehtuurien ja älykkään top-down palautteen osalta.
Tiivistelmä (eng):To reduce the gap between performance of traditional speech recognition systems and human speech recognition skills, a new architecture is required.
A system that is capable of incremental learning offers one such solution to this problem.

This thesis introduces a bottom-up approach for such a speech processing system, consisting of a novel blind speech segmentation algorithm, a segmental feature extraction methodology, and data classification by incremental clustering.
All methods were evaluated by extensive experiments with a broad range of test material and the evaluation methodology was itself also scrutinized.
The segmentation algorithm achieved above standard quality results compared to what is found in current literature regarding blind segmentation.
Possibilities for follow-up research of memory structures and intelligent top-down feedback in speech processing are also outlined.
ED:2007-12-19
INSSI tietueen numero: 35025
+ lisää koriin
INSSI