search query: @keyword puhesynteesi / total: 15
reference: 2 / 15
« previous | next »
Author:Juvela, Lauri
Title:Perceptual spectral matching utilizing mel-scale filterbanks for statistical parametric speech synthesis with glottal excitation vocoder
Perkeptuaalinen spektrisovitus glottisherätevokoodatussa tilastollisessa parametrisessa puhesynteesissä käyttäen mel-suodinpankkia
Publication type:Master's thesis
Publication year:2015
Pages:vii + 55 s. + liitt. 6      Language:   eng
Department/School:Sähkötekniikan korkeakoulu
Main subject:Akustiikka ja äänenkäsittely   (S3004)
Supervisor:Alku, Paavo
Instructor:Raitio, Tuomo
Electronic version URL: http://urn.fi/URN:NBN:fi:aalto-201506303420
Location:P1 Ark Aalto  2973   | Archive
Keywords:speech synthesis
perceptual spectral matching
glottal excitation vocoder
mel-spectrum
frequency warping
puhesynteesi
perkeptuaalinen spektrisovitus
glottisherätevokooderi
mel-spetri
taajuusvarppaus
Abstract (eng):This thesis presents a novel perceptual spectral matching technique for parametric statistical speech synthesis with glottal vocoding.
The proposed method utilizes a perceptual matching criterion based on mel-scale filterbanks.

The background section discusses the physiology and modelling of human speech production and perception, necessary for speech synthesis and perceptual spectral matching.
Additionally, the working principles of statistical parametric speech synthesis and the baseline glottal source excited vocoder are described.

The proposed method is evaluated by comparing it to the baseline method first by an objective measure based on the mel-cepstral distance, and second by a subjective listening test.
The novel method was found to give comparable performance to the baseline spectral matching method of the glottal vocoder.
Abstract (fin):Tämä työ esittää uuden perkeptuaalisen spektrisovitustekniikan glottisvokoodattua tilastollista parametristä puhesynteesiä varten.
Ehdotettu menetelmä käyttää mel-suodinpankkeihin perustuvaa perkeptuaalista sovituskriteeriä.

Työn taustaosuus käsittelee ihmisen puheentuoton ja havaitsemisen fysiologiaa ja mallintamista tilastollisen parametrisen puhesynteesin ja perkeptuaalisen spektrisovituksen näkökulmasta.
Lisäksi kuvataan tilastollisen parametrisen puhesynteesin ja perusmuotoisen glottisherätevokooderin toimintaperiaatteet.

Uutta menetelmää arvioidaan vertaamalla sitä alkuperäiseen metodiin ensin käyttämällä mel-kepstrikertoimia käyttävää objektiivista etäisyysmittaa ja toiseksi käyttäen subjektiivisia kuuntelukokeita.
Uuden metodin havaittiin olevan laadullisesti samalla tasolla alkuperäisen spektrisovitusmenetelmän kanssa.
ED:2015-08-16
INSSI record number: 51830
+ add basket
« previous | next »
INSSI