haku: @supervisor Alku, Paavo / yhteensä: 39
viite: 4 / 39
Tekijä:Juvela, Lauri
Työn nimi:Perceptual spectral matching utilizing mel-scale filterbanks for statistical parametric speech synthesis with glottal excitation vocoder
Perkeptuaalinen spektrisovitus glottisherätevokoodatussa tilastollisessa parametrisessa puhesynteesissä käyttäen mel-suodinpankkia
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2015
Sivut:vii + 55 s. + liitt. 6      Kieli:   eng
Koulu/Laitos/Osasto:Sähkötekniikan korkeakoulu
Oppiaine:Akustiikka ja äänenkäsittely   (S3004)
Valvoja:Alku, Paavo
Ohjaaja:Raitio, Tuomo
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201506303420
Sijainti:P1 Ark Aalto  2973   | Arkisto
Avainsanat:speech synthesis
perceptual spectral matching
glottal excitation vocoder
mel-spectrum
frequency warping
puhesynteesi
perkeptuaalinen spektrisovitus
glottisherätevokooderi
mel-spetri
taajuusvarppaus
Tiivistelmä (fin):Tämä työ esittää uuden perkeptuaalisen spektrisovitustekniikan glottisvokoodattua tilastollista parametristä puhesynteesiä varten.
Ehdotettu menetelmä käyttää mel-suodinpankkeihin perustuvaa perkeptuaalista sovituskriteeriä.

Työn taustaosuus käsittelee ihmisen puheentuoton ja havaitsemisen fysiologiaa ja mallintamista tilastollisen parametrisen puhesynteesin ja perkeptuaalisen spektrisovituksen näkökulmasta.
Lisäksi kuvataan tilastollisen parametrisen puhesynteesin ja perusmuotoisen glottisherätevokooderin toimintaperiaatteet.

Uutta menetelmää arvioidaan vertaamalla sitä alkuperäiseen metodiin ensin käyttämällä mel-kepstrikertoimia käyttävää objektiivista etäisyysmittaa ja toiseksi käyttäen subjektiivisia kuuntelukokeita.
Uuden metodin havaittiin olevan laadullisesti samalla tasolla alkuperäisen spektrisovitusmenetelmän kanssa.
Tiivistelmä (eng):This thesis presents a novel perceptual spectral matching technique for parametric statistical speech synthesis with glottal vocoding.
The proposed method utilizes a perceptual matching criterion based on mel-scale filterbanks.

The background section discusses the physiology and modelling of human speech production and perception, necessary for speech synthesis and perceptual spectral matching.
Additionally, the working principles of statistical parametric speech synthesis and the baseline glottal source excited vocoder are described.

The proposed method is evaluated by comparing it to the baseline method first by an objective measure based on the mel-cepstral distance, and second by a subjective listening test.
The novel method was found to give comparable performance to the baseline spectral matching method of the glottal vocoder.
ED:2015-08-16
INSSI tietueen numero: 51830
+ lisää koriin
INSSI