haku: @keyword frequency warping / yhteensä: 5
viite: 2 / 5
Tekijä: | Juvela, Lauri |
Työn nimi: | Perceptual spectral matching utilizing mel-scale filterbanks for statistical parametric speech synthesis with glottal excitation vocoder |
Perkeptuaalinen spektrisovitus glottisherätevokoodatussa tilastollisessa parametrisessa puhesynteesissä käyttäen mel-suodinpankkia | |
Julkaisutyyppi: | Diplomityö |
Julkaisuvuosi: | 2015 |
Sivut: | vii + 55 s. + liitt. 6 Kieli: eng |
Koulu/Laitos/Osasto: | Sähkötekniikan korkeakoulu |
Oppiaine: | Akustiikka ja äänenkäsittely (S3004) |
Valvoja: | Alku, Paavo |
Ohjaaja: | Raitio, Tuomo |
Elektroninen julkaisu: | http://urn.fi/URN:NBN:fi:aalto-201506303420 |
Sijainti: | P1 Ark Aalto 2973 | Arkisto |
Avainsanat: | speech synthesis perceptual spectral matching glottal excitation vocoder mel-spectrum frequency warping puhesynteesi perkeptuaalinen spektrisovitus glottisherätevokooderi mel-spetri taajuusvarppaus |
Tiivistelmä (fin): | Tämä työ esittää uuden perkeptuaalisen spektrisovitustekniikan glottisvokoodattua tilastollista parametristä puhesynteesiä varten. Ehdotettu menetelmä käyttää mel-suodinpankkeihin perustuvaa perkeptuaalista sovituskriteeriä. Työn taustaosuus käsittelee ihmisen puheentuoton ja havaitsemisen fysiologiaa ja mallintamista tilastollisen parametrisen puhesynteesin ja perkeptuaalisen spektrisovituksen näkökulmasta. Lisäksi kuvataan tilastollisen parametrisen puhesynteesin ja perusmuotoisen glottisherätevokooderin toimintaperiaatteet. Uutta menetelmää arvioidaan vertaamalla sitä alkuperäiseen metodiin ensin käyttämällä mel-kepstrikertoimia käyttävää objektiivista etäisyysmittaa ja toiseksi käyttäen subjektiivisia kuuntelukokeita. Uuden metodin havaittiin olevan laadullisesti samalla tasolla alkuperäisen spektrisovitusmenetelmän kanssa. |
Tiivistelmä (eng): | This thesis presents a novel perceptual spectral matching technique for parametric statistical speech synthesis with glottal vocoding. The proposed method utilizes a perceptual matching criterion based on mel-scale filterbanks. The background section discusses the physiology and modelling of human speech production and perception, necessary for speech synthesis and perceptual spectral matching. Additionally, the working principles of statistical parametric speech synthesis and the baseline glottal source excited vocoder are described. The proposed method is evaluated by comparing it to the baseline method first by an objective measure based on the mel-cepstral distance, and second by a subjective listening test. The novel method was found to give comparable performance to the baseline spectral matching method of the glottal vocoder. |
ED: | 2015-08-16 |
INSSI tietueen numero: 51830
+ lisää koriin
INSSI