search query: @supervisor Laine, Unto K. / total: 15
reference: 4 / 15
« previous | next »
Author:Ojala, Tino
Title:Auditory Quality Evaluation of Present Finnish Text-to-Speech Systems
Nykyisten suomenkielisten tekstistä puheeksi -järjestelmien auditorisen laadun selvittäminen
Publication type:Master's thesis
Publication year:2006
Pages:ix + 65 s. + liitt. 8      Language:   eng
Department/School:Sähkö- ja tietoliikennetekniikan osasto
Main subject:Akustiikka ja äänenkäsittelytekniikka   (S-89)
Supervisor:Laine, Unto K.
Instructor:
Electronic version URL: http://urn.fi/urn:nbn:fi:tkk-007203
OEVS:
Electronic archive copy is available via Aalto Thesis Database.
Instructions

Reading digital theses in the closed network of the Aalto University Harald Herlin Learning Centre

In the closed network of Learning Centre you can read digital and digitized theses not available in the open network.

The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/

You can read theses on the Learning Centre customer computers, which are available on all floors.

Logging on to the customer computers

  • Aalto University staff members log on to the customer computer using the Aalto username and password.
  • Other customers log on using a shared username and password.

Opening a thesis

  • On the desktop of the customer computers, you will find an icon titled:

    Aalto Thesis Database

  • Click on the icon to search for and open the thesis you are looking for from Aaltodoc database. You can find the thesis file by clicking the link on the OEV or OEVS field.

Reading the thesis

  • You can either print the thesis or read it on the customer computer screen.
  • You cannot save the thesis file on a flash drive or email it.
  • You cannot copy text or images from the file.
  • You cannot edit the file.

Printing the thesis

  • You can print the thesis for your personal study or research use.
  • Aalto University students and staff members may print black-and-white prints on the PrintingPoint devices when using the computer with personal Aalto username and password. Color printing is possible using the printer u90203-psc3, which is located near the customer service. Color printing is subject to a charge to Aalto University students and staff members.
  • Other customers can use the printer u90203-psc3. All printing is subject to a charge to non-University members.
Location:P1 Ark S80     | Archive
Keywords:text-to-speech
speech synthesis
speech quality evaluation
speech reception threshold
hearing in noise test
tekstistä puheeksi
puhesynteesi
puheen laadun arviointi
puheen havaitsemiskynnys
Abstract (eng):Speech-producing computer systems have evolved so intelligent, that they fluently can read plain text input.
Since these text-to-speech systems apparently have differences in the perceived sound quality, there is a need for research into the factors that affect the quality, and a need for the quantitative measurements of those factors.

Studies concerning synthetic speech have traditionally been conducted only for systems speaking languages of mainstream.
In addition, there is only a limited amount of studies for the overall communicative capabilities of the systems, instead of concentrating into the details in speech production.
In this work, the Finnish text-to-speech systems are evaluated for their sentence-level intelligibility in terms of "speech reception threshold" test, which was originally developed for testing the degree of hearing-impairment in humans.
The test seeks for the speech presentation level that is barely intelligible in presence of noise.

"Speech reception threshold" test can effectively tell the difference in text-to-speech systems.
A system, which produces sound from parameters, is found more intelligible over the systems that produce speech by concatenating pre-recorded speech samples.
Reasons to this are the better spectral fit into the human hearing, smoother continuity of audio flow, less distortion and better possibilities for prosody modelling.
Abstract (fin):Puhetta tuottavat tietokonejärjestelmät ovat kehittyneet niin eteviksi, että ne voivat lukea paljasta tekstisyötettä sujuvasti.
Koska näillä tekstistä puheeksi -järjestelmillä kuitenkin mitä ilmeisimmin on eroja havaitussa äänenlaadussa, on tarvetta tutkia laatuun vaikuttavia tekijöitä ja saada kvantitatiivisia mittaustuloksia niistä.

Synteettisen puheen tutkimus on perinteisesti tehty valtavirran kielillä.
Lisäksi sellaiset tutkimukset ovat harvinaisia, jotka selvittävät järjestelmien yleistä kyvykkyyttä kommunikaatioon sen sijaan, että keskittyisivät puheentuoton yksityiskohtiin.
Tässä työssä suomenkielisten tekstistä puheeksi -järjestelmien lauseymmärrettävyyttä testataan puheen ymmärrettävyyskynnys -testillä, joka on alunperin tarkoitettu mittaamaan ihmisten kuulovamman astetta.
Testissä etsitään sellaista puheen voimakkuustasoa, joka on juuri ja juuri ymmärrettävissä kohinan seasta.

"Puheen ymmärrettävyyskynnys" -testi pystyy tehokkaasti osoittamaan eron eri tekstistä puheeksi -järjestelmien välillä.
Järjestelmä, joka tuottaa puhetta parametreista, paljastuu ymmärrettävämmäksi kuin järjestelmät, jotka tuottavat puhetta liittämällä ennalta äänitettyjä puhenäytteitä yhteen.
Syinä tähän ovat parempi spektrisovitus kuuloon, juohevampi äänivirta, pienempi särö ja paremmat mahdollisuudet prosodian mallintamiseen.
ED:2006-08-16
INSSI record number: 32757
+ add basket
« previous | next »
INSSI