haku: @supervisor Laine, Unto K. / yhteensä: 15
viite: 4 / 15
Tekijä:Ojala, Tino
Työn nimi:Auditory Quality Evaluation of Present Finnish Text-to-Speech Systems
Nykyisten suomenkielisten tekstistä puheeksi -järjestelmien auditorisen laadun selvittäminen
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2006
Sivut:ix + 65 s. + liitt. 8      Kieli:   eng
Koulu/Laitos/Osasto:Sähkö- ja tietoliikennetekniikan osasto
Oppiaine:Akustiikka ja äänenkäsittelytekniikka   (S-89)
Valvoja:Laine, Unto K.
Ohjaaja:
Elektroninen julkaisu: http://urn.fi/urn:nbn:fi:tkk-007203
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark S80     | Arkisto
Avainsanat:text-to-speech
speech synthesis
speech quality evaluation
speech reception threshold
hearing in noise test
tekstistä puheeksi
puhesynteesi
puheen laadun arviointi
puheen havaitsemiskynnys
Tiivistelmä (fin):Puhetta tuottavat tietokonejärjestelmät ovat kehittyneet niin eteviksi, että ne voivat lukea paljasta tekstisyötettä sujuvasti.
Koska näillä tekstistä puheeksi -järjestelmillä kuitenkin mitä ilmeisimmin on eroja havaitussa äänenlaadussa, on tarvetta tutkia laatuun vaikuttavia tekijöitä ja saada kvantitatiivisia mittaustuloksia niistä.

Synteettisen puheen tutkimus on perinteisesti tehty valtavirran kielillä.
Lisäksi sellaiset tutkimukset ovat harvinaisia, jotka selvittävät järjestelmien yleistä kyvykkyyttä kommunikaatioon sen sijaan, että keskittyisivät puheentuoton yksityiskohtiin.
Tässä työssä suomenkielisten tekstistä puheeksi -järjestelmien lauseymmärrettävyyttä testataan puheen ymmärrettävyyskynnys -testillä, joka on alunperin tarkoitettu mittaamaan ihmisten kuulovamman astetta.
Testissä etsitään sellaista puheen voimakkuustasoa, joka on juuri ja juuri ymmärrettävissä kohinan seasta.

"Puheen ymmärrettävyyskynnys" -testi pystyy tehokkaasti osoittamaan eron eri tekstistä puheeksi -järjestelmien välillä.
Järjestelmä, joka tuottaa puhetta parametreista, paljastuu ymmärrettävämmäksi kuin järjestelmät, jotka tuottavat puhetta liittämällä ennalta äänitettyjä puhenäytteitä yhteen.
Syinä tähän ovat parempi spektrisovitus kuuloon, juohevampi äänivirta, pienempi särö ja paremmat mahdollisuudet prosodian mallintamiseen.
Tiivistelmä (eng):Speech-producing computer systems have evolved so intelligent, that they fluently can read plain text input.
Since these text-to-speech systems apparently have differences in the perceived sound quality, there is a need for research into the factors that affect the quality, and a need for the quantitative measurements of those factors.

Studies concerning synthetic speech have traditionally been conducted only for systems speaking languages of mainstream.
In addition, there is only a limited amount of studies for the overall communicative capabilities of the systems, instead of concentrating into the details in speech production.
In this work, the Finnish text-to-speech systems are evaluated for their sentence-level intelligibility in terms of "speech reception threshold" test, which was originally developed for testing the degree of hearing-impairment in humans.
The test seeks for the speech presentation level that is barely intelligible in presence of noise.

"Speech reception threshold" test can effectively tell the difference in text-to-speech systems.
A system, which produces sound from parameters, is found more intelligible over the systems that produce speech by concatenating pre-recorded speech samples.
Reasons to this are the better spectral fit into the human hearing, smoother continuity of audio flow, less distortion and better possibilities for prosody modelling.
ED:2006-08-16
INSSI tietueen numero: 32757
+ lisää koriin
INSSI