haku: @keyword automaattinen arviointi / yhteensä: 9
viite: 5 / 9
Tekijä:Tapiovaara, Tero
Työn nimi:Normalized Compression Distance in Automatic Evaluation of Machine Translations
Normalisoitu kompressioetäisyys konekäännösten automaattisessa evaluoinnissa
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2010
Sivut:[12] + 80      Kieli:   eng
Koulu/Laitos/Osasto:Informaatio- ja luonnontieteiden tiedekunta
Oppiaine:Informaatiotekniikka   (T-61)
Valvoja:Honkela, Timo
Ohjaaja:Väyrynen, Jaakko J.
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto  116   | Arkisto
Avainsanat:machine translation
automatic evaluation
normalized compression distance
konekääntäminen
automaattinen arviointi
normalisoitu kompressioetäisyys
Tiivistelmä (fin): Konekäännösjärjestelmien kehittäminen edellyttää niiden tuottamien käännösten arviointia.
Käännösten manuaalinen arviointi on kuitenkin työlästä.
Tästä syystä on kehitetty useita käännösten automaattiseen arviointiin tarkoitettuja menetelmiä.
Parhaat näistä menetelmistä käyttävät kuitenkin ylimääräisiä kielestä riippuvia resursseja (esimerkiksi synonyymisanakirjoja tai sanaluokkatietoja), joita ei ole olemassa kaikille kielille.

Työssä arvioidaan normalisoidun kompressioetäisyyden (engl.
Normalized Compression Distance) sopivuutta konekäännösten automaattiseen arviointiin.
Normalisoitu kompressioetäisyys on yleinen, kahden merkkijonon välinen etäisyysmitta, joka perustuu algoritmiseen informaatioteoriaan ja Kolmogorovin kompleksisuuteen.
Työssä näytetään, että systeemitason arvioinnissa normalisoitu kompressioetäisyys saavuttaa samantasoisia korrelaatioita ihmisarvioiden kanssa kuin yleisesti käytetyt käännösten automaattiset evaluointimenetelmät.
Lausetason arvioinnissa normalisoitu kompressioetäisyys tuottaa samantasoisia evaluointeja kuin viimeisintä tekniikkaa edustavat automaattiset menetelmät.
Lisäksi, normalisoitu kompressioetäisyys saavutti parhaat tulokset, kun sitä vertailtiin muiden sellaisten menetelmien kanssa, jotka eivät käytä ylimääräisiä kielestä riippuvia resursseja.
Tiivistelmä (eng): The development of machine translation systems depends on the evaluation of their results.
However, manual evaluation of the translation quality is labour expensive and slow.
For this reason, several automatic machine translation evaluation metrics have been developed.
The best performing evaluation metrics use additional language specific resources (e.g. lists of synonyms or part-of-speech tagging).
However, these resources do not exist for all languages.

This thesis evaluates the suitability of Normalized Compression Distance for the automatic evaluation of machine translations.
Normalized Compression Distance is a general distance measure between two strings, based on the theoretical foundations of Algorithmic Information Theory and Kolmogorov complexity.

We show that, in system-level evaluation, Normalized Compression Distance achieves similar correlations to human evaluations as the standard machine translation evaluation metrics.
In sentence-level evaluation, Normalized Compression Distance performs on the same level as the state-of-the-art evaluation metrics.
Furthermore, NCD achieved the best performance among the evaluated metrics that did not use additional language specific resources.
ED:2010-11-19
INSSI tietueen numero: 41333
+ lisää koriin
INSSI