search query: @supervisor Honkela, Timo / total: 16
reference: 4 / 16
Author: | Tapiovaara, Tero |
Title: | Normalized Compression Distance in Automatic Evaluation of Machine Translations |
Normalisoitu kompressioetäisyys konekäännösten automaattisessa evaluoinnissa | |
Publication type: | Master's thesis |
Publication year: | 2010 |
Pages: | [12] + 80 Language: eng |
Department/School: | Informaatio- ja luonnontieteiden tiedekunta |
Main subject: | Informaatiotekniikka (T-61) |
Supervisor: | Honkela, Timo |
Instructor: | Väyrynen, Jaakko J. |
OEVS: | Electronic archive copy is available via Aalto Thesis Database.
Instructions Reading digital theses in the closed network of the Aalto University Harald Herlin Learning CentreIn the closed network of Learning Centre you can read digital and digitized theses not available in the open network. The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/ You can read theses on the Learning Centre customer computers, which are available on all floors.
Logging on to the customer computers
Opening a thesis
Reading the thesis
Printing the thesis
|
Location: | P1 Ark Aalto 116 | Archive |
Keywords: | machine translation automatic evaluation normalized compression distance konekääntäminen automaattinen arviointi normalisoitu kompressioetäisyys |
Abstract (eng): | The development of machine translation systems depends on the evaluation of their results. However, manual evaluation of the translation quality is labour expensive and slow. For this reason, several automatic machine translation evaluation metrics have been developed. The best performing evaluation metrics use additional language specific resources (e.g. lists of synonyms or part-of-speech tagging). However, these resources do not exist for all languages. This thesis evaluates the suitability of Normalized Compression Distance for the automatic evaluation of machine translations. Normalized Compression Distance is a general distance measure between two strings, based on the theoretical foundations of Algorithmic Information Theory and Kolmogorov complexity. We show that, in system-level evaluation, Normalized Compression Distance achieves similar correlations to human evaluations as the standard machine translation evaluation metrics. In sentence-level evaluation, Normalized Compression Distance performs on the same level as the state-of-the-art evaluation metrics. Furthermore, NCD achieved the best performance among the evaluated metrics that did not use additional language specific resources. |
Abstract (fin): | Konekäännösjärjestelmien kehittäminen edellyttää niiden tuottamien käännösten arviointia. Käännösten manuaalinen arviointi on kuitenkin työlästä. Tästä syystä on kehitetty useita käännösten automaattiseen arviointiin tarkoitettuja menetelmiä. Parhaat näistä menetelmistä käyttävät kuitenkin ylimääräisiä kielestä riippuvia resursseja (esimerkiksi synonyymisanakirjoja tai sanaluokkatietoja), joita ei ole olemassa kaikille kielille. Työssä arvioidaan normalisoidun kompressioetäisyyden (engl. Normalized Compression Distance) sopivuutta konekäännösten automaattiseen arviointiin. Normalisoitu kompressioetäisyys on yleinen, kahden merkkijonon välinen etäisyysmitta, joka perustuu algoritmiseen informaatioteoriaan ja Kolmogorovin kompleksisuuteen. Työssä näytetään, että systeemitason arvioinnissa normalisoitu kompressioetäisyys saavuttaa samantasoisia korrelaatioita ihmisarvioiden kanssa kuin yleisesti käytetyt käännösten automaattiset evaluointimenetelmät. Lausetason arvioinnissa normalisoitu kompressioetäisyys tuottaa samantasoisia evaluointeja kuin viimeisintä tekniikkaa edustavat automaattiset menetelmät. Lisäksi, normalisoitu kompressioetäisyys saavutti parhaat tulokset, kun sitä vertailtiin muiden sellaisten menetelmien kanssa, jotka eivät käytä ylimääräisiä kielestä riippuvia resursseja. |
ED: | 2010-11-19 |
INSSI record number: 41333
+ add basket
INSSI