search query: @keyword normalized compression distance / total: 1
reference: 1 / 1
« previous | next »
Author:Tapiovaara, Tero
Title:Normalized Compression Distance in Automatic Evaluation of Machine Translations
Normalisoitu kompressioetäisyys konekäännösten automaattisessa evaluoinnissa
Publication type:Master's thesis
Publication year:2010
Pages:[12] + 80      Language:   eng
Department/School:Informaatio- ja luonnontieteiden tiedekunta
Main subject:Informaatiotekniikka   (T-61)
Supervisor:Honkela, Timo
Instructor:Väyrynen, Jaakko J.
OEVS:
Electronic archive copy is available via Aalto Thesis Database.
Instructions

Reading digital theses in the closed network of the Aalto University Harald Herlin Learning Centre

In the closed network of Learning Centre you can read digital and digitized theses not available in the open network.

The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/

You can read theses on the Learning Centre customer computers, which are available on all floors.

Logging on to the customer computers

  • Aalto University staff members log on to the customer computer using the Aalto username and password.
  • Other customers log on using a shared username and password.

Opening a thesis

  • On the desktop of the customer computers, you will find an icon titled:

    Aalto Thesis Database

  • Click on the icon to search for and open the thesis you are looking for from Aaltodoc database. You can find the thesis file by clicking the link on the OEV or OEVS field.

Reading the thesis

  • You can either print the thesis or read it on the customer computer screen.
  • You cannot save the thesis file on a flash drive or email it.
  • You cannot copy text or images from the file.
  • You cannot edit the file.

Printing the thesis

  • You can print the thesis for your personal study or research use.
  • Aalto University students and staff members may print black-and-white prints on the PrintingPoint devices when using the computer with personal Aalto username and password. Color printing is possible using the printer u90203-psc3, which is located near the customer service. Color printing is subject to a charge to Aalto University students and staff members.
  • Other customers can use the printer u90203-psc3. All printing is subject to a charge to non-University members.
Location:P1 Ark Aalto  116   | Archive
Keywords:machine translation
automatic evaluation
normalized compression distance
konekääntäminen
automaattinen arviointi
normalisoitu kompressioetäisyys
Abstract (eng): The development of machine translation systems depends on the evaluation of their results.
However, manual evaluation of the translation quality is labour expensive and slow.
For this reason, several automatic machine translation evaluation metrics have been developed.
The best performing evaluation metrics use additional language specific resources (e.g. lists of synonyms or part-of-speech tagging).
However, these resources do not exist for all languages.

This thesis evaluates the suitability of Normalized Compression Distance for the automatic evaluation of machine translations.
Normalized Compression Distance is a general distance measure between two strings, based on the theoretical foundations of Algorithmic Information Theory and Kolmogorov complexity.

We show that, in system-level evaluation, Normalized Compression Distance achieves similar correlations to human evaluations as the standard machine translation evaluation metrics.
In sentence-level evaluation, Normalized Compression Distance performs on the same level as the state-of-the-art evaluation metrics.
Furthermore, NCD achieved the best performance among the evaluated metrics that did not use additional language specific resources.
Abstract (fin): Konekäännösjärjestelmien kehittäminen edellyttää niiden tuottamien käännösten arviointia.
Käännösten manuaalinen arviointi on kuitenkin työlästä.
Tästä syystä on kehitetty useita käännösten automaattiseen arviointiin tarkoitettuja menetelmiä.
Parhaat näistä menetelmistä käyttävät kuitenkin ylimääräisiä kielestä riippuvia resursseja (esimerkiksi synonyymisanakirjoja tai sanaluokkatietoja), joita ei ole olemassa kaikille kielille.

Työssä arvioidaan normalisoidun kompressioetäisyyden (engl.
Normalized Compression Distance) sopivuutta konekäännösten automaattiseen arviointiin.
Normalisoitu kompressioetäisyys on yleinen, kahden merkkijonon välinen etäisyysmitta, joka perustuu algoritmiseen informaatioteoriaan ja Kolmogorovin kompleksisuuteen.
Työssä näytetään, että systeemitason arvioinnissa normalisoitu kompressioetäisyys saavuttaa samantasoisia korrelaatioita ihmisarvioiden kanssa kuin yleisesti käytetyt käännösten automaattiset evaluointimenetelmät.
Lausetason arvioinnissa normalisoitu kompressioetäisyys tuottaa samantasoisia evaluointeja kuin viimeisintä tekniikkaa edustavat automaattiset menetelmät.
Lisäksi, normalisoitu kompressioetäisyys saavutti parhaat tulokset, kun sitä vertailtiin muiden sellaisten menetelmien kanssa, jotka eivät käytä ylimääräisiä kielestä riippuvia resursseja.
ED:2010-11-19
INSSI record number: 41333
+ add basket
« previous | next »
INSSI