haku: @keyword automaattinen arviointi / yhteensä: 9
viite: 5 / 9
Tekijä: | Tapiovaara, Tero |
Työn nimi: | Normalized Compression Distance in Automatic Evaluation of Machine Translations |
Normalisoitu kompressioetäisyys konekäännösten automaattisessa evaluoinnissa | |
Julkaisutyyppi: | Diplomityö |
Julkaisuvuosi: | 2010 |
Sivut: | [12] + 80 Kieli: eng |
Koulu/Laitos/Osasto: | Informaatio- ja luonnontieteiden tiedekunta |
Oppiaine: | Informaatiotekniikka (T-61) |
Valvoja: | Honkela, Timo |
Ohjaaja: | Väyrynen, Jaakko J. |
OEVS: | Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossaOppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa. Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/ Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.
Kirjautuminen asiakaskoneille
Opinnäytteen avaaminen
Opinnäytteen lukeminen
Opinnäytteen tulostus
|
Sijainti: | P1 Ark Aalto 116 | Arkisto |
Avainsanat: | machine translation automatic evaluation normalized compression distance konekääntäminen automaattinen arviointi normalisoitu kompressioetäisyys |
Tiivistelmä (fin): | Konekäännösjärjestelmien kehittäminen edellyttää niiden tuottamien käännösten arviointia. Käännösten manuaalinen arviointi on kuitenkin työlästä. Tästä syystä on kehitetty useita käännösten automaattiseen arviointiin tarkoitettuja menetelmiä. Parhaat näistä menetelmistä käyttävät kuitenkin ylimääräisiä kielestä riippuvia resursseja (esimerkiksi synonyymisanakirjoja tai sanaluokkatietoja), joita ei ole olemassa kaikille kielille. Työssä arvioidaan normalisoidun kompressioetäisyyden (engl. Normalized Compression Distance) sopivuutta konekäännösten automaattiseen arviointiin. Normalisoitu kompressioetäisyys on yleinen, kahden merkkijonon välinen etäisyysmitta, joka perustuu algoritmiseen informaatioteoriaan ja Kolmogorovin kompleksisuuteen. Työssä näytetään, että systeemitason arvioinnissa normalisoitu kompressioetäisyys saavuttaa samantasoisia korrelaatioita ihmisarvioiden kanssa kuin yleisesti käytetyt käännösten automaattiset evaluointimenetelmät. Lausetason arvioinnissa normalisoitu kompressioetäisyys tuottaa samantasoisia evaluointeja kuin viimeisintä tekniikkaa edustavat automaattiset menetelmät. Lisäksi, normalisoitu kompressioetäisyys saavutti parhaat tulokset, kun sitä vertailtiin muiden sellaisten menetelmien kanssa, jotka eivät käytä ylimääräisiä kielestä riippuvia resursseja. |
Tiivistelmä (eng): | The development of machine translation systems depends on the evaluation of their results. However, manual evaluation of the translation quality is labour expensive and slow. For this reason, several automatic machine translation evaluation metrics have been developed. The best performing evaluation metrics use additional language specific resources (e.g. lists of synonyms or part-of-speech tagging). However, these resources do not exist for all languages. This thesis evaluates the suitability of Normalized Compression Distance for the automatic evaluation of machine translations. Normalized Compression Distance is a general distance measure between two strings, based on the theoretical foundations of Algorithmic Information Theory and Kolmogorov complexity. We show that, in system-level evaluation, Normalized Compression Distance achieves similar correlations to human evaluations as the standard machine translation evaluation metrics. In sentence-level evaluation, Normalized Compression Distance performs on the same level as the state-of-the-art evaluation metrics. Furthermore, NCD achieved the best performance among the evaluated metrics that did not use additional language specific resources. |
ED: | 2010-11-19 |
INSSI tietueen numero: 41333
+ lisää koriin
INSSI