haku: @supervisor Karhunen, Juha / yhteensä: 28
viite: 4 / 28
Tekijä:Lankinen, Matti
Työn nimi:Modeling Finnish language with character-word compositional Language Model
Suomen kielen mallintaminen merkki-sana-yhdistelmä kielimallin avulla
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2016
Sivut:48      Kieli:   eng
Koulu/Laitos/Osasto:Perustieteiden korkeakoulu
Oppiaine:Ohjelmistotuotanto ja -liiketoiminta   (T3003)
Valvoja:Karhunen, Juha
Ohjaaja:Heikinheimo, Hannes
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201611025355
Sijainti:P1 Ark Aalto  4932   | Arkisto
Avainsanat:neural networks
language modeling
deep-learning
unsupervised learning
neuroverkot
kielimallinnus
syväoppiminen
Tiivistelmä (fin):Neuroverkot ovat yleistyneet hiljattain kielimallinnuksen apuvälineinä.
Toistaiseksi parhaat perinteiset toteutukset tomivat sanapohjaisesti.
Morfologisesti rikkaissa kielissä kuitenkin käytettävien sanastojen koko uhkaa kasvaa nopeasti, mikä moninkertaistaa mallin parametrien lukumäärän ja tekee malleista hitaita opettaa.
Tämän diplomityön aiheena on tutkia tapoja mallintaa suomenkielistä tekstiä niin, että mallin parametrien lukumäärä pysyy lähes vakiona sanaston koosta riippumatta, mutta kuitenkin niin että mallin suorituskyky ei kärsi sanapohjaisiin malleihin verrattuna.

Tässä diplomityössä esitellään uusi C2W2C-yhdistelmäkielimalli, joka toimii ulkoisesti merkkitasolla, mutta käyttää kuitenkin sisäisesti perinteisiä sanapohjaisten mallien upotuksia rekurrenttien pakkaajien ja purkajien avulla.
Tulokset osoittavat, että C2W2C-malli pystyy vastaamaan morfologisesti rikkaiden kielten asettamiin haasteisiin, kuten validointimateriaalilla esiintyvään sanaston ulkopuolisten sanojen korkeaan tiheyteen, tuntemattomien sanojen ennustukseen sekä kasvavaan sanaston kokoon.
Mallin suorituskyky perinteisin menetelmin mitattuna (PPL) ei yllä kuitenkaan vielä perinteisten sanapohjaisten mallien tasolle.
Täten on tehtävä lisää tutkimusta merkkipohjaisten mallien hyötyjen ja ominaisuuksien sekä sanapohjaisten mallien suorituskyvyn yhdistämiseksi.
Tiivistelmä (eng):Neural networks have become increasingly popular in the field of language modeling.
So far, the traditional implementations having the best modeling performances are operating with word embeddings.
In highly morphological languages, however, the vocabulary size tends to grow easily.
This quickly multiplies the parameter count of word-level models, making them slow to train.
This thesis, inspired by recent research, explores ways to model the Finnish language while maintaining the performance of word-level models and keeping the model parameters nearly constant regardless of the size of the word vocabulary.

This thesis proposes a new Character-to-Word-to-Character (C2W2C) compositional language model that uses characters as input and output while still internally processing traditional word embeddings by using recurrent encoders and decoders.
The results of the study indicate that C2W2C can respond to the challenges of morphologically rich languages such as high out-of-vocabulary word rates for validation data, the prediction of novel words and growing vocabulary size.
However, the language modeling performance of C2W2C, measured by PPL (perplexity), is yet inferior to traditional word-level models.
Hence more research must be done in order to obtain the benefits and features from character-level and word-level language model performance.
ED:2016-11-13
INSSI tietueen numero: 54887
+ lisää koriin
INSSI