search query: @instructor Lagus, Krista / total: 7
reference: 4 / 7
Author: | Virpioja, Sami |
Title: | New methods for statistical natural language modeling |
Uusia menetelmiä luonnollisen kielen tilastolliseen mallinnukseen | |
Publication type: | Master's thesis |
Publication year: | 2005 |
Pages: | (4) + 82 Language: eng |
Department/School: | Tietotekniikan osasto |
Main subject: | Informaatiotekniikka (T-61) |
Supervisor: | Oja, Erkki |
Instructor: | Lagus, Krista |
OEVS: | Electronic archive copy is available via Aalto Thesis Database.
Instructions Reading digital theses in the closed network of the Aalto University Harald Herlin Learning CentreIn the closed network of Learning Centre you can read digital and digitized theses not available in the open network. The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/ You can read theses on the Learning Centre customer computers, which are available on all floors.
Logging on to the customer computers
Opening a thesis
Reading the thesis
Printing the thesis
|
Location: | P1 Ark Aalto 8548 | Archive |
Keywords: | statistical language modeling independent component analysis distributed representations self-organizing map minimum description length principle luonnollisen kielen tilastollinen mallinnus riippumattomien komponenttien analyysi hajautetut esitykset itseorganisoiva kartta pienimmän kuvauspituuden periaate |
Abstract (fin): | Luonnollisten kielten tilastollista mallinnusta ovat jo pitkään hallinneet niin sanotut N-grammimallit, joissa seuraavan sanan esiintymistä ennustetaan muutaman edellisen sanan perusteella käyttäen suuresta tekstiaineistosta laskettuja suurimman uskottavuuden estimaatteja. Mallien ongelmana ovat parametrien suuri määrä, joka aiheuttaa mallien koon suurta kasvua ja ylioppimista, sekä kattavan opetusaineiston puute, joka estää estimaattien löytämisen kaikille sanoille. Tässä työssä tutkitaan erilaisia ratkaisuja näihin ongelmiin. Toimivaksi osoittautunut menetelmä sanaston koon rajoittamiseen on käyttää sanojen sijasta ohjaamattomasti opittavia morfeeminkaltaisia yksiköitä. Työssä näytetään, miten kielen esityksen dimensiota pystytään pudottamaan edelleen ohjaamattomasti riippumattomien komponenttien analyysillä. Saatavaa hajautettua numeerista esitystä pystytään käyttämään kielen mallinnuksessa esimerkiksi itseorganisoivan kartan avulla. Suorempia ratkaisuja N-grammimallien koko-ongelmiin ovat yksiköiden tai niiden sekvenssien ryhmittely, sekä toisaalta posterioritodennäköisyyden maksimoinnin tai pienimmän kuvauspituuden periaatteen hyödyntäminen päätettäessä, kuinka paljon parametreja malliin otetaan. Työssä esitetään eräs ratkaisu sille, miten näitä menetelmiä yhdistämällä voidaan päästä hyvin rajoitetun kokoisiin kielimalleihin. |
ED: | 2006-02-14 |
INSSI record number: 30597
+ add basket
INSSI