haku: @instructor Lagus, Krista / yhteensä: 7
viite: 4 / 7
Tekijä: | Virpioja, Sami |
Työn nimi: | New methods for statistical natural language modeling |
Uusia menetelmiä luonnollisen kielen tilastolliseen mallinnukseen | |
Julkaisutyyppi: | Diplomityö |
Julkaisuvuosi: | 2005 |
Sivut: | (4) + 82 Kieli: eng |
Koulu/Laitos/Osasto: | Tietotekniikan osasto |
Oppiaine: | Informaatiotekniikka (T-61) |
Valvoja: | Oja, Erkki |
Ohjaaja: | Lagus, Krista |
OEVS: | Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossaOppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa. Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/ Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.
Kirjautuminen asiakaskoneille
Opinnäytteen avaaminen
Opinnäytteen lukeminen
Opinnäytteen tulostus
|
Sijainti: | P1 Ark Aalto 8548 | Arkisto |
Avainsanat: | statistical language modeling independent component analysis distributed representations self-organizing map minimum description length principle luonnollisen kielen tilastollinen mallinnus riippumattomien komponenttien analyysi hajautetut esitykset itseorganisoiva kartta pienimmän kuvauspituuden periaate |
Tiivistelmä (fin): | Luonnollisten kielten tilastollista mallinnusta ovat jo pitkään hallinneet niin sanotut N-grammimallit, joissa seuraavan sanan esiintymistä ennustetaan muutaman edellisen sanan perusteella käyttäen suuresta tekstiaineistosta laskettuja suurimman uskottavuuden estimaatteja. Mallien ongelmana ovat parametrien suuri määrä, joka aiheuttaa mallien koon suurta kasvua ja ylioppimista, sekä kattavan opetusaineiston puute, joka estää estimaattien löytämisen kaikille sanoille. Tässä työssä tutkitaan erilaisia ratkaisuja näihin ongelmiin. Toimivaksi osoittautunut menetelmä sanaston koon rajoittamiseen on käyttää sanojen sijasta ohjaamattomasti opittavia morfeeminkaltaisia yksiköitä. Työssä näytetään, miten kielen esityksen dimensiota pystytään pudottamaan edelleen ohjaamattomasti riippumattomien komponenttien analyysillä. Saatavaa hajautettua numeerista esitystä pystytään käyttämään kielen mallinnuksessa esimerkiksi itseorganisoivan kartan avulla. Suorempia ratkaisuja N-grammimallien koko-ongelmiin ovat yksiköiden tai niiden sekvenssien ryhmittely, sekä toisaalta posterioritodennäköisyyden maksimoinnin tai pienimmän kuvauspituuden periaatteen hyödyntäminen päätettäessä, kuinka paljon parametreja malliin otetaan. Työssä esitetään eräs ratkaisu sille, miten näitä menetelmiä yhdistämällä voidaan päästä hyvin rajoitetun kokoisiin kielimalleihin. |
ED: | 2006-02-14 |
INSSI tietueen numero: 30597
+ lisää koriin
INSSI