haku: @instructor Lagus, Krista / yhteensä: 7
viite: 4 / 7
Tekijä:Virpioja, Sami
Työn nimi:New methods for statistical natural language modeling
Uusia menetelmiä luonnollisen kielen tilastolliseen mallinnukseen
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2005
Sivut:(4) + 82      Kieli:   eng
Koulu/Laitos/Osasto:Tietotekniikan osasto
Oppiaine:Informaatiotekniikka   (T-61)
Valvoja:Oja, Erkki
Ohjaaja:Lagus, Krista
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto  8548   | Arkisto
Avainsanat:statistical language modeling
independent component analysis
distributed representations
self-organizing map
minimum description length principle
luonnollisen kielen tilastollinen mallinnus
riippumattomien komponenttien analyysi
hajautetut esitykset
itseorganisoiva kartta
pienimmän kuvauspituuden periaate
Tiivistelmä (fin): Luonnollisten kielten tilastollista mallinnusta ovat jo pitkään hallinneet niin sanotut N-grammimallit, joissa seuraavan sanan esiintymistä ennustetaan muutaman edellisen sanan perusteella käyttäen suuresta tekstiaineistosta laskettuja suurimman uskottavuuden estimaatteja.
Mallien ongelmana ovat parametrien suuri määrä, joka aiheuttaa mallien koon suurta kasvua ja ylioppimista, sekä kattavan opetusaineiston puute, joka estää estimaattien löytämisen kaikille sanoille.
Tässä työssä tutkitaan erilaisia ratkaisuja näihin ongelmiin.

Toimivaksi osoittautunut menetelmä sanaston koon rajoittamiseen on käyttää sanojen sijasta ohjaamattomasti opittavia morfeeminkaltaisia yksiköitä.
Työssä näytetään, miten kielen esityksen dimensiota pystytään pudottamaan edelleen ohjaamattomasti riippumattomien komponenttien analyysillä.
Saatavaa hajautettua numeerista esitystä pystytään käyttämään kielen mallinnuksessa esimerkiksi itseorganisoivan kartan avulla.

Suorempia ratkaisuja N-grammimallien koko-ongelmiin ovat yksiköiden tai niiden sekvenssien ryhmittely, sekä toisaalta posterioritodennäköisyyden maksimoinnin tai pienimmän kuvauspituuden periaatteen hyödyntäminen päätettäessä, kuinka paljon parametreja malliin otetaan.
Työssä esitetään eräs ratkaisu sille, miten näitä menetelmiä yhdistämällä voidaan päästä hyvin rajoitetun kokoisiin kielimalleihin.
ED:2006-02-14
INSSI tietueen numero: 30597
+ lisää koriin
INSSI