haku: @keyword Artificial intelligence / yhteensä: 10
viite: 7 / 10
Tekijä:Litkey, David
Työn nimi:Statistical Methods in Natural Language Processing
Stokastiset menetelmät luonnollisten kielten käsittelyssä
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2006
Sivut:65      Kieli:   eng
Koulu/Laitos/Osasto:Tietotekniikan osasto
Oppiaine:Tietämystekniikka   (T-93)
Valvoja:Syrjänen, Markku
Ohjaaja:Honkela, Timo
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark T80     | Arkisto
Avainsanat:formal languages
grammars
natural language processing
computational linguistics
artificial intelligence
language models
part-of-speech tagging
probabilistic context-free parsing
corpus based linguistics
finite-state automata
Markov models
HMM
n-grams
formaalit kielet
kieliopit
luonnollisten kielten käsittely
laskennallinen kielitiede
tekoäly
kielimallit
sanaluokan tunnistus
stokastinen yhteysvapaa jäsennys
korpuslingvistiikka
äärelliset automaatit
Markov-mallit
HMM
n-gram
Tiivistelmä (fin): Luonnollisten kielten käsittely perustuu nykyään usein empiiristen menetelmien hyödyntämiseen sekä tilastollisiin kielimalleihin ja Bayesilaiseen päättelyyn.
Kielimallien opetusaineistona käytetään valtavia tekstimassoja.
Ensimmäisten tilastollisten kielimallien sekä näihin perustuvien menetelmien soveltuvuutta käsittelemään vaativampia lingvistisiä tehtäviä on monesti kyseenalaistettu.

Ensimmäiset empiiriset menetelmät perustuivat tosiaan lineaarisiin kielimalleihin, vaikka kieli kognitiivisena ilmiönä saattaa hyvinkin omata piirteitä, joita ei sen sekventiaalista luonnetta tarkkailemalla ehkä koskaan pystytä edes ymmärtämään, sillä ihmisen "kognitiivinen koneisto" on kompleksisuudeltaan niin valtava sekä kvalitatiivisessa että kvantitatiivisessa mielessä, etteivät luonnontieteet ole tähän mennessä pystyneet siitä kokonaisuudessaan kattavaa taikka yhtenevää teoriaa kehittämään.

Kielimallit ovat kuitenkin kehittyneet viime vuosikymmenten aikana, ja samalla tekstiaineistojen kattavuus sekä niiden saatavuus on parantunut huomattavasti.
Vaikka tämä mahdollistaakin lingvistisen tiedon laajamittaisemman hyödyntämisen, monilla kieliteknologian osa-alueilla on edelleen ratkaisemattomia ongelmia, etenkin sellaisissa tehtävissä, joissa luonnollisen kielen ymmärtäminen on välttämätöntä.

Diplomityön aiheena ovatkin sellaiset lingvistiset tehtävät, jotka ovat keskeisessä asemassa monissa sovelluksissa, mutta joiden kannalta kielen ymmärtäminen ei ole erityisen oleellista.
Markov-malleihin perustuva sanaluokkien tunnistaminen sekä tilastolliset yhteysvapaat kieliopit ja näihin perustuva kielen jäsentäminen ovat tällaisia.

Markov-malleja ja näihin liittyviä tekniikoita käsitellään kielen leksikaalisen moniselitteisyyden yhteydessä, kun taas rakenteellisen moniselitteisyyden ongelmaa lähestytään stokastisen jäsennyksen avulla.
Diplomityö käsittelee lisäksi lyhyesti kielimallien parametrien estimointimenetelmiä sekä tähän tarkoitukseen käytettäviä data-aineistoja.
ED:2006-11-24
INSSI tietueen numero: 32653
+ lisää koriin
INSSI