haku: @keyword luonnollisten kielten käsittely / yhteensä: 2
viite: 1 / 2
« edellinen | seuraava »
Tekijä: | Litkey, David |
Työn nimi: | Statistical Methods in Natural Language Processing |
Stokastiset menetelmät luonnollisten kielten käsittelyssä | |
Julkaisutyyppi: | Diplomityö |
Julkaisuvuosi: | 2006 |
Sivut: | 65 Kieli: eng |
Koulu/Laitos/Osasto: | Tietotekniikan osasto |
Oppiaine: | Tietämystekniikka (T-93) |
Valvoja: | Syrjänen, Markku |
Ohjaaja: | Honkela, Timo |
OEVS: | Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossaOppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa. Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/ Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.
Kirjautuminen asiakaskoneille
Opinnäytteen avaaminen
Opinnäytteen lukeminen
Opinnäytteen tulostus
|
Sijainti: | P1 Ark T80 | Arkisto |
Avainsanat: | formal languages grammars natural language processing computational linguistics artificial intelligence language models part-of-speech tagging probabilistic context-free parsing corpus based linguistics finite-state automata Markov models HMM n-grams formaalit kielet kieliopit luonnollisten kielten käsittely laskennallinen kielitiede tekoäly kielimallit sanaluokan tunnistus stokastinen yhteysvapaa jäsennys korpuslingvistiikka äärelliset automaatit Markov-mallit HMM n-gram |
Tiivistelmä (fin): | Luonnollisten kielten käsittely perustuu nykyään usein empiiristen menetelmien hyödyntämiseen sekä tilastollisiin kielimalleihin ja Bayesilaiseen päättelyyn. Kielimallien opetusaineistona käytetään valtavia tekstimassoja. Ensimmäisten tilastollisten kielimallien sekä näihin perustuvien menetelmien soveltuvuutta käsittelemään vaativampia lingvistisiä tehtäviä on monesti kyseenalaistettu. Ensimmäiset empiiriset menetelmät perustuivat tosiaan lineaarisiin kielimalleihin, vaikka kieli kognitiivisena ilmiönä saattaa hyvinkin omata piirteitä, joita ei sen sekventiaalista luonnetta tarkkailemalla ehkä koskaan pystytä edes ymmärtämään, sillä ihmisen "kognitiivinen koneisto" on kompleksisuudeltaan niin valtava sekä kvalitatiivisessa että kvantitatiivisessa mielessä, etteivät luonnontieteet ole tähän mennessä pystyneet siitä kokonaisuudessaan kattavaa taikka yhtenevää teoriaa kehittämään. Kielimallit ovat kuitenkin kehittyneet viime vuosikymmenten aikana, ja samalla tekstiaineistojen kattavuus sekä niiden saatavuus on parantunut huomattavasti. Vaikka tämä mahdollistaakin lingvistisen tiedon laajamittaisemman hyödyntämisen, monilla kieliteknologian osa-alueilla on edelleen ratkaisemattomia ongelmia, etenkin sellaisissa tehtävissä, joissa luonnollisen kielen ymmärtäminen on välttämätöntä. Diplomityön aiheena ovatkin sellaiset lingvistiset tehtävät, jotka ovat keskeisessä asemassa monissa sovelluksissa, mutta joiden kannalta kielen ymmärtäminen ei ole erityisen oleellista. Markov-malleihin perustuva sanaluokkien tunnistaminen sekä tilastolliset yhteysvapaat kieliopit ja näihin perustuva kielen jäsentäminen ovat tällaisia. Markov-malleja ja näihin liittyviä tekniikoita käsitellään kielen leksikaalisen moniselitteisyyden yhteydessä, kun taas rakenteellisen moniselitteisyyden ongelmaa lähestytään stokastisen jäsennyksen avulla. Diplomityö käsittelee lisäksi lyhyesti kielimallien parametrien estimointimenetelmiä sekä tähän tarkoitukseen käytettäviä data-aineistoja. |
ED: | 2006-11-24 |
INSSI tietueen numero: 32653
+ lisää koriin
« edellinen | seuraava »
INSSI