search query: @supervisor Syrjänen, Markku / total: 187
reference: 14 / 187
« previous | next »
Author:Litkey, David
Title:Statistical Methods in Natural Language Processing
Stokastiset menetelmät luonnollisten kielten käsittelyssä
Publication type:Master's thesis
Publication year:2006
Pages:65      Language:   eng
Department/School:Tietotekniikan osasto
Main subject:Tietämystekniikka   (T-93)
Supervisor:Syrjänen, Markku
Instructor:Honkela, Timo
OEVS:
Electronic archive copy is available via Aalto Thesis Database.
Instructions

Reading digital theses in the closed network of the Aalto University Harald Herlin Learning Centre

In the closed network of Learning Centre you can read digital and digitized theses not available in the open network.

The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/

You can read theses on the Learning Centre customer computers, which are available on all floors.

Logging on to the customer computers

  • Aalto University staff members log on to the customer computer using the Aalto username and password.
  • Other customers log on using a shared username and password.

Opening a thesis

  • On the desktop of the customer computers, you will find an icon titled:

    Aalto Thesis Database

  • Click on the icon to search for and open the thesis you are looking for from Aaltodoc database. You can find the thesis file by clicking the link on the OEV or OEVS field.

Reading the thesis

  • You can either print the thesis or read it on the customer computer screen.
  • You cannot save the thesis file on a flash drive or email it.
  • You cannot copy text or images from the file.
  • You cannot edit the file.

Printing the thesis

  • You can print the thesis for your personal study or research use.
  • Aalto University students and staff members may print black-and-white prints on the PrintingPoint devices when using the computer with personal Aalto username and password. Color printing is possible using the printer u90203-psc3, which is located near the customer service. Color printing is subject to a charge to Aalto University students and staff members.
  • Other customers can use the printer u90203-psc3. All printing is subject to a charge to non-University members.
Location:P1 Ark T80     | Archive
Keywords:formal languages
grammars
natural language processing
computational linguistics
artificial intelligence
language models
part-of-speech tagging
probabilistic context-free parsing
corpus based linguistics
finite-state automata
Markov models
HMM
n-grams
formaalit kielet
kieliopit
luonnollisten kielten käsittely
laskennallinen kielitiede
tekoäly
kielimallit
sanaluokan tunnistus
stokastinen yhteysvapaa jäsennys
korpuslingvistiikka
äärelliset automaatit
Markov-mallit
HMM
n-gram
Abstract (fin): Luonnollisten kielten käsittely perustuu nykyään usein empiiristen menetelmien hyödyntämiseen sekä tilastollisiin kielimalleihin ja Bayesilaiseen päättelyyn.
Kielimallien opetusaineistona käytetään valtavia tekstimassoja.
Ensimmäisten tilastollisten kielimallien sekä näihin perustuvien menetelmien soveltuvuutta käsittelemään vaativampia lingvistisiä tehtäviä on monesti kyseenalaistettu.

Ensimmäiset empiiriset menetelmät perustuivat tosiaan lineaarisiin kielimalleihin, vaikka kieli kognitiivisena ilmiönä saattaa hyvinkin omata piirteitä, joita ei sen sekventiaalista luonnetta tarkkailemalla ehkä koskaan pystytä edes ymmärtämään, sillä ihmisen "kognitiivinen koneisto" on kompleksisuudeltaan niin valtava sekä kvalitatiivisessa että kvantitatiivisessa mielessä, etteivät luonnontieteet ole tähän mennessä pystyneet siitä kokonaisuudessaan kattavaa taikka yhtenevää teoriaa kehittämään.

Kielimallit ovat kuitenkin kehittyneet viime vuosikymmenten aikana, ja samalla tekstiaineistojen kattavuus sekä niiden saatavuus on parantunut huomattavasti.
Vaikka tämä mahdollistaakin lingvistisen tiedon laajamittaisemman hyödyntämisen, monilla kieliteknologian osa-alueilla on edelleen ratkaisemattomia ongelmia, etenkin sellaisissa tehtävissä, joissa luonnollisen kielen ymmärtäminen on välttämätöntä.

Diplomityön aiheena ovatkin sellaiset lingvistiset tehtävät, jotka ovat keskeisessä asemassa monissa sovelluksissa, mutta joiden kannalta kielen ymmärtäminen ei ole erityisen oleellista.
Markov-malleihin perustuva sanaluokkien tunnistaminen sekä tilastolliset yhteysvapaat kieliopit ja näihin perustuva kielen jäsentäminen ovat tällaisia.

Markov-malleja ja näihin liittyviä tekniikoita käsitellään kielen leksikaalisen moniselitteisyyden yhteydessä, kun taas rakenteellisen moniselitteisyyden ongelmaa lähestytään stokastisen jäsennyksen avulla.
Diplomityö käsittelee lisäksi lyhyesti kielimallien parametrien estimointimenetelmiä sekä tähän tarkoitukseen käytettäviä data-aineistoja.
ED:2006-11-24
INSSI record number: 32653
+ add basket
« previous | next »
INSSI