haku: @supervisor Kurimo, Mikko / yhteensä: 15
viite: 8 / 15
Tekijä:Grönroos, Stig-Arne
Työn nimi:Semi-supervised induction of a concatenative morphology with simple morphotactics: A model in the Morfessor family
Puoliohjattu konkatenatiivisen morfologian oppiminen yksinkertaisella morfotaksilla: Morfessor-malliperheen jäsen
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2014
Sivut:ix + 74      Kieli:   eng
Koulu/Laitos/Osasto:Perustieteiden korkeakoulu
Oppiaine:Informaatiotekniikka   (T-61)
Valvoja:Kurimo, Mikko
Ohjaaja:Virpioja, Sami ; Smit, Peter
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201405221894
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto     | Arkisto
Avainsanat:morphene segmentation
machine learning
language modeling
probabilistic modeling
semi-supervised learning
information retrieval
morfeemipilkonta
morfologian oppiminen
koneoppiminen
kielimallit
ohjaamaton oppiminen
tiedonhaku
Tiivistelmä (fin): Koneoppimismenetelmiä hyödynnetään yhä enemmän luonnollisen kielen käsittelyyn.
Eri kielten vaihtelevat resurssit ovat osasyy tähän kehitykseen: vahvasti kieliopilliseen tietämykseen nojautuvat manuaaliset menetelmät ovat realistisia vain hyvin resursoiduille kielille.

Morfologinen segmentointi, eli sanojen jakaminen pienimpiin merkityksellisiin osiin, on keskeinen tehtävä yhdyssanoja ja taivutusta paljon hyödyntävien kielten automaattisessa käsittelyssä.
Näissä kielissä erilaisten sanamuotojen määrä kasvaa niin suureksi, että sanoihin pohjautuvat kielimallit kärsivät.

Tämä diplomityö esittelee Morfessor FlatCat -menetelmän, Morfessormenetelmäperheen uuden jäsenen.
Menetelmäperhe sisältää koneoppimismenetelmiä morfologisen segmentoinnin oppimiseen.
Morfessor FlatCat yhdistää osia kahdesta olemassa olevasta Morfessor-menetelmästä, liittäen kätkettyyn Markov-malliin perustuvan morfotaksin Morfessor Categories-MAP -menetelmästä yhteen Morfessor Baseline -menetelmässä käytetyn puoliohjatun oppimisen kanssa.
Puoliohjatun oppimisen mahdollistaa ei-hierarkkisen leksikon käyttäminen.

Morfotaksi auttaa mallia välttämään olemassa olevien morfien käyttämistä virheellisissä kohdissa.
Esimerkkinä virheestä on englanninkielen jälkiliitteen "s" käyttäminen sanan alussa.
Puoliohjattu oppiminen mahdollistaa pienen annotoidun aineiston hyödyntämisen merkittävän hyödyn saavuttamiseen verrattaessa tuloksia normatiiviseen segmentointiin.

Kokeet osoittavat, että vaikka ohjaamaton FlatCat ei saavuta Categories-MAP -menetelmän tarkkuutta, puoliohjattuna FlatCat-menetelmän tulokset suomen- ja englanninkielelle ovat nykyistä huipputasoa.
Tiedonhakukokeet osoittavat menetelmän soveltuvuuden erääseen luonnollisen kielen käsittelyn tehtävään.
Tiivistelmä (eng): Machine learning methods are increasingly applied to automated processing of natural language data.
One motivation for this stems from the different amounts of resources available to languages: knowledge-heavy manual approaches are only available for well-resourced languages.

Morphological segmentation, the splitting of words into their smallest meaning-bearing components, is an essential task in automatic processing of compounding and highly-inflecting languages.
In these languages, the number of unique word forms may be very large, causing problems for word-based language models.

This thesis presents Morfessor FlatCat, a new method in the Morfessor family of methods for learning morphological segmentations of words.
Morfessor FlatCat hybridizes two existing Morfessor methods, combining the hidden Markov model morphotactics from Morfessor Categories-MAP with the semi-supervised training previously applied to Morfessor Baseline.
The semi-supervised training is enabled by the use of a flat instead of a hierarchical lexicon.

The morphotactics help the model avoid using correct morphs in incorrect positions, such as splitting the English suffix "s" from the beginning of a word.
Semi-supervised learning allows using small amounts of annotated data for significant improvements when evaluated against gold standard segmentations.

Our experiments show that while unsupervised FlatCat does not reach the accuracy of Categories-MAP, FlatCat provides state-of-the-art results for English and Finnish, when trained in a semi-supervised manner.
Information retrieval experiments demonstrate the applicability of FlatCat to a natural language processing task.
ED:2014-04-28
INSSI tietueen numero: 48943
+ lisää koriin
INSSI