haku: @keyword ontologiat / yhteensä: 14
viite: 6 / 14
Tekijä:Nyberg, Katariina
Työn nimi:Document classification using machine learning and ontologies
Asiakirjojen luokittelu koneoppimista ja ontologioita käyttäen
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2011
Sivut:[9] + 71 s.      Kieli:   eng
Koulu/Laitos/Osasto:Mediatekniikan laitos
Oppiaine:Viestintätekniikka   (T-75)
Valvoja:Hyvönen, Eero
Ohjaaja:Hyvönen, Eero
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto     | Arkisto
Avainsanat:document classification
ontologies
syntactical analysis
machine learning
logistic discriminant
bag of words
YSO
asiakirjojen luokittelu
ontologiat
kieliopillinen analyysi
koneoppiminen
logistinen diskriminantti
YSO
Tiivistelmä (fin): Tässä diplomityössä tutkitaan asiakirjojen automaattista luokittelua niiden sisällön pohjalta.
Tiedon automaattinen luokittelu on yksi koneoppimisen keskeisiä aihepiirejä.
Oppivasta luokittimesta luodaan malli jo valmiiksi luokitetulla esimerkkidatalla.

Tehtävänä on kokeilla ontologisen taustatiedon hyödyntämistä oppivassa luokittimessa ja selvittää parantaako taustatiedon lisääminen mallin luokittelutarkkuutta.
Diplomityö esittelee uuden oppivan luokittimen, joka sisällyttää ontologiatiedon analyysiinsa.
Luokitinta testataan Suomen Kansallisarkiston sähköisillä asiakirjoilla, jotka ovat kasin luokiteltuja.

Asiakirjojen ja niiden sisältämien lauseiden sekä sanojen esittämistä varten diplomityössä on kehitetty RDF skeema, jota käyttäen sanat voidaan muuttaa perusmuotoon ja yhdistää puoliautomaattisesti Yleisen suomalaisen ontologian käsitteisiin.
Skeemaa hyödynnetään datan valmisteluun oppivan luokittimen analyysia varten.

Diplomityössä on osoitettu, että luokittelutarkkuus paranee, kun oppivaan luokittimeen lisätään ontologiatietoa.
Tiivistelmä (eng): This master's thesis explores a way in which documents can be automatically classified based on their contents.
Automatic classification of data is one of the main applications of machine learning.
With the help of already classified data a model for the most likely class can be learned.

Whether adding background knowledge from ontologies can be added to the model in order to improve the classification accuracy, is also explored in this master's thesis.
A new machine learning model is introduced that incorporates ontology information.

The proposed method for learning a classification model and enhancing it with ontology information is used in a case study for the Finnish National Archives and a set of digital documents that have been manually classified.

An RDF schema for representing documents, sentences and words is created in order to prepare the data for the machine learning analysis.
The words are put into base form and matched semi-automatically with concepts of the General Finnish Ontology YSO.
Then the ontology enhanced model is applied on the data and the most likely classes for documents are learned.

The master's thesis shows that the classification accuracy of the model increases when ontology information is added to it.
ED:2011-03-07
INSSI tietueen numero: 41554
+ lisää koriin
INSSI