haku: @all pulkki / yhteensä: 16
viite: 15 / 16
Tekijä:Pulkki, Mikko
Työn nimi:Tuoteattribuuttien poiminta rakenteettomasta tekstistä
Extracting product attributes from unstructured textual data
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2014
Sivut:vii + 68 s. + liitt. 4      Kieli:   fin
Koulu/Laitos/Osasto:Sähkötekniikan ja automaation laitos
Oppiaine:Automaatiotekniikka   (AS3001)
Valvoja:Kyrki, Ville
Ohjaaja:Vesanto, Juha
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201501031008
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto  2674   | Arkisto
Avainsanat:attribute extraction
unstructered data
test mining
regular expressions
associate rules
attribuuttipoiminta
rakenteeton data
tekstinlouhinta
säännölliset lausekkeet
assosiaatiosäännöt
Tiivistelmä (fin):Informaation määrän ja sen saatavuuden kasvu asettaa valtavasti haasteita tiedon ja tietovirtojen hallinnalle.
Tietomäärien kasvaessa etenkin käsin suoritettavat tiedonhallintaprosessit käyvät resurssi- ja aikavaatimusten osilta kalliiksi, mikä puoltaa automatisointiratkaisujen käyttöönottoa.

Työn tavoitteena on suunnitella ja toteuttaa järjestelmä automatisoimaan tuotetietojen ylläpitoa, jossa päivittäistavaroille poimitaan tuoteominaisuuksia vapaamuotoisista tuotekuvauksista.
Järjestelmä avustaa ylläpitoprosessin manuaalisessa vaiheessa, jossa tuotetietoja haetaan lukuisista eri tuotetietolähteista ja kirjataan tuotetietojärjestelmään käyttötarkoitukseen erikoistuneella sovelluksella.

Poimintaongelmaa lähestytään tekstinlouhinnan näkökulmasta, jossa esikäsitellystä tekstidatasta etsitään attribuutteja koneoppimisen menetelmin.
Eksplisiittisiä attribuuttiarvoja poimitaan säännöllisillä lausekkeilla, jotka oppiva algoritmi muodostaa harjoitusdatasta merkittyjen näytteiden perusteella.
Johdettavissa olevien attribuuttien tapauksessa painoarvo siirretään poimintaongelmasta uusien yhteyksien eli attribuuttirelaatioiden löytämiseen assosiaatiosääntöjen avulla.

Testiaineistoa vasten suoritetut testiajot osoittivat säännölliset lausekkeet hyväksi valinnaksi attribuuttiarvojen poimintaan, mutta assosiaatiosääntöjen soveltuvuus sellaisenaan esitettyyn tehtäväkuvaukseen vaatii vielä lisätarkastelua.
Tiivistelmä (eng):The sheer amount of information available today has set many challenges for data management.
Automatic methods for processing and understanding both structured and unstructured data are becoming more valuable solutions for all kinds of data processing tasks.

In this thesis, an implementation of a software for extracting product attributes from unstructured textual data is presented.
The implemented system is part of product feature management process where product attributes are extracted from different sources of data and transferred into a data management system using specialized tools.
The main purpose of the software is to minimize manual work done in the extraction phase of the process.

The attribute extraction is treated as a text mining problem.
Product data is first preprocessed into a structured format before the actual extraction is performed using methods from the field of machine learning.
Explicit attributes are extracted using regular expressions formed with supervised learning algorithm and implicit relations between attributes are examined with association rules.
Association rules are also used for extracting implicit attributes from the product data.

Performance of the system and chosen methods were evaluated with multiple test runs.
Regular expressions were proven to be a fine choice for the extraction of explicit attributes whereas the current adaptation of association rules still require some additional work.
ED:2015-01-18
INSSI tietueen numero: 50418
+ lisää koriin
INSSI