haku: @all pulkki / yhteensä: 22
viite: 15 / 22
Tekijä: | Pulkki, Mikko |
Työn nimi: | Tuoteattribuuttien poiminta rakenteettomasta tekstistä |
Extracting product attributes from unstructured textual data | |
Julkaisutyyppi: | Diplomityö |
Julkaisuvuosi: | 2014 |
Sivut: | vii + 68 s. + liitt. 4 Kieli: fin |
Koulu/Laitos/Osasto: | Sähkötekniikan ja automaation laitos |
Oppiaine: | Automaatiotekniikka (AS3001) |
Valvoja: | Kyrki, Ville |
Ohjaaja: | Vesanto, Juha |
Elektroninen julkaisu: | http://urn.fi/URN:NBN:fi:aalto-201501031008 |
OEVS: | Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossaOppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa. Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/ Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.
Kirjautuminen asiakaskoneille
Opinnäytteen avaaminen
Opinnäytteen lukeminen
Opinnäytteen tulostus
|
Sijainti: | P1 Ark Aalto 2674 | Arkisto |
Avainsanat: | attribute extraction unstructered data test mining regular expressions associate rules attribuuttipoiminta rakenteeton data tekstinlouhinta säännölliset lausekkeet assosiaatiosäännöt |
Tiivistelmä (fin): | Informaation määrän ja sen saatavuuden kasvu asettaa valtavasti haasteita tiedon ja tietovirtojen hallinnalle. Tietomäärien kasvaessa etenkin käsin suoritettavat tiedonhallintaprosessit käyvät resurssi- ja aikavaatimusten osilta kalliiksi, mikä puoltaa automatisointiratkaisujen käyttöönottoa. Työn tavoitteena on suunnitella ja toteuttaa järjestelmä automatisoimaan tuotetietojen ylläpitoa, jossa päivittäistavaroille poimitaan tuoteominaisuuksia vapaamuotoisista tuotekuvauksista. Järjestelmä avustaa ylläpitoprosessin manuaalisessa vaiheessa, jossa tuotetietoja haetaan lukuisista eri tuotetietolähteista ja kirjataan tuotetietojärjestelmään käyttötarkoitukseen erikoistuneella sovelluksella. Poimintaongelmaa lähestytään tekstinlouhinnan näkökulmasta, jossa esikäsitellystä tekstidatasta etsitään attribuutteja koneoppimisen menetelmin. Eksplisiittisiä attribuuttiarvoja poimitaan säännöllisillä lausekkeilla, jotka oppiva algoritmi muodostaa harjoitusdatasta merkittyjen näytteiden perusteella. Johdettavissa olevien attribuuttien tapauksessa painoarvo siirretään poimintaongelmasta uusien yhteyksien eli attribuuttirelaatioiden löytämiseen assosiaatiosääntöjen avulla. Testiaineistoa vasten suoritetut testiajot osoittivat säännölliset lausekkeet hyväksi valinnaksi attribuuttiarvojen poimintaan, mutta assosiaatiosääntöjen soveltuvuus sellaisenaan esitettyyn tehtäväkuvaukseen vaatii vielä lisätarkastelua. |
Tiivistelmä (eng): | The sheer amount of information available today has set many challenges for data management. Automatic methods for processing and understanding both structured and unstructured data are becoming more valuable solutions for all kinds of data processing tasks. In this thesis, an implementation of a software for extracting product attributes from unstructured textual data is presented. The implemented system is part of product feature management process where product attributes are extracted from different sources of data and transferred into a data management system using specialized tools. The main purpose of the software is to minimize manual work done in the extraction phase of the process. The attribute extraction is treated as a text mining problem. Product data is first preprocessed into a structured format before the actual extraction is performed using methods from the field of machine learning. Explicit attributes are extracted using regular expressions formed with supervised learning algorithm and implicit relations between attributes are examined with association rules. Association rules are also used for extracting implicit attributes from the product data. Performance of the system and chosen methods were evaluated with multiple test runs. Regular expressions were proven to be a fine choice for the extraction of explicit attributes whereas the current adaptation of association rules still require some additional work. |
ED: | 2015-01-18 |
INSSI tietueen numero: 50418
+ lisää koriin
INSSI