haku: @keyword suositusjärjestelmä / yhteensä: 2
viite: 2 / 2
« edellinen | seuraava »
Tekijä:Mettälä, Markus
Työn nimi:Intelligent RSS tool
Älykäs RSS työkalu
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2013
Sivut:viii + 83      Kieli:   eng
Koulu/Laitos/Osasto:Perustieteiden korkeakoulu
Oppiaine:Informaatiotekniikka   (T-61)
Valvoja:Gionis, Aristides
Ohjaaja:Béjar, Javier
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto     | Arkisto
Avainsanat:document clustering
recommendation system
text classification
vector space distance measures
shallow ontologies
RSS
asiakirjojen klusterointi
suositusjärjestelmä
tekstimuotoisen informaation luokittelu
vektorien etäisyydet
matalat ontologiat
Tiivistelmä (fin): Helposti saatavilla oleva laaja valikoima tietoa internetsivustoilla mahdollistaa tämän tiedon tutkimisen toiveena löytää mielenkiintoista sisältöä.
Tämä usein johtaa ongelmaan, jota kutsutaan tietotulvaksi, joka kasvaa kokoajan suuremmaksi ongelmaksi tietomäärän kasvaessa internetsivustoilla.

Työssä käytetään Really Simple Syndication (RSS) syötteitä aineistona ja kahta menetelmää syötteiden kategorisointiin: dokumenttien ryhmittelyä K-keskiarvo (K-Means) ja latenttia Dirichlet allokaatiota (LDA) käyttämällä.
Hyödynnämme RSS:n sisältämää tekstimuotoista informaatiota, joka on usein syötekohtaisesti yhdestä tai useammasta aihealueesta koostuvaa.
Työn ensimmäinen tavoite on ryhmitellä dokumentit mielekkäisiin ryhmiin esikäsittelemällä aineisto luonnollisen kielen prosessoinnin (NLP) metodein.

Toinen tavoite työssä on analysoida ryhmiteltyjen dokumenttien tulokset ja hyödyntää dokumenttien välisiä yhteneväisyyksiä luodaksemme mielekkäitä käyttäjämalleja, jotka perustuvat käyttäjien tilaamiin syötteisiin.
Kolmas tavoite työssä on tarjota asiaankuuluvia suosituksia, jotka perustuvat luotuihin käyttäjämälleihin.
Me käytämme uusimpia menetelmiä ja esittelemme uuden menetelmän, jota hyödynnämme syötteiden suosittelussa.
Me hyödynnämme WordNet aineistoa uudessa menetelmässämme ja muunnamme dokumentit yleistettyihin malleihin dokumenteista.

Viimeisenä tavoitteena työssä on kehittää toimiva ohjelmisto, joka hyödyntää kehittämiämme menetelmiä, sekä uusimpia kirjastoja koneoppimisen saralta.
Esittelemämme menetelmä hyödyntää dokumenttien ryhmittelyä, tekstin samankaltaisuutta, syötteen mallintamista ja suositus järjestelmiä.

Kokeellisten tulosten perusteella K-keskiarvo menetelmällä ryhmiteltyjen dokumenttien ja syötteiden sisältämiin informaation avulla saavutamme parhaat tulokset.
Myös WordNet aineiston käyttäminen syötteiden otsikoiden samankaltaisuuden mittaamiseen tuottaa lupaavia tuloksia.
Dokumenttien semanttisen samankaltaisuuden hyödyntäminen vaikuttaa lupaavalta jatkotutkimusaiheelta.
Tiivistelmä (eng): Easy access to a wide range of information available online enables people to explore this information with an ambition to explore interesting content even more.
This opportunity often leads to a problem of finding interesting and relevant information from the sea of knowledge.
This problem is often referred to as the information overload problem, which is getting harder and harder to deal with as the amount of information available online grows.
In this thesis, one source of information is exploited and organized in such a way that the task of discovering new content is made easier.

We use Really Simple Syndication (RSS) as our source of information and two methods to categorize it: document clustering with K-Means and Latent Dirichlet Allocation (LDA).
We use the textual information that the RSS contains, each RSS feed usually contains a specific set of topics.
Our first goal is to perform document clustering to the data, in order to generate meaningful clusters with the help of natural language processing (NLP) techniques to pre-process the data.

Our second goal is to analyse the clustered RSS feeds and exploit the similarities between the documents to generate meaningful user models based on user feed subscriptions.
The third goal is to provide relevant recommendations based on the user models we have learned.
We combine the current state-of-the-art methods and present novel methods to compare feeds.
We exploit WordNet shallow ontologies in our novel method to create generalized representations of the feeds.

The final goal is to develop a functional application that can leverage the methods we developed with the help of machine learning libraries.
The method we propose is a combination of document clustering techniques, text similarity, feed modelling and recommendation system.

The results of our experiments show that K-Means clustered documents combined with recommendations based on the feed contents yield the best results.
Using WordNet to measure the similarity of words provides also promising results.
Further exploring the advantages of using semantic similarities would be an interesting research topic in the document similarity measures.
ED:2014-01-07
INSSI tietueen numero: 48295
+ lisää koriin
« edellinen | seuraava »
INSSI