search query: @keyword recommender systems / total: 4
reference: 3 / 4
« previous | next »
Author:Luostarinen, Tapio
Title:Content-based recommender system exploiting topic models
Aihemalleja hyödyntävä sisältöpohjainen suositusjärjestelmä
Publication type:Master's thesis
Publication year:2012
Pages:68      Language:   eng
Department/School:Tietojenkäsittelytieteen laitos
Main subject:Informaatiotekniikka   (T-61)
Supervisor:Oja, Erkki
Instructor:Kohonen, Oskar
Digitized copy: https://aaltodoc.aalto.fi/handle/123456789/100421
OEVS:
Digitized archive copy is available in Aaltodoc
Location:P1 Ark Aalto  7079   | Archive
Keywords:recommender systems
content-based recommendation
rating estimation
topic model
Latent Dirichlet Allocation
suosittelujärjestelmät
sisältöpohjainen suosittelu
arvostelun estimointi
ainemalli
LDA
Abstract (eng): It is often a time-consuming and laborious task to find interesting information from large collections.
Recommender systems have become popular in many internet services in recent years to ease the problem.
Although collaborative methods are more popular among researchers, content based methods have characteristics that make them more attractive in some situations.
Different content-based methods have been proposed, but no comparative study has been published.
In this thesis, we study different content-based recommender methods in order to implement one on top of an existing news aggregator.

We test using topic models in content-based news recommender systems in order to increase performance.
We study the nearest neighbour method, linear regression and naive Bayes classification using traditional word-based data and compare them with the same methods using topics extracted from the dataset with latent Dirichlet allocation (LDA).
For comparison, we also evaluate the performance using singular value decomposition (SVD) as a dimensionality reduction method.
For evaluation, we introduce a novel way of simulating online situation in an offline setting.
Our results show that especially linear regression benefits substantially from LDA, but also SVD is shown to be sufficient for achieving improvements.
We show that especially the important problem of the cold start situation can be eased with the reduced dimensionality of an LDA model.
This kind of representation not only simplifies calculations, but also increases performance and makes the interpretation more intuitive when there is only a small amount of data available.

We also compare the three recommendation methods with each other and show that the nearest neighbour method is the most accurate and stable.
However, as linear regression performs almost as well when LDA is used and it is computationally the most efficient for calculating predictions, it would be the best method to be implemented in an online system.
Abstract (fin): Mielenkiintoisen informaation löytäminen suurista kokoelmista on usein erittäin aikaa vievä ja työläs tehtävä.
Suosittelujärjestelmät ovat yleistyneet monissa verkkopalveluissa viimeisten vuosien aikana tämän ongelman helpottamiseksi.
Vaikka yhteistoiminnalliset menetelmät ovat tutkijoiden keskuudessa paljon suositumpia, sisältöpohjaisilla menetelmillä on monia ominaisuuksia, jotka tekevät niistä houkuttelevampia vaihtoehtoja joissakin tilanteissa.
Useita sisältöpohjaisia menetelmiä on ehdotettu, mutta kattavaa vertailua näiden välillä ei ole tehty.
Tässä tutkielmassa me tutkimme erilaisia sisältöpohjaisia suosittelumenetelmiä toteuttaaksemme sellaisen olemassa olevaan uutisaggregaattiin.

Me testaamme aihemallien käyttämistä sisältöpohjaisissa suosittelujärjestelmissä suorituskyvyn parantamiseksi.
Tutkimme lähimmän naapurin menetelmää, lineaarista regressiota ja naiivia Bayesin luokitinta käyttämällä tavallisia sanapiirteitä ja vertaamme tuloksia käyttämällä piirteinä aiheita, jotka on erotettu data-aineistosta käyttäen latenttia Dirichlet'n allokaatiota (LOA).
Vertailua varten testaamme myös singulaariarvohajotelman (SVO) käyttämistä ulottuvuuksien vähentämiseen.
Arviointia varten esittelemme uuden tavan simuloida online-tilannetta offline-ympäristössä.
Tulostemme mukaan erityisesti lineaarinen regressio hyötyy olennaisesti LDA:n käytöstä, mutta myös SVD on riittävä hyötyjen aikaansaamiseksi.

Osoitamme, että LDA-mallin tuottama, vähemmän piirteitä sisältävä esitystapa on käyttökelpoinen erityisesti tärkeässä kylmäkäynnistysongelmassa.
Tällainen esitystapa yksinkertaistaa laskutoimituksia, mutta tekee myös suosittelujen tulkinnasta intuitiivisempaa ja parantaa suorituskykyä, erityisesti kun saatavilla on vain vahan dataa käyttäjän kiinnostuksesta.

Vertaamme myös edellä mainittuja kolmea suosittelumenetelmää toisiinsa, ja näytämme, että lähimmän naapurin luokitin on menetelmistä tarkin ja vakain.
Kuitenkin lineaarisen regression toimiessa lähes yhtä hyvin ja koska se on laskennallisesti tehokkain menetelmä suositusten laskentaan, se olisi paras menetelmä toteutettavaksi toimivaan online-järjestelmään.
ED:2013-01-07
INSSI record number: 45739
+ add basket
« previous | next »
INSSI