search query: @keyword supervised learning / total: 4
reference: 1 / 4
« previous | next »
Author:Mäkinen, Dominik
Title:Comparison of machine learning methods for social media and open data to predict sales
Koneoppimisen menetelmien vertailu myynnin ennustamisessa sosiaalista mediaa ja avointa dataa hyödyntäen
Publication type:Master's thesis
Publication year:2015
Pages:6 + 58      Language:   eng
Department/School:Perustieteiden korkeakoulu
Main subject:Ohjelmistotekniikka   (T3001)
Supervisor:Vuorimaa, Petri
Instructor:Myller, Niko
Electronic version URL: http://urn.fi/URN:NBN:fi:aalto-201601201066
Location:P1 Ark Aalto  3446   | Archive
Keywords:machine learning
regression
supervised learning
sentiment analysis
koneoppiminen
regressio
ohjattu oppiminen
sentimenttianalyysi
Abstract (eng):Machine learning is a part of artificial intelligence research.
It is a combination of mathematics, statistics, and computer science, and its aim is to teach machines with a data to conduct accurate predictions.
Machine learning can be divided into three categories: supervised learning, unsupervised learning, and reinforced learning.

The prediction problems consist of labeling a correct class (classification) or estimating a numerical value (regression) to an unseen data object.
Machine learning is executed with a choice of different methods or a combination of them (ensemble).
This thesis looks more closely on the four different machine learning methods: support vector machines/regressors, multilayer perceptron, random forest, and linear regression.

One of the uses of machine learning lies in sentiment analysis.
It means retrieving opinions and categorizing them to numerical values from a textual data.
The values are called sentiments and can range from 0 to 10.
The lowest sentiment is totally negative opinion, five is a neutral opinion, and 10 is totally positive opinion.

The methods in this thesis are evaluated via receiver operating characteristics curves and different mean error values.
The four methods were evaluated in the context of predicting car sales amounts with previous sales amounts and social media sentiment analysis data.
It was noticed, that random forest produced the best results.
The experimentation was conducted by a program written for the thesis called Sales Predictor.
Abstract (fin):Koneoppiminen on osa tekoälytutkimusta.
Se on yhdistelmä matematiikkaa, tilastotiedettä, ja tietojenkäsittelytiedettä ja sen tavoite on opettaa koneita muodostamaan tarkkoja ennusteita datan avulla.
Koneoppiminen voidaan jakaa kolmeen kategoriaan: ohjattu oppiminen, epäohjattu oppiminen ja vahvistettu oppiminen.

Ennusteongelmat sisältävät oikeaan luokkaan merkitsemistä (luokittelu) tai numeerisen arvon estimointia (regressio) tuntemattomalle dataobjektille.
Koneoppiminen suoritetaan valitsemalla tietty menetelmä tarpeen mukaan tai yhdistelemällä eri menetelmiä.
Tämä työ käy tarkemmin läpi neljä eri menetelmää: tukivektorikoneet/-regressorit, monikerrosperseptronit, satunnaismetsät ja lineaariregression.

Eräs koneoppimisen käyttökohde on sentimenttianalyysi.
Se tarkoittaa mielipiteiden keräämistä teksteistä ja niiden luokittelua numeerisiin arvoihin.
Näitä arvoja kutsutaan sentimenteiksi ja ne voivat olla välillä 0:sta 10:een.
Alin sentimentti on täysin kielteinen mielipide, arvo viisi on neutraali mielipide ja kymmenen on täysin positiivinen mielipide.

Tämän työn metodit arvioidaan hyödyntämällä ns. receiver operating characteristics -käyriä sekä eri keskivirhelukuja.
Neljän metodin arvioinnit tehtiin automerkkien myyntilukujen kontekstissa, jossa yhdistettiin aikaisemmat myyntiluvut sosiaalisen median sentimenttianalyysidataan.
Havaittiin, että satunnaismetsä tuotti parhaimmat tulokset.
Koe suoritettiin työtä varten kirjoitetulla Sales Predictor -ohjelmalla.
ED:2016-02-21
INSSI record number: 53120
+ add basket
« previous | next »
INSSI