haku: @keyword regression / yhteensä: 20
viite: 5 / 20
Tekijä:Mäkinen, Dominik
Työn nimi:Comparison of machine learning methods for social media and open data to predict sales
Koneoppimisen menetelmien vertailu myynnin ennustamisessa sosiaalista mediaa ja avointa dataa hyödyntäen
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2015
Sivut:6 + 58      Kieli:   eng
Koulu/Laitos/Osasto:Perustieteiden korkeakoulu
Oppiaine:Ohjelmistotekniikka   (T3001)
Valvoja:Vuorimaa, Petri
Ohjaaja:Myller, Niko
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201601201066
Sijainti:P1 Ark Aalto  3446   | Arkisto
Avainsanat:machine learning
regression
supervised learning
sentiment analysis
koneoppiminen
regressio
ohjattu oppiminen
sentimenttianalyysi
Tiivistelmä (fin):Koneoppiminen on osa tekoälytutkimusta.
Se on yhdistelmä matematiikkaa, tilastotiedettä, ja tietojenkäsittelytiedettä ja sen tavoite on opettaa koneita muodostamaan tarkkoja ennusteita datan avulla.
Koneoppiminen voidaan jakaa kolmeen kategoriaan: ohjattu oppiminen, epäohjattu oppiminen ja vahvistettu oppiminen.

Ennusteongelmat sisältävät oikeaan luokkaan merkitsemistä (luokittelu) tai numeerisen arvon estimointia (regressio) tuntemattomalle dataobjektille.
Koneoppiminen suoritetaan valitsemalla tietty menetelmä tarpeen mukaan tai yhdistelemällä eri menetelmiä.
Tämä työ käy tarkemmin läpi neljä eri menetelmää: tukivektorikoneet/-regressorit, monikerrosperseptronit, satunnaismetsät ja lineaariregression.

Eräs koneoppimisen käyttökohde on sentimenttianalyysi.
Se tarkoittaa mielipiteiden keräämistä teksteistä ja niiden luokittelua numeerisiin arvoihin.
Näitä arvoja kutsutaan sentimenteiksi ja ne voivat olla välillä 0:sta 10:een.
Alin sentimentti on täysin kielteinen mielipide, arvo viisi on neutraali mielipide ja kymmenen on täysin positiivinen mielipide.

Tämän työn metodit arvioidaan hyödyntämällä ns. receiver operating characteristics -käyriä sekä eri keskivirhelukuja.
Neljän metodin arvioinnit tehtiin automerkkien myyntilukujen kontekstissa, jossa yhdistettiin aikaisemmat myyntiluvut sosiaalisen median sentimenttianalyysidataan.
Havaittiin, että satunnaismetsä tuotti parhaimmat tulokset.
Koe suoritettiin työtä varten kirjoitetulla Sales Predictor -ohjelmalla.
Tiivistelmä (eng):Machine learning is a part of artificial intelligence research.
It is a combination of mathematics, statistics, and computer science, and its aim is to teach machines with a data to conduct accurate predictions.
Machine learning can be divided into three categories: supervised learning, unsupervised learning, and reinforced learning.

The prediction problems consist of labeling a correct class (classification) or estimating a numerical value (regression) to an unseen data object.
Machine learning is executed with a choice of different methods or a combination of them (ensemble).
This thesis looks more closely on the four different machine learning methods: support vector machines/regressors, multilayer perceptron, random forest, and linear regression.

One of the uses of machine learning lies in sentiment analysis.
It means retrieving opinions and categorizing them to numerical values from a textual data.
The values are called sentiments and can range from 0 to 10.
The lowest sentiment is totally negative opinion, five is a neutral opinion, and 10 is totally positive opinion.

The methods in this thesis are evaluated via receiver operating characteristics curves and different mean error values.
The four methods were evaluated in the context of predicting car sales amounts with previous sales amounts and social media sentiment analysis data.
It was noticed, that random forest produced the best results.
The experimentation was conducted by a program written for the thesis called Sales Predictor.
ED:2016-02-21
INSSI tietueen numero: 53120
+ lisää koriin
INSSI