haku: @keyword principal component analysis / yhteensä: 23
viite: 6 / 23
Tekijä:Vatanen, Tommi
Työn nimi:Missing Value Imputation Using Subspace Methods with Applications on Survey Data
Puuttuvien arvojen korvaaminen aliavaruusmenetelmillä
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2012
Sivut:viii + 73 s. + liitt. 5      Kieli:   eng
Koulu/Laitos/Osasto:Perustieteiden korkeakoulu
Oppiaine:Informaatiotekniikka   (T-61)
Valvoja:Kaski, Samuel
Ohjaaja:Kaiko, Tapani ; Lagus, Krista
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201209213163
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto  1559   | Arkisto
Avainsanat:missing value imputation
missing-at-random
principal component analysis
generative topographic mapping
self-organizing map
Tiivistelmä (fin): Puuttuvat arvot ovat yleisiä niin kyselyaineistoissa kuin muissakin tilastollisesti analysoitavissa aineistoissa.
Tässä opinnäytetyössä tutkitaan puuttuvien arvojen korvaamista käyttäen kolmea aliavaruusmenetelmää, pääkomponenttianalyysiä (PCA), itseorganisoivaa karttaa (SOM) ja generatiivista topografista kuvausta (GTM).
Sovellusalueena ovat kyselyaineistot, joiden puuttuvia arvoja korvataan perinteisesti esimerkiksi käyttäen niin sanottuja hot-deck -menetelmiä tai moninkertaista ketjutettua korvaamista (multiple imputation by chained equations, MICE).
Opinnäytteessä myös tarkastellaan kyselyaineistojen korvaamisen ja suositusjärjestelmien välisistä eroavaisuuksista ja samankaltaisuuksista menetelmätasolla.

Edellä mainitut aliavaruusmenetelmät on esitelty yksityiskohtaisesti motivoiden sekä uusia muutoksia, että niiden käyttöä puuttuvien arvojen korvaamisessa.
Työssä esitettyjä kontribuutioita ovat (i) uusi tapa käsitellä puuttuvia arvoja SOM-algoritmissa, minkä näytetään parantavan algoritmin ominaisuuksia, (ii) niin sanottu "fine-tuned GTM", jossa käytettävien kantafunktioiden määrää kasvattamalla voidaan oppia parempia malleja, sekä (iii) uudella tavalla regularisoitu GTM-malli binaariselle aineistolle.

Kokeellisessa osuudessa vertaillaan ehdotettuja malleja sekä käyttäen tunnettua viiniaineistoa että kahta Likert-asteikkoista hyvinvointikyselyaineistoa.
Variaatioaproksimoitu bayesilainen PCA osoittautuu parhaaksi tehtäessä yksittäisiä puuttuvien arvojen korvauksia.
Se tekee myös automaattista mallinvalintaa, jolloin erillistä validointia mallin kompleksisuuden valitsemiseksi ei tarvita.

Lopuksi näytetään moninkertaista puuttuvien arvojen korvaamista (MI) käyttäen aliavaruusmenetelmiä sekä MICE-menetelmää.
Menetelmät tuottavat hyvin samanlaisia tuloksia kyselyaineistolla, jossa on alle 2 % puuttuvia arvoja.
Tiivistelmä (eng): In survey practice as well as in many other data analysis tasks, missing values are a common encounter.
In this thesis, the missing value imputation task is studied using three subspace methods, principal component analysis (PCA), the Self-Organizing Map (SOM) and the Generative Topographic Mapping (GTM).
The application area of interest is survey imputation, where imputation is conventionally conducted using, e.g., hot deck methods or multiple imputation by chained equations (MICE).
Similarities and differences between imputation in survey practice and recommendation systems are discussed, as well.

The formalism behind missing value imputation is described together with general mechanisms giving rise to missing data.
A detailed review of the aforementioned subspace methods in presence of missing data is given in order to motivate the novelties and new implementations contributed.
The contributions of this thesis include (i) a novel way of treating missing data in the SOM algorithm, which is shown to improve properties of the model, (ii) a fine-tuned GTM, where the number of radial basis functions is increased during learning and the initialization is made using the SOM, and (iii) a novel regularization for the GTM for binary data.

Experimental comparisons of existing and proposed methods are made using the wine data set and Likert-scale data from two wellbeing-related surveys.
The variational Bayesian PCA is shown to be superior in the single imputation task.
It also enables automatic relevance determination, i.e., automatic selection of the number of principal components needed.
Finally, multiple imputation (MI) using the subspace methods and MICE is demonstrated.
It is shown, that with survey data with less than 2 % missing data, all MI methods provide very similar population le vel results.
ED:2012-06-20
INSSI tietueen numero: 44695
+ lisää koriin
INSSI