search query: @supervisor Kaski, Samuel / total: 58
reference: 14 / 58
« previous | next »
Author:Leppäaho, Eemeli
Title:Transfer Learning with Group Factor Analysis
Siirto-oppimista ryhmäfaktorianalyysilla
Publication type:Master's thesis
Publication year:2013
Pages:viii + 53      Language:   eng
Department/School:Perustieteiden korkeakoulu
Main subject:Informaatiotekniikka   (T-61)
Supervisor:Kaski, Samuel
Instructor:Klami, Arto
Electronic version URL: http://urn.fi/URN:NBN:fi:aalto-201502261946
OEVS:
Electronic archive copy is available via Aalto Thesis Database.
Instructions

Reading digital theses in the closed network of the Aalto University Harald Herlin Learning Centre

In the closed network of Learning Centre you can read digital and digitized theses not available in the open network.

The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/

You can read theses on the Learning Centre customer computers, which are available on all floors.

Logging on to the customer computers

  • Aalto University staff members log on to the customer computer using the Aalto username and password.
  • Other customers log on using a shared username and password.

Opening a thesis

  • On the desktop of the customer computers, you will find an icon titled:

    Aalto Thesis Database

  • Click on the icon to search for and open the thesis you are looking for from Aaltodoc database. You can find the thesis file by clicking the link on the OEV or OEVS field.

Reading the thesis

  • You can either print the thesis or read it on the customer computer screen.
  • You cannot save the thesis file on a flash drive or email it.
  • You cannot copy text or images from the file.
  • You cannot edit the file.

Printing the thesis

  • You can print the thesis for your personal study or research use.
  • Aalto University students and staff members may print black-and-white prints on the PrintingPoint devices when using the computer with personal Aalto username and password. Color printing is possible using the printer u90203-psc3, which is located near the customer service. Color printing is subject to a charge to Aalto University students and staff members.
  • Other customers can use the printer u90203-psc3. All printing is subject to a charge to non-University members.
Location:P1 Ark Aalto  57   | Archive
Keywords:Bayesian data analysis
factor models
transfer learning
variational inference
bayesiläinen data-analyysi
faktorimallit
siirto-oppiminen
variationaalinen Bayes-päättely
Abstract (eng): Modern measuring techniques allow us to get more and more data in less time and cheaper price.
When analyzing data, one sample might be the gene expression of a cell or the activity of a human brain at a certain time, consisting of tens of thousands of features.
Often we have much fewer samples than features, and simple methods will overfit the data.
Factor models are designed to model this kind of high-dimensional data via a lower dimensional factor space.
Factor analysis is the simplest factor model: it reconstructs each feature in the data as a weighted sum of the hidden factors (components).

In this thesis I examine group factor analysis (GFA), which is an extension of factor analysis for multiple data sets.
High-dimensional data can often be naturally divided to different groups (views), which GFA uses as prior information by inferring the component activities for views instead of single features.
This property combined with an automatic system for the component activity determination results in a powerful factor model.

In this thesis, GFA is extended to explicitly model hidden relations between different data views.
This is done by generating their component activity matrix in two alternative ways: as samples of a multivariate normal distribution and as a product of two low-rank matrices.
Both the extensions are solved via variational Bayesian inference, and are shown to model data with accuracy comparable to GFA.
For data with many views low-rank GFA is the most accurate model.

Additionally the problem of small number of samples is dealt with two transfer learning setups: one being able to take advantage of background data with samples or features shared with target data, and the other introducing a novel transfer learning setup.
It is shown, using both artificial and real data, that both of these setups allow us to form a better model when suitable background data is available.
The real data consists of drug response profiles measured on cell lines using two different microarray platforms.
Abstract (fin): Modernien mittaustekniikoiden avulla saadaan nykyään entistä enemmän aineistoa tutkittavaksi lyhyemmässä ajassa ja halvemmalla.
Kun tutkimuksen kohteena ovat esimerkiksi solun geenien ilmentymisarvot tai ihmisaivojen toiminta, yksi näyte voi koostua kymmenistä tuhansista muuttujista.
Usein näytteitä on paljon vähemmän kuin muuttujia, jolloin yksinkertaiset menetelmät ylisovittuvat aineistoon.
Faktorimallit on suunniteltu mallintamaan tällaista korkeaulotteista dataa matalaulotteisemman faktoriavaruuden avulla.
Faktorianalyysi on näistä malleista yksinkertaisin: se rekonstruoi jokaisen aineiston muuttujan latenttien faktorien (komponenttien) painotettuna summana.

Tässä diplomityössä sovelletaan ja edelleen kehitetään ryhmäfaktorianalyysiä (GFA), joka on faktorianalyysin laajennus useille aineistojoukoille.
Korkeaulotteinen data voidaan usein jakaa ryhmiin (näkymiin), jotka GFA ottaa huomioon mallintamalla komponenttiaktiivisuudet ryhmille yksittäisten muuttujien sijaan.
Mallissa on myös mukana komponenttien relevanssin määrittävä osa.
Nämä seikat tekevät GFA:sta käytännöllisen faktorimallin.

Tässä työssä laajennetaan ryhmäfaktorianalyysiä mallintamaan aineiston eri näkymien suhteita eksplisiittisesti.
Tämä tehdään mallintamalla näkymien komponenttiaktiivisuudet kahdella vaihtoehtoisella tavalla: moniulotteisen normaalijakauman näytteinä sekä kahden matalan rangin matriisin tulona.
Molemmat laajennukset ratkaistaan variationaalisen Bayes-päättelyn avulla, ja niiden tarkkuus aineiston mallintamisessa vastaa GFA:n tarkkuutta.
Aineistossa, jossa on useita näkymiä, matalan rangin GFA on tarkin malli.

Pienen näytemäärän ongelmaan puututaan lisäksi kahdella siirto-oppimismenetelmällä.
Toisessa hyödynnetään taustadataa, jossa on kohdedatan kanssa jaettuja näytteitä tai muuttujia.
Toisessa lähestymistavassa on menetelmänä syvemmän tason siirto-oppiminen.
Työssä osoitetaan sekä keinotekoisella että oikealla aineistolla, että molemmat menetelmät parantavat lopullista mallia, kunhan sopivaa taustadataa on saatavilla.
Oikea aineisto koostuu solulinjoille mikrosiruilla tehdyistä lääkevastemittauksista.
ED:2013-03-25
INSSI record number: 46003
+ add basket
« previous | next »
INSSI