haku: @keyword feature / yhteensä: 5
viite: 1 / 5
« edellinen | seuraava »
Tekijä:Kari, Miko
Työn nimi:A Parallel Forward Selection Wrapper for Genome Wide Association Studies
Monipolkuinen eteenpäin suuntautuva piirrevalintakääre genominlaajuiselle assosiaatioanalyysille
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2016
Sivut:61 s. + liitt. 6      Kieli:   eng
Koulu/Laitos/Osasto:Perustieteiden korkeakoulu
Oppiaine:Tietojenkäsittelytiede   (IL3010)
Valvoja:Lähdesmäki, Harri
Ohjaaja:Cheng, Lu
Elektroninen julkaisu: http://urn.fi/URN:NBN:fi:aalto-201608263020
Sijainti:P1 Ark Aalto  4417   | Arkisto
Avainsanat:parallel
feature
selection
wrapper
SNP
GWAS
rinnakainen
piirrevalinta
kääre
monimuotoisuus
genomi
assosiaatio
Tiivistelmä (fin):Genominlaajuinen assosiaatioanalyysi tutkii eliöiden genomissa esiintyvien pistemutaatioiden ja havaittavien piirteiden välistä yhteyttä.
Näiden yhden emäsparin pistemutaatioiden sekä niiden vuorovaikutusten uskotaan olevan yhteydessä useisiin sairauksiin.
Nykytutkimus osoittaa lisäksi useiden sairauksien olevan pikemminkin harvinaisten kuin tavanomaisesti tutkittujen yleisten mutaatioiden aiheuttamia, mikä edellyttää laajempaa analyysiä myös genomin vähemmän tutkituilla alueilla.

Genominlaajuisen sekvensoinnin yleistyessä korkeadimensioisen geneettisen datan tarjonnan voidaan olettaa kasvavan räjähdysmäisesti, mikä puolestaan edellyttää uusien tehokkaiden analyysimenetelmien kehittämistä.
Nykyiset laajalti käytetyt menetelemät ovat nimittäin yleisesti liian tehottomia koko genomin laajuisen analyysin suorittamiseksi.

Piirrevalintamenetelmät auttavat keventämään analyysityökalujen laskentataakkaa karsimalla epäolennaiset muuttujat datasta.
Lisäksi ne johtavat merkittävien muuttujien löytymiseen ja mahdollistavat kansainvälisten tutkimusresurssien ohjaamisen niiden tarkempaan jatkotutkimukseen.

Tämä työ esittelee uuden kääretyyppisen piirrevalintamenetelmän, joka skaalautuu hyvin korkeadimensioisen datan käsittelyyn.
Esitetty menetelmä on eteenpäin suuntautuva, piirteitä iteratiivisesti osajoukkoon lisäävä kääre, joka mahdollistaa useamman etsintäpolun ja hyödyntää laskentataakkaa keventävää heuristista ratkaisua.

Työn tulokset viittaavat siihen, että tämä uusi menetelmä on sen kanssa vertailtuja tunnettuja menetelmiä parempi korkeadimensioisen ja erityisesti suuria merkityksettömien muuttujien pitoisuuksia sisältävän datan käsittelyssä.
Nopeutusheuristiikkaa hyödyntäessään tämä rinnakkaistettava menetelmä skaalautuu myös genomin laajuiseen tutkimukseen.
Tiivistelmä (eng):Genome wide association studies attempt to explain variations in the observed traits of organisms in terms of variations in their DNA.
Many complex human diseases are believed to be associated with interactions of these single point variations within the genome.
Moreso, recent research suggests that many diseases are likely to be caused by rare mutations.
This demands the scanning of the entire genome as opposed to the continued scrutiny of its commonly assayed regions.

With the declining cost of whole genome sequencing, the amount of high dimensional data available to genome wide association studies can be expected to rise rapidly.
At the same time, many formerly used analysis techniques are starting to show signs of weakness and new, more powerful algorithmic solutions are needed to analyze these larger data sets.

Feature selection techniques constitute a methodology that, when applied, can alleviate the computational burden faced by the analysis tools.
More importantly, they can help discover the genetic markers that are most strongly associated with a phenotype and help direct future research effort to the further study of those particular factors.

This thesis presents a novel feature selection technique that scales well to high dimensional feature spaces.
The method is a forward selection type wrapper that operates search paths in parallel and involves a heuristic to reduce the computational load of searching for the optimal feature subset.

The results suggest that the proposed method is better than the tested alternative standard feature selection techniques in the analysis of genetic variants and data with small concentrations of relevant features.
Furthermore, using a linear regression model and the novel speedup heuristic, the parallelizable feature selection method scales to the genome wide scale given appropriate computational resources.
ED:2016-09-04
INSSI tietueen numero: 54236
+ lisää koriin
« edellinen | seuraava »
INSSI