haku: @instructor Lendasse, Amaury / yhteensä: 14
viite: 7 / 14
Tekijä:Eirola, Emil
Työn nimi:Variable Selection with the Delta Test in Theory and Practice
Val av variabler med Delta-testet i teori och praktik
Muuttujien valinta Delta-testillä teoriassa ja käytännössä
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2009
Sivut:40 (+2)      Kieli:   eng
Koulu/Laitos/Osasto:Informaatio- ja luonnontieteiden tiedekunta
Koulutusohjelma:Teknillisen fysiikan ja matematiikan tutkinto-ohjelma
Oppiaine:Informaatiotekniikka   (T-115)
Valvoja:Simula, Olli
Ohjaaja:Lendasse, Amaury
Digitoitu julkaisu: https://aaltodoc.aalto.fi/handle/123456789/97028
OEVS:
Digitoitu arkistokappale on julkaistu Aaltodocissa
Sijainti:P1 Ark T80     | Arkisto
Avainsanat:Delta test
variable selection
noise variance estimation
nearest neighbour
non-linear regression
Delta-testi
muuttujien valinta
kohinan varianssin estimointi
lähimmän naapurin menetelmä
epälineaarinen regressio
Delta-test
val av variabler
brusvariansestimation
närmastegrannemetod
icke-linjär regression
Tiivistelmä (fin): Muuttujien valinnan tärkeys epälineaarisessa regressioanalyysissä on korostunut kerättävissä ja käsiteltävissä olevan mittaustiedon koon kasvaessa.
Mallintamistehtävän pelkistämisen lisäksi muuttujien valinta voi parantaa tehokkuutta erottamalla datasta kohinaa sisältäviä komponentteja.
Lisäksi muuttujien valinta auttaa tulkitsemaan tietomäärää erittelemällä mitkä syötemuuttujat vaikuttavat tärkeimmiltä.
Tässä diplomityössä katsastetaan alan kehityksen nykytasoa vastaavia menetelmiä, sekä esitellään kohinan varianssin estimointiin perustuvan "Deltatesti" -menetelmän soveltuvuutta muuttujien valintaan.

Delta-testin käyttöä muuttujien valinnassa tutkitaan teoreettisella tasolla, ja johdetaan lause, joka kohtuullisten olettamusten alla osoittaa, että Delta-testin odotusarvon minimi saavutetaan optimaalisella valikoimalla muuttujia.
Menetelmää tarkastetaan myös käytännön näkökulmasta, ja työssä esitellään simuloituja kokeita jotka havainnollistavat sen käyttäytymistä tietynlaisissa tilanteissa.

Delta-testiä verrataan kahteen vaihtoehtoiseen menetelmään: keskinäinen informaatio (mutual information) sekä pienimmän kulman regressio (least angle regression).
Menetelmien toimintaa vertaillaan viidessä eri mittauksiin perustuvassa mallinnusongelmassa käyttämällä epälineaarista pienimmän neliösumman tukivektorikoneiden (Least Squares Support Vector Machines) mallia.
Tulosten perusteella Delta-testi suoriutuu keskimäärin parhaiten.
Käsittellisesti yksinkertaista sekä laskennallisesti kevyttä menetelmää voidaan siten pitää varteenotettavana kilpailijana nykyisille yleisessä käytössä oleville menetelmille
Tiivistelmä (eng): The importance of variable selection procedures in non-linear regression analysis is becoming increasingly important as the size of data sets which can be gathered and handled continues to grow.
In addition to reducing the size of the problem, variable selection can improve the performance of regression models by discarding noisy data.
Furthermore, variable selection provides valuable interpretability of the data by specifying which variables are more relevant than others.
This thesis assesses some of the currently available state-of-the-art methods and presents the use of the "Delta test" noise variance estimator for input variable selection.

The use of the Delta test for variable selection is studied in a theoretical framework, and a theorem is derived which shows that, under reasonable assumptions, the expectation of the Delta test is minimised by the optimal selection of variables.
The method is also analysed from a practical standpoint, including some simulated experiments to investigate its behaviour under specific conditions.

The Delta test is compared to two alternative methods for variable selection: mutual information and least angle regression.
The performance of each method when used with a Least Squares Support Vector Machines non-linear regression model is evaluated on a total of five real world data sets, and it is found that the Delta test excels on average.
The conceptually simple and computationally efficient method outputs a good, model-independent selection of variables, and can consequently be considered a viable competitor among the currently commonly used methods.
Tiivistelmä (swe): Betydelsen av att välja rätta variabler inom icke-linjär regressionsanalys har blivit allt väsentligare då storleken på datamängder som kan samlas in och hanteras fortsätter att öka.
Förutom att minska problemets storlek, kan valet av variabler förbättra resultaten för regressionsmodeller genom att avlägsna meningslös data (brus).
Dessutom tillför variabelvalet en värdefull tolkning av datamängden genom att ange vilka variabler som kan anses vara mer relevanta än andra.
I detta diplomarbete analyseras några moderna metoder och användingen av brusvariansestimatorn "Delta-testet" presenteras som ett alternativ för val av variabler.

Användningen av Delta-testet för val av variabler undersöks från en teoretisk synvinkel, och det härleds en sats som visar att under vissa rimliga antaganden minimerar det optimala valet av variablerna Delta-testets väntevärde.
Metoden analyseras också ur ett praktiskt perspektiv, med hjälp av några konstgjorda experiment som åskådliggör dess beteende under säskilda förhållanden.

Delta-testet jämförs med två andra metoder för val av variabler: gemensam information (mutual information) och minsta-vinkelsregression (least angle regression).
Prestationen av varje metod i samband med en minsta-kvadrats-stödvektormaskiners (Least Squares Support Vector Machines) icke-linjär regressionsmodell utvärderas på sammanlagt fem datamängder som baserar sig på praktiska tillämpningar.
Resultaten visar att Delta-testet utmärker sig i genomsnitt.
Den lättbegripliga och beräkningsmässigt effektiva metoden ger ut ett lämpligt och modelloberoende val av variabler, och kan därmed anses vara en kraftig konkurrent bland de oftast använda metoderna.
ED:2010-01-19
INSSI tietueen numero: 38769
+ lisää koriin
INSSI