search query: @keyword noise variance estimation / total: 3
reference: 1 / 3
« previous | next »
Author: | Eirola, Emil |
Title: | Variable Selection with the Delta Test in Theory and Practice |
Val av variabler med Delta-testet i teori och praktik | |
Muuttujien valinta Delta-testillä teoriassa ja käytännössä | |
Publication type: | Master's thesis |
Publication year: | 2009 |
Pages: | 40 (+2) Language: eng |
Department/School: | Informaatio- ja luonnontieteiden tiedekunta |
Degree programme: | Teknillisen fysiikan ja matematiikan tutkinto-ohjelma |
Main subject: | Informaatiotekniikka (T-115) |
Supervisor: | Simula, Olli |
Instructor: | Lendasse, Amaury |
Digitized copy: | https://aaltodoc.aalto.fi/handle/123456789/97028 |
OEVS: | Digitized archive copy is available in Aaltodoc
|
Location: | P1 Ark T80 | Archive |
Keywords: | Delta test variable selection noise variance estimation nearest neighbour non-linear regression Delta-testi muuttujien valinta kohinan varianssin estimointi lähimmän naapurin menetelmä epälineaarinen regressio Delta-test val av variabler brusvariansestimation närmastegrannemetod icke-linjär regression |
Abstract (eng): | The importance of variable selection procedures in non-linear regression analysis is becoming increasingly important as the size of data sets which can be gathered and handled continues to grow. In addition to reducing the size of the problem, variable selection can improve the performance of regression models by discarding noisy data. Furthermore, variable selection provides valuable interpretability of the data by specifying which variables are more relevant than others. This thesis assesses some of the currently available state-of-the-art methods and presents the use of the "Delta test" noise variance estimator for input variable selection. The use of the Delta test for variable selection is studied in a theoretical framework, and a theorem is derived which shows that, under reasonable assumptions, the expectation of the Delta test is minimised by the optimal selection of variables. The method is also analysed from a practical standpoint, including some simulated experiments to investigate its behaviour under specific conditions. The Delta test is compared to two alternative methods for variable selection: mutual information and least angle regression. The performance of each method when used with a Least Squares Support Vector Machines non-linear regression model is evaluated on a total of five real world data sets, and it is found that the Delta test excels on average. The conceptually simple and computationally efficient method outputs a good, model-independent selection of variables, and can consequently be considered a viable competitor among the currently commonly used methods. |
Abstract (swe): | Betydelsen av att välja rätta variabler inom icke-linjär regressionsanalys har blivit allt väsentligare då storleken på datamängder som kan samlas in och hanteras fortsätter att öka. Förutom att minska problemets storlek, kan valet av variabler förbättra resultaten för regressionsmodeller genom att avlägsna meningslös data (brus). Dessutom tillför variabelvalet en värdefull tolkning av datamängden genom att ange vilka variabler som kan anses vara mer relevanta än andra. I detta diplomarbete analyseras några moderna metoder och användingen av brusvariansestimatorn "Delta-testet" presenteras som ett alternativ för val av variabler. Användningen av Delta-testet för val av variabler undersöks från en teoretisk synvinkel, och det härleds en sats som visar att under vissa rimliga antaganden minimerar det optimala valet av variablerna Delta-testets väntevärde. Metoden analyseras också ur ett praktiskt perspektiv, med hjälp av några konstgjorda experiment som åskådliggör dess beteende under säskilda förhållanden. Delta-testet jämförs med två andra metoder för val av variabler: gemensam information (mutual information) och minsta-vinkelsregression (least angle regression). Prestationen av varje metod i samband med en minsta-kvadrats-stödvektormaskiners (Least Squares Support Vector Machines) icke-linjär regressionsmodell utvärderas på sammanlagt fem datamängder som baserar sig på praktiska tillämpningar. Resultaten visar att Delta-testet utmärker sig i genomsnitt. Den lättbegripliga och beräkningsmässigt effektiva metoden ger ut ett lämpligt och modelloberoende val av variabler, och kan därmed anses vara en kraftig konkurrent bland de oftast använda metoderna. |
Abstract (fin): | Muuttujien valinnan tärkeys epälineaarisessa regressioanalyysissä on korostunut kerättävissä ja käsiteltävissä olevan mittaustiedon koon kasvaessa. Mallintamistehtävän pelkistämisen lisäksi muuttujien valinta voi parantaa tehokkuutta erottamalla datasta kohinaa sisältäviä komponentteja. Lisäksi muuttujien valinta auttaa tulkitsemaan tietomäärää erittelemällä mitkä syötemuuttujat vaikuttavat tärkeimmiltä. Tässä diplomityössä katsastetaan alan kehityksen nykytasoa vastaavia menetelmiä, sekä esitellään kohinan varianssin estimointiin perustuvan "Deltatesti" -menetelmän soveltuvuutta muuttujien valintaan. Delta-testin käyttöä muuttujien valinnassa tutkitaan teoreettisella tasolla, ja johdetaan lause, joka kohtuullisten olettamusten alla osoittaa, että Delta-testin odotusarvon minimi saavutetaan optimaalisella valikoimalla muuttujia. Menetelmää tarkastetaan myös käytännön näkökulmasta, ja työssä esitellään simuloituja kokeita jotka havainnollistavat sen käyttäytymistä tietynlaisissa tilanteissa. Delta-testiä verrataan kahteen vaihtoehtoiseen menetelmään: keskinäinen informaatio (mutual information) sekä pienimmän kulman regressio (least angle regression). Menetelmien toimintaa vertaillaan viidessä eri mittauksiin perustuvassa mallinnusongelmassa käyttämällä epälineaarista pienimmän neliösumman tukivektorikoneiden (Least Squares Support Vector Machines) mallia. Tulosten perusteella Delta-testi suoriutuu keskimäärin parhaiten. Käsittellisesti yksinkertaista sekä laskennallisesti kevyttä menetelmää voidaan siten pitää varteenotettavana kilpailijana nykyisille yleisessä käytössä oleville menetelmille |
ED: | 2010-01-19 |
INSSI record number: 38769
+ add basket
« previous | next »
INSSI