haku: @supervisor Monteiro, José Carlos / yhteensä: 1
viite: 1 / 1
« edellinen | seuraava »
Tekijä: | Gusmão, António |
Työn nimi: | Reinforcement Learning In Real-Time Strategy Games |
Julkaisutyyppi: | Diplomityö |
Julkaisuvuosi: | 2011 |
Sivut: | 132 Kieli: eng |
Koulu/Laitos/Osasto: | Tietotekniikan laitos |
Oppiaine: | Informaatiotekniikka (T-61) |
Valvoja: | Oja, Erkki ; Monteiro, José Carlos |
Ohjaaja: | Raiko, Tapani |
OEVS: | Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossaOppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa. Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/ Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.
Kirjautuminen asiakaskoneille
Opinnäytteen avaaminen
Opinnäytteen lukeminen
Opinnäytteen tulostus
|
Sijainti: | P1 Ark Aalto 7131 | Arkisto |
Avainsanat: | reinforcement learning real-time strategy games artificial intelligence UCT planning continuous reinforcement learning |
Tiivistelmä (eng): | We consider the problem of effective and automated decision-making in modern real-time strategy (RTS) games through the use of reinforcement learning techniques. RTS games constitute environments with large, high-dimensional and continuous state and action spaces with temporally-extended actions. For such environments, value functions are represented using function approximators. Due to approximation errors, temporal-difference methods suffer from stability issues. This thesis proposes Exlos, a stable, model-based Monte-Carlo method which borrows ideas from several existing algorithms including prioritized sweeping and upper confidence trees (UCT). Contrary to existing model-based algorithms, Exlos assumes models are imperfect, reducing their influence in the decision-making process. Experimental results in a testing environment show the superiority of Exlos in large discrete state spaces when compared to traditional reinforcement learning methods such as Q-learning and Sarsa. Furthermore, Exlos is shown to be effective and efficient when operating over value functions represented by approximators. Its effectiveness is further improved by including a novel online search procedure in the control policy. As an additional result, we present an improved version of UCT, denoted UCTO, which is experimentally shown to outperform UCT. |
ED: | 2011-12-14 |
INSSI tietueen numero: 43254
+ lisää koriin
« edellinen | seuraava »
INSSI