haku: @keyword reinforcement learning / yhteensä: 9
viite: 6 / 9
Tekijä:Wagner, Paul
Työn nimi:On the stability of reinforcement learning under partial observability and generalizing representations
Vahvistusoppimisen vakaudesta osittaisen havaittavuuden ja yleistävän esityksen tapauksessa
Julkaisutyyppi:Diplomityö
Julkaisuvuosi:2010
Sivut:viii + 91 s.      Kieli:   eng
Koulu/Laitos/Osasto:Informaatio- ja luonnontieteiden tiedekunta
Oppiaine:Informaatiotekniikka   (T-61)
Valvoja:Honkela, Timo
Ohjaaja:Honkela, Timo
OEVS:
Sähköinen arkistokappale on luettavissa Aalto Thesis Databasen kautta.
Ohje

Digitaalisten opinnäytteiden lukeminen Aalto-yliopiston Harald Herlin -oppimiskeskuksen suljetussa verkossa

Oppimiskeskuksen suljetussa verkossa voi lukea sellaisia digitaalisia ja digitoituja opinnäytteitä, joille ei ole saatu julkaisulupaa avoimessa verkossa.

Oppimiskeskuksen yhteystiedot ja aukioloajat: https://learningcentre.aalto.fi/fi/harald-herlin-oppimiskeskus/

Opinnäytteitä voi lukea Oppimiskeskuksen asiakaskoneilla, joita löytyy kaikista kerroksista.

Kirjautuminen asiakaskoneille

  • Aalto-yliopistolaiset kirjautuvat asiakaskoneille Aalto-tunnuksella ja salasanalla.
  • Muut asiakkaat kirjautuvat asiakaskoneille yhteistunnuksilla.

Opinnäytteen avaaminen

  • Asiakaskoneiden työpöydältä löytyy kuvake:

    Aalto Thesis Database

  • Kuvaketta klikkaamalla pääset hakemaan ja avaamaan etsimäsi opinnäytteen Aaltodoc-tietokannasta. Opinnäytetiedosto löytyy klikkaamalla viitetietojen OEV- tai OEVS-kentän linkkiä.

Opinnäytteen lukeminen

  • Opinnäytettä voi lukea asiakaskoneen ruudulta tai sen voi tulostaa paperille.
  • Opinnäytetiedostoa ei voi tallentaa muistitikulle tai lähettää sähköpostilla.
  • Opinnäytetiedoston sisältöä ei voi kopioida.
  • Opinnäytetiedostoa ei voi muokata.

Opinnäytteen tulostus

  • Opinnäytteen voi tulostaa itselleen henkilökohtaiseen opiskelu- ja tutkimuskäyttöön.
  • Aalto-yliopiston opiskelijat ja henkilökunta voivat tulostaa mustavalkotulosteita Oppimiskeskuksen SecurePrint-laitteille, kun tietokoneelle kirjaudutaan omilla Aalto-tunnuksilla. Väritulostus on mahdollista asiakaspalvelupisteen tulostimelle u90203-psc3. Väritulostaminen on maksullista Aalto-yliopiston opiskelijoille ja henkilökunnalle.
  • Ulkopuoliset asiakkaat voivat tulostaa mustavalko- ja väritulosteita Oppimiskeskuksen asiakaspalvelupisteen tulostimelle u90203-psc3. Tulostaminen on maksullista.
Sijainti:P1 Ark Aalto     | Arkisto
Avainsanat:reinforcement learning
stochastic optimal control
adaptive control
active learning
policy gradient
natural gradient
approximate dynamic programming
simulation-based optimization
partial observability
Markov property
policy oscillation
policy chattering
vahvistusoppiminen
stokastinen optimisäätö
adaptiivinen säätö
aktiivinen oppiminen
politiikkagradientti
luonnollinen gradientti
likimääräinen dynaaminen ohjelmointi
simulaatiopohjainen optimointi
osittainen haivaittavuus
Markov-ominaisuus
politiikan oskillointi
Tiivistelmä (fin): Laskennallinen vahvistusoppiminen on tekoälyn ja koneoppimisen osa-alue ja käsittelee "vahvistusoppimisongelmia" ratkaisevia algoritmeja.
"Vahvistusoppiminen" viittaa operantin ehdollistumisen taustalla olevaan oppimisprosessiin, jossa oppijan käyttäytyminen mukautuu käytöksen seurausten preferoitavuuden perusteella.
Preferoidut seuraukset tai korkean hyödyn seuraukset toimivat palkintoina jotka vahvistavat niihin johtavaa käyttäytymistä tai sen muunnoksia, mikä johtaa preferoitujen tilanteiden tai utiliteetin maksimoitumiseen.

Laskennalliset vahvistusoppimisalgoritmit optimoivat esilaskettua säätö- tai päätöksentekopolitiikkaa dynaamisen ja aluksi tuntemattoman järjestelmän säätämiseksi siten, että pitkän aikavälin palkinto maksimoituu (tai kustannus minimoituu).
Palkinto on tässä yhteydessä abstrakti evaluaatiosignaali, joka tuo informaatiota annetussa tehtävässä onnistumisesta.
Tällaisten algoritmien voidaan nähdä esimerkiksi suorittavan "mallivapaata" suunnittelua hyödyn maksimoimiseksi tai lähestymistapana stokastisen adaptiivisen optimisäädön ongelmaan.
Useimmat algoritmit perustuvat (PO)MDP-formalismiin ja dynaamiseen ohjelmointiin ja käyttävät koneoppimismenetelmiä yleistyksen aikaansaamiseksi.

Oppimisasetelma edustaa aktiivista oppimista: oppijan on kerättävä itse kokeilemalla tarvitsemansa informaatio kohdejärjestelmän toiminnasta.
Oppijan suorittamat kokeilut perustuvat oppijan senhetkiseen tietämykseen, mikä johtaa oppimisen aikaskaalassa ilmenevään takaisinkytkentään.
Kyseinen takaisinkytkentä yhdessä joko tietämyksen likimääräisen esityksen tai kohdejärjestelmän osittaisen havaittavuuden kanssa saattaa aiheuttaa joidenkin vahvistusoppimisalgoritmien, erityisesti Q-oppimisen, täydellisen epävakautumisen ja monien suosittujen algoritmien päätymisen pysyvään oskillaatioon.

Tässä työssä katselmoidaan tällä hetkellä suosituimmat lähestymistavat ja algoritmit actor-critic -viitekehyksen näkökulmasta.
Katselmoinnin kohteena ovat ahneet arvofunktiomenetelmät sekä politiikkagradienttimenetelmät, joista ahneiden arvofunktiomenetelmien tiedetään olevan alttiita oskillaatio-ongelmalle, sekä natural actor-critic -algoritmi, fitted Q iteration -algoritmi, SARSA sekä Q-oppiminen.
Työssä perehdytään yksityiskohtaisesti oskillointiongelman taustalla oleviin syihin ja todetaan ongelman olevan lähtöisin tietyntyyppisestä epätäydellisen informaation aiheuttamasta ei-Markovisuudesta.
Epävakauttava mekanismi havainnollistetaan myös kokeellisesti minimaalisten keinotekoisten esimerkkien avulla.
Tiivistelmä (eng): Computational reinforcement learning is a subfield of artificial intelligence and machine learning and deals with algorithms for solving 'reinforcement learning' problems.
The term 'reinforcement learning' refers to the learning process behind operant conditioning, in which behaviours of the learner are adapted based on the prefer abilities of their consequences.
Preferred or high-utility consequences act as rewards that reinforce behaviours or behaviour variations that lead to them, thus leading to the maximization of preferred states of affairs or utility.

Computational reinforcement learning algorithms perform optimization of a cached control or decision-making policy for controlling an initially unknown dynamical system so as to maximize long-term reward (or minimize cost).
The reward is an abstract evaluation signal that conveys information about success in a given task.
Such algorithms can be viewed, for example, as performing 'model-free' planning so as to maximize utility, or as an approach for the problem of stochastic adaptive optimal control.
Most algorithms are based on the (PO)MDP formalism and dynamic programming, and use machine learning techniques for inducing generalization.

The learning setting is an instance of active learning: the learner has to obtain the needed information about the target system by experimenting with it based on its current knowledge.
As a consequence, there is a learning timescale feedback loop.
This feedback loop in combination with either approximate representation of knowledge or partial observability of the target system can completely destabilize some reinforcement learning algorithms, Q-learning being the most vulnerable to this combination, and trap many popular algorithms into sustained oscillation.

We will survey the currently most popular methodologies and algorithms from the viewpoint of the actor-critic framework.
More precisely, we look at the policy gradient and greedy value function approaches, from which the greedy value function approach is known to be susceptible to the oscillation problem.
Some of the considered algorithms are the natural actor-critic algorithm, fitted Q iteration, SARSA and Q-learning.
We will look in detail at the reasons behind the oscillation problem and observe that the heart of the problem is a certain form of non-Markovity due to incomplete information.
The destabilizing mechanism is also illustrated experimentally with minimal artificial examples.
ED:2010-09-02
INSSI tietueen numero: 40394
+ lisää koriin
INSSI