search query: @instructor Honkela, Timo / total: 14
reference: 5 / 14
« previous | next »
Author:Wagner, Paul
Title:On the stability of reinforcement learning under partial observability and generalizing representations
Vahvistusoppimisen vakaudesta osittaisen havaittavuuden ja yleistävän esityksen tapauksessa
Publication type:Master's thesis
Publication year:2010
Pages:viii + 91 s.      Language:   eng
Department/School:Informaatio- ja luonnontieteiden tiedekunta
Main subject:Informaatiotekniikka   (T-61)
Supervisor:Honkela, Timo
Instructor:Honkela, Timo
OEVS:
Electronic archive copy is available via Aalto Thesis Database.
Instructions

Reading digital theses in the closed network of the Aalto University Harald Herlin Learning Centre

In the closed network of Learning Centre you can read digital and digitized theses not available in the open network.

The Learning Centre contact details and opening hours: https://learningcentre.aalto.fi/en/harald-herlin-learning-centre/

You can read theses on the Learning Centre customer computers, which are available on all floors.

Logging on to the customer computers

  • Aalto University staff members log on to the customer computer using the Aalto username and password.
  • Other customers log on using a shared username and password.

Opening a thesis

  • On the desktop of the customer computers, you will find an icon titled:

    Aalto Thesis Database

  • Click on the icon to search for and open the thesis you are looking for from Aaltodoc database. You can find the thesis file by clicking the link on the OEV or OEVS field.

Reading the thesis

  • You can either print the thesis or read it on the customer computer screen.
  • You cannot save the thesis file on a flash drive or email it.
  • You cannot copy text or images from the file.
  • You cannot edit the file.

Printing the thesis

  • You can print the thesis for your personal study or research use.
  • Aalto University students and staff members may print black-and-white prints on the PrintingPoint devices when using the computer with personal Aalto username and password. Color printing is possible using the printer u90203-psc3, which is located near the customer service. Color printing is subject to a charge to Aalto University students and staff members.
  • Other customers can use the printer u90203-psc3. All printing is subject to a charge to non-University members.
Location:P1 Ark Aalto     | Archive
Keywords:reinforcement learning
stochastic optimal control
adaptive control
active learning
policy gradient
natural gradient
approximate dynamic programming
simulation-based optimization
partial observability
Markov property
policy oscillation
policy chattering
vahvistusoppiminen
stokastinen optimisäätö
adaptiivinen säätö
aktiivinen oppiminen
politiikkagradientti
luonnollinen gradientti
likimääräinen dynaaminen ohjelmointi
simulaatiopohjainen optimointi
osittainen haivaittavuus
Markov-ominaisuus
politiikan oskillointi
Abstract (eng): Computational reinforcement learning is a subfield of artificial intelligence and machine learning and deals with algorithms for solving 'reinforcement learning' problems.
The term 'reinforcement learning' refers to the learning process behind operant conditioning, in which behaviours of the learner are adapted based on the prefer abilities of their consequences.
Preferred or high-utility consequences act as rewards that reinforce behaviours or behaviour variations that lead to them, thus leading to the maximization of preferred states of affairs or utility.

Computational reinforcement learning algorithms perform optimization of a cached control or decision-making policy for controlling an initially unknown dynamical system so as to maximize long-term reward (or minimize cost).
The reward is an abstract evaluation signal that conveys information about success in a given task.
Such algorithms can be viewed, for example, as performing 'model-free' planning so as to maximize utility, or as an approach for the problem of stochastic adaptive optimal control.
Most algorithms are based on the (PO)MDP formalism and dynamic programming, and use machine learning techniques for inducing generalization.

The learning setting is an instance of active learning: the learner has to obtain the needed information about the target system by experimenting with it based on its current knowledge.
As a consequence, there is a learning timescale feedback loop.
This feedback loop in combination with either approximate representation of knowledge or partial observability of the target system can completely destabilize some reinforcement learning algorithms, Q-learning being the most vulnerable to this combination, and trap many popular algorithms into sustained oscillation.

We will survey the currently most popular methodologies and algorithms from the viewpoint of the actor-critic framework.
More precisely, we look at the policy gradient and greedy value function approaches, from which the greedy value function approach is known to be susceptible to the oscillation problem.
Some of the considered algorithms are the natural actor-critic algorithm, fitted Q iteration, SARSA and Q-learning.
We will look in detail at the reasons behind the oscillation problem and observe that the heart of the problem is a certain form of non-Markovity due to incomplete information.
The destabilizing mechanism is also illustrated experimentally with minimal artificial examples.
Abstract (fin): Laskennallinen vahvistusoppiminen on tekoälyn ja koneoppimisen osa-alue ja käsittelee "vahvistusoppimisongelmia" ratkaisevia algoritmeja.
"Vahvistusoppiminen" viittaa operantin ehdollistumisen taustalla olevaan oppimisprosessiin, jossa oppijan käyttäytyminen mukautuu käytöksen seurausten preferoitavuuden perusteella.
Preferoidut seuraukset tai korkean hyödyn seuraukset toimivat palkintoina jotka vahvistavat niihin johtavaa käyttäytymistä tai sen muunnoksia, mikä johtaa preferoitujen tilanteiden tai utiliteetin maksimoitumiseen.

Laskennalliset vahvistusoppimisalgoritmit optimoivat esilaskettua säätö- tai päätöksentekopolitiikkaa dynaamisen ja aluksi tuntemattoman järjestelmän säätämiseksi siten, että pitkän aikavälin palkinto maksimoituu (tai kustannus minimoituu).
Palkinto on tässä yhteydessä abstrakti evaluaatiosignaali, joka tuo informaatiota annetussa tehtävässä onnistumisesta.
Tällaisten algoritmien voidaan nähdä esimerkiksi suorittavan "mallivapaata" suunnittelua hyödyn maksimoimiseksi tai lähestymistapana stokastisen adaptiivisen optimisäädön ongelmaan.
Useimmat algoritmit perustuvat (PO)MDP-formalismiin ja dynaamiseen ohjelmointiin ja käyttävät koneoppimismenetelmiä yleistyksen aikaansaamiseksi.

Oppimisasetelma edustaa aktiivista oppimista: oppijan on kerättävä itse kokeilemalla tarvitsemansa informaatio kohdejärjestelmän toiminnasta.
Oppijan suorittamat kokeilut perustuvat oppijan senhetkiseen tietämykseen, mikä johtaa oppimisen aikaskaalassa ilmenevään takaisinkytkentään.
Kyseinen takaisinkytkentä yhdessä joko tietämyksen likimääräisen esityksen tai kohdejärjestelmän osittaisen havaittavuuden kanssa saattaa aiheuttaa joidenkin vahvistusoppimisalgoritmien, erityisesti Q-oppimisen, täydellisen epävakautumisen ja monien suosittujen algoritmien päätymisen pysyvään oskillaatioon.

Tässä työssä katselmoidaan tällä hetkellä suosituimmat lähestymistavat ja algoritmit actor-critic -viitekehyksen näkökulmasta.
Katselmoinnin kohteena ovat ahneet arvofunktiomenetelmät sekä politiikkagradienttimenetelmät, joista ahneiden arvofunktiomenetelmien tiedetään olevan alttiita oskillaatio-ongelmalle, sekä natural actor-critic -algoritmi, fitted Q iteration -algoritmi, SARSA sekä Q-oppiminen.
Työssä perehdytään yksityiskohtaisesti oskillointiongelman taustalla oleviin syihin ja todetaan ongelman olevan lähtöisin tietyntyyppisestä epätäydellisen informaation aiheuttamasta ei-Markovisuudesta.
Epävakauttava mekanismi havainnollistetaan myös kokeellisesti minimaalisten keinotekoisten esimerkkien avulla.
ED:2010-09-02
INSSI record number: 40394
+ add basket
« previous | next »
INSSI