Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/15735
Title: | Techniques for batch reinforcement learning in robotics |
Other Titles: | Técnicas para a aprendizagem por reforço em lote na robótica |
Author: | Cunha, João Alexandre da Silva Costa e |
Advisor: | Lau, Nuno Neves, António José Ribeiro |
Keywords: | Engenharia informática Robótica Aprendizagem automática Algoritmos de aprendizagem Processos de Gauss |
Defense Date: | 2015 |
Publisher: | Universidade de Aveiro |
Abstract: | This thesis addresses the Batch Reinforcement Learning methods in
Robotics. This sub-class of Reinforcement Learning has shown promising
results and has been the focus of recent research. Three contributions
are proposed that aim to extend the state-of-art methods
allowing for a faster and more stable learning process, such as required
for learning in Robotics.
The Q-learning update-rule is widely applied, since it allows to learn
without the presence of a model of the environment. However, this
update-rule is transition-based and does not take advantage of the
underlying episodic structure of collected batch of interactions. The
Q-Batch update-rule is proposed in this thesis, to process experiencies
along the trajectories collected in the interaction phase. This allows a
faster propagation of obtained rewards and penalties, resulting in faster
and more robust learning.
Non-parametric function approximations are explored, such as Gaussian
Processes. This type of approximators allows to encode prior
knowledge about the latent function, in the form of kernels, providing
a higher level of
exibility and accuracy. The application of Gaussian
Processes in Batch Reinforcement Learning presented a higher performance
in learning tasks than other function approximations used in the
literature.
Lastly, in order to extract more information from the experiences collected
by the agent, model-learning techniques are incorporated to learn
the system dynamics. In this way, it is possible to augment the set of
collected experiences with experiences generated through planning using
the learned models.
Experiments were carried out mainly in simulation, with some tests carried
out in a physical robotic platform. The obtained results show that
the proposed approaches are able to outperform the classical Fitted Q
Iteration. Esta tese aborda a aplicação de métodos de Aprendizagem por Reforço em Lote na Robótica. Como o nome indica, os métodos de Aprendizagem por Reforço em Lote aprendem a completar uma tarefa processando um lote de interacções com o ambiente. São propostas três contribuições que procuram possibilitar a aprendizagem de uma forma mais rápida e estável. A regra Q-learning e amplamente usada dado que permite aprender sem a existência de um modelo do ambiente. No entanto, esta tem por base uma única transição, não tirando partido da estrutura baseada em episódios do lote de experiências. E proposta, neste trabalho, a regra Q-Batch que processa as experiências através es das trajectórias descritas aquando da interacção. Desta forma, e possível propagar mais rapidamente o valor das recompensas e penalizações obtidas, permitindo assim aprender de uma forma mais robusta e rápida. E também explorada a aplicação de aproximações não paramétricas como Processos Gaussianos. Este tipo de aproximadores permite codificar conhecimento prévio sobre as características da função a aproximar sob a forma de núcleos, fornecendo maior exibilidade e precisão. A aplicação de Processos Gaussianos na Aprendizagem por Reforço em Lote apresentou um maior desempenho na aprendizagem de comportamentos do que outras aproximações existentes na literatura. Por ultimo, de forma a extrair mais informação das experiências adquiridas pelo agente, são incorporadas técnicas de aprendizagem de modelos de transição. Desta forma, e possível ampliar o conjunto de experiências adquiridas através da interacção com o ambiente, com experiências geradas através de planeamento com recurso aos modelos de transição. Foram realizadas experiências principalmente em simulação, com alguns tests realizados numa plataforma robótica f sica. Os resultados obtidos mostram que as abordagens propostas são capaz de superar o método Fitted Q Iteration clássico. |
Description: | Doutoramento em Engenharia Informática |
URI: | http://hdl.handle.net/10773/15735 |
Appears in Collections: | UA - Teses de doutoramento DETI - Teses de doutoramento |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Técnicas para aprendizagem por reforço em lote na robótica.pdf | 9.37 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.