Techniques for batch reinforcement learning in robotics

Cunha, João Alexandre da Silva Costa e

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/15735

Title:	Techniques for batch reinforcement learning in robotics
Other Titles:	Técnicas para a aprendizagem por reforço em lote na robótica
Author:	Cunha, João Alexandre da Silva Costa e
Advisor:	Lau, Nuno Neves, António José Ribeiro
Keywords:	Engenharia informática Robótica Aprendizagem automática Algoritmos de aprendizagem Processos de Gauss
Defense Date:	2015
Publisher:	Universidade de Aveiro
Abstract:	This thesis addresses the Batch Reinforcement Learning methods in Robotics. This sub-class of Reinforcement Learning has shown promising results and has been the focus of recent research. Three contributions are proposed that aim to extend the state-of-art methods allowing for a faster and more stable learning process, such as required for learning in Robotics. The Q-learning update-rule is widely applied, since it allows to learn without the presence of a model of the environment. However, this update-rule is transition-based and does not take advantage of the underlying episodic structure of collected batch of interactions. The Q-Batch update-rule is proposed in this thesis, to process experiencies along the trajectories collected in the interaction phase. This allows a faster propagation of obtained rewards and penalties, resulting in faster and more robust learning. Non-parametric function approximations are explored, such as Gaussian Processes. This type of approximators allows to encode prior knowledge about the latent function, in the form of kernels, providing a higher level of exibility and accuracy. The application of Gaussian Processes in Batch Reinforcement Learning presented a higher performance in learning tasks than other function approximations used in the literature. Lastly, in order to extract more information from the experiences collected by the agent, model-learning techniques are incorporated to learn the system dynamics. In this way, it is possible to augment the set of collected experiences with experiences generated through planning using the learned models. Experiments were carried out mainly in simulation, with some tests carried out in a physical robotic platform. The obtained results show that the proposed approaches are able to outperform the classical Fitted Q Iteration. Esta tese aborda a aplicação de métodos de Aprendizagem por Reforço em Lote na Robótica. Como o nome indica, os métodos de Aprendizagem por Reforço em Lote aprendem a completar uma tarefa processando um lote de interacções com o ambiente. São propostas três contribuições que procuram possibilitar a aprendizagem de uma forma mais rápida e estável. A regra Q-learning e amplamente usada dado que permite aprender sem a existência de um modelo do ambiente. No entanto, esta tem por base uma única transição, não tirando partido da estrutura baseada em episódios do lote de experiências. E proposta, neste trabalho, a regra Q-Batch que processa as experiências através es das trajectórias descritas aquando da interacção. Desta forma, e possível propagar mais rapidamente o valor das recompensas e penalizações obtidas, permitindo assim aprender de uma forma mais robusta e rápida. E também explorada a aplicação de aproximações não paramétricas como Processos Gaussianos. Este tipo de aproximadores permite codificar conhecimento prévio sobre as características da função a aproximar sob a forma de núcleos, fornecendo maior exibilidade e precisão. A aplicação de Processos Gaussianos na Aprendizagem por Reforço em Lote apresentou um maior desempenho na aprendizagem de comportamentos do que outras aproximações existentes na literatura. Por ultimo, de forma a extrair mais informação das experiências adquiridas pelo agente, são incorporadas técnicas de aprendizagem de modelos de transição. Desta forma, e possível ampliar o conjunto de experiências adquiridas através da interacção com o ambiente, com experiências geradas através de planeamento com recurso aos modelos de transição. Foram realizadas experiências principalmente em simulação, com alguns tests realizados numa plataforma robótica f sica. Os resultados obtidos mostram que as abordagens propostas são capaz de superar o método Fitted Q Iteration clássico.
Description:	Doutoramento em Engenharia Informática
URI:	http://hdl.handle.net/10773/15735
Appears in Collections:	UA - Teses de doutoramento DETI - Teses de doutoramento

Files in This Item:

File	Description	Size	Format
Técnicas para aprendizagem por reforço em lote na robótica.pdf		9.37 MB	Adobe PDF	View/Open

Show full item record