Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/33654
Title: | Deep reinforcement learning for robotic manipulation tasks |
Other Titles: | Aprendizagem profunda por reforço para tarefas de manipulação robótica |
Author: | Pereira, Bruno Alexandre Barbosa |
Advisor: | Silva, Filipe Miguel Teixeira Pereira da |
Keywords: | Deep reinforcement learning Continuous control Actor-critic Policy gradient methods Manipulation robotics Reaching tasks |
Defense Date: | 16-Dec-2021 |
Abstract: | The recent advances in Artificial Intelligence (AI) present new opportunities
for robotics on many fronts. Deep Reinforcement Learning (DRL)
is a sub-field of AI which results from the combination of Deep Learning
(DL) and Reinforcement Learning (RL). It categorizes machine learning algorithms
which learn directly from experience and offers a comprehensive
framework for studying the interplay among learning, representation and
decision-making. It has already been successfully used to solve tasks in
many domains. Most notably, DRL agents learned to play Atari 2600 video
games directly from pixels and achieved human comparable performance in
49 of those games. Additionally, recent efforts using DRL in conjunction
with other techniques produced agents capable of playing the board game
of Go at a professional level, which has long been viewed as an intractable
problem due to its enormous search space. In the context of robotics, DRL
is often applied to planning, navigation, optimal control and others. Here,
the powerful function approximation and representation learning properties
of Deep Neural Networks enable RL to scale up to problems with highdimensional
state and action spaces. Additionally, inherent properties of
DRL make transfer learning useful when moving from simulation to the real
world. This dissertation aims to investigate the applicability and effectiveness
of DRL to learn successful policies on the domain of robot manipulator
tasks. Initially, a set of three classic RL problems were solved using RL and
DRL algorithms in order to explore their practical implementation and arrive
at class of algorithms appropriate for these robotic tasks. Afterwards, a task
in simulation is defined such that an agent is set to control a 6 DoF manipulator
to reach a target with its end effector. This is used to evaluate the
effects on performance of different state representations, hyperparameters
and state-of-the-art DRL algorithms, resulting in agents with high success
rates. The emphasis is then placed on the speed and time restrictions of the
end effector's positioning. To this end, different reward systems were tested
for an agent learning a modified version of the previous reaching task with
faster joint speeds. In this setting, a number of improvements were verified
in relation to the original reward system. Finally, an application of the best
reaching agent obtained from the previous experiments is demonstrated on
a simplified ball catching scenario. Os avanços recentes na Inteligência Artificial (IA) demonstram um conjunto de novas oportunidades para a robótica. A Aprendizagem Profunda por Reforço (DRL) é uma subárea da IA que resulta da combinação de Aprendizagem Profunda (DL) com Aprendizagem por Reforço (RL). Esta subárea define algoritmos de aprendizagem automática que aprendem diretamente por experiência e oferece uma abordagem compreensiva para o estudo da interação entre aprendizagem, representação e a decisão. Estes algoritmos já têm sido utilizados com sucesso em diferentes domínios. Nomeadamente, destaca-se a aplicação de agentes de DRL que aprenderam a jogar vídeo jogos da consola Atari 2600 diretamente a partir de pixels e atingiram um desempenho comparável a humanos em 49 desses jogos. Mais recentemente, a DRL em conjunto com outras técnicas originou agentes capazes de jogar o jogo de tabuleiro Go a um nível profissional, algo que até ao momento era visto como um problema demasiado complexo para ser resolvido devido ao seu enorme espaço de procura. No âmbito da robótica, a DRL tem vindo a ser utilizada em problemas de planeamento, navegação, controlo ótimo e outros. Nestas aplicações, as excelentes capacidades de aproximação de funções e aprendizagem de representação das Redes Neuronais Profundas permitem à RL escalar a problemas com espaços de estado e ação multidimensionais. Adicionalmente, propriedades inerentes à DRL fazem a transferência de aprendizagem útil ao passar da simulação para o mundo real. Esta dissertação visa investigar a aplicabilidade e eficácia de técnicas de DRL para aprender políticas de sucesso no domínio das tarefas de manipulação robótica. Inicialmente, um conjunto de três problemas clássicos de RL foram resolvidos utilizando algoritmos de RL e DRL de forma a explorar a sua implementação prática e chegar a uma classe de algoritmos apropriados para estas tarefas de robótica. Posteriormente, foi definida uma tarefa em simulação onde um agente tem como objetivo controlar um manipulador com 6 graus de liberdade de forma a atingir um alvo com o seu terminal. Esta é utilizada para avaliar o efeito no desempenho de diferentes representações do estado, hiperparâmetros e algoritmos do estado da arte de DRL, o que resultou em agentes com taxas de sucesso elevadas. O foco é depois colocado na velocidade e restrições de tempo do posicionamento do terminal. Para este fim, diferentes sistemas de recompensa foram testados para que um agente possa aprender uma versão modificada da tarefa anterior para velocidades de juntas superiores. Neste cenário, foram verificadas várias melhorias em relação ao sistema de recompensa original. Finalmente, uma aplicação do melhor agente obtido nas experiências anteriores é demonstrada num cenário implicado de captura de bola. |
URI: | http://hdl.handle.net/10773/33654 |
Appears in Collections: | UA - Dissertações de mestrado DETI - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Documento_Bruno_Pereira.pdf | 4.3 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.