Multi-goal navigation of a mobile robot using hierarchical reinforcement learning

Silva, Marco António Gomes

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/32346

Title:	Multi-goal navigation of a mobile robot using hierarchical reinforcement learning
Other Titles:	Navegação multi-objetivo de um robô móvel usando aprendizagem por reforço hierárquica
Author:	Silva, Marco António Gomes
Advisor:	Silva, Filipe Miguel Teixeira Pereira da
Keywords:	Mobile robotics Topological representation Multi-goal navigation Reinforcement learning Hierarchical structure Maze-Like environment
Defense Date:	28-Jul-2021
Abstract:	Currently, there is a growing interest in the development of autonomous navigation technologies for applications in domestic, urban and industrial environments. Machine Learning tools such as neural networks, reinforcement learning and deep learning have been the main choice to solve many problems associated with autonomous mobile robot navigation. This dissertation mainly focus on solving the problem of mobile robot navigation in maze-like environments with multiple goals. The center point here is to apply a hierarchical structure of reinforcement learning algorithms (QLearning and R-Learning) to a robot in a continuous environment so that it can navigate in a maze. Both the state-space and the action-space are obtained by discretizing the data collected by the robot in order to prevent them from being too large. The implementation is done with a hierarchical approach, which is a structure that allows to split the complexity of the problem into many easier sub-problems, ending up with a set of lower-level tasks followed by a higher-level one. The robot performance is evaluated in two maze-like environments, showing that the hierarchical approach is a very feasible solution to reduce the complexity of the problem. Besides that, two more scenarios are presented: a multi-goal situation where the robot navigates across multiple goals relying on the topological representation of the environment and the experience memorized during learning and a dynamic behaviour situation where the robot must adapt its policies according to the changes that happen in the environment (such as blocked paths). In the end, both scenarios were successfully accomplished and it has been concluded that a hierarchical approach has many advantages when compared to a classic reinforcement learning approach. Atualmente, há um crescente interesse no desenvolvimento de tecnologias de navegação autónoma para aplicações em ambientes domésticos, urbanos e industriais. Ferramentas de Aprendizagem Automática, como redes neurais, aprendizagem por reforço e aprendizagem profunda têm sido a escolha principal para resolver muitos problemas associados à navegação autónoma de robôs móveis. Esta dissertação tem como foco principal a solução do problema de navegação de robôs móveis em ambientes tipo labirínto com múltiplos objetivos. O ponto central aqui é aplicar uma estrutura hierárquica de algoritmos de aprendizagem por reforço (Q-Learning e R-Learning) a um robô num ambiente contínuo para que ele possa navegar num labirinto. Tanto o espaço de estados quanto o espaço de ações são obtidos através da discretização dos dados recolhidos pelo robô para evitar que estes sejam demasiado extensos. A implementação é feita com uma abordagem hierárquica, que é uma estrutura que permite dividir a complexidade do problema em vários subproblemas mais fáceis, ficando com um conjunto de tarefas de baixo-nível seguido por um de alto-nível. O desempenho do robô é avaliado em dois ambientes tipo labirinto, mostrando que a abordagem hierárquica é uma solução bastante viável para reduzir a complexidade do problema. Além disso, dois cenários diferentes são apresentados: uma situação de multi-objetivo onde o robô navega por múltiplos objetivos usando a representação topológica do ambiente e a experiência memorizada durante a aprendizagem e uma situação de comportamento dinâmico onde o robô deve adaptar suas políticas de acordo com os mudanças que acontecem no ambiente (como caminhos bloqueados). No final, ambos os cenários foram realizados com sucesso e concluiu-se que uma abordagem hierárquica tem muitas vantagens quando comparada a uma abordagem de aprendizagem por reforço clássica.
URI:	http://hdl.handle.net/10773/32346
Appears in Collections:	UA - Dissertações de mestrado DETI - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Documento_Marco_Silva.pdf		20.74 MB	Adobe PDF	View/Open

Show full item record