Object detection for augmented reality applications

Santos, José Miguel Pinto

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/35069

Title:	Object detection for augmented reality applications
Other Titles:	Deteção de objetos para aplicações de realidade aumentada
Author:	Santos, José Miguel Pinto
Advisor:	Neves, António José Ribeiro Lopes, Luís Seabra
Keywords:	Object detection Machine learning Deep learning You only look once Augmented reality
Defense Date:	18-Jul-2022
Abstract:	Object detection in digital image (2D) is a widely researched area due to its countless applications. The evolution of the performance of the algorithms developed and the growth of new approaches is due to the integration with machine learning, namely the use of artificial neural networks in deep learning. The most commonly used methods are R-CNN (Region-based Convolutional Neural Networks) plus it’s variants (Fast R-CNN and Faster R-CNN) and for live feed applications it is used YOLO (You Only Look Once). Although a vast number of researches are made in 2D object detection a common problem that needs more attention is the pose estimation of the bounding boxes returned in the process of detection and classification of objects. The problem of the absence of pose estimation in the camera relatively to the scene in which it is analyzed has an impact in the bounding box position, not presenting a perfect match with the object when it is not paralleled or aligned relatively to the optical camera plain. The importance of correcting the pose estimation is justified by allowing an overlap of text using augmented reality. This application has a lot of benefits when used for aiding technicians while troubleshooting some equipments or in learning how to do difficult tasks. Three solutions are explored in this dissertation to try to solve this problem. The first uses information from external sensors for the camera in a mobile device giving the algorithm the information of the mobile device’s position in order to make the needed correction. The second method no longer involves external sensors. Instead it needs previous knowledge of the usual dimension ratios for the bounding box for each class to correct said box until the ratio is close to the predicted values. The third method requires the previous knowledge of the local features for each object class in order to predict if the object is aligned or not to the predicted bounding box and make adjustments until the ratio provided by the local features is within a threshold. After the correction it is overlapped text using augmented reality. O reconhecimento de objetos em imagem digital (2D) é uma área amplamente investigada devido as suas inúmeras aplicações. A evolução da fiabilidade dos algoritmos desenvolvidos e crescimento do número de novas abordagens deve-se muito à integração de aprendizagem automática, nomeadamente o uso de redes neuronais artificiais em aprendizagem profunda. Os métodos mais usados são R-CNN (redes neurais convulsionais baseadas em regiões) e as suas variantes (Fast R-CNN e Faster R-CNN) e YOLO (apenas olha uma vez) para aplicações em que é necessário uma deteção mais rápida. Embora haja uma grande quantidade de investigações na deteção de objetos em 2D, um problema comum que carece de mais atenção é a estimativa da pose das caixas delimitadoras devolvidas no processo de deteção e reconhecimento de objetos. O problema da não existência de estimativa da pose da câmara relativamente à cena que se pretende analisar afeta a posição da caixa delimitadora, não havendo uma coincidência perfeita com o objeto quando este não está paralelo ou alinhado relativamente ao plano ótico da camara. A importância da correção da estimativa de pose é justificada por possibilitar a sobreposição de texto através de realidade aumentada. Esta aplicação tem muitos benefícios usando para auxílio de técnicos quando é necessário fazer resolução de problemas de algum equipamento ou na aprendizagem da realização de tarefas complexas. Foram exploradas três soluções nesta dissertação para tentar resolver este problema. A primeira usa informação de sensores externos à câmara, considerando neste cenário a utilização de um dispositivo móvel que fornece ao algoritmo a informação de posição do dispositivo, de modo a ser feita a necessária correção. O segundo método não usa sensores externos mas precisa de conhecimento prévio da proporção de dimensões esperadas para as caixas delimitadoras de cada classe de objetos de modo a corrigir a mesma até estar perto dos valores previsíveis. O terceiro método requer o conhecimento prévio de caraterísticas locais de cada classe de objetos de modo a fazer uma previsão se o objeto está alinhado ou não com a sua caixa delimitadora natural, e fazer ajustes até a proporção de dimensões esperadas fornecido pelas caraterísticas locais estejam dentro de valores previsíveis. Após a correção, é então sobreposto texto em através de realidade aumentada.
URI:	http://hdl.handle.net/10773/35069
Appears in Collections:	UA - Dissertações de mestrado DETI - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Documento_José_Santos.pdf		17.95 MB	Adobe PDF	View/Open

Show full item record