Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/33709
Title: Sistema de deteção visual para aplicação em contexto de agricultura
Author: Padilha, Tiago João Cerveira
Advisor: Oliveira, Miguel Armando Riem de
Santos, Filipe Neves dos
Keywords: Deep learning
Visão por computador
Dataset
Robótica na agricultura
Deteção de frutos
fpga
Inferência
Desempenho
Redes neuronais
Defense Date: 28-Jul-2021
Abstract: A visão por computador, tem-se revelado fundamental na inovação e evolução tecnológica, com um crescimento exponencial ao longo dos últimos anos. As técnicas tradicionais do processamento de imagem, nem sempre são suficientemente capazes de resolver problemas reais de elevada complexidade. A utilização de técnicas deep learning, permitirão desenvolver capacidades de aprendizagem com melhores desempenhos. Na presente dissertação, desenvolvida no INESC TEC nos laboratórios do CRIIS, pretende-se explorar a utilidade do deep learning através da comparação e avaliação de quatro modelos deep learning, YOLOv4, Single Shot Multibox Detector (SSD) ResNet 50, SSD Inception v2, SSD MobileNet v2, para deteção de frutos, designadamente tomate em estufa. O objetivo principal desta comparação é avaliar a rede neuronal com melhor desempenho em inferência, assim como a viabilidade de utilização de dois datasets distintos. Foi utilizado um dataset de tomate adquirido, contra um dataset público Open Image Dataset v6 (OIDv6), para o treino dos quatro modelos. Para a avaliação do desempenho, recorreu-se a um dataset de teste próprio, de tomate em estufa. No final os resultados demonstraram grandes benefícios na utilização do dataset de tomate adquirido, no qual a YOLOv4 obteve o melhor desempenho, com uma precisão de 91%. No caso do OIDv6 os resultados foram muito baixos, devido às caraterísticas do dataset serem muito díspares do dataset de teste. Após a análise das redes neuronais, explorou-se o desenvolvimento da unidade de processamento FPGA (Field Programmable Gate Array ), com o objetivo de avaliar o seu desempenho ao nível de inferência, eficiência energética e tempo de inferência. Iniciou-se pela configuração do modelo YOLOv4 no formato adequado para a FPGA e a preparação de um script para deteção. Posteriormente foi proposta uma arquitetura distribuída, para automatização do processo de envio de imagens do sistema ROS (Robot Operating System), para realização de inferência na FPGA e os respetivos resultados das deteções. Apesar da sua viabilidade de aplicação, foram obtidos resultados significativamente inferiores ao nível de desempenho na inferência (-28%), devido aos vários processos de conversão e configuração da rede neuronal na FPGA. No que diz respeito ao consumo energético, durante a inferência obteve-se 1650 mA, representando um aumento de 28.9% relativamente ao funcionamento operacional e um tempo médio de inferência de 79 mili segundos. Em suma a opção de utilização de uma FPGA, revelou-se viável para inferência, apesar de necessitar de melhorias nos procedimentos de configuração das redes neuronais.
Computer vision has been fundamental in innovation and technological evolution, with exponential growth over the last years. Traditional image processing techniques are not always sufficiently capable of solving real problems of high complexity. The use of deep learning techniques will allow the development of learning capabilities with better performance. In this dissertation, developed at INESC TEC in the CRIIS laboratories, we intend to explore the usefulness of deep learning through the comparison and evaluation of four deep learning models, YOLOv4, Single Shot Multibox Detector (SSD) ResNet 50, SSD Inception v2, SSD MobileNet v2, for fruit detection, namely greenhouse tomatoes. The main objective of this comparison is to evaluate the best performing neuronal network in inference, as well as the feasibility of using two different datasets. An acquired tomato dataset was used against a public Open Image Dataset v6 (OIDv6) to train the four models. For performance evaluation, a proprietary test dataset of tomatoes in a greenhouse was used. In the end, the results showed great benefits in using the acquired tomato dataset, in which YOLOv4 obtained the best performance, with an accuracy of 91%. In the case of OIDv6, the results were very low, due to the characteristics of the dataset being very different from the test dataset. After the analysis of the neural networks, the development of the FPGA (Field Programmable Gate Array) processing unit was explored, to evaluate its performance in terms of inference, energy efficiency, and inference time. We started by configuring the YOLOv4 model in the appropriate format for the FPGA and preparing a script for detection. Later, a distributed architecture was proposed to automate the process of sending images from the ROS (Robot Operating System) system, to perform inference in the FPGA and the respective detection results. Despite its application feasibility, significantly lower results were obtained in the inference performance level (-28%), due to the various conversion and configuration processes of the neural network in the FPGA. Concerning power consumption, 1650 mA was obtained during inference, representing an increase of 28.9% over the operational operation and an average inference time of 79 mili seconds. In summary, the option of using an FPGA proved to be viable for inference, despite the need for improvements in the neural network configuration procedures.
URI: http://hdl.handle.net/10773/33709
Appears in Collections:UA - Dissertações de mestrado
DEM - Dissertações de mestrado
DETI - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
Documento_Tiago_Padilha.pdf2.53 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.