A comparative study of data augmentation techniques for image classification: generative models vs. classical transformations

Gonçalves, Guilherme Marques

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10773/30759

Título:	A comparative study of data augmentation techniques for image classification: generative models vs. classical transformations
Outros títulos:	Estudo comparativo de técnicas de aumento de dados para classificação de imagens: modelos generativos vs. transformações clássicas
Autor:	Gonçalves, Guilherme Marques
Orientador:	Silva, Filipe Miguel Teixeira Pereira da Georgieva, Pétia
Palavras-chave:	Generative models Adversarial networks Deep learning Data augmentation Transfer learning Image synthesis Skin lesion classification
Data de Defesa:	21-Dez-2020
Resumo:	Advances in deep convolutional neural networks and efficient parallel processing are showing great promise when applied to image classification, object detection, image restoration and image segmentation. However, deep models require large amounts of annotated training data, which are not always accessible. In this context, data augmentation has appeared as an effective technique by which the original dataset is expanded to cope with imbalanced datasets, avoid overfitting, and increase classification performance. This dissertation aims to compare the effectiveness of data augmentation techniques when applied to image classification problems, focusing on basic image manipulations and generative modelling. On the one hand, basic image manipulations include classical transformations of the original samples such as rotations, translations, flips and crops. On the other hand, generative adversarial networks (GANs) are used to synthesize artificial samples from the original dataset through adversarial training. This comparative study considers two distinct classification problems - handwritten digits recognition and melanoma skin cancer diagnosis - that are addressed using convolutional neural network models. A baseline multiclass classifier was developed from scratch for the handwritten digit recognition using the MNIST dataset. The binary melanoma classification uses pre-trained models, namely the VGG16 and the DenseNet201, on the ISIC2019 dataset. For generating handwritten digits, GAN-based data augmentation is supported by Deep Convolutional GANs (DCGANs) and Conditional GANs (cGANs). More advanced architectures like Progressive GANs (PGANs) and Style- GANs are used for synthesizing melanoma dermoscopic images. The results obtained demonstrate that basic image manipulations perform remarkably well in classification tasks. Further, GAN-based data augmentation does not yet compete with classical techniques, especially in problems that require high quality and realistic images, as is the case with medical applications. Nevertheless, it is shown that the StyleGAN2-Ada helps to improve the balanced accuracy by 2.1% when compared with the CNN model without any kind of augmentation. The combination of classical and synthetic augmentations may be the best option in the near future. Os avanços em redes neurais convolucionais profundas e o processamento paralelo eficiente têm vindo a mostrar grande potencial quando aplicados à deteção de objetos e à classificação, segmentação e restauro de imagem. Contudo, os modelos profundos requerem grandes quantidades de dados de treino anotados, que nem sempre existem. Neste contexto, o aumento de dados surgiu como uma técnica eficaz, através da qual o conjunto de dados original é expandido para lidar com conjuntos de dados desequilibrados, evitar sobreajustamento (overfitting), e melhorar o desempenho da classificação. Esta dissertação visa comparar a eficácia das técnicas de aumento de dados quando aplicadas a problemas de classificação de imagens, concentrando-se em manipulações básicas de imagem e modelos generativos. Por um lado, as manipulações básicas de imagem incluem transformações clássicas das amostras originais, tais como rotações, translações, inversões e cortes. Por outro, as redes adversárias generativas (GANs) são utilizadas para sintetizar amostras artificiais do conjunto de dados original através de treino adversário. Este estudo comparativo considera dois problemas de classificação distintos - reconhecimento de dígitos manuscritos e diagnostico de melanoma de cancro da pele - que são tratados utilizando modelos de redes neurais convolucionais. Para o reconhecimento dos dígitos manuscritos foi desenvolvido um classificador de raiz multiclasse, utilizando o conjunto de dados MNIST. Para a classificação binária de melanomas foram utilizados modelos pré-treinados, nomeadamente o VGG16 e o DenseNet201, com o conjunto de dados ISIC2019. Para a geração de dígitos manuscritos, o aumento de dados baseado em GAN é apoiado por GANs convolucionais Profundos (DCGANs) e GANs Condicionais (cGANs).Para a síntese de imagens termoscópicas de melanomas foram utilizadas arquiteturas mais avançadas, como GANs Progressivos (PGANs) e StyleGANs. Os resultados obtidos demonstram que as transformações simples de imagem têm um desempenho notável em tarefas de classificação e que o aumento de dados baseado em GAN ainda não compete com as técnicas clássicas, especialmente em problemas que requerem imagens de alta qualidade e realistas, como é o caso das aplicações médicas. No entanto, demonstra-se que a StyleGAN2-Ada ajuda a melhorar a precisão equilibrada em 2,1% quando comparado com o modelo CNN sem qualquer tipo de aumento. A combinação de aumentos clássicos e sintéticos poderá vir a ser a melhor opção num futuro próximo.
URI:	http://hdl.handle.net/10773/30759
Aparece nas coleções:	UA - Dissertações de mestrado DETI - Dissertações de mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Documento_Guilherme_Gonçalves.pdf		8.02 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo