A comparative study of data augmentation techniques for image classification: generative models vs. classical transformations

Gonçalves, Guilherme Marques

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/30759

Title:	A comparative study of data augmentation techniques for image classification: generative models vs. classical transformations
Other Titles:	Estudo comparativo de técnicas de aumento de dados para classificação de imagens: modelos generativos vs. transformações clássicas
Author:	Gonçalves, Guilherme Marques
Advisor:	Silva, Filipe Miguel Teixeira Pereira da Georgieva, Pétia
Keywords:	Generative models Adversarial networks Deep learning Data augmentation Transfer learning Image synthesis Skin lesion classification
Defense Date:	21-Dec-2020
Abstract:	Advances in deep convolutional neural networks and efficient parallel processing are showing great promise when applied to image classification, object detection, image restoration and image segmentation. However, deep models require large amounts of annotated training data, which are not always accessible. In this context, data augmentation has appeared as an effective technique by which the original dataset is expanded to cope with imbalanced datasets, avoid overfitting, and increase classification performance. This dissertation aims to compare the effectiveness of data augmentation techniques when applied to image classification problems, focusing on basic image manipulations and generative modelling. On the one hand, basic image manipulations include classical transformations of the original samples such as rotations, translations, flips and crops. On the other hand, generative adversarial networks (GANs) are used to synthesize artificial samples from the original dataset through adversarial training. This comparative study considers two distinct classification problems - handwritten digits recognition and melanoma skin cancer diagnosis - that are addressed using convolutional neural network models. A baseline multiclass classifier was developed from scratch for the handwritten digit recognition using the MNIST dataset. The binary melanoma classification uses pre-trained models, namely the VGG16 and the DenseNet201, on the ISIC2019 dataset. For generating handwritten digits, GAN-based data augmentation is supported by Deep Convolutional GANs (DCGANs) and Conditional GANs (cGANs). More advanced architectures like Progressive GANs (PGANs) and Style- GANs are used for synthesizing melanoma dermoscopic images. The results obtained demonstrate that basic image manipulations perform remarkably well in classification tasks. Further, GAN-based data augmentation does not yet compete with classical techniques, especially in problems that require high quality and realistic images, as is the case with medical applications. Nevertheless, it is shown that the StyleGAN2-Ada helps to improve the balanced accuracy by 2.1% when compared with the CNN model without any kind of augmentation. The combination of classical and synthetic augmentations may be the best option in the near future. Os avanços em redes neurais convolucionais profundas e o processamento paralelo eficiente têm vindo a mostrar grande potencial quando aplicados à deteção de objetos e à classificação, segmentação e restauro de imagem. Contudo, os modelos profundos requerem grandes quantidades de dados de treino anotados, que nem sempre existem. Neste contexto, o aumento de dados surgiu como uma técnica eficaz, através da qual o conjunto de dados original é expandido para lidar com conjuntos de dados desequilibrados, evitar sobreajustamento (overfitting), e melhorar o desempenho da classificação. Esta dissertação visa comparar a eficácia das técnicas de aumento de dados quando aplicadas a problemas de classificação de imagens, concentrando-se em manipulações básicas de imagem e modelos generativos. Por um lado, as manipulações básicas de imagem incluem transformações clássicas das amostras originais, tais como rotações, translações, inversões e cortes. Por outro, as redes adversárias generativas (GANs) são utilizadas para sintetizar amostras artificiais do conjunto de dados original através de treino adversário. Este estudo comparativo considera dois problemas de classificação distintos - reconhecimento de dígitos manuscritos e diagnostico de melanoma de cancro da pele - que são tratados utilizando modelos de redes neurais convolucionais. Para o reconhecimento dos dígitos manuscritos foi desenvolvido um classificador de raiz multiclasse, utilizando o conjunto de dados MNIST. Para a classificação binária de melanomas foram utilizados modelos pré-treinados, nomeadamente o VGG16 e o DenseNet201, com o conjunto de dados ISIC2019. Para a geração de dígitos manuscritos, o aumento de dados baseado em GAN é apoiado por GANs convolucionais Profundos (DCGANs) e GANs Condicionais (cGANs).Para a síntese de imagens termoscópicas de melanomas foram utilizadas arquiteturas mais avançadas, como GANs Progressivos (PGANs) e StyleGANs. Os resultados obtidos demonstram que as transformações simples de imagem têm um desempenho notável em tarefas de classificação e que o aumento de dados baseado em GAN ainda não compete com as técnicas clássicas, especialmente em problemas que requerem imagens de alta qualidade e realistas, como é o caso das aplicações médicas. No entanto, demonstra-se que a StyleGAN2-Ada ajuda a melhorar a precisão equilibrada em 2,1% quando comparado com o modelo CNN sem qualquer tipo de aumento. A combinação de aumentos clássicos e sintéticos poderá vir a ser a melhor opção num futuro próximo.
URI:	http://hdl.handle.net/10773/30759
Appears in Collections:	UA - Dissertações de mestrado DETI - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Documento_Guilherme_Gonçalves.pdf		8.02 MB	Adobe PDF	View/Open

Show full item record