Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/38986
Title: Deep learning architecture for fast intra-mode CUs partitioning in VVC
Other Titles: Arquitetura de aprendizagem profunda para particionamento rápido de CUs no modo intra no VVC
Author: Viana, Raúl Kevin do Espirito Santo
Advisor: Navarro, António
Assunção, Pedro
Keywords: Machine learning
Convolutional neural networks
Deep learning
Video encoding
VVC
QTMT
Intra coding
Defense Date: 20-Dec-2022
Abstract: The emergence of new technologies that provide creative audiovisual experiences, such as 360-degree films, virtual reality, augmented reality, 4K, 8K UHD, and 16K, demonstrates the demand for video data in the modern world. Because of this tension, Versatile Video Coding (VVC) was developed because of the necessity for the introduction of new coding standards. Despite the advancements achieved with the introduction of this standard, its complexity has increased in comparison to its predecessor, High Efficiency Video Coding (HEVC). This is due to the inclusion of new ideas such as two new transforms, 32 new intra-angular prediction modes, and a new block partition methodology. The new partitioning technique is responsible for much of the increase in encoding time. This extended duration is linked with the optimization of the Rate-Distortion cost (RD cost). Although VVC offers higher compression rates, the complexity of its encoding is high. In light of this, this dissertation examines the Multi-Stage Exit Convolutional Neural Network (MSE-CNN). This Deep Learning-based model is organised in stages in a sequential structure, with the objective of simplifying the partitioning scheme for intra mode VVC. Each stage, which represents a different partition depth, encompasses a set of layers for extracting features from a Coding Tree Unit (CTU) and deciding how to partition it. Instead of using recursive approaches to determine the optimal way to fragment an image, this model allows VVC to estimate the most appropriate way of doing it. This work presents a model of the MSE-CNN that employs training procedures distinct from the original implementation of this network. With the improvements made, it was possible to achieve an Y-PSNR loss of 0.65% and complexity reduction of 41.49%. In addition to these results, a pipeline to process the used dataset was established, the ground-thruth to train and validate the model was created, and an interpretation of the work done by the MSE-CNN’s original creators was provided.
O surgimento de novas tecnologias que proporcionam experiências audiovisuais criativas, como filmes em 360º, realidade virtual, realidade aumentada, 4K, 8K UHD e 16K, demonstram a demanda por vídeo no mundo moderno. Por causa desta tensão, Versatile Video Coding (VVC) foi desenvolvido devido à necessidade de introdução de novos padrões de codificação. Apesar dos avanços alcançados com a introdução deste padrão, sua complexidade aumentou em comparação ao seu antecessor, High Efficiency Video Coding (HEVC). Isso deve-se à inclusão de novas ideias, como duas novas transformadas, 32 novos modos de previsão intra-angular e uma nova metodologia de partição de blocos. A nova técnica de particionamento é responsável pela maior parte do aumento no tempo de codificação. Esta duração estendida está associada à ao processo de otimização em termos de bito-distorção. Embora o VVC ofereça taxas de compressão mais altas, a sua complexidade é alta. Tendo em conta a complexidade desta norma, esta dissertação analisa o Multi-Stage Exit Convolutional Neural Nework (MSE-CNN). Este modelo é baseado em Deep Learning e está disposto numa estrutura sequencial composta por diversos estágios cujo objetivo é simplificar o método de partição para o modo intra no VVC. Cada estágio, que representa uma específica profundidade de partição, contém uma variedade de camadas para extrair características de uma Coding Tree Unit (CTU) e tomar uma decisão em como realizar a partição desta. O MSE-CNN reduz a complexidade através da simplificação do processo de partição. Logo, com este modelo, ao invés do VVC recorrer a estratégias recursivas para encontrar a melhor forma de dividir uma imagem, este consegue prever a maneira mais adequada de o fazer. Neste trabalho é apresentado um modelo do MSE-CNN que segue estratégias diferentes em relação à implementação original do treino desta rede. Com as modificações feitas foi possível obter, utilizando um limite de seleção conservativo, uma perda de Y-PSNR de 0.65% e uma redução de complexidade de 41.49%. Para além destes resultados, foi estabelecido um conjunto de passos para tratar o dataset utilizado, foi criado o ground-truth para treinar e validar o modelo, e foi feita uma interpretação do trabalho realizado pelos criadores originais do MSE-CNN.
URI: http://hdl.handle.net/10773/38986
Appears in Collections:UA - Dissertações de mestrado
DETI - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
Documento_Raúl Viana.pdf4.68 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.