Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/9480
Title: | Avaliação de metodologias de pré-processamento de dados de microarrays |
Author: | São Marcos, Ana Luísa Romão de |
Advisor: | Freitas, Adelaide de Fátima Baptista Valente |
Keywords: | Matemática aplicada Micromatrizes de ADN - Métodos estatísticos Expressão genética Bioinformática |
Defense Date: | 2009 |
Publisher: | Universidade de Aveiro |
Abstract: | Esta dissertação surge no contexto da avaliação de metodologias de préprocessamento
de dados de microarrays através do desempenho preditivo de
modelos de classificação supervisionada.
As experiências de microarrays envolvem muitos passos, desde a extracção
do tecido em estudo, passando pela marcação do mesmo com compostos
fluorescentes, scanning, processamento de imagem, entre outras. Cada uma
dessas etapas pode introduzir variabilidade nos dados recolhidos e assim
afectar a qualidade dos mesmos.
Os métodos de pré-processamento de correcção de background (CB) e de
normalização (NM) surgem da necessidade de remover as variações não
desejadas mantendo as variações biológicas intrínsecas aos dados.
Para o presente trabalho foi realizado um estudo experimental onde foram
aplicados aos dados vários métodos de CB e de NM, individualmente ou em
conjunto, com a finalidade de avaliar o contributo destas metodologias no
melhoramento da qualidade dos dados.
Apresenta-se aqui uma avaliação de 36 métodos pré-processamento
(resultantes de combinações de métodos de CB e de NM) com base no
desempenho preditivo de dois modelos de classificação, k-Vizinhos mais
Próximos (k-NN) e Maquinas de Suporte Vectorial (MSV). Estes modelos são
induzidos de três bases de dados públicas de microarrays de ADNcomplementar,
onde um par de métodos de pré-processamento, constituído
por um de CB e outro de NM, é aplicado. A capacidade preditiva dos dois
modelos de classificação é medida em termos da taxa de erro obtida pelo
método de validação cruzada leave-one-out.
Em virtude da grande dimensão dos dados de microarrays, resultante de um
elevado número de atributos (genes) envolvidos, o presente trabalho também
inclui um estudo sobre o efeito da aplicação dos métodos de CB e de NM no
desempenho preditivo de classificadores de MSV quando estes são induzidos
de dados constituídos apenas por subconjuntos de genes altamente
discriminativos. This dissertation addresses the problem of evaluating preprocessing methodologies in terms of the predictive performance of supervised classification models induced from microarray data. Microarray experiments involve many steps, from the extraction of the tissue in study, through its labeling with fluorescent dyes, scanning and image processing, among others. Each of these stages can introduce variability in the data collected and thus affect their quality. Preprocessing methods such as background correction (BC) techniques and normalization (NM) strategies have arisen from the need to remove the unnecessary variation while the intrinsic biological variations of the data are retained. In this work an experimental study has been carried out where various BC and NM methods have been employed on the data, individually or in combination, with the goal of assessing the contribution of these approaches to the improvement of the quality of the data. Herein is presented an evaluation of 36 preprocessing methods (resulting from combinations of BC and NM methods) in terms of the predictive performance of two classification models, k-Nearest Neighbours (k-NN) and Support Vector Machines (SVM). These models are induced from three publicly available cDNA microarray data sets, where a pair of preprocessing strategies, composed of a BC technique and a NM method, is employed. The predictive performance of both classifiers is measured on grounds of the error rate obtained by the leave-one-out cross validation method. Due to the high dimensionality of microarray data, resulting from a large number of attributes (genes) involved, this dissertation also includes a study about the effect of the application of BC and NM methods on the predictive performance of SVM classifiers when these are induced from data consisting of only subsets of highly discriminative genes. |
Description: | Mestrado em Matemática e Aplicações |
URI: | http://hdl.handle.net/10773/9480 |
Appears in Collections: | UA - Dissertações de mestrado DMat - Dissertações de mestrado |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.