Avaliação de metodologias de pré-processamento de dados de microarrays

São Marcos, Ana Luísa Romão de

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/9480

Title:	Avaliação de metodologias de pré-processamento de dados de microarrays
Author:	São Marcos, Ana Luísa Romão de
Advisor:	Freitas, Adelaide de Fátima Baptista Valente
Keywords:	Matemática aplicada Micromatrizes de ADN - Métodos estatísticos Expressão genética Bioinformática
Defense Date:	2009
Publisher:	Universidade de Aveiro
Abstract:	Esta dissertação surge no contexto da avaliação de metodologias de préprocessamento de dados de microarrays através do desempenho preditivo de modelos de classificação supervisionada. As experiências de microarrays envolvem muitos passos, desde a extracção do tecido em estudo, passando pela marcação do mesmo com compostos fluorescentes, scanning, processamento de imagem, entre outras. Cada uma dessas etapas pode introduzir variabilidade nos dados recolhidos e assim afectar a qualidade dos mesmos. Os métodos de pré-processamento de correcção de background (CB) e de normalização (NM) surgem da necessidade de remover as variações não desejadas mantendo as variações biológicas intrínsecas aos dados. Para o presente trabalho foi realizado um estudo experimental onde foram aplicados aos dados vários métodos de CB e de NM, individualmente ou em conjunto, com a finalidade de avaliar o contributo destas metodologias no melhoramento da qualidade dos dados. Apresenta-se aqui uma avaliação de 36 métodos pré-processamento (resultantes de combinações de métodos de CB e de NM) com base no desempenho preditivo de dois modelos de classificação, k-Vizinhos mais Próximos (k-NN) e Maquinas de Suporte Vectorial (MSV). Estes modelos são induzidos de três bases de dados públicas de microarrays de ADNcomplementar, onde um par de métodos de pré-processamento, constituído por um de CB e outro de NM, é aplicado. A capacidade preditiva dos dois modelos de classificação é medida em termos da taxa de erro obtida pelo método de validação cruzada leave-one-out. Em virtude da grande dimensão dos dados de microarrays, resultante de um elevado número de atributos (genes) envolvidos, o presente trabalho também inclui um estudo sobre o efeito da aplicação dos métodos de CB e de NM no desempenho preditivo de classificadores de MSV quando estes são induzidos de dados constituídos apenas por subconjuntos de genes altamente discriminativos. This dissertation addresses the problem of evaluating preprocessing methodologies in terms of the predictive performance of supervised classification models induced from microarray data. Microarray experiments involve many steps, from the extraction of the tissue in study, through its labeling with fluorescent dyes, scanning and image processing, among others. Each of these stages can introduce variability in the data collected and thus affect their quality. Preprocessing methods such as background correction (BC) techniques and normalization (NM) strategies have arisen from the need to remove the unnecessary variation while the intrinsic biological variations of the data are retained. In this work an experimental study has been carried out where various BC and NM methods have been employed on the data, individually or in combination, with the goal of assessing the contribution of these approaches to the improvement of the quality of the data. Herein is presented an evaluation of 36 preprocessing methods (resulting from combinations of BC and NM methods) in terms of the predictive performance of two classification models, k-Nearest Neighbours (k-NN) and Support Vector Machines (SVM). These models are induced from three publicly available cDNA microarray data sets, where a pair of preprocessing strategies, composed of a BC technique and a NM method, is employed. The predictive performance of both classifiers is measured on grounds of the error rate obtained by the leave-one-out cross validation method. Due to the high dimensionality of microarray data, resulting from a large number of attributes (genes) involved, this dissertation also includes a study about the effect of the application of BC and NM methods on the predictive performance of SVM classifiers when these are induced from data consisting of only subsets of highly discriminative genes.
Description:	Mestrado em Matemática e Aplicações
URI:	http://hdl.handle.net/10773/9480
Appears in Collections:	UA - Dissertações de mestrado DMat - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
6485.pdf		5.35 MB	Adobe PDF	View/Open

Show full item record