Metodologias estatísticas para análise de níveis de expressão genética

Roque, Sara Leitão

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/10553

Title:	Metodologias estatísticas para análise de níveis de expressão genética
Author:	Roque, Sara Leitão
Advisor:	Freitas, Adelaide de Fátima Baptista Valente
Keywords:	Matemática aplicada Expressão genética Micromatrizes de ADNA - nálise de dados Métodos estatísticos
Defense Date:	2010
Publisher:	Universidade de Aveiro
Abstract:	A tecnologia de microarrays de DNA permite monitorizar a expressão de milhares de genes em simultâneo, constituindo um instrumento de grande apoia a investigação de grandes questões nas áreas da Biologia Molecular, Genética, Medicina, entre outras. O uso de ferramentas estatisticas que permitam a deteção de genes diferencialmente expressos torna-se imprescindível no sentido de fornecer ao biólogo a identificação de diferenças entre as várias amostras comparadas durante a experiencia de microarrays. Nesta dissertação serão abordadas diferentes metodologias estatísticas com vista a deteção de genes que evidenciam diferenças significativas nos níveis de expressão sob duas condições distintas. Concretamente, estuda-se o procedimento estatístico de Analise de Significância de Mi- croarrays (SAM) e vários métodos de Bayes empíricos. A metodologia SAM permite estabelecer a partir do valor observado de uma estatística de teste para cada gene, usando o método das permutações e controlando a taxa de falsas descobertas, quais os genes com níveis de expressão ao significativamente diferentes. Os métodos de Bayes empíricos assumem o ajustamento dos níveis de expressão genética a um dado modelo probabilístico teórico o qual, por sua vez, depende de uma distribuição a priori para o modelo dos parâmetros, sendo que os parâmetros da distribuição a priori são estimados com base nos dados observados. No presente trabalho serão abordadas quatro metodologias inseridas nos métodos de Bayes empíricos: um modelo linear e os modelos Gamma-Gamma, Log-Normal-Normal e Log-Normal-Normal com Variância Modificada. Com o auxílio de packages do R obtidos do Bioconductor (nomeadamente, limma e EBarrays) e do package do R samr, aplicaram-se as metodologias referidas a duas bases de dados reais designadas por ApoAI e Fermentation. A ApoAI visa o estudo de ratos cujo gene ApoAI não esta funcional e a forma como a de ciência deste gene afeta o desempenho dos outros genes no fígado. A base de dados Fermentation resulta de uma experiencia de duas cores de microar- rays de DNA recentemente realizada no Laboratório de Microarrays da Universidade de Aveiro. A análise destes dados visa comparar os níveis de expressão genética de cinco leveduras vínicas e duas leveduras não vínicas e identificar genes que permitam distinguir estirpes com uma boa resistência ao stress imposto pelo processo de fermentação. Os resultados obtidos com cada uma das metodologias foram analisados e comparados obtendo-se uma lista de genes comuns identificados por todas as metodologias. The technology of DNA microarrays allows the monitoring of the expression levels of thousands of genes simultaneously in a single experiment. It has become a useful tool to support research in the elds of Molecular Biology, Genetics and Medicine, helping scientists to understand the patterns of gene activity in di erent cellular conditions. In the eld of Statistics, the large amount of complex data emerging from DNA microarray technologies has created new challenges and stimulated the development of new methods. In this dissertation, di erent statistical methodologies developed for the detection of di erentially expressed genes in microarray experiments were studied and applied on two experimental datasets. These methodologies were, speci cally, Signi cance Analysis of Microarrays (SAM) and various procedures based on empirical Bayes methods. The SAM procedure is a permutation-based statistical technique which considers gene speci c statistical tests and measures the strength of the relationship between gene expression and condition types in order to decide whether there are statistically signi cant di erences in gene expression levels, controlling the false discovery rate. Empirical Bayes procedures are bayesian methodologies in which the prior distribution for the model parameters is estimated from the data. Herein, four different theoretical models for the expression levels were included in the empirical Bayes approach: linear model, Log-Normal-Normal model, Gamma-Gamma model and, nally, the Log-Normal-Normal with modi ed variance model. Using R packages (namely, samr and both limma and EBarrays from Bioconductor), those methodologies were applied on two real databases designated ApoAI and Fermentation. The ApoAI database has been largely studied in the specialized literature and it is aimed at identifying genes with altered expression in mice whose Apo AI gene is not functional. The Fermentation database was recently obtained at the National Facility for DNA Microarray at the University of Aveiro, and it comes from two colour DNA microarray experiment carried out to distinguish yeast strains with good resistance to stress imposed by the fermentation process. The results generated with each methodology for each database were analyzed and compared to obtain a list of di erentially expressed genes commonly identi ed by methodologies applied.
Description:	Mestrado em Matemática e Aplicações
URI:	http://hdl.handle.net/10773/10553
Appears in Collections:	UA - Dissertações de mestrado DMat - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
6505.pdf		9.12 MB	Adobe PDF	View/Open

Show full item record