Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/10553
Title: | Metodologias estatísticas para análise de níveis de expressão genética |
Author: | Roque, Sara Leitão |
Advisor: | Freitas, Adelaide de Fátima Baptista Valente |
Keywords: | Matemática aplicada Expressão genética Micromatrizes de ADNA - nálise de dados Métodos estatísticos |
Defense Date: | 2010 |
Publisher: | Universidade de Aveiro |
Abstract: | A tecnologia de microarrays de DNA permite monitorizar a expressão
de milhares de genes em simultâneo, constituindo um instrumento de
grande apoia a investigação de grandes questões nas áreas da Biologia
Molecular, Genética, Medicina, entre outras.
O uso de ferramentas estatisticas que permitam a deteção de
genes diferencialmente expressos torna-se imprescindível no sentido
de fornecer ao biólogo a identificação de diferenças entre as várias
amostras comparadas durante a experiencia de microarrays.
Nesta dissertação serão abordadas diferentes metodologias estatísticas
com vista a deteção de genes que evidenciam diferenças significativas
nos níveis de expressão sob duas condições distintas. Concretamente,
estuda-se o procedimento estatístico de Analise de Significância de Mi-
croarrays (SAM) e vários métodos de Bayes empíricos. A metodologia
SAM permite estabelecer a partir do valor observado de uma estatística
de teste para cada gene, usando o método das permutações e controlando
a taxa de falsas descobertas, quais os genes com níveis de expressão
ao significativamente diferentes. Os métodos de Bayes empíricos
assumem o ajustamento dos níveis de expressão genética a um dado
modelo probabilístico teórico o qual, por sua vez, depende de uma
distribuição a priori para o modelo dos parâmetros, sendo que os
parâmetros da distribuição a priori são estimados com base nos dados
observados. No presente trabalho serão abordadas quatro metodologias
inseridas nos métodos de Bayes empíricos: um modelo linear e os
modelos Gamma-Gamma, Log-Normal-Normal e Log-Normal-Normal
com Variância Modificada.
Com o auxílio de packages do R obtidos do Bioconductor (nomeadamente,
limma e EBarrays) e do package do R samr, aplicaram-se
as metodologias referidas a duas bases de dados reais designadas por
ApoAI e Fermentation. A ApoAI visa o estudo de ratos cujo gene
ApoAI não esta funcional e a forma como a de ciência deste gene
afeta o desempenho dos outros genes no fígado. A base de dados
Fermentation resulta de uma experiencia de duas cores de microar-
rays de DNA recentemente realizada no Laboratório de Microarrays da
Universidade de Aveiro. A análise destes dados visa comparar os níveis
de expressão genética de cinco leveduras vínicas e duas leveduras não
vínicas e identificar genes que permitam distinguir estirpes com uma
boa resistência ao stress imposto pelo processo de fermentação.
Os resultados obtidos com cada uma das metodologias foram analisados
e comparados obtendo-se uma lista de genes comuns identificados
por todas as metodologias. The technology of DNA microarrays allows the monitoring of the expression levels of thousands of genes simultaneously in a single experiment. It has become a useful tool to support research in the elds of Molecular Biology, Genetics and Medicine, helping scientists to understand the patterns of gene activity in di erent cellular conditions. In the eld of Statistics, the large amount of complex data emerging from DNA microarray technologies has created new challenges and stimulated the development of new methods. In this dissertation, di erent statistical methodologies developed for the detection of di erentially expressed genes in microarray experiments were studied and applied on two experimental datasets. These methodologies were, speci cally, Signi cance Analysis of Microarrays (SAM) and various procedures based on empirical Bayes methods. The SAM procedure is a permutation-based statistical technique which considers gene speci c statistical tests and measures the strength of the relationship between gene expression and condition types in order to decide whether there are statistically signi cant di erences in gene expression levels, controlling the false discovery rate. Empirical Bayes procedures are bayesian methodologies in which the prior distribution for the model parameters is estimated from the data. Herein, four different theoretical models for the expression levels were included in the empirical Bayes approach: linear model, Log-Normal-Normal model, Gamma-Gamma model and, nally, the Log-Normal-Normal with modi ed variance model. Using R packages (namely, samr and both limma and EBarrays from Bioconductor), those methodologies were applied on two real databases designated ApoAI and Fermentation. The ApoAI database has been largely studied in the specialized literature and it is aimed at identifying genes with altered expression in mice whose Apo AI gene is not functional. The Fermentation database was recently obtained at the National Facility for DNA Microarray at the University of Aveiro, and it comes from two colour DNA microarray experiment carried out to distinguish yeast strains with good resistance to stress imposed by the fermentation process. The results generated with each methodology for each database were analyzed and compared to obtain a list of di erentially expressed genes commonly identi ed by methodologies applied. |
Description: | Mestrado em Matemática e Aplicações |
URI: | http://hdl.handle.net/10773/10553 |
Appears in Collections: | UA - Dissertações de mestrado DMat - Dissertações de mestrado |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.