Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/9695
Title: | Análise estatística de dados de biologia molecular |
Author: | Cruz, Sara dos Santos Escudeiro |
Advisor: | Afreixo, Vera Mónica Almeida Freitas, Adelaide de Fátima Baptista Valente |
Keywords: | Matemática aplicada Biologia molecular - Dados estatísticos Genomas - Análise estatística Distribuições (Matemática) Análise multivariada |
Defense Date: | 2010 |
Publisher: | Universidade de Aveiro |
Abstract: | Nesta dissertação são analisados os genomas completos de 46 espécies de
organismos, com o objectivo de investigar a existência, ou não, de
características estatísticas discriminatórias da classe a que pertence cada
uma das espécies em estudo, com base na distribuição empírica da distância
global entre nucleótidos iguais. Esta distribuição resulta do mapeamento da
estrutura primária do ADN proposto e avaliado por Afreixo et al. (2009).
São utilizadas metodologias estatísticas multivariadas de análise
não-supervisionada e de redução da dimensionalidade, nomeadamente as
classificações hierárquica e não-hierárquica e a análise de componentes
principais. Verifica-se que o mapeamento da distância global entre nucleótidos
iguais captura características essenciais do ADN das espécies analisadas,
uma vez que a distribuição das primeiras distâncias determina uma possível
assinatura genética capaz de permitir a diferenciação entre espécies. Esta
diferenciação é conseguida não só a um nível geral, entre os dois grandes
grupos de espécies eucariotas e procariotas, mas também a níveis mais
especializados.
No que diz respeito ao ajustamento de modelos probabilísticos teóricos à
distribuição empírica de cada espécie, são avaliados o modelo proposto em
Afreixo et al. (2009) e também um modelo alternativo, ambos baseados em
misturas finitas de distribuições geométricas. No caso deste último, é utilizado
o algoritmo EM (Expectation-Maximization) para estimar os seus parâmetros.
A qualidade do ajustamento dos modelos teóricos à distribuição empírica é
investigada com o auxílio do teste de ajustamento do qui-quadrado e também
com a utilização de medidas de similaridade. Os resultados obtidos permitem
constatar que, na maioria das espécies em estudo, o modelo de mistura de
quatro distribuições geométricas é aquele que melhor se ajusta à distribuição
empírica da distância global entre nucleótidos iguais. In this dissertation the complete genomes of 46 species of organisms are analysed, with the aim of investigating the possible existence of discriminatory statistical characteristics of the class to which each of the species under study belongs, based on the empirical distribution of the global distance between equal nucleotides. This distribution came about from the mapping scheme for the primary structure of DNA proposed and assessed by Afreixo et al. (2009). Unsupervised multivariate statistical and dimensionality reduction methods are used in the present analysis, namely hierarchical classification, non hierarchical classification and principal component analysis. It is shown that the mapping of the global distance between equal nucleotides captures essential features of the DNA of the species studied, as it allows to infer that the distribution of the first distances represents a possible genetic signature capable of differentiating among species. This differentiation is achieved not only at a general level between the two major groups of species, eukaryotic and prokaryotic, but also at more specialized levels. Furthermore, fittings of probabilistic models to the empirical distribution are investigated for each specie. More specifically, the model proposed by Afreixo et al. (2009) and an alternative model, both based on finite geometric mixture models, are analysed. In the latter case, the EM (Expectation-Maximization) algorithm is used to estimate its parameters. The goodness of fit of the theoretical models is assessed using a chi-square test and measures of similarity. For most species studied, the results show that four-component geometric mixture models are the ones that better fit to the empirical distribution of the global distance between equal nucleotides. |
Description: | Mestrado em Matemática e Aplicações |
URI: | http://hdl.handle.net/10773/9695 |
Appears in Collections: | UA - Dissertações de mestrado DMat - Dissertações de mestrado |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.