Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/9695
Title: Análise estatística de dados de biologia molecular
Author: Cruz, Sara dos Santos Escudeiro
Advisor: Afreixo, Vera Mónica Almeida
Freitas, Adelaide de Fátima Baptista Valente
Keywords: Matemática aplicada
Biologia molecular - Dados estatísticos
Genomas - Análise estatística
Distribuições (Matemática)
Análise multivariada
Defense Date: 2010
Publisher: Universidade de Aveiro
Abstract: Nesta dissertação são analisados os genomas completos de 46 espécies de organismos, com o objectivo de investigar a existência, ou não, de características estatísticas discriminatórias da classe a que pertence cada uma das espécies em estudo, com base na distribuição empírica da distância global entre nucleótidos iguais. Esta distribuição resulta do mapeamento da estrutura primária do ADN proposto e avaliado por Afreixo et al. (2009). São utilizadas metodologias estatísticas multivariadas de análise não-supervisionada e de redução da dimensionalidade, nomeadamente as classificações hierárquica e não-hierárquica e a análise de componentes principais. Verifica-se que o mapeamento da distância global entre nucleótidos iguais captura características essenciais do ADN das espécies analisadas, uma vez que a distribuição das primeiras distâncias determina uma possível assinatura genética capaz de permitir a diferenciação entre espécies. Esta diferenciação é conseguida não só a um nível geral, entre os dois grandes grupos de espécies eucariotas e procariotas, mas também a níveis mais especializados. No que diz respeito ao ajustamento de modelos probabilísticos teóricos à distribuição empírica de cada espécie, são avaliados o modelo proposto em Afreixo et al. (2009) e também um modelo alternativo, ambos baseados em misturas finitas de distribuições geométricas. No caso deste último, é utilizado o algoritmo EM (Expectation-Maximization) para estimar os seus parâmetros. A qualidade do ajustamento dos modelos teóricos à distribuição empírica é investigada com o auxílio do teste de ajustamento do qui-quadrado e também com a utilização de medidas de similaridade. Os resultados obtidos permitem constatar que, na maioria das espécies em estudo, o modelo de mistura de quatro distribuições geométricas é aquele que melhor se ajusta à distribuição empírica da distância global entre nucleótidos iguais.
In this dissertation the complete genomes of 46 species of organisms are analysed, with the aim of investigating the possible existence of discriminatory statistical characteristics of the class to which each of the species under study belongs, based on the empirical distribution of the global distance between equal nucleotides. This distribution came about from the mapping scheme for the primary structure of DNA proposed and assessed by Afreixo et al. (2009). Unsupervised multivariate statistical and dimensionality reduction methods are used in the present analysis, namely hierarchical classification, non hierarchical classification and principal component analysis. It is shown that the mapping of the global distance between equal nucleotides captures essential features of the DNA of the species studied, as it allows to infer that the distribution of the first distances represents a possible genetic signature capable of differentiating among species. This differentiation is achieved not only at a general level between the two major groups of species, eukaryotic and prokaryotic, but also at more specialized levels. Furthermore, fittings of probabilistic models to the empirical distribution are investigated for each specie. More specifically, the model proposed by Afreixo et al. (2009) and an alternative model, both based on finite geometric mixture models, are analysed. In the latter case, the EM (Expectation-Maximization) algorithm is used to estimate its parameters. The goodness of fit of the theoretical models is assessed using a chi-square test and measures of similarity. For most species studied, the results show that four-component geometric mixture models are the ones that better fit to the empirical distribution of the global distance between equal nucleotides.
Description: Mestrado em Matemática e Aplicações
URI: http://hdl.handle.net/10773/9695
Appears in Collections:UA - Dissertações de mestrado
DMat - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
6681.pdf4.2 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.