Análise estatística de dados de biologia molecular

Cruz, Sara dos Santos Escudeiro

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/9695

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Afreixo, Vera Mónica Almeida	pt
dc.contributor.advisor	Freitas, Adelaide de Fátima Baptista Valente	pt
dc.contributor.author	Cruz, Sara dos Santos Escudeiro	pt
dc.date.accessioned	2013-02-15T12:01:52Z	-
dc.date.available	2013-02-15T12:01:52Z	-
dc.date.issued	2010	-
dc.identifier.uri	http://hdl.handle.net/10773/9695	-
dc.description	Mestrado em Matemática e Aplicações	pt
dc.description.abstract	Nesta dissertação são analisados os genomas completos de 46 espécies de organismos, com o objectivo de investigar a existência, ou não, de características estatísticas discriminatórias da classe a que pertence cada uma das espécies em estudo, com base na distribuição empírica da distância global entre nucleótidos iguais. Esta distribuição resulta do mapeamento da estrutura primária do ADN proposto e avaliado por Afreixo et al. (2009). São utilizadas metodologias estatísticas multivariadas de análise não-supervisionada e de redução da dimensionalidade, nomeadamente as classificações hierárquica e não-hierárquica e a análise de componentes principais. Verifica-se que o mapeamento da distância global entre nucleótidos iguais captura características essenciais do ADN das espécies analisadas, uma vez que a distribuição das primeiras distâncias determina uma possível assinatura genética capaz de permitir a diferenciação entre espécies. Esta diferenciação é conseguida não só a um nível geral, entre os dois grandes grupos de espécies eucariotas e procariotas, mas também a níveis mais especializados. No que diz respeito ao ajustamento de modelos probabilísticos teóricos à distribuição empírica de cada espécie, são avaliados o modelo proposto em Afreixo et al. (2009) e também um modelo alternativo, ambos baseados em misturas finitas de distribuições geométricas. No caso deste último, é utilizado o algoritmo EM (Expectation-Maximization) para estimar os seus parâmetros. A qualidade do ajustamento dos modelos teóricos à distribuição empírica é investigada com o auxílio do teste de ajustamento do qui-quadrado e também com a utilização de medidas de similaridade. Os resultados obtidos permitem constatar que, na maioria das espécies em estudo, o modelo de mistura de quatro distribuições geométricas é aquele que melhor se ajusta à distribuição empírica da distância global entre nucleótidos iguais.	pt
dc.description.abstract	In this dissertation the complete genomes of 46 species of organisms are analysed, with the aim of investigating the possible existence of discriminatory statistical characteristics of the class to which each of the species under study belongs, based on the empirical distribution of the global distance between equal nucleotides. This distribution came about from the mapping scheme for the primary structure of DNA proposed and assessed by Afreixo et al. (2009). Unsupervised multivariate statistical and dimensionality reduction methods are used in the present analysis, namely hierarchical classification, non hierarchical classification and principal component analysis. It is shown that the mapping of the global distance between equal nucleotides captures essential features of the DNA of the species studied, as it allows to infer that the distribution of the first distances represents a possible genetic signature capable of differentiating among species. This differentiation is achieved not only at a general level between the two major groups of species, eukaryotic and prokaryotic, but also at more specialized levels. Furthermore, fittings of probabilistic models to the empirical distribution are investigated for each specie. More specifically, the model proposed by Afreixo et al. (2009) and an alternative model, both based on finite geometric mixture models, are analysed. In the latter case, the EM (Expectation-Maximization) algorithm is used to estimate its parameters. The goodness of fit of the theoretical models is assessed using a chi-square test and measures of similarity. For most species studied, the results show that four-component geometric mixture models are the ones that better fit to the empirical distribution of the global distance between equal nucleotides.	pt
dc.language.iso	por	pt
dc.publisher	Universidade de Aveiro	pt
dc.rights	openAccess	por
dc.subject	Matemática aplicada	pt
dc.subject	Biologia molecular - Dados estatísticos	pt
dc.subject	Genomas - Análise estatística	pt
dc.subject	Distribuições (Matemática)	pt
dc.subject	Análise multivariada	pt
dc.title	Análise estatística de dados de biologia molecular	pt
dc.type	masterThesis	pt
thesis.degree.level	mestrado	pt
thesis.degree.grantor	Universidade de Aveiro	pt
Appears in Collections:	UA - Dissertações de mestrado DMat - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
6681.pdf		4.2 MB	Adobe PDF	View/Open

Show simple item record