Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/9695
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorAfreixo, Vera Mónica Almeidapt
dc.contributor.advisorFreitas, Adelaide de Fátima Baptista Valentept
dc.contributor.authorCruz, Sara dos Santos Escudeiropt
dc.date.accessioned2013-02-15T12:01:52Z-
dc.date.available2013-02-15T12:01:52Z-
dc.date.issued2010-
dc.identifier.urihttp://hdl.handle.net/10773/9695-
dc.descriptionMestrado em Matemática e Aplicaçõespt
dc.description.abstractNesta dissertação são analisados os genomas completos de 46 espécies de organismos, com o objectivo de investigar a existência, ou não, de características estatísticas discriminatórias da classe a que pertence cada uma das espécies em estudo, com base na distribuição empírica da distância global entre nucleótidos iguais. Esta distribuição resulta do mapeamento da estrutura primária do ADN proposto e avaliado por Afreixo et al. (2009). São utilizadas metodologias estatísticas multivariadas de análise não-supervisionada e de redução da dimensionalidade, nomeadamente as classificações hierárquica e não-hierárquica e a análise de componentes principais. Verifica-se que o mapeamento da distância global entre nucleótidos iguais captura características essenciais do ADN das espécies analisadas, uma vez que a distribuição das primeiras distâncias determina uma possível assinatura genética capaz de permitir a diferenciação entre espécies. Esta diferenciação é conseguida não só a um nível geral, entre os dois grandes grupos de espécies eucariotas e procariotas, mas também a níveis mais especializados. No que diz respeito ao ajustamento de modelos probabilísticos teóricos à distribuição empírica de cada espécie, são avaliados o modelo proposto em Afreixo et al. (2009) e também um modelo alternativo, ambos baseados em misturas finitas de distribuições geométricas. No caso deste último, é utilizado o algoritmo EM (Expectation-Maximization) para estimar os seus parâmetros. A qualidade do ajustamento dos modelos teóricos à distribuição empírica é investigada com o auxílio do teste de ajustamento do qui-quadrado e também com a utilização de medidas de similaridade. Os resultados obtidos permitem constatar que, na maioria das espécies em estudo, o modelo de mistura de quatro distribuições geométricas é aquele que melhor se ajusta à distribuição empírica da distância global entre nucleótidos iguais.pt
dc.description.abstractIn this dissertation the complete genomes of 46 species of organisms are analysed, with the aim of investigating the possible existence of discriminatory statistical characteristics of the class to which each of the species under study belongs, based on the empirical distribution of the global distance between equal nucleotides. This distribution came about from the mapping scheme for the primary structure of DNA proposed and assessed by Afreixo et al. (2009). Unsupervised multivariate statistical and dimensionality reduction methods are used in the present analysis, namely hierarchical classification, non hierarchical classification and principal component analysis. It is shown that the mapping of the global distance between equal nucleotides captures essential features of the DNA of the species studied, as it allows to infer that the distribution of the first distances represents a possible genetic signature capable of differentiating among species. This differentiation is achieved not only at a general level between the two major groups of species, eukaryotic and prokaryotic, but also at more specialized levels. Furthermore, fittings of probabilistic models to the empirical distribution are investigated for each specie. More specifically, the model proposed by Afreixo et al. (2009) and an alternative model, both based on finite geometric mixture models, are analysed. In the latter case, the EM (Expectation-Maximization) algorithm is used to estimate its parameters. The goodness of fit of the theoretical models is assessed using a chi-square test and measures of similarity. For most species studied, the results show that four-component geometric mixture models are the ones that better fit to the empirical distribution of the global distance between equal nucleotides.pt
dc.language.isoporpt
dc.publisherUniversidade de Aveiropt
dc.rightsopenAccesspor
dc.subjectMatemática aplicadapt
dc.subjectBiologia molecular - Dados estatísticospt
dc.subjectGenomas - Análise estatísticapt
dc.subjectDistribuições (Matemática)pt
dc.subjectAnálise multivariadapt
dc.titleAnálise estatística de dados de biologia molecularpt
dc.typemasterThesispt
thesis.degree.levelmestradopt
thesis.degree.grantorUniversidade de Aveiropt
Appears in Collections:UA - Dissertações de mestrado
DMat - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
6681.pdf4.2 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.