DSpace
 
  Repositório Institucional da Universidade de Aveiro > Departamento de Matemática > MAT - Dissertações de mestrado >
 Análise estatística da linguagem genética
Please use this identifier to cite or link to this item http://hdl.handle.net/10773/2885

title: Análise estatística da linguagem genética
authors: Afreixo, Vera Mónica Almeida
advisors: Freitas, Adelaide de Fátima Baptista Valente
keywords: Genética
Código genético
issue date: 2002
publisher: Universidade de Aveiro
abstract: O objectivo principal deste trabalho é analisar a linguagem genética no contexto dos codões, ou seja, da parte codificante dos genes responsável pela produção de proteínas. Concretamente, pretende-se decifrar leis gerais que governem a tradução do mRNA pelo ribossoma. Para esse efeito foram utilizados dados genéticos de duas espécies distintas, que partilham todavia o mesmo ancestral: Candida albicans e Saccharomyces cerevisiae. No presente estudo são empregues diferentes metodologias e modelos estatísticos adequados a dados de natureza discreta; nomeadamente, Análise de Tabelas de Contingência, Análise Classificatória, Análise em Componentes Principais, Cadeias de Markov, Análise de Zipf, Critério de Informação Bayesiana e Teoria da Informação. Com as Tabelas de Contingência, averigua-se, do ponto de vista da independência e associação, o comportamento de pares de codões ou nucleótidos, justapostos ou espaçados. As Análises Classificatória e em Componentes Principais permitem estudar, de forma exploratória, a preferência de um codão face ao codão justaposto e aos seus nucleótidos constituíntes. As cadeias de Markov são aplicadas com o objectivo de averiguar a adequação do modelo no sequenciamento dos codões. A Análise de Zipf visa estimar a respectiva lei e averiguar a existência de correlações de longo alcance entre os codões sequenciados. Para estimar a ordem da cadeia de Markov no sequenciamento de codões é usado o Critério de Informação Bayesiana. A Teoria da Informação é aplicada com o intuito de obter valores de entropia no conjunto das sequências de código. Tudo leva a crer que os textos genéticos são estruturas bem organizadas, em que existe alguma associação entre um dado codão e os símbolos (codões ou nucleótidos) justapostos ou espaçados. Esta associação decresce à medida que o espaçamento aumenta. ABSTRACT: The main aim of this work is to analyse the genetic language at the codon context. In other words, the coding part of the genes responsible for protein production is studied with the goal of deciphering general laws which govern the mRNA translation by the ribosome. For this purpose, it was used genetic data from two species that share the same ancestral: Candida albicans e Saccharomyces cerevisiae. In this study different methodologies and statistical models are employed, namely: Contingency Tables, Cluster Analysis, Principal Components Analysis, Markov Chains, Zipf Analysis, Bayesian Information Criterion and Information Theory. With the Contingency Tables, we investigate, from the independency and association point of view, the behaviour of the codon or nucleotide pairs, placed side by side or spaced. The Cluster Analysis and Principal Component Analysis allow studying, in an exploratory way, the preference of a codon relative to its adjacent and its nucleotides. The Markov Chains are applied with the goal of investigate the fitting of the model in the codon sequencing. The Zipf Analysis aims to estimate the respective law and examine the existence of long range correlations among sequencing codons. The Bayesian Information Criterion is applied to estimate the order of the Markov chain in the codon sequencing. Finally, the Information Theory is used to obtain entropy values for the set of code sequences. As a result of this study, we are inclined to think that genetic texts are well organized structures, with some association between a given codon and contiguous or spaced symbols (codons or nucleotides). That association decreases as the spacing goes by.
URI: http://hdl.handle.net/10773/2885
appears in collectionsMAT - Dissertações de mestrado
UA - Dissertações de mestrado

files in this item

file sizeformat
2005001731.pdf4.17 MBAdobe PDFview/open
statistics

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.

 

Valid XHTML 1.0! RCAAP OpenAIRE DeGóis
ria-repositorio@ua.pt - Copyright ©   Universidade de Aveiro - RIA Statistics - Powered by MIT's DSpace software, Version 1.6.2