Sistema computacional para o estudo da estrutura primária e redesenho de genes

Pinheiro, Miguel Monsanto

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/2238

Title:	Sistema computacional para o estudo da estrutura primária e redesenho de genes
Author:	Pinheiro, Miguel Monsanto
Advisor:	Oliveira, José Luís Guimarães de Santos, Manuel António da Silva
Keywords:	Informática Bioinformática Genomas
Defense Date:	2010
Publisher:	Universidade de Aveiro
Abstract:	Um dos maiores avanços científicos do século XX foi o desenvolvimento de tecnologia que permite a sequenciação de genomas em larga escala. Contudo, a informação produzida pela sequenciação não explica por si só a sua estrutura primária, evolução e seu funcionamento. Para esse fim novas áreas como a biologia molecular, a genética e a bioinformática são usadas para estudar as diversas propriedades e funcionamento dos genomas. Com este trabalho estamos particularmente interessados em perceber detalhadamente a descodificação do genoma efectuada no ribossoma e extrair as regras gerais através da análise da estrutura primária do genoma, nomeadamente o contexto de codões e a distribuição dos codões. Estas regras estão pouco estudadas e entendidas, não se sabendo se poderão ser obtidas através de estatística e ferramentas bioinfomáticas. Os métodos tradicionais para estudar a distribuição dos codões no genoma e seu contexto não providenciam as ferramentas necessárias para estudar estas propriedades à escala genómica. As tabelas de contagens com as distribuições de codões, assim como métricas absolutas, estão actualmente disponíveis em bases de dados. Diversas aplicações para caracterizar as sequências genéticas estão também disponíveis. No entanto, outros tipos de abordagens a nível estatístico e outros métodos de visualização de informação estavam claramente em falta. No presente trabalho foram desenvolvidos métodos matemáticos e computacionais para a análise do contexto de codões e também para identificar zonas onde as repetições de codões ocorrem. Novas formas de visualização de informação foram também desenvolvidas para permitir a interpretação da informação obtida. As ferramentas estatísticas inseridas no modelo, como o clustering, análise residual, índices de adaptação dos codões revelaram-se importantes para caracterizar as sequências codificantes de alguns genomas. O objectivo final é que a informação obtida permita identificar as regras gerais que governam o contexto de codões em qualquer genoma. Sequencing of several genomes. However, the raw data alone produced from these genome sequencing efforts does not explain its primary structure, its evolution or its functioning. In order to do this, molecular biology, genetics and bioinformatics approaches have to be used for genome analysis. We are particularly interested in understanding the general rules that govern accurate decoding by the ribosome and gene evolution through global analysis of genome primary structure features, such as codon context and usage. However, the general rules that govern codon usage and codon context remain largely elusive, raising the question: can those rules be unraveled using genomic scale approaches by combining bioinformatics, statistical and computer visualization tools? Traditional methods, used for codon usage and context analysis, do not provide the tools to carry out detailed gene primary structure analysis at a genomic scale. Codon usage tables, using absolute metric, are available in public databases for any sequenced gene or genome and free-ware software for multivariate analysis of codon and amino acid usage is also readily available, however sophisticated statistical and data visualization tools are clearly missing. We developed a model supported by mathematical and statistical tools for automated analysis of codon context and codon usage and also to find trinucleotide repeats within coding regions on a genomic scale. A sophisticated graphical application system has also been developed to help data visualization and interpretation. The statistical tools incorporated in the system for data clustering, residual analysis and codon adaptation index determination will allow the obtention of global views of the important sequence features. It is expected that the data obtained will allow the identification of general rules that govern codon context and codon usage in any genome.
Description:	Doutoramento em Engenharia Informática
URI:	http://hdl.handle.net/10773/2238
Appears in Collections:	UA - Teses de doutoramento DETI - Teses de doutoramento

Files in This Item:

File	Description	Size	Format
2010000716.pdf		20.26 MB	Adobe PDF	View/Open

Show full item record