Automatic system for approximate and noncontiguous DNA sequences search

Gaspar, Manuel Augusto Ribeiro

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10773/23810

Título:	Automatic system for approximate and noncontiguous DNA sequences search
Outros títulos:	Sistema de pesquisa automática de sequências de ADN aproximadas e não contíguas
Autor:	Gaspar, Manuel Augusto Ribeiro
Orientador:	Pinho, Armando José Formoso de Pratas, Diogo Rodrigo Marques
Palavras-chave:	Engenharia eletrónica e telecomunicações Compressão de dados (Ciência de computadores) Ácido desoxirribonucleico Método do elemento finito
Data de Defesa:	2017
Editora:	Universidade de Aveiro
Resumo:	A capacidade de efectuar pesquisas de sequências de ADN similares a outras contidas numa sequência maior, tal como um cromossoma, tem um papel muito importante no estudo de organismos e na possível ligação entre espécies diferentes. Apesar da existência de várias técnicas e algoritmos, criados com o intuito de realizar pesquisas de sequência, este problema ainda está aberto ao desenvolvimento de novas ferramentas que possibilitem melhorias em relação a ferramentas já existentes. Esta tese apresenta uma solução para pesquisa de sequências, baseada em compressão de dados, ou, mais especificamente, em modelos de contexto finito, obtendo uma medida de similaridade entre uma referência e um alvo. O método usa uma abordagem com base em modelos de contexto finito para obtenção de um modelo estatístico da sequência de referência e obtenção do número estimado de bits necessários para codificação da sequência alvo, utilizando o modelo da referência. Ao longo deste trabalho, estudámos o método descrito acima, utilizando, inicialmente, condições controladas, e, por m, fazendo um estudo de regiões de ADN do genoma humano moderno, que não se encontram em ADN ancestral (ou se encontram com elevado grau de dissimilaridade). The ability to search similar DNA sequences with relation to a larger sequence, such as a chromosome, has a really important role in the study of organisms and the possible connection between di erent species. Even though several techniques and algorithms, created with the goal of performing sequence searches, already exist, this problem is still open to the development of new tools that exhibit improvements over currently existent tools. This thesis proposes a solution for sequence search, based on data compression, or, speci cally, nite-context models, by obtaining a measure of similarity between a reference and a target. The method uses an approach based on nite-context models for the creation of a statistical model of the reference sequence and obtaining the estimated number of bits necessary for the codi cation of the target sequence, using the reference model. In this work we studied the above described method, using, initially, controlled conditions, and, nally, conducting a study on DNA regions, belonging to the modern human genome, that can not be found in ancient DNA (or can only be found with high dissimilarity rate).
Descrição:	Mestrado em Engenharia Eletrónica e Telecomunicações
URI:	http://hdl.handle.net/10773/23810
Aparece nas coleções:	UA - Dissertações de mestrado DETI - Dissertações de mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
Gaspar, Manuel Augusto Ribeiro.pdf		4.05 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo