Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/22501
Title: Análise estatística de dados composicionais
Author: Sousa, Rodney Carvalho Afonso de
Advisor: Freitas, Adelaide de Fátima Baptista Valente
Keywords: Matemática
Estatística
Análise multivariada
Geometria simplética
Código genético - Dados estatísticos
Defense Date: 2016
Publisher: Universidade de Aveiro
Abstract: Dados composicionais são dados multivariados em que cada unidade amostral corresponde a um vetor cujas componentes são números reais estritamente positivos, que representam proporções de um todo, e contêm apenas informação relativa, presente nas razões entre as suas componentes. Esse vetor está sujeito à restrição da soma das componentes ser igual à uma constante. Podemos encontrar dados composicionais em muitos campos científicos, sendo que esses dados geralmente aparecem na forma de proporções, percentagens, concentrações, frequências absolutas ou relativas. Do ponto de vista geométrico, os dados composicionais pertencem a um subespaço real chamado simplex, sobre o qual se define uma geometria, chamada Geometria de Aitchison. Atualmente, a análise de dados composicionais baseia-se na análise estatística de log-razões (logratios) entre componentes (ou partes) das composições. Neste trabalho, aplicamos técnicas exploratórias de dados composicionais na análise de um conjunto de dados do espaço dos codões referentes às regiões codificantes do ADN de 31 espécies distribuídas entre os cinco reinos de seres vivos: 16 animais, 4 plantas, 5 bactérias, 3 fungos e 3 protozoários. A principal ferramenta de análise utilizada é o biplot, que consiste numa representação gráfica que nos permite a visualização simultânea dos padrões existentes nas observações e nas variáveis de um conjunto de dados multivariado.
Compositional data are multivariate data consist of vectors of positive values summing to unit. They represent parts of a whole and contain only information presents in the ratios of its components. We can find compositional data in many scientific areas. This kind of data usually appear as proportions, percentages, concentrations, absolute or relative frequencies. From a geometrical point of view, compositional data belong to a real subspace called simplex, where there is defined a specific geometry, called Aitchison geometry. Currently, the compositional data analysis is based on statistical analysis of log-ratios between components of the compositional vector. In this work, we have used exploratory techniques of compositional data analysis to investigate patterns in a data set of the codon space concerning coding regions of DNA of 31 species distributed among the five kingdoms of living: 16 animals, 4 plants, 5 bacteria, fungi and 3 protozoa. The codon space is formed by the relative frequency of the four nucleotides in the three codon positions. The main analysis tool used is the biplot which is a graphical representation that allows the simultaneous visualization of patterns for the observations and variables of multivariate data.
Description: Mestrado em Matemática e Aplicações
URI: http://hdl.handle.net/10773/22501
Appears in Collections:UA - Dissertações de mestrado
DMat - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
Dissertação_Rodney (Versão Final).pdfDissertação_RodneySousa1.41 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.