Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/30897
Title: | Novas abordagens na deteção de outliers em dados composicionais |
Author: | Maltez, Marta Luísa Santos |
Advisor: | Freitas, Adelaide de Fátima Baptista Valente |
Keywords: | Dados composicionais Observações atípicas Distância de Mahalanobis robusta Abordagem comediana Estimador de Stahel-Donoho Atipicidade ajustada Dados epidemiológicos Qualidade dos solos |
Defense Date: | 13-Jul-2020 |
Abstract: | Dados composicionais são um caso especial de dados multivariados
que representam informação relativa na forma de log-razões entre
as componentes. Os vetores são constituídos por componentes
estritamente positivas, que têm como propriedades fundamentais
a invariância de escala, a invariância de permutação e a coerência
subcomposicional. As composições têm a sua representação num
subespaço designado de simplex, sobre o qual se define a chamada
Geometria de Aitchison.
Os outliers, ou observações atípicas, são dados que parecem desviar se substancialmente das demais observações da amostra da qual
este faz parte e sempre despertaram o interesse dos estatísticos. Os
métodos de deteção de outliers são geralmente classificados em dois
tipos: os métodos baseados em distância robusta e os métodos não
tradicionais. Os primeiros baseiam-se em calcular estimativas para a
média e covariância dos dados e depois calcular a distância robusta
dessas observações e os segundos evitam o uso da distância e optam
por fazer uma abordagem com mapas não lineares, uso dos vetores
próprios ou projeções, entre outros.
Até ao momento, os métodos numéricos e gráficos para detetar outliers
em dados composicionais baseiam-se na distância de Mahalanobis
robusta.
Neste trabalho, propõem-se duas outras abordagens, também base adas em distâncias robustas, para a deteção de outliers em dados
composicionais. O primeiro método é a Abordagem Comediana
(Comedian Approach) e o segundo método é a Atipicidade Ajustada
(Adjusted Outlyingness), que se baseia no Estimador de StahelDonoho, não pressupondo qualquer tipo de distribuição a respeito dos
dados. Pretende-se então, aplicar esses métodos a dois conjuntos de
dados: um de dados epidemiológicos – a SIDA em Cabo Verde – e um
outro de qualidade de solos em Lisboa, Portugal, e tentar perceber se,
numa perspetiva composicional, existem observações atípicas ou não. Compositional data are a special case of multivariate data which represent relative information in the form of log-ratios between the components. The vectors are constituted by components strictly positive with fundamental properties the scale invariance, permutation invariance and subcompositional coherence. Compositions are repre sented in a Euclidian subspace named simplex where the so-called Aitchison Geometry is applied. Outliers, or atypical observations, are data which seems to be substantially deviated from the other observations in the same dataset. Outlier detection methods are usually classified into two types: robust distance-based methods and non-traditional methods. The former are based on the Mahalanobis distance calculated using robust estimates for the mean and the covariance matrix. The later avoid the use of distance and prefer to use non-linear maps, eigenvectors or projections, between others. Until now, outlier detection methods in compositional data are based on robust distance and Minimum Covariance Determinant for estimating the covariance matrix. Besides numerical approach, these methodologies are also depicted on the graphical representations. In this work, two other approaches are proposed to detect outliers in compositional data. The first method is the Comedian Approach and the second is the Adjusted Outlyingness. The last one is a modification of the Stahel-Donoho Estimator and any type of distribution about the data is assumed. These methods are applied on two real datasets: epidemiological data related to AIDS in Cape Verde and geochemical data related to soil quality in Lisbon (Portugal). Results show the existence of atypical observations, in a compositional perspective. |
URI: | http://hdl.handle.net/10773/30897 |
Appears in Collections: | UA - Dissertações de mestrado DMat - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Documento_Marta_Maltez.pdf | 2.49 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.