Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/30897
Title: Novas abordagens na deteção de outliers em dados composicionais
Author: Maltez, Marta Luísa Santos
Advisor: Freitas, Adelaide de Fátima Baptista Valente
Keywords: Dados composicionais
Observações atípicas
Distância de Mahalanobis robusta
Abordagem comediana
Estimador de Stahel-Donoho
Atipicidade ajustada
Dados epidemiológicos
Qualidade dos solos
Defense Date: 13-Jul-2020
Abstract: Dados composicionais são um caso especial de dados multivariados que representam informação relativa na forma de log-razões entre as componentes. Os vetores são constituídos por componentes estritamente positivas, que têm como propriedades fundamentais a invariância de escala, a invariância de permutação e a coerência subcomposicional. As composições têm a sua representação num subespaço designado de simplex, sobre o qual se define a chamada Geometria de Aitchison. Os outliers, ou observações atípicas, são dados que parecem desviar se substancialmente das demais observações da amostra da qual este faz parte e sempre despertaram o interesse dos estatísticos. Os métodos de deteção de outliers são geralmente classificados em dois tipos: os métodos baseados em distância robusta e os métodos não tradicionais. Os primeiros baseiam-se em calcular estimativas para a média e covariância dos dados e depois calcular a distância robusta dessas observações e os segundos evitam o uso da distância e optam por fazer uma abordagem com mapas não lineares, uso dos vetores próprios ou projeções, entre outros. Até ao momento, os métodos numéricos e gráficos para detetar outliers em dados composicionais baseiam-se na distância de Mahalanobis robusta. Neste trabalho, propõem-se duas outras abordagens, também base adas em distâncias robustas, para a deteção de outliers em dados composicionais. O primeiro método é a Abordagem Comediana (Comedian Approach) e o segundo método é a Atipicidade Ajustada (Adjusted Outlyingness), que se baseia no Estimador de StahelDonoho, não pressupondo qualquer tipo de distribuição a respeito dos dados. Pretende-se então, aplicar esses métodos a dois conjuntos de dados: um de dados epidemiológicos – a SIDA em Cabo Verde – e um outro de qualidade de solos em Lisboa, Portugal, e tentar perceber se, numa perspetiva composicional, existem observações atípicas ou não.
Compositional data are a special case of multivariate data which represent relative information in the form of log-ratios between the components. The vectors are constituted by components strictly positive with fundamental properties the scale invariance, permutation invariance and subcompositional coherence. Compositions are repre sented in a Euclidian subspace named simplex where the so-called Aitchison Geometry is applied. Outliers, or atypical observations, are data which seems to be substantially deviated from the other observations in the same dataset. Outlier detection methods are usually classified into two types: robust distance-based methods and non-traditional methods. The former are based on the Mahalanobis distance calculated using robust estimates for the mean and the covariance matrix. The later avoid the use of distance and prefer to use non-linear maps, eigenvectors or projections, between others. Until now, outlier detection methods in compositional data are based on robust distance and Minimum Covariance Determinant for estimating the covariance matrix. Besides numerical approach, these methodologies are also depicted on the graphical representations. In this work, two other approaches are proposed to detect outliers in compositional data. The first method is the Comedian Approach and the second is the Adjusted Outlyingness. The last one is a modification of the Stahel-Donoho Estimator and any type of distribution about the data is assumed. These methods are applied on two real datasets: epidemiological data related to AIDS in Cape Verde and geochemical data related to soil quality in Lisbon (Portugal). Results show the existence of atypical observations, in a compositional perspective.
URI: http://hdl.handle.net/10773/30897
Appears in Collections:UA - Dissertações de mestrado
DMat - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
Documento_Marta_Maltez.pdf2.49 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.