Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/25083
Title: Análise de conglomerados: comparação de técnicas e uma aplicação a dados de fluxo migratório em Portugal
Author: Fernandes, António da Costa
Advisor: Freitas, Adelaide de Fátima Baptista Valente
Keywords: Conglomerado
Dissimilaridade e similaridade
Técnicas aglomerativas
Técnicas divisivas
Fluxo migratório
Issue Date: 28-Nov-2017
Abstract: A análise de conglomerados é um procedimento de Estatística Multivariada que tem como objetivo identificar e, eventualmente em consequência, classificar objetos ou traços de indivíduos de modo a que, dentro de um mesmo grupo os elementos sejam o mais homogéneo possível e entre grupos o mais heterogéneo. O objetivo geral deste trabalho consiste na comparação de técnicas de conglomerados. Em particular focam-se: i) a construção de agrupamentos na Análise de Conglomerados usando técnicas hierárquicas de métodos aglomerativos, ii) o uso do coeficiente de correlação cofenética na comparação de resultados da aplicação de cada técnica estudada no processo de aglomeração (agrupamento/clustering), iii) os métodos de validação interna e de estabilidade, que têm como objetivo avaliar as qualidades e estabilidades dos grupos (clusters) obtidos por distintos métodos de aglomeração e, por fim, iv) uma aplicação dos métodos e procedimentos estudados a uma base de dados reais relativa ao fluxo migratório entre distritos em Portugal entre o ano 2005 e 2011, em termos de sexo, idade, situação de trabalho e habilitação académica; comparam-se os resultados da aplicação de cada técnica estudada no processo de aglomeração usando a correlação cofenética e avaliam-se os grupos obtidos usando medidas de validação interna e de estabilidade. Relativamente ao conjunto de dados estudado verificou-se, pelos resultados das validações, que a maioria dos métodos hierárquicos com o critério de aglomeração da média apresentam melhores indicadores em termos de correlação cofenética, validação interna e estabilidade dos grupos formados quando analisadas as diferentes características separadamente. Agregando toda a informação numa só matriz de dados, verificou-se que tal método hierárquico exibe qualidade, mas não estabilidade dos grupos
Cluster analysis is a method of multivariate statistical analysis aimed at identifying and, consequently, classifying objects or individuals such that elements in the same cluster are as homogeneous as possible and in different clusters are the most heterogeneous. The main goal of this dissertation is the comparison of clustering techniques. In particular, it is intended to focus on: i) construction of clusters using agglomerative hierarchical techniques, ii) use of cophenetic correlation for comparison of results provided by different linkage criteria, iii) use of internal validation and stability methods in order to evaluate the qualities and stability of the clusters obtained by different methods of Cluster Analysis, and finally, iv) an application of the studied methods to a real data set on migration flow in Portugal between 2005 and 2011; several features like gender, age, work situation and academic qualification will be analyzed. The evaluation of the clusterings will be performed using cophenetic correlation, internal validation and stability measures. Considering the data set, the hierarchical method with average linkage criterion leads to the best clustering in terms of internal validation and stability measures when different characteristics are analyzed separately. Aggregating all the information into a single data matrix, the clustering provided by the linkage criterion exhibits quality (internal validation) but not stability
URI: http://hdl.handle.net/10773/25083
Appears in Collections:DMat - Dissertações de mestrado
UA - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
Documento.pdf1.58 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.