Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/34198
Title: | Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data |
Author: | Silva, Ana Maria Rodrigues da |
Advisor: | Macedo, Pedro Lopes, Maria da Conceição Cristo Santos |
Keywords: | Info-metrics Big data Regressão linear Colinearidade Dados não homogéneos Entropia Máxima entropia Entropia normalizada Mínimos quadrados ordinários Máxima entropia generalizada Máxima entropia generalizada ponderada Bagging Magging Neagging |
Defense Date: | 13-Dec-2021 |
Abstract: | Nos últimos dois anos, foram gerados 90% dos dados existentes atualmente,
com 2:5 1018 bytes de informação gerada diariamente. No
futuro, o previsível aumento substancial da quantidade de informação
implicará o surgimento de mais problemas relacionados com a dimensão
dos dados. Apesar deste crescimento acentuado na quantidade
de informação ser vantajoso, existem muitos desafios que ainda são
necessários ultrapassar, tais como, por exemplo: como guardar, partilhar
e proteger os dados? Como obter, de forma eficiente, a informação
relevante contida nestes grandes volumes de dados? Os métodos
tradicionais de processamento de dados não conseguem gerir e fornecer
uma análise adequada da informação para um problema de big
data. Para além disto, os conjuntos de dados podem apresentar características
indesejadas em tratamento estatístico, como dados não
homogéneos, presença de colinearidade nos dados ou outras dificuldades
da análise estatística, resultando em observações afetadas por
ruído. Metodologias de agregação e a abordagem de info-metrics pretendem
resolver, de uma forma mais eficiente e precisa, alguns destes
problemas. Neste trabalho, são simuladas diferentes matrizes de variáveis
explicativas, com diferentes números de condição, e gerados
vetores de perturbações aleatórias, modelados por diferentes distribuições
estatísticas. Deste modo, são obtidos conjuntos de dados com
diversas características distintas. Posteriormente, são efetuadas amostragens
aleatórias, com diferente número de grupos e diferente número
de observações por grupo, e calculadas as estimativas dos coeficientes
de regressão para cada um dos grupos obtidos. Foram utilizados
os seguintes estimadores: o usual OLS, o estimador GME, e uma extensão
deste, o W-GME. Por último, estes vetores de estimativas são
agregados segundo um determinado critério, nomeadamente com a implementação
de um dos três procedimentos: bagging; mais indicado
para dados homogéneos, magging, mais vocacionado para dados não
homogéneos; e uma nova metodologia, neagging, baseada no conteúdo
de informação de cada grupo. O objetivo deste trabalho foi estudar
o desempenho destas metodologias em modelos de regressão linear,
aplicando diferentes estimadores e estudando a variação de alguns dos
parâmetros intrínsecos aos métodos. Os resultados mostram que os estimadores
influenciam o desempenho dos métodos de agregação e que
o procedimento magging, recorrendo ao estimador W-GME, fornece os
melhores resultados para a generalidade dos cenários, principalmente
nos que são afetados por colinearidade. Over the past two years, 90% of the current total data was generated, with more than 2:5 1018 bytes of information generated daily. In the future, this growth in information volume will increase, meaning that more problems related with data dimension will arise. Although an increase in information volume could be advantageous, there is a need to overcome the many challenges associated, such as saving, sharing, and protecting the data, as well as extracting relevant information from larger volumes of data. A proper analysis of the results in the context of a big data problem cannot be fully fulfilled by the traditional methods of data processing. Moreover, the datasets can present undesirable characteristics, such as inhomogeneous data, the presence of collinearity in the data and other difficulties in statistical analysis, resulting in observations affected by noise. Aggregation methodologies and the info-metrics approach look forward to solve some of these problems in a more efficient and precise way. Different matrices of explanatory variables with different condition numbers and random perturbations vectors, modelled by distinct distributions, were simulated in this work. As follows, datasets with diverse characteristics were obtained. Then, random samplings varying the number of groups and the number of observations per group were performed, and the estimatives of the regression coefficients were calculated for each of the obtained groups. The estimators considered were the usual OLS, the GME estimator, and its extension, the W-GME. Finnaly, the aggregation of these estimated vectors was achieved by implementing one of the following procedures: bagging, most indicated in homogeneous data; magging, aimed towards inhomogeneous data; and a new methodology called neagging, based on the information content of each group. The objective of this work was to study the performance of these methodologies in linear regression models, applying different estimators and studying the methods, considering the variation of some of their intrinsic parameters. The obtained results showed that the estimators influence the performance of the aggregation methods and that the magging procedure, using the W-GME estimator, usually provides the best results in most of the scenarios, mainly in the ones affected by collinearity. |
URI: | http://hdl.handle.net/10773/34198 |
Appears in Collections: | UA - Dissertações de mestrado DMat - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Documento_Ana_Maria_Silva.pdf | 4.67 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.