Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data

Silva, Ana Maria Rodrigues da

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/34198

Title:	Metodologias de agregação em modelos de regressão linear: estimação em contexto de colinearidade e big data
Author:	Silva, Ana Maria Rodrigues da
Advisor:	Macedo, Pedro Lopes, Maria da Conceição Cristo Santos
Keywords:	Info-metrics Big data Regressão linear Colinearidade Dados não homogéneos Entropia Máxima entropia Entropia normalizada Mínimos quadrados ordinários Máxima entropia generalizada Máxima entropia generalizada ponderada Bagging Magging Neagging
Defense Date:	13-Dec-2021
Abstract:	Nos últimos dois anos, foram gerados 90% dos dados existentes atualmente, com 2:5 1018 bytes de informação gerada diariamente. No futuro, o previsível aumento substancial da quantidade de informação implicará o surgimento de mais problemas relacionados com a dimensão dos dados. Apesar deste crescimento acentuado na quantidade de informação ser vantajoso, existem muitos desafios que ainda são necessários ultrapassar, tais como, por exemplo: como guardar, partilhar e proteger os dados? Como obter, de forma eficiente, a informação relevante contida nestes grandes volumes de dados? Os métodos tradicionais de processamento de dados não conseguem gerir e fornecer uma análise adequada da informação para um problema de big data. Para além disto, os conjuntos de dados podem apresentar características indesejadas em tratamento estatístico, como dados não homogéneos, presença de colinearidade nos dados ou outras dificuldades da análise estatística, resultando em observações afetadas por ruído. Metodologias de agregação e a abordagem de info-metrics pretendem resolver, de uma forma mais eficiente e precisa, alguns destes problemas. Neste trabalho, são simuladas diferentes matrizes de variáveis explicativas, com diferentes números de condição, e gerados vetores de perturbações aleatórias, modelados por diferentes distribuições estatísticas. Deste modo, são obtidos conjuntos de dados com diversas características distintas. Posteriormente, são efetuadas amostragens aleatórias, com diferente número de grupos e diferente número de observações por grupo, e calculadas as estimativas dos coeficientes de regressão para cada um dos grupos obtidos. Foram utilizados os seguintes estimadores: o usual OLS, o estimador GME, e uma extensão deste, o W-GME. Por último, estes vetores de estimativas são agregados segundo um determinado critério, nomeadamente com a implementação de um dos três procedimentos: bagging; mais indicado para dados homogéneos, magging, mais vocacionado para dados não homogéneos; e uma nova metodologia, neagging, baseada no conteúdo de informação de cada grupo. O objetivo deste trabalho foi estudar o desempenho destas metodologias em modelos de regressão linear, aplicando diferentes estimadores e estudando a variação de alguns dos parâmetros intrínsecos aos métodos. Os resultados mostram que os estimadores influenciam o desempenho dos métodos de agregação e que o procedimento magging, recorrendo ao estimador W-GME, fornece os melhores resultados para a generalidade dos cenários, principalmente nos que são afetados por colinearidade. Over the past two years, 90% of the current total data was generated, with more than 2:5 1018 bytes of information generated daily. In the future, this growth in information volume will increase, meaning that more problems related with data dimension will arise. Although an increase in information volume could be advantageous, there is a need to overcome the many challenges associated, such as saving, sharing, and protecting the data, as well as extracting relevant information from larger volumes of data. A proper analysis of the results in the context of a big data problem cannot be fully fulfilled by the traditional methods of data processing. Moreover, the datasets can present undesirable characteristics, such as inhomogeneous data, the presence of collinearity in the data and other difficulties in statistical analysis, resulting in observations affected by noise. Aggregation methodologies and the info-metrics approach look forward to solve some of these problems in a more efficient and precise way. Different matrices of explanatory variables with different condition numbers and random perturbations vectors, modelled by distinct distributions, were simulated in this work. As follows, datasets with diverse characteristics were obtained. Then, random samplings varying the number of groups and the number of observations per group were performed, and the estimatives of the regression coefficients were calculated for each of the obtained groups. The estimators considered were the usual OLS, the GME estimator, and its extension, the W-GME. Finnaly, the aggregation of these estimated vectors was achieved by implementing one of the following procedures: bagging, most indicated in homogeneous data; magging, aimed towards inhomogeneous data; and a new methodology called neagging, based on the information content of each group. The objective of this work was to study the performance of these methodologies in linear regression models, applying different estimators and studying the methods, considering the variation of some of their intrinsic parameters. The obtained results showed that the estimators influence the performance of the aggregation methods and that the magging procedure, using the W-GME estimator, usually provides the best results in most of the scenarios, mainly in the ones affected by collinearity.
URI:	http://hdl.handle.net/10773/34198
Appears in Collections:	UA - Dissertações de mestrado DMat - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Documento_Ana_Maria_Silva.pdf		4.67 MB	Adobe PDF	View/Open

Show full item record