Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/40667
Title: Decoding the genetic architecture of functional status in COPD: Lasso and its derivatives for feature selection
Other Titles: Descodificando a arquitetura genética do estado funcional na DPOC: Lasso e os seus derivados para seleção de variáveis
Author: Rodrigues, Guilherme Silva
Advisor: Afreixo, Vera
Marques, Alda
Keywords: Chronic obstructive pulmonary disease
Muscle strength
Functional capacity
Genome-wide association study
Feature selection
Least absolute shrinkage and selection
Defense Date: 29-Jun-2023
Abstract: Introduction: Chronic obstructive pulmonary disease (COPD) is a public health problem that causes significant disability and mortality. People with COPD often suffer from peripheral muscle weakness and reduced functional capacity, which affects their own well-being and increases their dependence on others. It is possible that genetics play a role in these manifestations, but analysis remains difficult. Penalised regression methods, such as Lasso and its derivatives, offer a promising approach for both feature selection and parameter estimation for analysing high-dimensional data. Aim: The aim of this study was to investigate the potential association between single nucleotide polymorphisms (SNPs) and functional status in individuals with COPD. In addition, the study addressed the challenge of feature selection in high-dimensional data. Methods: Functional capacity was assessed using the one-minute sit-stand test and the six-minute walk test. Peripheral muscle strength was measured using handgrip strength and quadriceps maximum voluntary contraction. Patients were classified using principal component analysis and hierarchical cluster analysis. An unadjusted (univariate) logistic regression-based genome-wide association study (GWAS) was performed. Cluster membership was considered as the phenotype, assuming an additive genetic model. In addition, four penalised regression models were applied and compared: the (ordinary) logistic Lasso regression as well as two weighted versions of Lasso, namely relaxed Lasso and adaptive Lasso, and finally an elastic net model. Pseudo-R2 metrics were used to evaluate the performance of the models, allowing comparison of model fit. All statistical analyses were performed using PLINK 1.9 and R statistical software (version 4.3.0). Results: A total of 211 patients with COPD were included in the analysis, with genotyping data available for 167 of them. Cluster A consisted mainly of younger, male patients who had fewer symptoms and a higher incidence of obesity. Cluster B consisted primarily of older individuals, including a higher proportion of women, who reported higher symptom severity, lower health-related quality of life, and exhibited lower muscle strength and functional capacity scores compared to Cluster A. No SNP reached genome-wide significance in the logistic regression GWAS. The Lasso and relaxed Lasso estimators showed identical results, identifying 8 variables (including the model intercept) with non-zero coefficients. In contrast, the elastic net model yielded a larger set of 52 variables with non-zero coefficients. Finally, the adaptive Lasso approach selected a total of 99 variables with non-zero coefficients. Conclusion: This study highlights the presence of 99 genetic polymorphisms associated with functional impairment in COPD. These selected covariates provide a starting point for further scientific investigation, including external validation and laboratory-based functional studies, to validate the findings and understand the underlying biological pathways.
Introdução: A doença pulmonar obstrutiva crónica (DPOC) é um problema de saúde pública que causa incapacidade e mortalidade significativa. Pessoas com DPOC sofrem frequentemente com fraqueza muscular periférica e redução da capacidade funcional, o que afeta o seu bem-estar e aumenta a sua dependência de terceiros. A genética pode desempenhar um papel nestas manifestações, mas a sua análise é ainda desafiante. Métodos de regressão penalizada, como Lasso e suas derivações, oferecem uma abordagem alternativa tanto para a seleção de variáveis quanto para a estimativa de parâmetros em dados genómicos (de grande dimensão). Objetivo: Este estudo teve como objetivo investigar a possível associação entre polimorfismos genéticos (SNPs) e estado funcional em indivíduos com DPOC. Além disso, o estudo abordou o desafio da seleção de variáveis em dados de grande dimensão. Métodos: O teste de sentar e levantar de um minuto e o teste de marcha de seis minutos foram utilizados para avaliar a capacidade funcional. A força de preensão manual e a contração voluntária máxima do quadricípite foram medidas para determinar a força muscular periférica. Os indivíduos foram classificados utilizando análise de componentes principais e análise de cluster hierárquico. O resultado da classificação obtida por meio do cluster hierárquico foi considerado como fenótipo, assumindo um modelo genético aditivo. Foi realizado um estudo de associação genética (GWAS) baseado em regressão logística não ajustada (univariada). Foram aplicados e comparados quatro modelos de regressão penalizada: regressão Lasso logística, bem como duas versões ponderadas do Lasso, conhecidas como Lasso relaxado e Lasso adaptativo, e um modelo elastic net. Métricas de pseudo-R2 foram usadas para avaliar o desempenho dos modelos, permitindo a comparação do ajuste do modelo. Todas as análises estatísticas foram realizadas utilizando os softwares PLINK 1.9 e R (versão 4.3.0). Resultados: Um total de 211 pessoas com DPOC foram incluídos na análise, sendo que dados de genotipagem estavam disponíveis para 167 deles. O Cluster A era composto principalmente por indivíduos mais jovens e do sexo masculino, com menos sintomas e maior incidência de obesidade. Em contraste, o Cluster B era composto principalmente por indivíduos mais velhos, incluindo uma proporção maior de mulheres, que referiram maior severidade dos sintomas, menor qualidade de vida relacionada à saúde e apresentaram pontuações mais baixas de força muscular e capacidade funcional em comparação com o Cluster A. Nenhum polimorfismo alcançou o nível de significância na regressão logística GWAS. Os estimadores Lasso e Lasso relaxado exibiram resultados idênticos, identificando 8 variáveis (incluindo a constante do modelo) com coeficientes diferentes de zero. Em contraste, o modelo elastic net resultou num conjunto maior de 52 variáveis com coeficientes diferentes de zero. Por fim, a abordagem Lasso adaptativo selecionou um total de 99 variáveis com coeficientes diferentes de zero. Conclusão: Este estudo destaca a presença de 99 polimorfismos genéticos associados à deterioração funcional na DPOC. O conjunto de covariáveis selecionadas constitui agora um bom ponto de partida para futuras investigações científicas, incluindo validação externa e estudos funcionais, para validar os resultados e elucidar os mecanismos biológicos subjacentes.
URI: http://hdl.handle.net/10773/40667
Appears in Collections:UA - Dissertações de mestrado
DMat - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
Documento_Guilherme_Rodrigues.pdf1.78 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.