Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/39751
Title: | Runs of homozygosity analysis in 12,000 exomes: bioinformatic approaches for diagnostic purposes and population analysis |
Other Titles: | Análise das regiões de homozigotia em 12000 exomas: abordagens bioinformáticas para diagnóstico genético e análise populacional |
Author: | Valente, Susana Mano |
Advisor: | Oliveira, Jorge Soares, Ana Raquel Santos Calhôa Mano |
Keywords: | Runs of homozygosity Bioinformatics model Variant prioritization Whole-exome sequencing Consanguinity Multigene panels Recessive diseases |
Defense Date: | 20-Nov-2023 |
Abstract: | This report presents the activities developed during the curricular internship at
Centre of Predictive and Preventive Genetics (CGPP) from the Institute for
Molecular and Cellular Biology (IBMC) within the scope of the Master’s Degree
in Clinical Bioinformatics at the University of Aveiro. This work presents an indepth
exploration of runs of homozygosity analysis in a large dataset derived
from (>12,000) whole-exome sequencing (WES) samples, with a dual focus on
diagnostic applicability and population analysis. Runs of homozygosity (ROH)
are regions consistently homozygous for genetic markers that can occur
throughout the genome. Their number and size are dependent on the degree of
shared parental ancestry, being particularly relevant in the context of
consanguinity. Based on ROH existence, homozygosity mapping was developed
as powerful tool for gene-discovery in human genetics. Over the years, several
techniques have been proposed to perform homozygosity mapping. One major
development was the introduction of next-generation sequencing (NGS) which
can address simultaneously both homozygosity mapping and variant detection.
Several methods were applied during this work. Individual-level ROH analysis is
detailed, including the generation of ROH profiles using multiple algorithms and
CNV impact assessment on ROH detection. An important development was the
automation of the creation of personalized multigene panels based on ROH and
HPO terms. Additionally, a web application was developed for enhanced creation
of multigene panels. At the populational level, the study describes the creation
of a representative sample of the Portuguese population and the establishment
of the first comprehensive characterization of ROH at a genomic scale in this
population. The development of a dedicated database and an interactive map
further enhances data presentation. Some contributions were made towards a
new clustering model based on ROH features currently being developed in
collaboration with University of Notre Dame, offering new prospects into ROHbased
genetic clustering. The results and discussion section provides a detailed
account of the findings, including the standardization of ROH data, analysis
across multiple capture kits, the impact of CNVs on ROH detection, and the
practicality of a web application for personalized multigene panel creation. The
populational-level analysis showcases the value of ROH in population genetics,
with the first Portuguese characterization of ROH corroborating genomic
landscape specificities in our country. In conclusion, this MSc work made
contributions towards ROH analysis in WES data, demonstrating further its
diagnostic potential and its role in population genetics characterization. The
development of new tools for diagnostic purposes will assist the creation of
personalized gene panels in CGPP, making also possible future research in
genomic analysis and gene-discovery. O presente relatório descreve as atividades desenvolvidas durante o estágio curricular no Centro de Genética Preditiva e Preventiva (CGPP) pertencente ao Instituto de Biologia Molecular e Celular (IBMC) no âmbito do Mestrado em Bioinformática Clínica na Universidade de Aveiro. Este trabalho apresenta uma análise aprofundada de regiões de homozigotia num conjunto de dados de (>12000) amostras de exoma (whole-exome sequencing, WES) com enfoque na sua aplicabilidade no diagnóstico e na análise populacional. As regiões de homozigotia (ROH) são regiões consistentemente homozigóticas para marcadores genéticos que podem ocorrer em todo o genoma. O seu número e tamanho dependem do grau de ancestralidade partilhada entre os progenitores, sendo particularmente relevantes no contexto da consanguinidade. Com base na existência de ROH, o mapeamento de homozigotia foi desenvolvido como uma ferramenta poderosa para a descoberta de genes na genética humana. Ao longo dos anos, foram propostas várias técnicas para efetuar o mapeamento da homozigotia. A introdução da sequenciação de nova geração (NGS), que pode abordar, simultaneamente, o mapeamento de homozigotia e a deteção de variantes. Durante este trabalho foram aplicados vários métodos. A análise de ROH ao nível individual foi detalhada, incluindo a geração de perfis de ROH utilizando diferentes algoritmos e a avaliação do impacto de CNV na deteção de ROH. Um importante desenvolvimento foi a automatização da criação de painéis multigene personalizados com base em ROH e/ou em termos HPO. Além disso, foi desenvolvida uma aplicação web para melhorar a criação de painéis multigene. Ao nível populacional, o estudo descreve a criação de uma amostra representativa da população portuguesa e o estabelecimento da primeira caraterização abrangente de ROH à escala genómica nesta população. O desenvolvimento de uma base de dados dedicada e de um mapa interativo melhoram a apresentação dos dados obtidos. Foram feitas algumas contribuições para um novo modelo de Clustering baseado nas características de ROH, atualmente a ser desenvolvido em colaboração com a Universidade de Notre Dame, oferecendo novas perspetivas para o agrupamento genético baseado em ROH. Os resultados e discussão fornecem uma descrição detalhada da padronização dos dados de ROH, a análise com vários kits de captura, o impacto dos CNVs na deteção de ROH e a funcionalidade da aplicação web para a criação de painéis multigene personalizados. A análise a nível populacional, foi possível estabelecer a primeira caraterização de ROH em Portugal. Em conclusão, este trabalho de mestrado contribuiu para a análise de ROH com base nos dados de WES, demonstrando o seu potencial no diagnóstico e o seu papel na caraterização genética de populações. O desenvolvimento de novas ferramentas para fins de diagnóstico auxiliará a criação de painéis de genes personalizados no CGPP, tornando também possível a investigação futura em análise genómica e a associação de novos genes a doenças genéticas. |
URI: | http://hdl.handle.net/10773/39751 |
Appears in Collections: | DCM - Dissertações de mestrado UA - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Documento_Susana_Valente.pdf | 22.24 MB | Adobe PDF |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.