Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/40944
Title: Bioinformatics in complex biological processes: data integration techniques to study translation regulation
Other Titles: Bioinformática em processos biológicos complexos: técnicas de integração de dados para estudar a regulação da tradução
Author: Costa, Gonçalo Fonseca Martins Garcia
Advisor: Soares, Ana Raquel Santos Calhôa Mano
Pinheiro, Miguel Monsanto
Keywords: Translation
RNA
Next-generation sequencing (NGS)
Differential gene expression (DGE)
Codon usage bias
tRNA-derived fragments (tRFs)
Influenza virus (IAV)
Defense Date: 18-Dec-2023
Abstract: RNA molecules are involved in a variety of important biological processes such as RNA transcription and translation, processing and RNA degradation. RNA molecules can be sub-divided in two main categories, namely coding and non-coding RNAs. The advances in high throughput sequencing methodologies have contributed greatly to uncover and characterize different RNA molecules with specific functions. For that reason, there is a great need to develop bioinformatic analysis pipelines that allow to better characterize the molecular processes where the different RNA molecules intervene. The aim of this thesis was to develop methodologies for analyzing different RNA sequencing data, namely RNA-Seq, Ribo-Seq and sncRNA-Seq and establish approaches for data integration to study changes in the preferential translation of genes with a focus on differential gene expression (DGE), codon usage, ribosome occupancy, and their correlation with small non-coding RNAs (sncRNAs). For that, data extracted from A549 cells infected with the influenza A virus (IAV) was used as a study model. For the RNA-Seq and Ribo-Seq the differentially expressed genes (DEGs) were identified, followed by a codon usage analysis and functional enrichment analysis of the identified DEGs. In general, a clear differential host viral response against the IAV viral infection was observed across all datasets and analysis. The codon usage analysis identified biases and the chi-square of independence test established which ones were significant. The identification and quantification of sncRNAs, with a focus on transfer RNA-derived small RNA (tsRNAs), was retrieved from the sncRNA-Seq data. The Gly-GCC derived tsRNAs were identified as the most prevalent tsRNAs generated upon infection. This thesis shows how important it is to develop analysis integration methodologies to evaluate complex cellular processes that are highly regulated, as it is the case of the mRNA translation that is the result of a tight balance between ribosome occupancy, gene codon usage, tRNA supply and demand, post-transcriptional regulation by sncRNAs, and the cellular needs under specific conditions.
As moléculas de ARN estão envolvidas numa série de processos biológicos importantes, tais como a sua transcrição, tradução, processamento e degradação. As moléculas de ARN podem ser subdivididas em duas categorias principais, os ARNs codificantes e os ARNs não codificantes. O avanço nas metodologias de sequenciação de alto rendimento contribuiu significativamente para a descoberta de diferentes moléculas de ARN com funções específicas. Por essa razão, existe uma grande necessidade de desenvolver pipelines de análise bioinformática que permitam caraterizar melhor os processos moleculares em que as diferentes moléculas de ARN intervêm. O objetivo desta tese foi desenvolver metodologias de análise de diferentes dados de sequenciação de RNA, nomeadamente RNA-Seq, Ribo-Seq e sncRNA-Seq, estabelecer abordagens de integração de dados para estes dados de sequenciação de forma a se poder estudar alterações na tradução preferencial de determinados genes com foco na expressão diferencial de genes, no uso de codões, ocupação de ribossomas, e sua correlação com pequenos RNAs não codificantes (sncRNAs). Para o efeito, foram utilizados dados extraídos de células A549 infectadas com o vírus Influenza A (IAV) como modelo de estudo. Para o RNA-Seq e o Ribo-Seq foram identificados os genes diferencialmente expressos (DEGs), seguidos de uma análise ao viés do uso dos codões e de uma análise de enriquecimento funcional dos DEGs identificados. Em geral, foi observada uma resposta viral diferencial clara do hospedeiro contra a infeção viral por IAV em todos os conjuntos de dados e análises. A análise do uso de codões identificou vieses e o teste de independência do Qui-quadrado estabeleceu quais eram significativos. A identificação e a quantificação de pequenos ARN não codificantes (sncRNAs) com foco em pequenos ARN derivados do ARN de transferência (tsRNAs) foram obtidos dos dados de sncRNA-Seq. Os tsRNAs derivados de Gly-GCC foram identificados como os tsRNAs mais predominantes gerados após a infeção. Esta tese mostra como é importante desenvolver metodologias de integração de dados para avaliar processos celulares complexos que são altamente regulados, como é o caso da tradução do mRNA, que é o resultado de um equilíbrio rigoroso entre a ocupação dos ribossomas, o uso de códões dos genes, a oferta e procura de tRNAs, a regulação pós-transcrição por sncRNAs e as necessidades celulares em condições específicas.
URI: http://hdl.handle.net/10773/40944
Appears in Collections:DCM - Dissertações de mestrado
UA - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
Documento_Gonçalo_Costa.pdf4.05 MBAdobe PDFembargoedAccess


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.