Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/41900
Title: Content analysis and semantic enrichment of financial news
Other Titles: Análise de conteúdo e enriquecimento semântico de notícias financeiras
Author: António, João Alexandre Mateus Luna
Advisor: Matos, Sérgio Guilherme Aleixo de
Keywords: Natural language processing
Automatic summarization
Machine learning modeling
News categorization
Defense Date: 12-Apr-2024
Abstract: This thesis, a collaborative endeavor with TTR Data, a company focused on economic data in Portuguese and Spanish-speaking countries, introduces an innovative workflow to enhance the analysis of extensive news datasets. The proposed process begins with the translation and cleaning of data into English, setting the stage for the application of advanced natural language processing (NLP) techniques. Subsequent steps include the identification of duplicate articles, prioritization of news using DistilBERT models, and categorization with a focus on mergers and acquisitions via BERT models. The final stages involve summarization and entity extraction using T5 models. Our findings demonstrate a marked increase in the effectiveness of the summarization model, attributed to meticulous data selection and the synergistic use of two distinct models for prioritization. Although some metrics, particularly those related to filter models, showed a slight decline in the production phase, the summarization metrics notably improved. This improvement is partly because the generated summaries were utilized as foundational drafts for the final synopses, underscoring the practical utility and efficiency of the proposed workflow.
Esta tese, desenvolvida em colaboração com a TTR Data, uma empresa especializada em dados económicos de países de língua portuguesa e espanhola, apresenta um fluxo de trabalho inovador para otimizar a análise de grandes volumes de dados de notícias. O processo inicia com a tradução e limpeza dos dados para inglês, facilitando a utilização de modelos avançados de processamento de linguagem natural (PLN). Segue-se a identificação de artigos duplicados, priorização de notícias utilizando modelos DistilBERT, categorização focada em fusões e aquisições com modelos BERT e, finalmente, a sumarização e extração de entidades com modelos T5. O estudo revela que a eficácia do modelo de sumarização aumenta com uma seleção rigorosa de dados e a combinação de dois modelos distintos para priorização melhora significativamente os resultados. Embora algumas métricas, nomeadamente as dos modelos de filtragem, apresentem uma ligeira diminuição na fase de produção, as métricas de sumarização melhoraram notavelmente. Este aumento deve-se em parte ao fato de as sumarizações geradas serem utilizadas como rascunhos para os sinopses finais, sublinhando a utilidade prática e a eficiência do fluxo de trabalho proposto.
URI: http://hdl.handle.net/10773/41900
Appears in Collections:UA - Dissertações de mestrado
DETI - Dissertações de mestrado
DMat - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
Documento_João_António.pdf18.91 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.