Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/25887
Title: Web platform for ETL process management in multi-institution environments
Other Titles: Plataforma web para gestão de processos ETL em ambientes multi-instituição
Author: Coelho, Leonardo Gabriel Sousa
Advisor: Oliveira, José Luis Guimarães
Defense Date: 2018
Abstract: The technological evolution and the successive digitization of processes and services created new opportunities for data collection in a wide range of application areas. The promise of statistics-driven decision-making is now being widely recognized. Data Warehouses seek to store all relevant information for a particular business, allowing the efficient analysis of large volumes of data, supporting decision-making and future events prediction. A Data Warehouse may integrate data from multiple data sources. Hence, the data present in the various heterogeneous data sources must be properly captured, parsed and standardized. ETL processes adress this need, allowing the definition of a programming workflow which combines data extraction, transformation and loading functions. The enthusiasm for tools that allow the development of ETL processes in a visual way has been increasing, because they make the process simpler and more intuitive. However, there are currently no robust and comprehensive web tools for developing ETL processes. A web solution enables centralized application installation, freeing the ETL process developer from the need to manage the application installation, as well as its dependencies and database connectors. The main goal of this dissertation was to develop a robust and comprehensive web solution for the development and management of ETL processes in a multi-institution environment. Knowing that the used data is typically sensitive, it was necessary to ensure data privacy and protection. In addition, ETL processes are periodically executed to update the Data Warehouse or to produce statistical reports, requiring the ability to define scheduled and periodic execution of ETL processes.
A evolução tecnológica e a digitização sucessiva de processos e serviços têm criado novas oportunidades no domínio da integração de dados. A promessa de tomada de decisões baseada em estatísticas tem sido amplamente reconhecida. Nesse sentido, Data Warehouses são estruturas que procuram armazenar todas as informações relevantes de um negócio em particular, possibilitando a análise eficiente de grandes volumes de dados, oferecendo suporte à tomada de decisões e à previsão de eventos futuros. Uma Data Warehouse pode integrar dados de múltiplas fontes. Sendo assim, os dados presentes nas diversas fontes de dados heterogéneas devem ser devidamente capturados, tratados e uniformizados. Os processos ETL respondem a essa necessidade, permitindo a definição de um fluxo de trabalho programado que combina funções de extração, transformação e carregamento de dados. O entusiasmo por ferramentas que permitem o desenvolvimento de processos ETL de uma forma visual tem vindo a aumentar, pois tornam o processo mais simples e intuitivo. Contudo, atualmente não existem ferramentas web robustas e completas para o desenvolvimento de processos ETL. Uma solução web permite a instalação centralizada da aplicação, libertando o desenvolvedor dos processos ETL da necessidade de gerir a instalação da aplicação, assim como as suas dependências e conectores de bases de dados. Esta dissertação teve como principal objetivo o desenvolvimento de uma solução web completa e robusta que permitisse o desenvolvimento e gestão de processos ETL num contexto multi-instituição. Sabendo que os dados usados são tipicamente sensíveis, era necessário garantir a privacidade e proteção dos mesmos. Além disso, os processos ETL são executados periodicamente para atualizar a Data Warehouse ou para a produção de relatórios estatísticos, sendo necessária a capacidade de execução escalonada e periódica dos processos.
URI: http://hdl.handle.net/10773/25887
Appears in Collections:DETI - Dissertações de mestrado
UA - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
tese.pdf2.37 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.