Utilize este identificador para referenciar este registo: http://hdl.handle.net/10773/25887
Título: Web platform for ETL process management in multi-institution environments
Outros títulos: Plataforma web para gestão de processos ETL em ambientes multi-instituição
Autor: Coelho, Leonardo Gabriel Sousa
Orientador: Oliveira, José Luis Guimarães
Data de Defesa: 2018
Resumo: The technological evolution and the successive digitization of processes and services created new opportunities for data collection in a wide range of application areas. The promise of statistics-driven decision-making is now being widely recognized. Data Warehouses seek to store all relevant information for a particular business, allowing the efficient analysis of large volumes of data, supporting decision-making and future events prediction. A Data Warehouse may integrate data from multiple data sources. Hence, the data present in the various heterogeneous data sources must be properly captured, parsed and standardized. ETL processes adress this need, allowing the definition of a programming workflow which combines data extraction, transformation and loading functions. The enthusiasm for tools that allow the development of ETL processes in a visual way has been increasing, because they make the process simpler and more intuitive. However, there are currently no robust and comprehensive web tools for developing ETL processes. A web solution enables centralized application installation, freeing the ETL process developer from the need to manage the application installation, as well as its dependencies and database connectors. The main goal of this dissertation was to develop a robust and comprehensive web solution for the development and management of ETL processes in a multi-institution environment. Knowing that the used data is typically sensitive, it was necessary to ensure data privacy and protection. In addition, ETL processes are periodically executed to update the Data Warehouse or to produce statistical reports, requiring the ability to define scheduled and periodic execution of ETL processes.
A evolução tecnológica e a digitização sucessiva de processos e serviços têm criado novas oportunidades no domínio da integração de dados. A promessa de tomada de decisões baseada em estatísticas tem sido amplamente reconhecida. Nesse sentido, Data Warehouses são estruturas que procuram armazenar todas as informações relevantes de um negócio em particular, possibilitando a análise eficiente de grandes volumes de dados, oferecendo suporte à tomada de decisões e à previsão de eventos futuros. Uma Data Warehouse pode integrar dados de múltiplas fontes. Sendo assim, os dados presentes nas diversas fontes de dados heterogéneas devem ser devidamente capturados, tratados e uniformizados. Os processos ETL respondem a essa necessidade, permitindo a definição de um fluxo de trabalho programado que combina funções de extração, transformação e carregamento de dados. O entusiasmo por ferramentas que permitem o desenvolvimento de processos ETL de uma forma visual tem vindo a aumentar, pois tornam o processo mais simples e intuitivo. Contudo, atualmente não existem ferramentas web robustas e completas para o desenvolvimento de processos ETL. Uma solução web permite a instalação centralizada da aplicação, libertando o desenvolvedor dos processos ETL da necessidade de gerir a instalação da aplicação, assim como as suas dependências e conectores de bases de dados. Esta dissertação teve como principal objetivo o desenvolvimento de uma solução web completa e robusta que permitisse o desenvolvimento e gestão de processos ETL num contexto multi-instituição. Sabendo que os dados usados são tipicamente sensíveis, era necessário garantir a privacidade e proteção dos mesmos. Além disso, os processos ETL são executados periodicamente para atualizar a Data Warehouse ou para a produção de relatórios estatísticos, sendo necessária a capacidade de execução escalonada e periódica dos processos.
URI: http://hdl.handle.net/10773/25887
Aparece nas coleções: UA - Dissertações de mestrado
DETI - Dissertações de mestrado

Ficheiros deste registo:
Ficheiro Descrição TamanhoFormato 
tese.pdf2.37 MBAdobe PDFVer/Abrir


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.