Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/14697
Title: | Mediator framework for inserting data into hadoop |
Other Titles: | Plataforma de mediação para a inserção de dados em hadoop |
Author: | Capitão, Micael José Pedrosa |
Advisor: | Pereira, Óscar Narciso Mortágua |
Keywords: | Engenharia de computadores Bases de dados distribuídas Gestão de bases de dados |
Defense Date: | 2014 |
Publisher: | Universidade de Aveiro |
Abstract: | Data has always been one of the most valuable resources for organizations.
With it we can extract information and, with enough information on a subject,
we can build knowledge. However, it is first needed to store that data for later
processing. On the last decades we have been assisting what was called
“information explosion”. With the advent of the new technologies, the volume,
velocity and variety of data has increased exponentially, becoming what is
known today as big data.
Telecommunications operators gather, using network monitoring equipment,
millions of network event records, the Call Detail Records (CDRs) and the
Event Detail Records (EDRs), commonly known as xDRs. These records are
stored and later processed to compute network performance and quality of
service metrics. With the ever increasing number of telecommunications subscribers,
the volume of generated xDRs needing to be stored and processed
has increased exponentially, making the current solutions based on relational
databases not suited any more and so, they are facing a big data problem.
To handle that problem, many contributions have been made on the last years
that have resulted in solid and innovative solutions. Among them, Hadoop
and its vast ecosystem stands out. Hadoop integrates new methods of storing
and process high volumes of data in a robust and cost-effective way, using
commodity hardware.
This dissertation presents a platform that enables the current systems
inserting data into relational databases, to keep doing it transparently
when migrating those to Hadoop. The platform has to, like in the relational
databases, give delivery guarantees, support unique constraints and, be fault
tolerant.
As proof of concept, the developed platform was integrated with a system
specifically designed to the computation of performance and quality of service
metrics from xDRs, the Altaia. The performance tests have shown the platform
fulfils and exceeds the requirements for the insertion rate of records. During
the tests the behaviour of the platform when trying to insert duplicated records
and when in failure scenarios have also been evaluated. The results for both
situations were as expected. “Dados” sempre foram um dos mais valiosos recursos das organizações. Com eles pode-se extrair informação e, com informação suficiente, pode-se criar conhecimento. No entanto, é necessário primeiro conseguir guardar esses dados para posteriormente os processar. Nas últimas décadas tem-se assistido ao que foi apelidado de “explosão de informação”. Com o advento das novas tecnologias, o volume, velocidade e variedade dos dados tem crescido exponencialmente, tornando-se no que é hoje conhecido como big data. Os operadores de telecomunicações obtêm, através de equipamentos de monitorização da rede, milhões de registos relativos a eventos da rede, os Call Detail Records (CDRs) e os Event Detail Records (EDRs), conhecidos como xDRs. Esses registos são armazenados e depois processados para deles se produzirem métricas relativas ao desempenho da rede e à qualidade dos serviços prestados. Com o aumento dos utilizadores de telecomunicações, o volume de registos gerados que precisam de ser armazenados e processados cresceu exponencialmente, inviabilizando as soluções que assentam em bases de dados relacionais, estando-se agora perante um problema de big data. Para tratar esse problema, múltiplas contribuições foram feitas ao longo dos últimos anos que resultaram em soluções sólidas e inovadores. De entre elas, destaca-se o Hadoop e o seu vasto ecossistema. O Hadoop incorpora novos métodos de guardar e tratar elevados volumes de dados de forma robusta e rentável, usando hardware convencional. Esta dissertação apresenta uma plataforma que possibilita aos actuais sistemas que inserem dados em bases de dados relacionais, que o continuem a fazer de forma transparente quando essas migrarem para Hadoop. A plataforma tem de, tal como nas bases de dados relacionais, dar garantias de entrega, suportar restrições de chaves únicas e ser tolerante a falhas. Como prova de conceito, integrou-se a plataforma desenvolvida com um sistema especificamente desenhado para o cálculo de métricas de performance e de qualidade de serviço a partir de xDRs, o Altaia. Pelos testes de desempenho realizados, a plataforma cumpre e excede os requisitos relativos à taxa de inserção de registos. Durante os testes também se avaliou o seu comportamento perante tentativas de inserção de registos duplicados e perante situações de falha, tendo o resultado, para ambas as situações, sido o esperado. |
Description: | Mestrado em Engenharia de Computadores e Telemática |
URI: | http://hdl.handle.net/10773/14697 |
Appears in Collections: | UA - Dissertações de mestrado DETI - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Plataforma de Mediação para a Inserção de Dados em Hadoop.pdf | 1.4 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.