Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/17218
Title: | DICOOGLE: No-SQL for supporting Big Data environments |
Other Titles: | DICOOGLE: No-SQL para suporte de ambientes Big Data |
Author: | Alves, André Filipe Pereira |
Advisor: | Costa, Carlos Manuel Azevedo |
Keywords: | Engenharia de computadores e telemática Bioinformática Sistemas de informação médica Diagnóstico por imagem Armazenamento de dados - Imagens Recuperação da informação Bases de dados relacionais |
Defense Date: | 2016 |
Publisher: | Universidade de Aveiro |
Abstract: | The last few years have been characterized by a proliferation of different types
of medical imaging modalities in healthcare institutions. As a result, the services
are migrating to infrastructures in the Cloud. Thus, in addition to a scenario
where tremendous amounts of data are produced, we walked to a reality
where processes are increasingly distributed. Consequently, this reality has
created new technological challenges regarding storage, management and
handling of this data, in order to guarantee high availability and performance
of the information systems, dealing with the images. An Open Source Picture
Archive and Communication System (PACS) has been developed by the bioinformatics
research group at the University of Aveiro labeled Dicoogle. This
system replaced the traditional relational database engine for an agile mechanism,
which indexes and retrieves data. Thus it is possible to extract, index
and store all the image’s metadata, including any private information, without
re-engineering or reconfiguration process. Among other use cases, this system
has already indexed more than 22 million images in 3 hospitals from the
region of Aveiro. Currently, Dicoogle provides a solution based on the Apache
Lucene library. However, it has performance issues in environments where
we need to handle and search over large amounts of data, more particularly
in data analytics scenarios. In the context of this work, different technologies
capable of supporting a database of an image repository were studied. In sequence,
four solutions were fully implemented based on relational databases,
NoSQL and two distinct text engines. A test platform was also developed to
evaluate the performance and scalability of these solutions, which allowed a
comparative analysis of them. In the end, it is proposed a hybrid architecture
of medical image database, which was implemented and validated. This proposal
has demonstrated significant gains in terms of query, index time and in
scenarios where it is required a wide data analyze. Os últimos anos têm sido caracterizados por uma proliferação de diversos tipos de modalidades de imagem médica nas instituições de saúde. Por outro lado, assistimos a uma migração de serviços para infraestruturas na Cloud. Assim, para além de um cenário onde são produzidos tremendos volumes de dados, caminhamos para uma realidade em que os processos são cada vez mais distribuídos. Tal realidade tem colocado novos desafios tecnológicos ao nível do arquivo, transmissão e visualização, muito particularmente nos aspetos de desempenho e escalabilidade dos sistemas de informação que lidam com a imagem. O grupo de bioinformática da universidade de Aveiro tem vindo a desenvolver um inovador sistema distribuído de arquivo de imagem médica, o Dicoogle Open Source PACS. Este sistema substituiu o tradicional motor de base de dados relacional por um mecanismo ágil de indexação e recuperação de dados. Desta forma é possível extrair, indexar e armazenar todos os metadados das imagens, incluindo eventuais elementos privados, sem necessidade de processos de reengenharia ou reconfiguração. Entre outros casos de uso, este sistema já indexou mais de 22 milhões de imagens em 3 hospitais da região de Aveiro. Atualmente, o Dicoogle dispõe de uma solução baseada na biblioteca Apache Lucene. No entanto, esta tem demonstrado alguns problemas de desempenho em ambientes em que temos necessidade de manusear e pesquisar sobre uma grande quantidade de dados, muito particularmente em cenários de análise de dados. No âmbito desta dissertação foram estudadas diferentes tecnologias capazes de suportar uma base dados de um repositório de imagem. Em sequência, foram implementadas quatro soluções baseadas em bases de dados relacionais, NoSQL e motor de indexação. Foi também desenvolvida uma plataforma de testes de desempenho e escalabilidade que permitiu efetuar uma análise comparativa das soluções implementadas. No final, é proposta uma arquitetura híbrida de base de dados de imagem médica que foi implementada e validada. Tal proposta demonstrou ter ganhos significativos ao nível dos tempos de pesquisa de conteúdos e em cenários de análise alargada de dados. |
Description: | Mestrado em Engenharia de Computadores e Telemática |
URI: | http://hdl.handle.net/10773/17218 |
Appears in Collections: | UA - Dissertações de mestrado DETI - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Tese_64583.pdf | 3.58 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.