Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/17218
Title: DICOOGLE: No-SQL for supporting Big Data environments
Other Titles: DICOOGLE: No-SQL para suporte de ambientes Big Data
Author: Alves, André Filipe Pereira
Advisor: Costa, Carlos Manuel Azevedo
Keywords: Engenharia de computadores e telemática
Bioinformática
Sistemas de informação médica
Diagnóstico por imagem
Armazenamento de dados - Imagens
Recuperação da informação
Bases de dados relacionais
Defense Date: 2016
Publisher: Universidade de Aveiro
Abstract: The last few years have been characterized by a proliferation of different types of medical imaging modalities in healthcare institutions. As a result, the services are migrating to infrastructures in the Cloud. Thus, in addition to a scenario where tremendous amounts of data are produced, we walked to a reality where processes are increasingly distributed. Consequently, this reality has created new technological challenges regarding storage, management and handling of this data, in order to guarantee high availability and performance of the information systems, dealing with the images. An Open Source Picture Archive and Communication System (PACS) has been developed by the bioinformatics research group at the University of Aveiro labeled Dicoogle. This system replaced the traditional relational database engine for an agile mechanism, which indexes and retrieves data. Thus it is possible to extract, index and store all the image’s metadata, including any private information, without re-engineering or reconfiguration process. Among other use cases, this system has already indexed more than 22 million images in 3 hospitals from the region of Aveiro. Currently, Dicoogle provides a solution based on the Apache Lucene library. However, it has performance issues in environments where we need to handle and search over large amounts of data, more particularly in data analytics scenarios. In the context of this work, different technologies capable of supporting a database of an image repository were studied. In sequence, four solutions were fully implemented based on relational databases, NoSQL and two distinct text engines. A test platform was also developed to evaluate the performance and scalability of these solutions, which allowed a comparative analysis of them. In the end, it is proposed a hybrid architecture of medical image database, which was implemented and validated. This proposal has demonstrated significant gains in terms of query, index time and in scenarios where it is required a wide data analyze.
Os últimos anos têm sido caracterizados por uma proliferação de diversos tipos de modalidades de imagem médica nas instituições de saúde. Por outro lado, assistimos a uma migração de serviços para infraestruturas na Cloud. Assim, para além de um cenário onde são produzidos tremendos volumes de dados, caminhamos para uma realidade em que os processos são cada vez mais distribuídos. Tal realidade tem colocado novos desafios tecnológicos ao nível do arquivo, transmissão e visualização, muito particularmente nos aspetos de desempenho e escalabilidade dos sistemas de informação que lidam com a imagem. O grupo de bioinformática da universidade de Aveiro tem vindo a desenvolver um inovador sistema distribuído de arquivo de imagem médica, o Dicoogle Open Source PACS. Este sistema substituiu o tradicional motor de base de dados relacional por um mecanismo ágil de indexação e recuperação de dados. Desta forma é possível extrair, indexar e armazenar todos os metadados das imagens, incluindo eventuais elementos privados, sem necessidade de processos de reengenharia ou reconfiguração. Entre outros casos de uso, este sistema já indexou mais de 22 milhões de imagens em 3 hospitais da região de Aveiro. Atualmente, o Dicoogle dispõe de uma solução baseada na biblioteca Apache Lucene. No entanto, esta tem demonstrado alguns problemas de desempenho em ambientes em que temos necessidade de manusear e pesquisar sobre uma grande quantidade de dados, muito particularmente em cenários de análise de dados. No âmbito desta dissertação foram estudadas diferentes tecnologias capazes de suportar uma base dados de um repositório de imagem. Em sequência, foram implementadas quatro soluções baseadas em bases de dados relacionais, NoSQL e motor de indexação. Foi também desenvolvida uma plataforma de testes de desempenho e escalabilidade que permitiu efetuar uma análise comparativa das soluções implementadas. No final, é proposta uma arquitetura híbrida de base de dados de imagem médica que foi implementada e validada. Tal proposta demonstrou ter ganhos significativos ao nível dos tempos de pesquisa de conteúdos e em cenários de análise alargada de dados.
Description: Mestrado em Engenharia de Computadores e Telemática
URI: http://hdl.handle.net/10773/17218
Appears in Collections:UA - Dissertações de mestrado
DETI - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
Tese_64583.pdf3.58 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.