Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/17886
Title: | Automatic and interactive annotation of PDF documents |
Other Titles: | Anotação automática e interativa de documentos PDF |
Author: | Santos, André Jerónimo Martins dos |
Advisor: | Matos, Sérgio Guilherme Aleixo de |
Keywords: | Engenharia de computadores e telemática Sistemas de informação médica Bioinformática Documentos electrónicos Recuperação da informação Armazenamento de dados |
Defense Date: | 2016 |
Publisher: | Universidade de Aveiro |
Abstract: | O aumento acelerado da literatura biomédica levou ao desenvolvimento de
vários esforços para extrair e armazenar, de forma estruturada, a informação
relativa aos conceitos e relações presentes nesses textos, oferecendo aos investigadores
e clínicos um acesso rápido e fácil à informação. No entanto,
este processo de "curadoria de conhecimento" é uma tarefa extremamente
exaustiva, sendo cada vez mais comum o uso de ferramentas de anotação
automática, fazendo uso de técnicas de mineração de texto. Apesar de já
existirem sistemas de anotação bastante completos e que apresentam um
alto desempenho, estes não são largamente usados pela comunidade biomédica,
principalmente por serem complexos e apresentarem limitações ao
nível de usabilidade. Por outro lado, o PDF tornou-se nos últimos anos num
dos formatos mais populares para publicar e partilhar documentos visto poder
ser apresentado exatamente da mesma maneira independentemente do
sistema ou plataforma em que é acedido. A maioria das ferramentas de anotação
foram principalmente desenhadas para extrair informação de texto livre,
contudo hoje em dia uma grande parte da literatura biomédica é publicada e
distribuída em PDF, e portanto a extração de informação de documentos PDF
deve ser um ponto de foco para a comunidade de mineração de texto biomédico.
O objetivo do trabalho descrito nesta dissertação foi a extensão da framework
Neji, permitindo o processamento de documentos em formato PDF, e a integração
dessas funcionalidades na plataforma Egas, permitindo que um utilizador
possa visualizar e anotar, simultaneamente, o artigo original no formato
PDF e o texto extraído deste.
Os sistemas desenvolvidos apresentam bons resultados de desempenho,
tanto em termos de velocidade de processamento como de representação da
informação, o que também contribui para uma melhor experiência de utilizador.
Além disso, apresentam várias vantagens para a comunidade de mineração
de texto e curadores, permitindo a anotação direta de artigos no formato
PDF e simplificando o uso e configuração destes sistemas de anotação por
parte de investigadores. The accelerated increase of the biomedical literature has led to various efforts to extract and store, in a structured way, the information related with the concepts and relations presented in those texts, providing to investigators and researchers a fast and easy access to knowledge. However, this process of “knowledge curation” is an extremely exhaustive task, being more and more common demanding the application of automatic annotation tools, that make use of text mining techniques. Even thought complete annotation systems already exist and produce high performance results, they are not widely used by the biomedical community, mainly because of their complexity and also due to some limitations in usability. On the other hand, the PDF has become in the last years one of the most popular formats for publishing and sharing documents because of it can be displayed exactly in the same way independently of the system or platform where it is accessed. The majority of annotation tools were mainly designed to extract information from raw text, although a big part of the biomedical literature is published and distributed in PDF, and thus the information extraction from PDF documents should be a focus point for the biomedical text mining community. The objective of the work described in this document is the extension of Neji framework, allowing the processing of documents in PDF format, and the integration of these features in Egas platform, allowing a user to simultaneously visualize the original article in PDF format and its extracted text. The improved and developed systems present good performing results, both in terms of processing speed and representation of the information, contributing also for a better user experience. Besides that, they present several advantages for the biomedical community, allowing the direct annotation of PDF articles and simplifying the use and configuration of these annotation systems by researchers. |
Description: | Mestrado em Engenharia de Computadores e Telemática |
URI: | http://hdl.handle.net/10773/17886 |
Appears in Collections: | UA - Dissertações de mestrado DETI - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Dissertação_André_Santos_13_julho_2016.pdf | 6.36 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.