Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/12698
Title: | A sentence-based information retrieval system for biomedical corpora |
Other Titles: | Recuperação de informação baseada em frases para textos biomédicos |
Author: | Nunes, Tiago Santos Barata |
Advisor: | Oliveira, José Luís Guimarães de |
Keywords: | Engenharia de computadores Bioinformática Recuperação da informação Sistemas de informação médica |
Defense Date: | 2013 |
Publisher: | Universidade de Aveiro |
Abstract: | O desenvolvimento de novos métodos experimentais e tecnologias de alto
rendimento no campo biomédico despoletou um crescimento acelerado do
volume de publicações científicas na área. Inúmeros repositórios estruturados
para dados biológicos foram criados ao longo das últimas décadas, no
entanto, os utilizadores estão cada vez mais a recorrer a sistemas de recuperação
de informação, ou motores de busca, em detrimento dos primeiros.
Motores de pesquisa apresentam-se mais fáceis de usar devido à sua flexibilidade
e capacidade de interpretar os requisitos dos utilizadores, tipicamente
expressos na forma de pesquisas compostas por algumas palavras.
Sistemas de pesquisa tradicionais devolvem documentos completos, que geralmente
requerem um grande esforço de leitura para encontrar a informação
procurada, encontrando-se esta, em grande parte dos casos, descrita num
trecho de texto composto por poucas frases. Além disso, estes sistemas falham
frequentemente na tentativa de encontrar a informação pretendida porque,
apesar de a pesquisa efectuada estar normalmente alinhada semanticamente
com a linguagem usada nos documentos procurados, os termos
usados são lexicalmente diferentes.
Esta dissertação foca-se no desenvolvimento de técnicas de recuperação de
informação baseadas em frases que, para uma dada pesquisa de um utilizador,
permitam encontrar frases relevantes da literatura científica que respondam
aos requisitos do utilizador. O trabalho desenvolvido apresenta-se em
duas partes. Primeiro foi realizado trabalho de investigação exploratória para
identificação de características de frases informativas em textos biomédicos.
Para este propósito foi usado um método de aprendizagem automática. De
seguida foi desenvolvido um sistema de pesquisa de frases informativas. Este
sistema suporta pesquisas de texto livre e baseadas em conceitos, os resultados
de pesquisa apresentam-se enriquecidos com anotações de conceitos
relevantes e podem ser ordenados segundo várias estratégias de classificação. Modern advances of experimental methods and high-throughput technology in the biomedical domain are causing a fast-paced, rising growth of the volume of published scientific literature in the field. While a myriad of structured data repositories for biological knowledge have been sprouting over the last decades, Information Retrieval (IR) systems are increasingly replacing them. IR systems are easier to use due to their flexibility and ability to interpret user needs in the form of queries, typically formed by a few words. Traditional document retrieval systems return entire documents, which may require a lot of subsequent reading to find the specific information sought, frequently contained in a small passage of only a few sentences. Additionally, IR often fails to find what is wanted because the words used in the query are lexically different, despite semantically aligned, from the words used in relevant sources. This thesis focuses on the development of sentence-based information retrieval approaches that, for a given user query, allow seeking relevant sentences from scientific literature that answer the user information need. The presented work is two-fold. First, exploratory research experiments were conducted for the identification of features of informative sentences from biomedical texts. A supervised machine learning method was used for this purpose. Second, an information retrieval system for informative sentences was developed. It supports free text and concept-based queries, search results are enriched with relevant concept annotations and sentences can be ranked using multiple configurable strategies. |
Description: | Mestrado em Engenharia de Computadores e Telemática |
URI: | http://hdl.handle.net/10773/12698 |
Appears in Collections: | UA - Dissertações de mestrado DETI - Dissertações de mestrado |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.