Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/18565
Title: Graph-based methods for biomedical concept disambiguation
Other Titles: Métodos baseados em grafos para desambiguação de conceitos biomédicos
Author: Rodrigues, Renato Pinho
Advisor: Matos, Sérgio Guilherme Aleixo de
Keywords: Engenharia de computadores e telemática
Bioinfomática
Biomedicina -- Conceitos
Pesquisa de informação
Defense Date: 2015
Publisher: Universidade de Aveiro
Abstract: Desambiguação do sentido das palavras é a tarefa de atribuir um significado inequívoco a uma palavra ou termo ambíguo, tendo em conta o contexto em que este está inserido. O domínio da biomedicina contem um grande número de termos ambíguos, não identificar corretamente o sentido associado a cada termo tem um impacto negativo na performance de aplicações biomédicas tais como as de anotação automática e indexação, as quais são cada vez mais de extrema importância no contexto biomédico e clinico, dado o rápido crescimen-to da informação digital disponível para os investigadores. Este tese foca-se na desambiguação de termos biomédicos e apresenta uma solução que atribui identificadores únicos a palavras ambíguas baseando-se, para isso, no Unified Medical Language System (UMLS). O método proposto é uma aproximação baseada em fontes de conhecimento a qual não necessita de dados de treino, sendo assim uma solução generalizada que pode ser am-plamente aplicada para resolver ambiguidades no domínio biomédico. Este método baseia-se em grafos obtidos a partir do UMLS, tendo em consideração os conceitos presentes no contexto da palavra ambígua, e utiliza um algoritmo de PageRank para atribuir pontuações aos grafos. Adicionalmente foi desen-volvido e disponibilizado um web-service para uma fácil integração em aplica-ções de terceiros, com o objetivo de munir essas aplicações com um módulo fácil de usar e com grande potencial. O sistema foi testado e avaliado utilizando uma coleção de testes de desambi-guação de conceitos, desenvolvido pelo U.S. National Library of Medicine, especificamente o MSH WSD Test Collection, um conjunto de dados que con-tém mais de 37 mil ocorrências de 203 termos ambíguos. Os melhores resultados obtidos pelo sistema proposto alcançaram uma preci-são de 63.3% no subset do MSH WSD Test Collection.
Word Sense Disambiguation (WSD) is the task of assigning a unique meaning to an ambiguous word or term, given the specific context it is inserted in. The biomedical field contains a large number of ambiguous terms, and not being able to correctly identify the correct sense associated to a term has a negative impact on the accuracy of biomedical applications such as automatic annota-tion and indexing, which are becoming of utmost importance in the biomedical and clinical world given the fast growing amount of digital information available to researchers. This thesis focuses on disambiguation of biomedical terms and presents a solu-tion that can assign unique identifiers to target words based on Unified Medical Language System (UMLS). The method proposed is a knowledge-based ap-proach where no training data is required, thus being a more general solution that can be widely applied to solve ambiguities in the biomedical domain. This method relies on graphs obtained from the UMLS, taking into consideration the concepts from the context of the ambiguous word, and uses a PageRank algo-rithm to score such graphs. Furthermore a web-service was developed and made available for an easy integration in third-party applications, in order to provide such applications with a powerful and easy to use module. The system was tested and evaluated using a WSD test collection provided by the U.S. National Library of Medicine, specifically the MSH WSD Test Collec-tion, a dataset containing over 37 thousand occurrences of 203 ambiguous terms. The best performing results of the proposed system achieve an accuracy of 63.3% for a subset of the MSH WSD Test Collection.
Description: Mestrado em Engenharia de Computadores e Telemática
URI: http://hdl.handle.net/10773/18565
Appears in Collections:UA - Dissertações de mestrado
DETI - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
Graph-based methods for biomedical concept disambiguation.pdf2.32 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.