Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/33928
Title: | Collaborative annotation and mapping tool for clinical concepts |
Other Titles: | Ferramenta colaborativa de anotação e mapeamento de conceitos clínicos |
Author: | Neves, André Sousa |
Advisor: | Matos, Sérgio Guilherme Aleixo de |
Keywords: | Biomedical text mining Named entity recognition Natural language processing Information retrieval Information extraction Mapping Standard vocabulary concepts |
Defense Date: | 7-Dec-2021 |
Abstract: | Every day new biomedical information is published in the form of research articles,
books and reports, but given its unstructured form it is not useful for knowledge
acquisition apart from keyword search. Over the years significant interest has been
generated towards text mining and the production of structured data using information
retrieval and information extraction techniques, namely named entity
recognition. Several natural language processing tools were developed with the
main purpose of aiding the manual labor-intensive task conducted by expert curators
by implementing automatic pre-processing pipelines that annotate biomedical
entities and their relationships in literature, along with interactive interfaces to review
and validate them. Moreover, it is essential that the data is harmonized into a
common standard that everyone can understand no matter what language, format
or encoding it was originally recorded in, in order to provide a collaborative effort
among researchers. Some tools provide efficient indexing and searching capabilities
to map concepts from various domains into standard vocabulary concepts, or in
other words are capable of standardize data into a common format which in turn
allow collaborative studies to be conducted. Nevertheless, there is a lack of tools
that allow to perform both annotation and mapping. This dissertation presents a
web-based tool with the intent to fill this gap by allowing experts to still perform
each task individually, but also to form a pipeline and use the output annotations
as input for the mapping process. As a result, the tool provides an interactive
interface that allows the users to upload text documents and annotate biomedical
entities present in them, either manually by selecting portions of text or double
clicking words, or automatically with Neji’s web services and manage those generated
annotations. For mapping, the users can upload CSV documents containing
terms to be mapped to standard vocabulary concepts, using Usagi’s open-source
code. Moreover, the users can review and validate suggested mappings based on
match score. Todos os dias são publicadas novas informações biomédicas sob a forma de artigos de investigação, livros e relatórios, mas dada a sua forma não-estruturada não é útil para a aquisição de conhecimento para além da pesquisa por palavraschave. Ao longo dos anos tem surgido um interesse significativo na mineração de texto e a produção de dados estruturados, utilizando técnicas de recuperação de informação e extração de informação, nomeadamente o reconhecimento de entidades mencionadas. Foram desenvolvidas várias ferramentas de processamento de linguagem natural com o objetivo principal de auxiliar a tarefa manual intensiva realizada por curadores especialistas, implementando pipelines automáticos de pré-processamento que anotam entidades biomédicas e as relações entre si na literatura, juntamente com interfaces interativas para as rever e validar. Além disso, é essencial que os dados sejam harmonizados num padrão comum que todos possam compreender, independentemente da língua, formato ou codificação em que foram originalmente registados, a fim de proporcionar um esforço colaborativo entre os investigadores. Algumas ferramentas proporcionam capacidades eficientes de indexação e pesquisa para mapear conceitos de vários domínios em conceitos de vocabulários padrão, ou por outras palavras, são capazes de padronizar os dados num formato comum que, por sua vez, permite a realização de estudos colaborativos. No entanto, ferramentas que permitem realizar tanto a anotação como o mapeamento são escassas. Esta dissertação apresenta uma ferramenta web-based com a intenção de preencher esta lacuna, permitindo aos especialistas realizar cada tarefa individualmente, mas também formar um pipeline e utilizar as anotações resultantes como input para o processo de mapeamento. Como resultado, a ferramenta fornece uma interface interativa que permite aos utilizadores carregar documentos de texto e anotar entidades biomédicas presentes nos mesmos, quer manualmente selecionando porções de texto ou palavras com duplo clique, quer automaticamente com os serviços web do Neji e gerir as anotações geradas. Para mapeamento, os utilizadores podem carregar documentos CSV contendo termos para serem mapeados para conceitos de vocabulário padrão, utilizando o código open-source do Usagi. Além disso, os utilizadores podem rever e validar os mapeamentos sugeridos com base na pontuação dos mesmos. |
URI: | http://hdl.handle.net/10773/33928 |
Appears in Collections: | UA - Dissertações de mestrado DETI - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Documento_André_Neves.pdf | 3.06 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.