Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/26001
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorOliveira, José Luís Guimarães dept_PT
dc.contributor.advisorMatos, Sérgio Guilherme Aleixo dept_PT
dc.contributor.authorPereira, Vítor Manuel de Sousapt_PT
dc.date.accessioned2019-05-09T13:39:59Z-
dc.date.available2019-05-09T13:39:59Z-
dc.date.issued2018-
dc.identifier.urihttp://hdl.handle.net/10773/26001-
dc.description.abstractThe assignment of ICD-9-CM codes to patient’s clinical reports is a costly and wearing process manually done by medical personnel, estimated to cost about $25 billion per year in the United States. To develop a system that automates this process has been an ambition of researchers but is still an unsolved problem due to the inherent difficulties in processing unstructured clinical text. This problem is here formulated as a multi-label supervised learning one where the independent variable is the report’s text and the dependent the several assigned ICD-9-CM labels. Different variations of two neural network based models, the Bag-of-Tricks and the Convolutional Neural Network (CNN) are investigated. The models are trained on the diabetic patient subset of the freely available MIMIC-III dataset. The results show that a CNN with three parallel convolutional layers achieves F1 scores of 44.51% for five digit codes and 51.73% for three digit, rolled up, codes. Additionally, it is shown that joining several binary classifiers, with the binary relevance method, produces an improvement of almost 7% over its multi-labeling equivalent in a restricted classification task of only the eleven most common labels in the dataset.pt_PT
dc.description.abstractA atribuição de códigos ICD-9-CM a relatórios clínicos de pacientes é um processo dispendioso e cansativo, realizado por pessoal médico especializado e com um custo estimado de 25 mil milhões de dólares por ano nos Estados Unidos. É uma constante ambição de investigadores desenvolver um sistema que automatize esta atribuição. No entanto, o problema mantém se irresoluto dadas as dificuldades inerentes em processar texto clínico não estruturado. Este problema é aqui formulado como um de aprendizagem supervisionada multi-label em que a variável independente é o texto do relatório e a dependente os vários códigos ICD-9-CM atribuídos. São investigadas diferentes variações de dois modelos baseados em redes neurais, o Bag-of-Tricks e a Rede Neural Convolucional (RNC). Os modelos são treinados no subconjunto de pacientes diabéticos dos dados MIMIC-III. Os resultados mostram que uma RNC com três níveis convolucionais em paralelo obtém avaliações F1 de 44.51% para códigos de cinco dígitos e 51.73% para códigos abreviados de três dígitos. Além disto, é mostrado que a combinação de vários classificadores binários num só, com o método de relevância binária, produz uma melhoria de 7% em relação ao seu equivalente multi-label, num problema de classificação limitado aos onze códigos mais comuns nos dados.pt_PT
dc.language.isoengpt_PT
dc.rightsopenAccesspt_PT
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/pt_PT
dc.titleAutomated ICD-9-CM medical coding of diabetic patient’s clinical reportspt_PT
dc.title.alternativeCodificação médica ICD-9-CM automatizada de relatórios clínicos de pacientes diabéticospt_PT
dc.typemasterThesispt_PT
thesis.degree.grantorUniversidade de Aveiropt_PT
dc.identifier.tid202234223-
dc.description.masterMestrado em Engenharia de Computadores e Telemáticapt_PT
Appears in Collections:UA - Dissertações de mestrado
DETI - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
main.pdf1.66 MBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.