Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/26428
Full metadata record
DC FieldValueLanguage
dc.contributor.advisorSilva, Luís Miguel Almeida dapt_PT
dc.contributor.advisorMarques, Bernardopt_PT
dc.contributor.authorOliveira, João Carlos Fidalgo Pinhopt_PT
dc.date.accessioned2019-08-26T08:29:36Z-
dc.date.available2019-08-26T08:29:36Z-
dc.date.issued2018-12-21-
dc.identifier.urihttp://hdl.handle.net/10773/26428-
dc.description.abstractNos dias de hoje existe um grande volume de dados disponíveis e inúmeros algoritmos que permitem analisar estes conjuntos. No entanto, a maioria dos algoritmos necessita que o conjunto de dados seja completo, isto é, não pode possuir valores omissos. Existem então métodos de imputação que permitem fazer o tratamento dos valores omissos. Neste estudo foram comparados três métodos disponíveis no software R, comparando a sua performance em conjuntos de dados na área da saúde disponíveis no UCI Machine Learning Repository, com tipos de variáveis mistas (numéricas e categóricas). Foram gerados valores omissos para cada conjunto, nas percentagens de 10%, 20%, 30%, 40% e 50%, posteriormente sujeitos a métodos de imputação simples e múltipla. Foram analisados depois os erros de imputação para as variáveis numéricas e categóricas, comparando também o tempo que cada método demorou a imputar cada conjunto de dados, e o seu impacto na classificação. Os resultados mostraram que o método mais consistente a imputar conjuntos de dados clínicos é o missForest, apresentando de forma quase constante o menor erro de imputação, mas devido à sua maior complexidade também é o método que leva mais tempo a imputarpt_PT
dc.description.abstractNowadays there is a great volume of available data and countless algorithms that allows us to analyse it. However, most algorithms only work with complete datasets, with no missing values. To solve this problem there are imputation methods that treat the missing data. In this study three methods available in R were used, comparing their performance in imputing medical datasets available at the UCI Machine Learning Repository, with mixed type variables (numeric and categorical). Missing values were generated for each dataset, creating new datasets with 10%, 20%, 30%, 40% and 50% of missing values, and single and multiple imputation methods were applied. The imputation erros were analysed for each type of variable, numeric and categorical, also comparing the imputation time, as well as the impact that each imputation has on classifying each dataset. The results show that the missForest method is the most consistent for clinical datasets, usually presenting the smaller imputation error, but because of its complexity it’s also the method that takes longer to impute the missing valuespt_PT
dc.language.isoporpt_PT
dc.rightsopenAccesspt_PT
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/pt_PT
dc.subjectValores omissospt_PT
dc.subjectAnálise de dadospt_PT
dc.subjectImputaçãopt_PT
dc.subjectMICEpt_PT
dc.subjectkNNpt_PT
dc.subjectMissForestpt_PT
dc.subjectRegressãopt_PT
dc.subjectClassificaçãopt_PT
dc.titleImputação em datasets médicos: uma comparação entre três métodospt_PT
dc.typemasterThesispt_PT
thesis.degree.grantorUniversidade de Aveiropt_PT
dc.description.masterMestrado em Matemática e Aplicaçõespt_PT
Appears in Collections:UA - Dissertações de mestrado
DMat - Dissertações de mestrado

Files in This Item:
File Description SizeFormat 
Documento.pdf632.67 kBAdobe PDFView/Open


FacebookTwitterLinkedIn
Formato BibTex MendeleyEndnote Degois 

Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.