Imputação em datasets médicos: uma comparação entre três métodos

Oliveira, João Carlos Fidalgo Pinho

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/26428

Title:	Imputação em datasets médicos: uma comparação entre três métodos
Author:	Oliveira, João Carlos Fidalgo Pinho
Advisor:	Silva, Luís Miguel Almeida da Marques, Bernardo
Keywords:	Valores omissos Análise de dados Imputação MICE kNN MissForest Regressão Classificação
Defense Date:	21-Dec-2018
Abstract:	Nos dias de hoje existe um grande volume de dados disponíveis e inúmeros algoritmos que permitem analisar estes conjuntos. No entanto, a maioria dos algoritmos necessita que o conjunto de dados seja completo, isto é, não pode possuir valores omissos. Existem então métodos de imputação que permitem fazer o tratamento dos valores omissos. Neste estudo foram comparados três métodos disponíveis no software R, comparando a sua performance em conjuntos de dados na área da saúde disponíveis no UCI Machine Learning Repository, com tipos de variáveis mistas (numéricas e categóricas). Foram gerados valores omissos para cada conjunto, nas percentagens de 10%, 20%, 30%, 40% e 50%, posteriormente sujeitos a métodos de imputação simples e múltipla. Foram analisados depois os erros de imputação para as variáveis numéricas e categóricas, comparando também o tempo que cada método demorou a imputar cada conjunto de dados, e o seu impacto na classificação. Os resultados mostraram que o método mais consistente a imputar conjuntos de dados clínicos é o missForest, apresentando de forma quase constante o menor erro de imputação, mas devido à sua maior complexidade também é o método que leva mais tempo a imputar Nowadays there is a great volume of available data and countless algorithms that allows us to analyse it. However, most algorithms only work with complete datasets, with no missing values. To solve this problem there are imputation methods that treat the missing data. In this study three methods available in R were used, comparing their performance in imputing medical datasets available at the UCI Machine Learning Repository, with mixed type variables (numeric and categorical). Missing values were generated for each dataset, creating new datasets with 10%, 20%, 30%, 40% and 50% of missing values, and single and multiple imputation methods were applied. The imputation erros were analysed for each type of variable, numeric and categorical, also comparing the imputation time, as well as the impact that each imputation has on classifying each dataset. The results show that the missForest method is the most consistent for clinical datasets, usually presenting the smaller imputation error, but because of its complexity it’s also the method that takes longer to impute the missing values
URI:	http://hdl.handle.net/10773/26428
Appears in Collections:	UA - Dissertações de mestrado DMat - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Documento.pdf		632.67 kB	Adobe PDF	View/Open

Show full item record