Imputação em datasets médicos: uma comparação entre três métodos

Oliveira, João Carlos Fidalgo Pinho

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/26428

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	Silva, Luís Miguel Almeida da	pt_PT
dc.contributor.advisor	Marques, Bernardo	pt_PT
dc.contributor.author	Oliveira, João Carlos Fidalgo Pinho	pt_PT
dc.date.accessioned	2019-08-26T08:29:36Z	-
dc.date.available	2019-08-26T08:29:36Z	-
dc.date.issued	2018-12-21	-
dc.identifier.uri	http://hdl.handle.net/10773/26428	-
dc.description.abstract	Nos dias de hoje existe um grande volume de dados disponíveis e inúmeros algoritmos que permitem analisar estes conjuntos. No entanto, a maioria dos algoritmos necessita que o conjunto de dados seja completo, isto é, não pode possuir valores omissos. Existem então métodos de imputação que permitem fazer o tratamento dos valores omissos. Neste estudo foram comparados três métodos disponíveis no software R, comparando a sua performance em conjuntos de dados na área da saúde disponíveis no UCI Machine Learning Repository, com tipos de variáveis mistas (numéricas e categóricas). Foram gerados valores omissos para cada conjunto, nas percentagens de 10%, 20%, 30%, 40% e 50%, posteriormente sujeitos a métodos de imputação simples e múltipla. Foram analisados depois os erros de imputação para as variáveis numéricas e categóricas, comparando também o tempo que cada método demorou a imputar cada conjunto de dados, e o seu impacto na classificação. Os resultados mostraram que o método mais consistente a imputar conjuntos de dados clínicos é o missForest, apresentando de forma quase constante o menor erro de imputação, mas devido à sua maior complexidade também é o método que leva mais tempo a imputar	pt_PT
dc.description.abstract	Nowadays there is a great volume of available data and countless algorithms that allows us to analyse it. However, most algorithms only work with complete datasets, with no missing values. To solve this problem there are imputation methods that treat the missing data. In this study three methods available in R were used, comparing their performance in imputing medical datasets available at the UCI Machine Learning Repository, with mixed type variables (numeric and categorical). Missing values were generated for each dataset, creating new datasets with 10%, 20%, 30%, 40% and 50% of missing values, and single and multiple imputation methods were applied. The imputation erros were analysed for each type of variable, numeric and categorical, also comparing the imputation time, as well as the impact that each imputation has on classifying each dataset. The results show that the missForest method is the most consistent for clinical datasets, usually presenting the smaller imputation error, but because of its complexity it’s also the method that takes longer to impute the missing values	pt_PT
dc.language.iso	por	pt_PT
dc.rights	openAccess	pt_PT
dc.rights.uri	https://creativecommons.org/licenses/by/4.0/	pt_PT
dc.subject	Valores omissos	pt_PT
dc.subject	Análise de dados	pt_PT
dc.subject	Imputação	pt_PT
dc.subject	MICE	pt_PT
dc.subject	kNN	pt_PT
dc.subject	MissForest	pt_PT
dc.subject	Regressão	pt_PT
dc.subject	Classificação	pt_PT
dc.title	Imputação em datasets médicos: uma comparação entre três métodos	pt_PT
dc.type	masterThesis	pt_PT
thesis.degree.grantor	Universidade de Aveiro	pt_PT
dc.description.master	Mestrado em Matemática e Aplicações	pt_PT
Appears in Collections:	UA - Dissertações de mestrado DMat - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Documento.pdf		632.67 kB	Adobe PDF	View/Open

Show simple item record