TY: THES T1 - Imputação em datasets médicos: uma comparação entre três métodos A1 - Oliveira, João Carlos Fidalgo Pinho N2 - Nos dias de hoje existe um grande volume de dados disponíveis e inúmeros algoritmos que permitem analisar estes conjuntos. No entanto, a maioria dos algoritmos necessita que o conjunto de dados seja completo, isto é, não pode possuir valores omissos. Existem então métodos de imputação que permitem fazer o tratamento dos valores omissos. Neste estudo foram comparados três métodos disponíveis no software R, comparando a sua performance em conjuntos de dados na área da saúde disponíveis no UCI Machine Learning Repository, com tipos de variáveis mistas (numéricas e categóricas). Foram gerados valores omissos para cada conjunto, nas percentagens de 10%, 20%, 30%, 40% e 50%, posteriormente sujeitos a métodos de imputação simples e múltipla. Foram analisados depois os erros de imputação para as variáveis numéricas e categóricas, comparando também o tempo que cada método demorou a imputar cada conjunto de dados, e o seu impacto na classificação. Os resultados mostraram que o método mais consistente a imputar conjuntos de dados clínicos é o missForest, apresentando de forma quase constante o menor erro de imputação, mas devido à sua maior complexidade também é o método que leva mais tempo a imputar UR - https://ria.ua.pt/handle/10773/26428 Y1 - 2018 PB - No publisher defined