Modelo preditivo para o risco de readmissão hospitalar

Barroso, João António Araújo

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/25092

Title:	Modelo preditivo para o risco de readmissão hospitalar
Other Titles:	random forest, readmissão hospitalar, OpenCPU, modelo preditivo
Author:	Barroso, João António Araújo
Advisor:	Silva, Luís Miguel Almeida da Marques, Bernardo
Keywords:	Random forest Readmissão hospitalar OpenCPU Modelo preditivo
Defense Date:	15-Dec-2017
Abstract:	O desenvolvimento deste projeto passou por 4 fases: duas pesquisas preliminares em momentos distintos; construção e avaliação de modelos preditivos; desenvolvimento de uma aplicação web com a solução de um desses modelos. A primeira fase do projeto consistiu numa pesquisa em que o objetivo foi a recolha de um grande número de artigos relacionados com problemáticas no meio hospitalar. Para esta fase dedicou-se cerca de um mês de trabalho. Desta primeira etapa, determinou-se o objetivo do projeto: o desenvolvimento de um modelo preditivo para o risco de readmissão hospitalar. A segunda fase do projeto foi sem dúvida a que mais tempo se despendeu, onde se dedicaram mais de dois meses de trabalho. Para esta fase foi disponibilizada uma base de dados hospitalar real (de vários hospitais) com cerca de um milhão de observações e centenas de variáveis. Esta fase pode ser dividida em várias etapas: numa etapa inicial procurou-se compreender e resolver incoerências através de modificações e transformações da base de dados original; na segunda fase efetuaram-se modificações ao formato de algumas variáveis e criaram-se outras novas variáveis com recurso às variáveis já existentes; na terceira etapa, após finalizadas as transformações à base de dados, selecionaram-se alguns conjuntos de variáveis por ordem de significância; na última fase construiram-se e testaram-se vários modelos random forest com os conjuntos de treino selecionados na etapa anterior. Na a terceira fase, o objetivo englobava selecionar uma tecnologia Machine Learning (ML) para posterior desenvolvimento de uma aplicação web. Assim, procedeu-se a uma nova pesquisa sobre tecnologias ML, nomeadamente o Apache Spark, o H2O, o H2O Sparkling Water, o Microsoft Azure ML e o OpenCPU. Para esta fase, foi dedicado cerca de um mês de trabalho. Após a pesquisa e decisão da tecnologia a utilizar, desenvolveu-se uma aplicação web. Mais uma vez, foi dedicado cerca de um mês de trabalho para se finalizar esta fase. As fases de trabalho do estágio seguiram a ordem temporal acima descrita, contudo foram desenvolvidos outros trabalhos complementares, como por exemplo, a criação de dashboards usando o software Microsoft Power BI. Para além do que foi mencionado, sempre que existiu oportunidade, discutiuse informalmente com trabalhadores desta área (maioritariamente médicos) acerca do tema, de forma a compreender melhor o problema e descobrir a melhor forma de o abordar. The development if this project underwent four stages: two preliminary researches within different timeframes; the construction and evaluation of predictive patterns; the development of a web app that ultimately would solve one of those patterns. The first stage of the project consisted on a research whose aim was the collection of several articles related to issues in the hospital environment. This stage took about a month to be completed, and from this the practical aim of the project was determined: the development of a predictive pattern for the risk of hospital’s readmission. The second stage was undoubtedly the most time consuming, with more than two months of work. To this phase a real and from several hospitals’ database was made available, with about one million observations and hundreds of variables. This stage can be divided into four substeps: firstly, it was attempted an understanding and resolution of inconsistencies through modifications and transformations of the original database; in a second phase, modifications were made to the format of some variables and new others created using those already existing as a resource; then, in the aftermath of the second phase, a group of variables were selected according to their degree of relevance; at last, several Random Forest patterns were built and tested together with the training sets previously selected. The third stage’s aim was the selection of a Machine Learning (ML) technology to further development of a web app. Therefore, a new research on ML technology - namely Apache Spark, H2O, H2O Sparkling Water, Microsoft Azure ML and OpenCPU - was promptly made. This research took approximately a month to be completed. As the research and decision on which technology should be used reached its conclusion, the web app was developed. Once again, about a month was the time spent to finalize this phase of the project. The stages of the internship program followed the aforementioned timeframe. However, some other complementary works were developed, for instance the creation of dashboards using Microsoft Power BI. Nonetheless, whenever the opportunity urged, there were informal discussions with employers in this area - mainly doctors - about this issue, in order to better understand the problem and find out the best way to approach it.
URI:	http://hdl.handle.net/10773/25092
Appears in Collections:	UA - Dissertações de mestrado DMat - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Documento.pdf		866.39 kB	Adobe PDF	View/Open

Show full item record