Utilize este identificador para referenciar este registo:
http://hdl.handle.net/10773/31280
Título: | Generating health evidence from social media |
Outros títulos: | Extração de informação de saúde através das redes sociais |
Autor: | Salgado, Pedro Manuel Oliva Teles |
Orientador: | Oliveira, José Luis Guimarães Trifan, Alina |
Palavras-chave: | Social media Health information Natural language processing Machine learning |
Data de Defesa: | 9-Fev-2021 |
Resumo: | Social media has been proven to be an excellent resource for connecting people
and creating a parallel community. Turning it into a suitable source for extracting
real world events information and information about its users as well. All of this
information can be carefully re-arranged for social monitoring purposes and for the
good of its community. For extracting health evidence in the social media, we
started by analyzing and identifying postpartum depression in social media posts.
We participated in an online challenge, eRisk 2020, continuing the previous participation
of BioInfo@UAVR, predicting self-harm users based on their publications on
Reddit. We built an algorithm based on methods of Natural Language Processing
capable of pre-processing text data and vectorizing it. We make use of linguistic
features based on the frequency of specific sets of words, and other models widely
used that represent whole documents with vectors, such as Tf-Idf and Doc2Vec.
The vectors and the correspondent label are then passed to a Machine Learning
classifier in order to train it. Based on the patterns it found, the model predicts
a classification for unlabeled users. We use multiple classifiers, to find the one
that behaves the best with the data. With the goal of getting the most out of
the model, an optimization step is performed in which we remove stop words and
set the text vectorization algorithms and classifier to be ran in parallel. An analysis
of the feature importance is integrated and a validation step is performed.
The results are discussed and presented in various plots, and include a comparison
between different tuning strategies and the relation between the parameters and
the score. We conclude that the choice of parameters is essential for achieving a
better score and for finding them, there are other strategies more efficient then the
widely used Grid Search. Finally, we compare several approaches for building an
incremental classification based on the post timeline of the users. And conclude
that it is possible to have a chronological perception of certain traits of Reddit
users, specifically evaluating the risk of self-harm with a F1 Score of 0.73. As redes sociais são um excelente recurso para conectar pessoas, criando assim uma comunidade paralela em que fluem informações acerca de eventos globais bem como sobre os seus utilizadores. Toda esta informação pode ser trabalhada com o intuito de monitorizar o bem estar da sua comunidade. De forma a encontrar evidência médica nas redes sociais, começámos por analisar e identificar posts de mães em risco de depressão pós-parto no Reddit. Participámos num concurso online, eRisk 2020, com o intuito de continuar a participação da equipa BioInfo@ UAVR, em que prevemos utilizadores que estão em risco de se automutilarem através da análise das suas publicações no Reddit. Construímos um algoritmo com base em métodos de Processamento de Linguagem Natural capaz de pré-processar os dados de texto e vectorizá-los. Fazendo uso de características linguísticas baseadas na frequência de conjuntos de palavras, e outros modelos usados globalmente, capazes de representar documentos com vetores, como o Tf-Idf e o Doc2Vec. Os vetores e a sua respetiva classificação são depois disponibilizados a algoritmos de Aprendizagem Automática, para serem treinados e encontrar padrões entre eles. Utilizamos vários classificadores, de forma a encontrar o que se comporta melhor com os dados. Com base nos padrões que encontrou, os classificadores prevêm a classificação de utilizadores ainda por avaliar. De forma a tirar o máximo proveito do algoritmo, é desempenhada uma otimização em que as stop words são removidas e paralelizamos os algoritmos de vectorização de texto e o classificador. Incorporamos uma análise da importância dos atributos do modelo e a otimização dos híper parâmetros de forma a obter um resultado melhor. Os resultados são discutidos e apresentados em múltiplos plots, e incluem a comparação entre diferentes estratégias de optimização e observamos a relação entre os parâmetros e a sua performance. Concluimos que a escolha dos parâmetros é essencial para conseguir melhores resultados e que para os encontrar, existem estratégias mais eficientes que o habitual Grid Search, como o Random Search e a Bayesian Optimization. Comparamos também várias abordagens para formar uma classificação incremental que tem em conta a cronologia dos posts. Concluimos que é possível ter uma perceção cronológica de traços dos utilizadores do Reddit, nomeadamente avaliar o risco de automutilação, com um F1 Score de 0,73. |
URI: | http://hdl.handle.net/10773/31280 |
Aparece nas coleções: | UA - Dissertações de mestrado DETI - Dissertações de mestrado |
Ficheiros deste registo:
Ficheiro | Descrição | Tamanho | Formato | |
---|---|---|---|---|
Documento_Pedro_ Salgado.pdf | 1.65 MB | Adobe PDF | Ver/Abrir |
Todos os registos no repositório estão protegidos por leis de copyright, com todos os direitos reservados.