Social mining for the classification of mental illnesses in public forums

Ferreira, Rodrigo Miguel Maia

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/38990

Title:	Social mining for the classification of mental illnesses in public forums
Other Titles:	Mineração de dados sociais para classificação de doenças mentais em fóruns públicos
Author:	Ferreira, Rodrigo Miguel Maia
Advisor:	Trifan, Alina Liliana Oliveira, José Luis Guimarães
Keywords:	Data mining Machine learning Natural language processing Mental health
Defense Date:	12-Dec-2022
Abstract:	The increasing amount of mental health issues is one of the biggest adversities that we face nowadays as a society, and the traditional assistance methods often fail to help those in need. In this work, we implement and evaluate the performance of a screening tool that may complement some of the traditional methods’ weaknesses, by signalling subjects at risk of developing mental illnesses, that could benefit from receiving medical assistance. This tool is based on machine learning, and it detects individuals at risk using their publicly available data from the social network Reddit. This work was based on our participation in tasks 1 and 2 of the 2022 edition of CLEF eRisk, with the goal of detecting subjects at risk of pathological gambling and depression respectively, where we had a special focus on the use and comparison of different text vectorization methods. Despite the fact that the initial results obtained at the event were far from those desired, with some tweaks and additional experiments, we managed to improve them, achieving final F1-scores of 0.886 and 0.653 for the best models of tasks 1 and 2 respectively. O aumento de problemas de saúde mental é uma das maiores adversidades que enfrentamos atualmente, enquanto sociedade, e os métodos de assistência tradicionais nem sempre conseguem assistir quem precisa. Neste trabalho implementamos e avaliamos a eficácia de uma ferramenta de triagem que pode complementar alguns dos pontos fracos dos métodos tradicionais, ao sinalizar sujeitos em risco de desenvolver doenças mentais, que podem beneficiar de assistência médica. Esta ferramenta é baseada em aprendizagem de máquina, e deteta os indivíduos em risco, analisando os seus dados disponíveis públicamente na rede social Reddit. Este trabalho teve como base a participação na edição de 2022 do CLEF eRisk, nos desafios 1 e 2, com o objetivo de detetar sujeitos em risco de serem jogadores compulsivos, e de desenvolverem depressão respetivamente, onde tivemos como foco, o uso e comparação de diferentes métodos de vetorização de texto. Apesar dos resultados iniciais obtidos no evento não terem sido os melhores, com afinamentos e experiências adicionais, conseguimos obter um bom desempenho, com F1-scores finais de 0.886 e 0.653 para os melhores modelos dos desafios 1 e 2 respetivamente.
URI:	http://hdl.handle.net/10773/38990
Appears in Collections:	UA - Dissertações de mestrado DETI - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Documento_Rodrigo_Ferreira.pdf		1.44 MB	Adobe PDF	View/Open

Show full item record