Development of intelligent tool for phising email detection

Pires, Marcos da Silva Neto Abranches

Utilize este identificador para referenciar este registo: http://hdl.handle.net/10773/25890

Título:	Development of intelligent tool for phising email detection
Outros títulos:	Desenvolvimento de ferramenta inteligente para deteção de phishing emails
Autor:	Pires, Marcos da Silva Neto Abranches
Orientador:	Georgieva, Petia
Palavras-chave:	phishing emails machine learning feature selection random forest
Data de Defesa:	2017
Resumo:	Emails de Phishing são um tipo de ataque comum na internet que resultam no roubo de informação confidencial de utilizadores como contas bancárias, dados privados, logins pessoais ou de identidade. O objetivo desta tese de mestrado passou por desenvolver uma ferramenta inteligente baseada em abordagens com aprendizagem automática para filtrar este tipo de emails malignos. O projeto foi feito em cooperação com a E-goi, empresa de automação de marketing multicanal. A primeira etapa do projeto foi a de selecionar aspectos característicos dos emails de modo a poder diferenciar entre emails de phishing e normais. O conjunto final destas características foi escolhido depois de um estudo minucioso da literatura e das necessidades da empresa. O passo seguinte foi a escolha de um algoritmo eficiente para a deteção de emails de phishing. Como a tarefa foi considerada um problema de classificação, vários algoritmos de aprendizagem automática foram testados (SVM, DT, Random Forest, Boosted Trees). Um grande desafio que foi deparado durante o desenvolvimento foi o da falta de dados categorizados, mais especificamente do tipo de phishing. Para tentar contornar o problema, o sistema de detação de phishing foi construído com ajuda de dados (emails) publicamente disponíveis. De modo a facilitar a implementação de um protótipo na empresa E-goi, foi desenvolvida uma ferramenta web para categorizar a colecionar emails. Este sistema permite a pessoal autorizado da empresa a fazer a categorização on-line de emails adquiridos. Phishing emails are a very common attack on the web, that results in the theft of confidential user information such as bank accounts, private data, personal logins or of identity. The goal of this master thesis was to develop intelligent tools to filter out the emails with such malign intent, based on machine learning approaches. The work was done in close collaboration with a multichannel marketing automation company of name E-goi. The first stage of the project was to select appropriate features able to discriminate between ordinary and phishing emails. The final feature set was chosen after a comprehensive study of the literature and the particular needs of the involved company. The next step was to choose an efficient algorithm for phishing emails detection. Since this task was considered as a classification problem, a number of machine learning classifiers were tested (SVM, DT, Random Forest). A major challenge during development was the lack of sufficient labeled data, particularly regarding the class of phishing emails. To get around this, the phishing detection system was built based on a collection of samples (emails) from different publicly available data sets. In order to facilitate the implementation of the phishing detection prototype in the company E-goi, a web tool was developed to create a home-made labeled data set of emails. This system allows authorized company personnel to label on-line each obtained email.
URI:	http://hdl.handle.net/10773/25890
Aparece nas coleções:	UA - Dissertações de mestrado DETI - Dissertações de mestrado

Ficheiros deste registo:

Ficheiro	Descrição	Tamanho	Formato
tese.pdf		1.56 MB	Adobe PDF	Ver/Abrir

Mostrar registo em formato completo