Please use this identifier to cite or link to this item:
http://hdl.handle.net/10773/25131
Title: | Methodologies for machine learning classification of network entities based on traffic patterns |
Other Titles: | Metodologias para o uso de aprendizagem automática na classificação de entidades de rede com base em padrões de tráfego |
Author: | Cardoso, Guilherme Jorge |
Advisor: | Paulo Jorge Salvador Serra Ferreira |
Keywords: | Pattern recognition Behavior analysis Network activity Machine learning pipeline Network behavioral modeling Human network behavioral modeling Network entity classification |
Defense Date: | 25-Jul-2018 |
Abstract: | For the last years, constant news about information and data leaks are raising
public discussion of the safety of the systems that we all nowadays depend
on. Communications are increasingly more private; hence next-generation security
systems rely on pattern recognition techniques to detect and infer the
safety without the need for scrapping its content. This dissertation proposes
methodologies to infer entity patterns and their nature according to their network
traffic: if they are running according to their previously known safe pattern
or if its behavior is uncommon, an indication of a possible breach. There
is a strong indication that behavioral pattern recognition will continue to lead
the research of security solutions, not only for the network traffic but also for
other measurable activities. Other examples are identity access management
or programs running on a computer. This dissertation proposes modeling network
OSI layers 3 to 5 metadata in features that are later processed by machine
learning algorithms to classify the network activity. The classification
itself is divided into two groups: the first level is recognizing active entities
operating within a network domain and the second if each entity is acting according
to each known pattern. The presented methods of inferring if something
is acting according to known patterns are transversal to other domains.
Although aggregation of metadata and modeling differ, the described process
of solving the problem of inferring patterns is generic and can be applied to
user use cases rather than to the network, or combined with more complex
scenarios. The last chapter includes a proof of concept with a few evaluation
metrics using synthetic data, to evaluate if the classification algorithms
can successfully distinguish different patterns. The tests showed promising
results, ranging from 99% for entity classification and 77% to 98% (depending
on the entity nature) for abnormality detection. Nos últimos anos notícias sobre roubos e perdas de informação e de dados têm sido constante, levantando discussão sobre a segurança dos sistemas dos quais hoje dependemos. As comunicações são também cada vez mais privadas, pelo que os sistemas de segurança de última geração têm desenvolvido técnicas de reconhecimento de padrões para detetar e inferir a segurança sem a necessidade de processar conteúdos. Esta dissertação propõe metodologias para inferir os padrões de entidades considerando o seu tráfego de rede: se está enquadrado no comportamento de tráfego previamente conhecido, ou se a atividade gerada é incomum e, por isso, ser indicação de um possível problema. Há uma forte indicação de que o reconhecimento de padrões de comportamento continuará a liderar a investigação no domínio de soluções de segurança, não só para o tráfego de rede, mas também para outras atividades mensuráveis. Outros exemplos englobam a gestão de acesso de identidade ou programas em execução em um computador. As metodologias propõem a modelação de metadados da camada de rede OSI 3 a 5 em contagens que são posteriormente processadas por algoritmos de aprendizagem automática para classificar a atividade da rede. Esta classificação baseia-se em dois níveis: no primeiro o reconhecimento entidades ativas dentro de um domínio de rede e o segundo, se cada entidade corresponde ao padrão conhecido. As metodologias apresentadas para inferir se algo está de acordo com padrões conhecidos são transversais a outros domínios. Embora a agregação de metadados e modelação seja diferente, o processo descrito para inferir padrões é genérico o suficiente para ser aplicado a outros casos de uso, de rede ou não, ou ainda combinado em cenários mais complexos. O último capítulo inclui uma prova de conceito com dados sintéticos e algumas métricas de avaliação, para perceber se os algoritmos de classificação podem distinguir com sucesso padrões diferentes. Os testes mostraram resultados promissores, variando de 99% para classificação de entidades e 77% para 98% (dependendo da natureza da entidade) para deteção de anormalidades. |
URI: | http://hdl.handle.net/10773/25131 |
Appears in Collections: | UA - Dissertações de mestrado DETI - Dissertações de mestrado |
Files in This Item:
File | Description | Size | Format | |
---|---|---|---|---|
Documento.pdf | 9.8 MB | Adobe PDF | View/Open |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.