Methodologies for machine learning classification of network entities based on traffic patterns

Cardoso, Guilherme Jorge

Please use this identifier to cite or link to this item: http://hdl.handle.net/10773/25131

Title:	Methodologies for machine learning classification of network entities based on traffic patterns
Other Titles:	Metodologias para o uso de aprendizagem automática na classificação de entidades de rede com base em padrões de tráfego
Author:	Cardoso, Guilherme Jorge
Advisor:	Paulo Jorge Salvador Serra Ferreira
Keywords:	Pattern recognition Behavior analysis Network activity Machine learning pipeline Network behavioral modeling Human network behavioral modeling Network entity classification
Defense Date:	25-Jul-2018
Abstract:	For the last years, constant news about information and data leaks are raising public discussion of the safety of the systems that we all nowadays depend on. Communications are increasingly more private; hence next-generation security systems rely on pattern recognition techniques to detect and infer the safety without the need for scrapping its content. This dissertation proposes methodologies to infer entity patterns and their nature according to their network traffic: if they are running according to their previously known safe pattern or if its behavior is uncommon, an indication of a possible breach. There is a strong indication that behavioral pattern recognition will continue to lead the research of security solutions, not only for the network traffic but also for other measurable activities. Other examples are identity access management or programs running on a computer. This dissertation proposes modeling network OSI layers 3 to 5 metadata in features that are later processed by machine learning algorithms to classify the network activity. The classification itself is divided into two groups: the first level is recognizing active entities operating within a network domain and the second if each entity is acting according to each known pattern. The presented methods of inferring if something is acting according to known patterns are transversal to other domains. Although aggregation of metadata and modeling differ, the described process of solving the problem of inferring patterns is generic and can be applied to user use cases rather than to the network, or combined with more complex scenarios. The last chapter includes a proof of concept with a few evaluation metrics using synthetic data, to evaluate if the classification algorithms can successfully distinguish different patterns. The tests showed promising results, ranging from 99% for entity classification and 77% to 98% (depending on the entity nature) for abnormality detection. Nos últimos anos notícias sobre roubos e perdas de informação e de dados têm sido constante, levantando discussão sobre a segurança dos sistemas dos quais hoje dependemos. As comunicações são também cada vez mais privadas, pelo que os sistemas de segurança de última geração têm desenvolvido técnicas de reconhecimento de padrões para detetar e inferir a segurança sem a necessidade de processar conteúdos. Esta dissertação propõe metodologias para inferir os padrões de entidades considerando o seu tráfego de rede: se está enquadrado no comportamento de tráfego previamente conhecido, ou se a atividade gerada é incomum e, por isso, ser indicação de um possível problema. Há uma forte indicação de que o reconhecimento de padrões de comportamento continuará a liderar a investigação no domínio de soluções de segurança, não só para o tráfego de rede, mas também para outras atividades mensuráveis. Outros exemplos englobam a gestão de acesso de identidade ou programas em execução em um computador. As metodologias propõem a modelação de metadados da camada de rede OSI 3 a 5 em contagens que são posteriormente processadas por algoritmos de aprendizagem automática para classificar a atividade da rede. Esta classificação baseia-se em dois níveis: no primeiro o reconhecimento entidades ativas dentro de um domínio de rede e o segundo, se cada entidade corresponde ao padrão conhecido. As metodologias apresentadas para inferir se algo está de acordo com padrões conhecidos são transversais a outros domínios. Embora a agregação de metadados e modelação seja diferente, o processo descrito para inferir padrões é genérico o suficiente para ser aplicado a outros casos de uso, de rede ou não, ou ainda combinado em cenários mais complexos. O último capítulo inclui uma prova de conceito com dados sintéticos e algumas métricas de avaliação, para perceber se os algoritmos de classificação podem distinguir com sucesso padrões diferentes. Os testes mostraram resultados promissores, variando de 99% para classificação de entidades e 77% para 98% (dependendo da natureza da entidade) para deteção de anormalidades.
URI:	http://hdl.handle.net/10773/25131
Appears in Collections:	UA - Dissertações de mestrado DETI - Dissertações de mestrado

Files in This Item:

File	Description	Size	Format
Documento.pdf		9.8 MB	Adobe PDF	View/Open

Show full item record