Machine Learning Models in Network Intrusion Detection Systems : Self-Supervised Detection of Malicious Flows and Traffic Patterns Recognition in Programmable Networks

Golchin, Pegah (2024)
Machine Learning Models in Network Intrusion Detection Systems : Self-Supervised Detection of Malicious Flows and Traffic Patterns Recognition in Programmable Networks.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00027840
Ph.D. Thesis, Primary publication, Publisher's Version

Text
2024-08-13_Golchin_Pegah.pdf
Copyright Information: CC BY 4.0 International - Creative Commons, Attribution.
Download (16MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Machine Learning Models in Network Intrusion Detection Systems : Self-Supervised Detection of Malicious Flows and Traffic Patterns Recognition in Programmable Networks

Language:

English

Referees:

Steinmetz, Prof. Dr. Ralf ; Mauthe, Prof. Dr. Andreas

Date:

15 August 2024

Place of Publication:

Darmstadt

Collation:

xiv, 148 Seiten

Date of oral examination:

16 July 2024

DOI:

10.26083/tuprints-00027840

Abstract:

The recent increase in cyber-attacks highlights the critical need for reliable Network Intrusion Detection Systems capable of detecting anomalies before they inflict substantial damage. Conventional intrusion detection methods often fail to classify previously unseen intrusion patterns accurately. This shortfall is exacerbated by the emergence of new network intrusion types and the evolving nature of network structures. Machine Learning (ML) models address this need by learning representations of network traffic flows. Nonetheless, challenges persist, particularly in ensuring their adaptability and ability to generalize in detecting various network traffic patterns and integrating them into programmable networks. The first contribution of this thesis highlights the presence of diverse flow feature patterns in existing network traffic patterns. To mitigate the impact of these disparities on the final detection performance and minimize noise in flow features, thereby reducing the complexity of ML models, an Ensemble Feature Selection approach is devised. This method integrates statistical and ML-based feature selectors, taking into account the imbalance of benign and attack traffic to avoid biased feature extraction. Evaluation results demonstrate the potential to attain high detection performance with a reduced flow feature dimension. Additionally, a data-driven approach is incorporated into the proposed feature selection method to improve the transferability of selected flow features across different network traffic patterns. The second contribution aimed at tackling two main challenges: the limited availability of annotated network traffic flow data required for training ML models and the limited ability of ML models to generalize across various network traffic patterns. To overcome these challenges, a Self-Supervised Contrastive Learning approach is introduced, which is specifically trained on benign flows to learn the abstract representation of benign flow patterns. The results illustrate improvements in the generalization of detection performance across diverse network traffic patterns. These improvements surpass the performance of both supervised and unsupervised ML models used as baselines. The last contribution explores integrating ML models into programmable networks, particularly following the Software-Defined Networking paradigm, which separates the data plane from the control plane. However, deploying complex ML models in the control plane can increase the risk of overwhelming it, given the necessity to forward flows through it. Conversely, employing lightweight models with few trainable parameters in the data plane may compromise detection performance. To tackle these challenges, we propose a collaborative ML-based intrusion detection approach. This approach facilitates cooperation between ML models deployed in the data plane and the control plane based on the confidence level of the deployed ML model in the data plane. Using this approach, a balance is achieved between attaining high detection performance and speed while reducing network load.

Alternative Abstract:

Alternative Abstract

Language

Die jüngste Zunahme von Cyberangriffen verdeutlicht den zwingenden Bedarf von zuverlässigen Systemen zur Erkennung von Eindringlingen in Netzwerken. Solche Systeme müssen diese Eindringlinge erkennen, bevor deren Angriffe erheblichen Schaden anrichten können. Herkömmliche Methoden zur Erkennung von Eindringlingen sind oft nicht in der Lage, neue oder bisher unbekannte Angriffsmuster genau zu klassifizieren. Dieses Manko wird durch das vermehrte Auftreten neuartiger Angriffsversuche und die sich verändernden Netzwerkstrukturen noch verschärft. Methoden des maschinellen Lernens (ML) addressieren dieses Problem, indem sie charakteristische Eigenschaften von Netzwerkverkehr lernen. Dennoch bestehen weitere Herausforderungen, insbesondere bei der Gewährleistung ihrer Anpassungsfähigkeit und Generalisierbarkeit bei der Erkennung verschiedener Netzverkehrsmuster und ihrer Integration in programmierbare Netzwerke. Der erste Beitrag dieser Arbeit behandelt die Existenz verschiedener Muster von Verkehrsflussmerkmalen. Um die Auswirkungen dieser Unterschiede auf die endgültige Erkennungsleistung abzuschwächen, das Rauschen in den Verkehrsflussmerkmalen zu minimieren und damit die Komplexität der ML-Modelle zu reduzieren, ist ein Ensemble-Feature-Selection-Ansatz entwickelt worden. Diese Methode integriert statistische und ML-basierte Merkmalsselektoren und berücksichtigt das Ungleichgewicht zwischen gutartigen und bösartigen Verkehrsdaten, um eine verzerrte Merkmalsextraktion zu vermeiden. Die Evaluationsergebnisse zeigen, dass mit einer reduzierten Merkmalsdimension dennoch eine sehr hohe Erkennungsleistung unter Berücksichtigung aller Flussmerkmale erreichbar ist. Um die Übertragbarkeit ausgewählter Verkehrsflussmerkmale auf verschiedene Verkehrsmuster im Netz zu verbessern, wird ein datengesteuerter Ansatz in die vorgeschlagene Methode zur Merkmalsauswahl integriert. Der zweite Beitrag umfasst weitere Untersuchungen zur Bewältigung zweier Herausforderungen: die begrenzte Verfügbarkeit von annotierten Netzwerkverkehrsflussdaten, die für das Training von ML-Modellen erforderlich sind, und die Fähigkeit von ML-Modellen, über verschiedene Netzwerkverkehrsmuster hinweg zu generalisieren. Um diese Herausforderungen zu bewältigen, wird Contrastive Self-Supervised Learning genutzt, das speziell auf gutartigen Datenflüssen trainiert wird, um die abstrakte Darstellung gutartiger Datenflussmuster zu erlernen. Die Ergebnisse zeigen Verbesserungen bei der Generalisierung der Erkennungsleistung über verschiedene Netzwerkverkehrsmuster hinweg. Diese Verbesserungen übertreffen die Leistung sowohl überwachter als auch unüberwachter ML-Modelle, die als Vergleichsansätze verwendet werden. Der letzte Beitrag befasst sich mit der Integration von ML-Modellen in programmierbaren Netzen, insbesondere in Anlehnung an das Paradigma des Software-Defined Networking, in welchem die Datenebene von der Kontrollebene getrennt ist. Der Einsatz komplexer ML-Modelle in der Kontrollebene kann diese jedoch überlasten, da Datenströme durch das Kontrollnetzwerk weitergeleitet werden müssen. Dagegen vermindert die Verwendung leichtgewichtiger Modelle mit wenigen trainierbaren Parametern in der Datenebene die Erkennungsleistung negativ. Um diese Herausforderungen zu bewältigen, wird in dieser Arbeit ein kollaborativer ML-basierter Ansatz zur Erkennung von Eindringlingen vorgeschlagen. Dieser Ansatz ermöglicht die Zusammenarbeit von ML-Modellen auf der Datenebene und der Kontrollebene, basierend auf dem Vertrauensniveau des ML-Modells in der Datenebene. Mit diesem Ansatz wird eine Balance zwischen hoher Erkennungsleistung und Geschwindigkeit bei gleichzeitiger Verringerung der Netzwerklast des Kontrollnetzwerks erreicht.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-278400

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

18 Department of Electrical Engineering and Information Technology > Institute of Computer Engineering > Multimedia Communications

Date Deposited:

15 Aug 2024 12:09

Last Modified: