TU Darmstadt / ULB / TUprints

Improving the Capabilities of Distributed Collaborative Intrusion Detection Systems using Machine Learning

Garcia Cordero, Carlos (2019):
Improving the Capabilities of Distributed Collaborative Intrusion Detection Systems using Machine Learning.
Darmstadt, Technische Universität,
[Ph.D. Thesis]

[img]
Preview
Text
cgc_thesis_1.2.pdf - Accepted Version
Available under CC-BY-SA 4.0 International - Creative Commons, Attribution Share-alike.

Download (3MB) | Preview
Item Type: Ph.D. Thesis
Title: Improving the Capabilities of Distributed Collaborative Intrusion Detection Systems using Machine Learning
Language: English
Abstract:

The impact of computer networks on modern society cannot be estimated. Arguably, computer networks are one of the core enablers of the contemporary world. Large computer networks are essential tools which drive our economy, critical infrastructure, education and entertainment. Due to their ubiquitousness and importance, it is reasonable to assume that security is an intrinsic aspect of their design. Yet, due to how networks developed, the security of this communication medium is still an outstanding issue.

Proactive and reactive security mechanisms exist to cope with the security problems that arise when computer networks are used. Proactive mechanisms attempt to prevent malicious activity in a network. Prevention alone, however, is not sufficient: it is imprudent to assume that security cannot be bypassed. Reactive mechanisms are responsible for finding malicious activity that circumvents proactive security mechanisms. The most emblematic reactive mechanism for detecting intrusions in a network is known as a Network Intrusion Detection System (NIDS).

Large networks represent immense attack surfaces where malicious actors can conceal their intentions by distributing their activities. A single NIDS needs to process massive quantities of traffic to discover malicious distributed activities. As individual NIDS have limited resources and a narrow monitoring scope, large networks need to employ multiple NIDS. Coordinating the detection efforts of NIDS is not a trivial task and, as a result, Collaborative Intrusion Detection System (CIDSs) were conceived. A CIDS is a group of NIDSs that collaborate to exchange information that enables them to detect distributed malicious activities. CIDSs may coordinate NIDSs using different communication overlays.

From among the different communication overlays a CIDSs may use, a distributed one promises the most. Distributed overlays are scalable, dynamic, resilient and do not have a single point of failure. Distributed CIDSs, i.e., those using distributed overlays, are preferred in theory, yet not often deployed in practice. Several open issues exist that constraint the use of CIDSs in practice.

In this thesis, we propose solutions to address some of the outstanding issues that prevent distributed CIDSs from becoming viable in practice. Our contributions rely on diverse Machine Learning (ML) techniques and concepts to solve these issues. The thesis is structured around five main contributions, each developed within a dedicated chapter. Our specific contributions are as follows.

Dataset Generation

We survey the intrusion detection research field to analyze and categorize the datasets that are used to develop, compare, and test NIDSs as well as CIDSs. From the defects we found in the datasets, we develop a classification of dataset defects. With our classification of dataset issues, we develop concepts to create suitable datasets for training and testing ML based NIDSs and CIDSs. With our concepts, we injects synthetic attacks into real background traffic. The generated attacks replicate the properties of the background traffic to make attacks as indistinguishable as they can be from real traffic.

Intrusion Detection

We develop an anomaly-based NIDS capable of overcoming some of the limitations that NIDSs have when they are used in large networks. Our anomaly-based NIDS leverages autoencoders and dropout to create models of normality that accurately describe the behavior of large networks. Our NIDS scales to the number of analyzed features, can learn adequate normality models even when anomalies are present in the learning data, operates in real time, and is accurate with only minimal false positives.

Community Formation

We formulate concepts to build communities of NIDSs, coined community-based CIDSs, that implement centralized ML algorithms in a distributed environment. Community-based CIDSs detect distributed attacks through the use of ensemble learning. Ensemble learning is used to combine local ML models created by different communities to detect network-wide attacks that individual communities would otherwise struggle to detect.

Information Dissemination

We design a dissemination strategy specific to CIDSs. The strategy enables NIDSs to efficiently disseminate information to discover and infer when similar network events take place, potentially uncovering distributed attacks. In contrast to other dissemination strategies, our strategy efficiently encodes, aggregates, correlates, and shares network features while minimizing network overhead. We use Sketches to aggregate data and Bayesian Networks to deduce new information from the aggregation process.

Collusion Detection

We devise an evidence-based trust mechanism that detects if the NIDSs of a CIDS are acting honestly, according to the goals of the CIDS, or dishonestly. The trust mechanism uses the reliability of the sensors and Bayesian-like estimators to compute trust scores. From the trust scores, our mechanism is designed to detect not only single dishonest NIDSs but multiple coalitions of dishonest ones. A coalition is a coordinated group of dishonest NIDSs that lie to boost their trust scores, and to reduce the trust scores of others outside the group.

Alternative Abstract:
Alternative AbstractLanguage
Die Auswirkungen von Computernetzwerken auf die moderne Gesellschaft lassen sich nicht abschätzen. Zweifellos sind Computernetzwerke einer der wichtigsten Faktoren in der heutigen Welt. Große Computernetzwerke sind unverzichtbare Werkzeuge, die unsere Wirtschaft, kritische Infrastruktur, Bildung und Unterhaltung antreiben. Aufgrund ihrer Allgegenwärtigkeit und Bedeutung ist es sinnvoll anzunehmen, dass Sicherheit ein wesentlicher Aspekt ihres Designs ist. Doch aufgrund der Entwicklung der Netzwerke ist die Sicherheit dieses Kommunikationsmediums noch ein offenes Thema. Zur Bewältigung der Sicherheitsprobleme, die bei der Nutzung von Computernetzwerken auftreten, werden aktuell proaktive und reaktive Sicherheitsmechanismen eingesetzt. Proaktive Mechanismen versuchen, böswillige Aktivitäten in einem Netzwerk zu verhindern. Prävention allein reicht jedoch nicht aus: Es ist leichtsinnig anzunehmen, dass Sicherheit nicht umgangen werden kann. Reaktive Mechanismen sind dafür verantwortlich, gerade die Aktivitäten zu entdecken, die proaktive Sicherheitsmechanismen umgehen. Der wohl bekannteste reaktive Mechanismus zur Erkennung von Eindringlingen in einem Netzwerk ist bekannt als Network Intrusion Detection System (NIDS). Große Netzwerke stellen immense Angriffsflächen dar, deren Größe es böswilligen Akteuren ermöglicht, ihre Absichten durch die Verteilung ihrer Aktivitäten zu verbergen. Ein einzelnes NIDS muss große Mengen an Datenverkehr verarbeiten, um bösartige verteilte Aktivitäten zu entdecken. Da einzelne NIDSs nur über begrenzte Ressourcen und einen eingeschränkten Überwachungsradius verfügen, müssen große Netzwerke mehrere NIDSs einsetzen. Da die Koordination der Erkennungsbemühungen von NIDSs keine triviale Aufgabe darstellt, wurden als Lösung Collaborative Intrusion Detection Systems (CIDSs) konzipiert. Ein CIDS besteht aus einer Gruppe von NIDSs, die zusammenarbeiten, um Informationen auszutauschen, die es ihnen ermöglichen, verteilte bösartige Aktivitäten zu erkennen. NIDSs können durch CIDSs unter Verwendung verschiedener Kommunikationsüberlagerungen koordiniert werden. Aus den verschiedenen Kommunikations-Overlays, die ein CIDSs verwenden kann, ist ein verteilter Ansatz der vielversprechenste. Verteilte Overlays sind skalierbar, dynamisch, resilient und haben keinen zentralen Schwachpunkt. Verteilte CIDSs, die verteilte Overlays verwenden, werden in der Theorie bevorzugt, aber in der Praxis nicht häufig eingesetzt. Es gibt mehrere offene Fragen, die den Einsatz von CIDSs in der Praxis einschränken. In dieser Arbeit schlagen wir Lösungen vor, mit dem Ziel, einige der noch offenen Fragen zu addressieren, die verhindern, dass verteilte CIDSs in der Praxis nutzbar werden. Unsere Beiträge basieren auf verschiedenen Machine Learning (ML) Techniken und Konzepten, um dieses Ziel zu erreichen. Die Arbeit beinhaltet fünf Hauptbeiträge, die jeweils in einem eigenen Kapitel beschreiben werden. Unsere spezifischen Beiträge lauten wie folgt. Datensatzerstellung Wir untersuchen das Feld wissenschaftlicher Arbeiten zu Intrusion Detection System (IDS), um die Datensätze zu analysieren und zu kategorisieren, die zur Entwicklung, zum Vergleich und zum Testen von NIDSs und CIDSs verwendet werden. Aus den Defiziten, die wir in den Datensätzen gefunden haben, entwickeln wir eine Klassifizierung für Datensatzprobleme. Mit unserer Klassifizierung von Datensatzproblemen entwickeln wir Konzepte zur Erstellung geeigneter Datensätze zum Trainieren und Testen ML-basierter NIDSs und CIDSs. Mit unseren Konzepten injizieren wir synthetische Angriffe in realen Hintergrunddatenverkehr. Die erzeugten Angriffe replizieren die Eigenschaften des Hintergrunddatenverkehrs, um Angriffe dadurch von echtem Datenverkehr ununterscheidbar zu machen. Einbruchserkennung Wir schlagen ein anomaliebasiertes NIDS vor, das in der Lage ist, einige der Einschränkungen von NIDSs zu überwinden, die auftreten, wenn diese in großen Netzwerken eingesetzt werden. Unser anomaliebasiertes NIDS nutzt Autoencoder und Dropout, um Modelle der Normalität zu erstellen, die das Verhalten großer Netzwerke akkurat beschreiben. Unser NIDS skaliert hinsichtlich der Anzahl analysierter Merkmale, ist resilient gegenüber dem Lernen auf Datensätzen, die Angriffe beinhalten, arbeitet in Echtzeit und hat eine genaue Erkennungsrate bei minimaler Anzahl von Fehlalarmen. Erstellung von Gemeinschaften Wir formulieren Konzepte zum Aufbau von Gemeinschaften von NIDSs, genannt gemeinschaftsbasierte CIDSs. Diese implementieren zentralisierte ML Algorithmen in einer verteilten Umgebung. Gemeinschaftsbasierte CIDSs erkennen verteilte Angriffe durch den Einsatz von Ensemble Learning. Ensemble Learning wird verwendet, um lokale ML Modelle zu kombinieren, die von verschiedenen Gemeinschaften erstellt wurden, um netzwerkweite Angriffe zu erkennen, die einzelne Gemeinschaften sonst nur schwer erkennen würden. Informationsverbreitung Wir entwickeln eine Verbreitungsstrategie, die speziell auf CIDSs zugeschnitten ist. Die Strategie ermöglicht es NIDSs, Informationen effizient zu verbreiten, um ähnliche Netzwerkereignisse zu erkennen und daraus Rückschlüsse zu ziehen, um potenziell verteilte Angriffe aufzudecken. Im Gegensatz zu anderen Verbreitungstechniken kodiert, aggregiert, korreliert und teilt unsere Verbreitungsstrategie Netzwerkmerkmale effizient und minimiert gleichzeitig den Netzwerk-Overhead. Bayes'sche Netzwerke und Sketches dienen hierbei als Hebelmechanismen. Kollusionserkennung Wir entwickeln einen evidenzbasierten Vertrauensmechanismus, der erkennt, ob die NIDSs einer CIDS ehrlich, nach den Zielen der CIDS, oder unehrlich handeln. Der Vertrauensmechanismus nutzt die Zuverlässigkeit der Sensoren und orientiert sich an Bayes'schen Schätzern, um Vertrauenswerte zu berechnen. Der Mechanismus wurde entwickelt, um nicht nur einzelne unehrliche NIDSs, sondern auch mehrere Koalitionen von unehrlicher NIDSs zu erkennen. Eine Koalition ist eine koordinierte Gruppe von unehrlichen NIDSs. Die NIDSs einer Koalition lügen, um ihre Vertrauenszahlen zu erhöhen und die Vertrauenszahlen anderer außerhalb der Koalition zu reduzieren.German
Place of Publication: Darmstadt
Classification DDC: 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Divisions: 20 Department of Computer Science > Telecooperation
Date Deposited: 21 Aug 2019 11:28
Last Modified: 09 Jul 2020 02:43
URN: urn:nbn:de:tuda-tuprints-90033
Referees: Mühlhäuser, Prof. Dr. Max and Mayrhofer, Prof. Dr. René and Hauke, Prof. Dr. Sascha
Refereed: 14 June 2019
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/9003
Export:
Actions (login required)
View Item View Item