Training AI in Hostile Environments: Adversarially Robust Machine Learning

Artificial Intelligence (AI) and particularly Deep Learning (DL)-based techniques have recently achieved numerous remarkable milestones, allowing their application to increasingly complex and critical tasks, including tasks from the security domain. The capability of AI to autonomously process and analyze large amounts of data has enabled the development of advanced security systems that can evaluate large numbers of events within a system while taking into account a wide array of features that would otherwise overwhelm human analysts when performing manual inspections. This scalability and precision make DL a valuable analysis technique to be leveraged in various security-critical applications, allowing the development of sophisticated protection mechanisms.

Adversarial manipulations pose a significant threat in this context, as attackers can exploit the training process to introduce blind spots into the monitoring system. Unlike natural data corruptions, such as biases or mislabeled samples, adversarial manipulations are intentional and capable of adapting their characteristics and intensity in response to deployed defense mechanisms. Adversaries can modify attacks to bypass data-cleaning techniques and systematically compromise the system. Due to DL's fundamental reliance on the underlying training data, the presence of active adversaries in security applications of Deep Neural Networks (DNNs) introduces several unique challenges distinct from those encountered in non-security domains.

First, adversarial manipulations can exploit scenarios where models must dynamically adapt to evolving system behaviors to remain effective. Attackers can take advantage of these adaptive mechanisms by gradually altering behavior in subtle ways, thereby shifting the decision boundaries without triggering alerts in the active monitoring scheme.

The second challenge arises from the scarcity and sensitivity of training data. While traditional DL applications are often constrained by the availability of labeled datasets and the time-intensive nature of the labeling process, security applications face additional restrictions. The data used in such contexts often includes sensitive information, such as users' network traffic or sensor data from smart homes, where privacy concerns or legal constraints may limit access and prevent sharing of the data. Distributed learning paradigms, such as Federated Learning (FL), overcome the need for centralized data collection by outsourcing the training process to individual clients that keep their data locally, sharing only the parameters of the trained DNNs. However, in adversarial environments, this decentralized approach creates an opportunity for attackers to manipulate the trained model. By providing poisoned training contributions, malicious actors can inject blind spots into the aggregated model, undermining its integrity and effectiveness.

The third major challenge is raised by resource constraints in security deployments. While advanced security analyses often necessitate the use of complex DNNs, such models can exceed the computational capacities of resource-constrained devices that are deployed in the real world. To address this limitation, approaches like Split Learning (SL) partition the DNN into client-side layers, which are responsible for processing sensitive input and output data, as well as server-side layers, which handle computation-intensive calculations. This design enables multiple resource-constrained clients to train also large DNNs collaboratively. However, partitioning the model introduces a significant limitation, as the server's restricted access to only a portion of the DNN prevents the server from performing a comprehensive analysis of the model to detect poisoned contributions.

This cumulative dissertation systematically addresses these challenges to enhance the robustness and security of machine learning training processes in adversarial environments. We address the first challenge of a comprehensive and dynamically adapting but robust security-monitoring system with an autonomously trained anomaly-detection system that adapts to changes in the system's behavior while remaining resilient against manipulations. The system is showcased for detecting attacks on IoT smart homes. While the number of IoT devices continues to grow, many devices still lack even basic security measures. Existing literature for mitigating attacks focuses on network- or host-based intrusion detection of attacks that compromise the IoT device itself. However, these approaches cannot detect attacks that exploit insecure control planes, such as unauthorized commands issued via cloud services without user authentication, where the IoT device is not directly targeted. To address this gap, we propose a scheme that analyzes status changes while considering the device's context, i.e., the states of all other devices in the system. Leveraging DNNs, the scheme evaluates the comprehensive state of the monitored system, models regular behavioral patterns of the smart home, and computes an anomaly score for each triggered action. A significant challenge lies in classifying these scores, as different smart homes exhibit varying levels of behavioral variance, which may also change over time. Conversely, adversaries could exploit adaptive classification boundaries to manipulate the detection. We design a dynamic threshold-tuning scheme that incorporates historical information and the variance in the users' behavior while restricting the impact of short-term deviations, thereby mitigating manipulation attempts and ensuring robust adaptability.

To address the second challenge concerning the availability of potentially sensitive training data, we investigate backdoor-resilient distributed learning schemes. Backdoor attacks introduce well-defined misbehavior for inputs containing a certain activation pattern, making them eligible to intentionally inject a blind spot for certain attacks. To build robust FL systems, we propose a dynamic noising scheme to remove backdoors from the aggregated model, minimizing utility loss and noise magnitude by integrating outlier detection and clipping techniques. Combining these components makes the defense scheme resilient even against adaptive attacks. However, outlier detection may exclude models from benign clients whose datasets are not independently and identically distributed (non-IID) and significantly differ from the data of other clients. In such scenarios, the models trained on these datasets also differ significantly from one another. A critical challenge is to determine whether such discrepancies are caused by benign variations in training data or malicious manipulations. To address this challenge, we build on the first work and design several novel techniques for analyzing model updates, identifying artifacts characteristic of backdoored models, and measuring data similarities using DNN models trained on the clients' datasets. These techniques, combined with similarity estimations for the clients' datasets, are incorporated into a classifier to effectively distinguish between benign and backdoored models. Building on these insights, we design DeepSight, which combines the filtering mechanism with a dynamic clipping scheme to effectively eliminate backdoor attacks, particularly in scenarios where the clients' data show similar complexity. To secure FL in other settings, we introduce CrowdGuard, a scheme that analyzes changes in model behavior using validation data. Addressing the challenge that servers lack validation data and cannot share the models with other clients due to privacy concerns, we propose a novel architecture based on client-side secure enclaves for confidentiality-preserving model validation leveraging the clients' datasets. This architecture enables secure sharing of model updates among clients while isolating applications to prevent privacy breaches. Using this framework, we design an algorithm that detects backdoors by analyzing subtle changes in the behavior of individual neurons and integrates a robust server-side voting mechanism to prevent malicious clients from manipulating the validation result through manipulated validation data. Together, these contributions allow the design of attack-resilient FL systems, advancing defenses against sophisticated adversarial threats.

To address the third challenge, we extend the detection of poisoned training contributions to learning paradigms such as SL, where only certain parts of the DNN can be monitored, and clients train sequentially, preventing direct comparisons of updates. To address these limitations, we inspect the observable parameters using static and dynamic analysis techniques to validate and compare the clients' training objectives. For the dynamic analysis, we design a novel technique that measures the rotational distance between models, capturing subtle changes in updates by considering rotation and orientation. Combined with frequency domain analysis inspecting the models from the static perspective, this ensemble creates a comprehensive fingerprint of the training objectives. Given the inherently sequential structure of SL, we design a circular architecture to analyze each model change, enabling the identification and reversal of malicious training contributions.

Sprache

Englisch

Alternativtitel

Training von KI in feindlichen Umgebungen: Sicheres maschinelles Lernen

Alternatives Abstract

Künstliche Intelligenz (KI), insbesondere Deep Learning (DL), hat in jüngster Zeit bedeutende Fortschritte erzielt und wird zunehmend für komplexe, aber auch sicherheitskritische Aufgaben eingesetzt. Die Fähigkeit von KI, große Datenmengen automatisiert zu verarbeiten und zu analysieren, ermöglicht die Entwicklung fortgeschrittener Sicherheitssysteme, die eine Vielzahl von Ereignissen innerhalb eines Systems analysieren können und dabei eine große Anzahl von Features berücksichtigen, die menschliche Analysten bei manueller Prüfung überfordern würden. DL vereint Skalierbarkeit und Präzision und ermöglicht so moderne Schutzkonzepte.

Gezielte Manipulationen durch Angreifer stellen in diesem Kontext eine besondere Bedrohung dar. Diese können den Trainingsprozess aktiv ausnutzen, um gezielt Schwachstellen in das Überwachungssystem einzubringen. Im Gegensatz zu natürlich auftretenden Datenfehlern wie Messungenauigkeiten oder falsch gelabelten Trainingsbeispielen sind bösartige Manipulationen bewusst herbeigeführt und daher flexibel anpassbar. Angreifer können ihre Methoden dynamisch verändern, um Datenbereinigungsverfahren zu umgehen und das System langfristig zu kompromittieren. Da DL in hohem Maße von der Qualität der Trainingsdaten abhängt, ergeben sich durch aktive Angriffe in sicherheitskritischen Anwendungen von Deep Neural Networks (DNNs) besondere Probleme, die über die typischen Herausforderungen in nicht sicherheitsrelevanten Anwendungen deutlich hinausgehen.

Erstens können Angreifer Szenarien ausnutzen, in denen Modelle ihr Verhalten dynamisch an veränderte Systemzustände anpassen müssen, um effektiv zu bleiben. Durch kontinuierliche und gezielte Modifikationen können Angreifer diese Adaptionsmechanismen ausnutzen, die Entscheidungsgrenzen des Modells unbemerkt verschieben und so eine schleichende Kompromittierung erreichen, ohne Alarme im aktiven Überwachungssystem auszulösen.

Die zweite Herausforderung ergibt sich aus der eingeschränkten Verfügbarkeit und Sensibilität von Trainingsdaten. Während auch klassische DL-Anwendungen häufig durch begrenzte Mengen gelabelter Daten und den aufwändigen Labeling-Prozess eingeschränkt sind, treten in sicherheitskritischen Bereichen zusätzliche Hürden auf. Hier enthalten die Daten oft sensible Informationen, etwa Netzwerkverkehr der Nutzer oder Sensordaten aus Smart Homes, deren Nutzung durch Datenschutzbestimmungen und gesetzliche Vorgaben stark reguliert ist. Ansätze wie Federated Learning (FL) umgehen die Notwendigkeit der zentralen Speicherung sensibler Daten, indem das Training dezentral auf den Endgeräten erfolgt und lediglich Modellparameter ausgetauscht werden. In Sicherheitsanwendungen birgt dieser Ansatz jedoch neue Risiken: Angreifer können gezielt manipulierte Beiträge in den Trainingsprozess einbringen, Schwachstellen in das aggregierte Modell einschleusen und so dessen Integrität und Leistungsfähigkeit unterwandern.

Die dritte zentrale Herausforderung ergibt sich aus begrenzten Ressourcen in Sicherheitssystemen. Für fortgeschrittene Sicherheitsanalysen sind häufig komplexe DNNs erforderlich, deren Rechenanforderungen jedoch die Kapazitäten vieler in der Praxis eingesetzter Geräte übersteigen. Um dieses Problem zu lösen, unterteilen Ansätze wie Split Learning (SL) das DNN in clientseitige und serverseitige Layer auf. Die clientseitigen Layer verarbeiten die sensible Ein- und Ausgabedaten, während die rechnenintensiven Layer vom Server evaluiert werden. Dadurch können auch leistungsschwache Clients gemeinsam umfangreiche Modelle trainieren. Allerdings führt diese Aufteilung zu einer entscheidenden Schwäche. Da der Server nur einen Teil des Modells verwaltet, ist eine Inspektion des gesamten Modells auf manipulierte Beiträge nicht möglich.

Diese kumulative Dissertation adressiert systematisch diese Herausforderungen, um die Robustheit und Sicherheit von maschinellen Lernprozessen gegen Manipulationen zu verbessern.

Die erste Herausforderung, ein dynamisch anpassungsfähiges und zugleich robustes Sicherheitsüberwachungssystem zu entwickeln, lösen wir mit einer autonom trainierten Anomalieerkennung. Diese passt sich an Veränderungen im Systemverhalten an, bleibt jedoch resistent gegen Manipulationen. Unser Ansatz wird exemplarisch zur Erkennung von Angriffen auf IoT-Smart Homes eingesetzt, in denen viele Geräte nach wie vor selbst grundlegende Sicherheitsmechanismen vermissen lassen. Während bestehende Literatur vor allem Netzwerk- oder Host-basierte Erkennungssysteme nutzt, um Angriffe auf die Geräte selbst zu identifizieren, bleiben Angriffe auf die Kontrollinfrastruktur, etwa unautorisierte Befehle über Cloud-Dienste, oft unentdeckt. Wir analysieren Statusänderungen der Geräte im Kontext des gesamten Systems und bewerten das Verhalten mittels Deep Neural Networks (DNNs). Dabei wird das übliche Verhalten des gesamten Smart Homes modelliert und für jede Aktion ein Anomaliewert berechnet. Um unterschiedlichen und sich verändernden Verhaltensmustern in verschiedenen Haushalten gerecht zu werden und gleichzeitig Manipulationsversuche abzuwehren, entwickeln wir ein dynamisches Schwellenwertverfahren. Dieses berücksichtigt historische Daten sowie Nutzerverhalten und begrenzt gezielt den Einfluss kurzfristiger Abweichungen, wodurch eine robuste und adaptive Erkennung gewährleistet wird.

Zur Bewältigung der zweiten Herausforderung, die sich aus der begrenzten Verfügbarkeit sensibler Trainingsdaten ergibt, entwickeln wir mehrere backdoor-resistente Verfahren für verteiltes Lernen. Backdoor-Angriffe fügen gezielt Fehlverhalten in Modelle ein, indem sie bei bestimmten Eingaben mit speziellen Triggern unerwünschte Ausgaben erzeugen. Um Federated Learning (FL) Systeme gegen solche Angriffe abzusichern, entwickeln wir ein dynamisches Rauschverfahren, das Backdoors aus dem aggregierten Modell entfernt. Durch die Kombination von Ausreißererkennung und Clipping minimieren wir dabei den Einfluss des Rauschens auf die Modellqualität, selbst bei adaptiven Angriffen. Ein zentrales Problem dabei ist die Unterscheidung zwischen harmlosen Abweichungen in Modellen durch heterogene, non-IID genannte, Daten der Clients und bösartigen Manipulationen. Hierfür entwickeln wir neue Verfahren zur Inspektion von Modellupdates, um charakteristische Backdoor-Artefakte zu identifizieren und Ähnlichkeiten zwischen den Datensätzen der Clients durch die Analyse der trainierten Modelle zu bewerten. Diese Erkenntnisse fließen in einen Klassifikator ein, der zuverlässig zwischen gutartigen und kompromittierten Modellen unterscheidet. Aufbauend darauf entwerfen wir DeepSight, ein Verfahren, das dynamisches Clipping mit Modellinspektionen kombiniert und insbesondere bei ähnlich komplexen Datensätzen effektiv Backdoors entfernt. Für andere Einsatzszenarien entwickeln wir CrowdGuard, ein System, das Verhaltensänderungen von Modellen mithilfe von Validierungsdaten erkennt. Da Server keinen Zugriff auf solche Daten haben und die Modelle aus Datenschutzgründen nicht direkt mit Clients teilen können, setzen wir auf eine Architektur mit clientseitigen Secure Enclaves, die eine vertraulichkeitserhaltende Validierung direkt mit den Daten der Clients ermöglicht. Innerhalb dieses Frameworks entwerfen wir einen Algorithmus zur Erkennung von Backdoors, indem subtile Änderungen im Verhalten einzelner Neuronen analysiert werden. Ein robustes serverseitiges Abstimmungsverfahren verhindert eine Verfälschung der Ergebnisse durch Angreifer, welche ihren Enklaven manipulierte Validierungsdaten zur Verfügung stellen. Zusammen ermöglichen diese Beiträge die Entwicklung von widerstandsfähigen FL-Systemen, die auch komplexen und adaptiven Angriffen standhalten.

Zur Lösung der dritten Herausforderung erweitern wir die Erkennung von manipulierten Trainingsbeiträgen auf Lernparadigmen wie SL. Hier können nur Teile des DNNs überwacht werden und die Clients trainieren sequentiell, wodurch direkte Vergleiche von Aktualisierungen nicht möglich sind. Um diese Einschränkungen zu umgehen, untersuchen wir die beobachtbaren Parameter mithilfe von statischen und dynamischen Analysetechniken, um die Trainingsziele der Clients zu validieren und zu vergleichen. Für die dynamische Analyse entwickeln wir eine neuartige Technik zur Messung der Rotationsdistanz zwischen Modellen, die subtile Änderungen in den Aktualisierungen durch Berücksichtigung von Rotation und Orientierung erfasst. Kombiniert mit einer Frequenzbereichsanalyse, die Modelle aus statischer Perspektive untersucht, entsteht ein umfassender Fingerabdruck der Trainingsziele. Angesichts der inhärent sequenziellen Struktur von SL entwerfen wir eine zirkuläre Architektur, die jede Modelländerung analysiert und so die Identifizierung und Umkehrung bösartiger Trainingsbeiträge ermöglicht.

Fachbereich/-gebiet

20 Fachbereich Informatik > Systemsicherheit

DDC

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

Institution

Technische Universität Darmstadt

Ort

Darmstadt

Datum der mündlichen Prüfung

14.05.2025

Gutachter:innen

Sadeghi, Ahmad-Reza

Koushanfar, Farinaz

Handelt es sich um eine kumulative Dissertation?

Ja

Name der Gradverleihenden Institution

Technische Universität Darmstadt

Ort der Gradverleihenden Institution

Darmstadt

PPN

530233622