Understanding and Mitigating Security, Privacy, and Ethical Risks in Generative Artificial Intelligence

Throughout modern history, technical achievements have always been carefully evaluated not only for their benefits but also for their weaknesses, vulnerabilities, and potential for misuse. The rise of artificial intelligence (AI), arguably one of the most disruptive technologies of the 21st century, is no exception and demands rigorous, continuous assessment of its challenges. The fast development of AI presents significant risks, making it difficult to align comprehensive analyses with its rapid advancements. These risks are diverse, including threats to data privacy, model security, and ethical integrity, arising from both inherent model limitations and adversarial exploitation.

In this thesis, we investigate multiple risks associated with deep learning in the context of generative AI, with a focus on computer vision applications. As a real-world example of AI system risks, we analyze client-side scanning used for illegal content detection, demonstrating how small input perturbations can exploit weaknesses in deep perceptual hashing and undermine its reliability. Extending our investigation to face recognition systems, we reveal how adversarial parties can reconstruct private characteristics of individuals' appearances without access to the model's training data. With a novel high-resolution inversion attack, we show that such privacy breaches are exploitable with off-the-shelf generative models. Through extensive analyses, we propose an effective defense mechanism that mitigates this privacy leakage by subtly modifying training labels.

The second half of this thesis shifts focus to risks in generative text-to-image synthesis systems. We address unintended memorization by developing the first localization algorithm capable of identifying individual neurons responsible for triggering the replication of training data. By deactivating these neurons, memorization can be effectively mitigated, preventing data replication without harming the overall model utility. Furthermore, we uncover a surprising sensitivity of these systems to character encodings, which bias the image generation toward specific cultural representations and stereotypes, and propose an efficient mitigation strategy to address this issue. Finally, we explore the susceptibility of pre-trained system components to malicious manipulations, demonstrating how small, hardly detectable parameter changes can embed hidden backdoor functionalities capable of overtaking the image-generation process.

Our research emphasizes the importance of addressing both adversarial exploitation and inherent vulnerabilities in deep learning and generative AI systems. It not only underscores the demand for novel mitigation and defense strategies but also offers concrete solutions to multiple risks. By understanding and mitigating these challenges, we can foster confidence in AI technologies and pave the way for building reliable and trustworthy applications.

Sprache

Englisch

Alternativtitel

Verständnis und Eindämmung von Sicherheits-, Datenschutz- und Ethikrisiken in generativer künstlicher Intelligenz

Alternatives Abstract

Technische Errungenschaften wurden in der modernen Geschichte nicht nur stets auf ihre Vorteile, sondern auch auf ihre Schwächen und Missbrauchsmöglichkeiten hin untersucht. Der Aufstieg der künstlichen Intelligenz (KI), eine der disruptivsten Technologien des 21. Jahrhunderts, bildet hier keine Ausnahme und verlangt nach einer kontinuierlichen, gründlichen Auseinandersetzung mit den Herausforderungen, die sie mit sich bringt. Die schnelle Entwicklung von KI birgt jedoch erhebliche Risiken, wodurch es für umfassende Analysen schwierig wird, mit den rasanten Fortschritten der Technologie Schritt zu halten. Die potenziellen Risiken von KI sind vielfältig und betreffen unter anderem Datenschutz, Modellsicherheit und die Wahrung ethischer Standards -- sowohl aufgrund inhärenter Limitierungen der Modelle selbst als auch durch gezielte Angriffe von außen.

Im Rahmen dieser Dissertation analysieren wir verschiedene Risiken, die mit Deep Learning im Bereich der generativen KI verbunden sind, wobei der Fokus besonders auf Computer-Vision-Anwendungen liegt. Ein praktisches Beispiel für die realen Gefahren von KI-Anwendungen ist Client-Side-Scanning zur Detektion illegaler Inhalte. Am Beispiel eines auf Deep Perceptual Hashing basierenden Verfahrens zeigen wir, dass bereits geringe Änderungen an Eingabedaten ausreichen, um das System gezielt zu manipulieren. In einer weiteren Untersuchung zur KI-basierten Gesichtserkennung demonstrieren wir, wie Angreifer private Merkmale von Personen rekonstruieren können, ohne Zugang zu den Trainingsdaten des Modells zu besitzen. Unser neuartiger hochauflösender Inversionsangriff zeigt, dass solche Angriffe bereits mit öffentlich verfügbaren generativen Modellen möglich sind. Basierend auf unseren Analysen entwickeln wir einen effektiven Abwehrmechanismus, der dieses Risiko durch gezielte Anpassungen der Trainingslabels verringert.

In der zweiten Hälfte dieser Arbeit widmen wir uns den Risiken generativer Text-zu-Bild-Systeme. Wir entwickeln den ersten Lokalisierungsalgorithmus, der einzelne Neuronen identifiziert, die für unbeabsichtigtes Memorieren von Trainingsdaten verantwortlich sind. Durch die Deaktivierung dieser Neuronen kann das Memorieren wirksam reduziert werden, ohne die Leistungsfähigkeit des Modells zu beeinträchtigen. Darüber hinaus enthüllen wir die Sensitivität dieser Systeme gegenüber Zeichencodierungen, die kulturelle Verzerrungen und Stereotypen hervorrufen können, und schlagen eine effiziente Methode vor, um dieses Verhalten zu vermeiden. Abschließend untersuchen wir die Anfälligkeit vortrainierter Systemkomponenten gegenüber böswilligen Manipulationen und demonstrieren, wie kaum wahrnehmbare Parameteränderungen versteckte Funktionen integrieren können, die den Bildgenerierungsprozess gezielt steuern und verzerren.

Unsere Forschung verdeutlicht die Notwendigkeit, sowohl gezielten Angriffen als auch den inhärenten Schwächen von Deep Learning und generativen KI-Systemen effektiv zu begegnen. Sie zeigt nicht nur den Bedarf an innovativen Abwehrstrategien, sondern liefert auch konkrete Lösungen für unterschiedliche Risiken. Durch das Verständnis und die Vermeidung dieser Herausforderungen können wir die Akzeptanz von KI-Technologien fördern und den Weg für die Entwicklung zuverlässiger und vertrauenswürdiger Anwendungen ebnen.

Fachbereich/-gebiet

20 Fachbereich Informatik > Künstliche Intelligenz und Maschinelles Lernen

DDC

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

Institution

Technische Universität Darmstadt

Ort

Darmstadt

Datum der mündlichen Prüfung

09.04.2025

Gutachter:innen

Kersting, Kristian

Neider, Daniel

Handelt es sich um eine kumulative Dissertation?

Nein

Name der Gradverleihenden Institution

Technische Universität Darmstadt

Ort der Gradverleihenden Institution

Darmstadt

PPN

530252511