Logo des Repositoriums
  • English
  • Deutsch
Anmelden
Keine TU-ID? Klicken Sie hier für mehr Informationen.
  1. Startseite
  2. Publikationen
  3. Publikationen der Technischen Universität Darmstadt
  4. Erstveröffentlichungen
  5. Understanding and Mitigating Privacy Risks in Vision and Multi-Modal Models
 
  • Details
2025
Erstveröffentlichung
Dissertation
Verlagsversion

Understanding and Mitigating Privacy Risks in Vision and Multi-Modal Models

File(s)
Download
Hauptpublikation
Hintersdorf_Dissertation.pdf
Urheberrechtlich geschützt
Format: Adobe PDF
Size: 45.6 MB
TUDa URI
tuda/13901
URN
urn:nbn:de:tuda-tuprints-302236
DOI
10.26083/tuprints-00030223
Autor:innen
Hintersdorf, Dominik ORCID 0000-0003-4976-6894
Kurzbeschreibung (Abstract)

As deep learning is increasingly integrated into various applications, ensuring users' privacy has become critical. Training datasets often contain sensitive information prone to being leaked during inference, posing significant risks, especially for publicly accessible AI systems. For instance, large language and text-to-image diffusion models have been shown to memorize and reproduce training data during inference, including names, email addresses, and images. Despite ongoing research, these vulnerabilities persist in deployed AI systems, underscoring the urgent need for practical yet efficient privacy-preserving techniques.

This thesis contributes to the understanding of these privacy risks by analyzing the challenges of training models with sensitive data and proposing defenses. Using Apple's NeuralHash, a client-side scanning system for detecting illegal images as a real-world case study, we demonstrate that even systems designed with privacy in mind can inadvertently leak sensitive information. However, privacy attacks are not limited to client-side scanning systems and also affect image classifiers such as residual networks. Membership inference attacks, which aim to determine whether a data point was used for training a model, are a well-known example. While these attacks have been considered highly effective, our findings reveal that their high false-positive rates, caused by overconfident model predictions, limit their effectiveness on ReLU networks. At the same time, we show that mitigating overconfidence to calibrate models unintentionally increases privacy risks, leading to a trade-off between privacy and model calibration. With the growing adoption of multimodal models, vision-language models like CLIP are increasingly used for image classification. Building on our insights regarding membership inference attacks on ResNet image classifiers, we introduce identity inference attacks, broadening the concept of membership inference attacks to vision-language models. Unlike traditional membership inference attacks, which target single data point instances, identity inference attacks determine whether an individual's data was generally used for training, independent of specific data samples. Not limited to single data point instances, identity inference attacks are widely applicable and, because of their very low false-positive rates, are even suited to serve as evidence for unauthorized data usage. Once it is determined that a person's data was memorized, removing this data from a trained model is a significant challenge. Therefore, this thesis introduces two novel defense mechanisms to mitigate memorization. First, we propose an efficient method to erase memorized data from vision-language models like CLIP using backdoor attacks. Our approach is the first to use security attacks for targeted unlearning of information from models and can be applied to image and text encoders. Second, we present a technique to identify neurons in text-to-image diffusion models responsible for memorization. Unlike our backdoor-based technique, which alters all model weights, we show that memorization in text-to-image diffusion models is confined to only a few neurons. Pruning these neurons effectively mitigates memorization while preserving the original model performance.

Overall, the findings presented in this thesis enhance our understanding of privacy risks and contribute to the development of stronger defenses and mitigation methods, which are essential for the secure, widespread deployment of AI in real-world applications.

Sprache
Englisch
Alternativtitel
Verständnis und Minderung von Datenschutzrisiken in visuellen und multimodalen Modellen
Alternatives Abstract

Mit der zunehmenden Integration von Deep Learning in Anwendungen ist der Schutz der Privatsphäre von Nutzern entscheidend geworden. Trainingsdaten enthalten oft sensible Informationen, die bei der Inferenz versehentlich preisgegeben werden können, insbesondere bei öffentlich zugänglichen KI-Systemen. Zum Beispiel zeigen Studien, dass Sprachmodelle und Text-to-Image Modelle persönliche Daten wie Namen, E-Mail-Adressen oder Bilder speichern und reproduzieren können. Trotz intensiver Forschung bestehen diese Risiken weiterhin, was den Bedarf an Datenschutztechniken unterstreicht.

Diese Arbeit trägt zum Verständnis dieser Risiken durch die Analyse von Herausforderungen beim Modelltraining auf sensiblen Daten bei und schlägt mögliche Schutzmaßnahmen vor. Am Beispiel von Apples NeuralHash, einem Client-Side-Scanning Ansatz zur Erkennung illegaler Bilder, zeigen wir, dass sogar auf Datenschutz ausgelegte Systeme sensible Daten preisgeben können. Jedoch sind nicht nur Client-Side-Scanning Methoden von Attacken auf die Privatsphäre der Daten betroffen, sondern zum Beispiel auch Bildklassifikatoren wie ResNets. Membership inference attacken, welche prüfen, ob bestimmte Daten zum Training verwendet wurden, sind ein bekanntes Beispiel für Attacken auf die Privatsphäre. Obwohl diese Attacken lange als sehr effektiv galten, zeigen unsere Ergebnisse jedoch, dass hohe Falsch-Positiv-Raten, bedingt durch übermäßig konfidente Modellvorhersagen, deren Effektivität auf ReLU-Netzen stark einschränken. Gleichzeitig führt die Reduktion dieser Überkonfidenz zu einer besseren Modellkalibrierung, erhöht aber das Datenschutzrisiko, wodurch ein Konflikt zwischen Kalibrierung und Privatsphäre entsteht. Durch die Verbreitung multimodaler Modelle werden Vision-Language-Modelle wie CLIP vermehrt zur Bildklassifikation eingesetzt. Basierend auf unseren Erkenntnissen über Membership Inference Attacken auf ResNets, führen wir Identity Inference Attacken ein, die feststellen, ob Daten einer Person allgemein, unabhängig von einzelnen Datenpunkten, im Training verwendet wurden. Diese Angriffe sind breit anwendbar und können sogar aufgrund niedriger Falsch-Positiv-Raten unautorisierte Datennutzung nachweisen. Hat man erst einmal die Datennutzung nachgewiesen, ist das Entfernen gespeicherter Daten aus trainierten Modellen eine schwierige Aufgabe. Daher präsentiert diese Arbeit zwei neue Verteidigungsansätze, um Memorisierung von Trainingsdaten zu reduzieren. Zuerst wird eine Methode zum effizienten Löschen gespeicherter Daten in Vision-Language-Modellen mittels Backdoor Attacken vorgestellt.Dieser Ansatz ist der erste seiner Art der Backdoor Attacken für das Vergessen von sensiblen Daten verwendet. Anschließend stellen wir eine Methode zum Identifizieren von Neuronen in Text-to-Image Modellen vor, die für das Merken von Trainingsdaten verantwortlich sind. Das gezielte Entfernen dieser Neuronen verhindert effektiv das Preisgeben von Trainingsdaten bei Erhalt der Modellleistung.

Insgesamt trägt diese Arbeit zum besseren Verständnis von Datenschutzrisiken und der Entwicklung robusterer Verteidigungsmechanismen bei, was für den sicheren Einsatz von KI im Alltag essenziell ist.

Fachbereich/-gebiet
20 Fachbereich Informatik > Künstliche Intelligenz und Maschinelles Lernen
DDC
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Institution
Technische Universität Darmstadt
Ort
Darmstadt
Datum der mündlichen Prüfung
03.06.2025
Gutachter:innen
Kersting, Kristian
Neider, Daniel
Handelt es sich um eine kumulative Dissertation?
Nein
Name der Gradverleihenden Institution
Technische Universität Darmstadt
Ort der Gradverleihenden Institution
Darmstadt
PPN
531609499

  • TUprints Leitlinien
  • Cookie-Einstellungen
  • Impressum
  • Datenschutzbestimmungen
  • Webseitenanalyse
Diese Webseite wird von der Universitäts- und Landesbibliothek Darmstadt (ULB) betrieben.