Understanding and Mitigating Privacy Risks in Vision and Multi-Modal Models
Understanding and Mitigating Privacy Risks in Vision and Multi-Modal Models
As deep learning is increasingly integrated into various applications, ensuring users' privacy has become critical. Training datasets often contain sensitive information prone to being leaked during inference, posing significant risks, especially for publicly accessible AI systems. For instance, large language and text-to-image diffusion models have been shown to memorize and reproduce training data during inference, including names, email addresses, and images. Despite ongoing research, these vulnerabilities persist in deployed AI systems, underscoring the urgent need for practical yet efficient privacy-preserving techniques.
This thesis contributes to the understanding of these privacy risks by analyzing the challenges of training models with sensitive data and proposing defenses. Using Apple's NeuralHash, a client-side scanning system for detecting illegal images as a real-world case study, we demonstrate that even systems designed with privacy in mind can inadvertently leak sensitive information. However, privacy attacks are not limited to client-side scanning systems and also affect image classifiers such as residual networks. Membership inference attacks, which aim to determine whether a data point was used for training a model, are a well-known example. While these attacks have been considered highly effective, our findings reveal that their high false-positive rates, caused by overconfident model predictions, limit their effectiveness on ReLU networks. At the same time, we show that mitigating overconfidence to calibrate models unintentionally increases privacy risks, leading to a trade-off between privacy and model calibration. With the growing adoption of multimodal models, vision-language models like CLIP are increasingly used for image classification. Building on our insights regarding membership inference attacks on ResNet image classifiers, we introduce identity inference attacks, broadening the concept of membership inference attacks to vision-language models. Unlike traditional membership inference attacks, which target single data point instances, identity inference attacks determine whether an individual's data was generally used for training, independent of specific data samples. Not limited to single data point instances, identity inference attacks are widely applicable and, because of their very low false-positive rates, are even suited to serve as evidence for unauthorized data usage. Once it is determined that a person's data was memorized, removing this data from a trained model is a significant challenge. Therefore, this thesis introduces two novel defense mechanisms to mitigate memorization. First, we propose an efficient method to erase memorized data from vision-language models like CLIP using backdoor attacks. Our approach is the first to use security attacks for targeted unlearning of information from models and can be applied to image and text encoders. Second, we present a technique to identify neurons in text-to-image diffusion models responsible for memorization. Unlike our backdoor-based technique, which alters all model weights, we show that memorization in text-to-image diffusion models is confined to only a few neurons. Pruning these neurons effectively mitigates memorization while preserving the original model performance.
Overall, the findings presented in this thesis enhance our understanding of privacy risks and contribute to the development of stronger defenses and mitigation methods, which are essential for the secure, widespread deployment of AI in real-world applications.
Mit der zunehmenden Integration von Deep Learning in Anwendungen ist der Schutz der Privatsphäre von Nutzern entscheidend geworden. Trainingsdaten enthalten oft sensible Informationen, die bei der Inferenz versehentlich preisgegeben werden können, insbesondere bei öffentlich zugänglichen KI-Systemen. Zum Beispiel zeigen Studien, dass Sprachmodelle und Text-to-Image Modelle persönliche Daten wie Namen, E-Mail-Adressen oder Bilder speichern und reproduzieren können. Trotz intensiver Forschung bestehen diese Risiken weiterhin, was den Bedarf an Datenschutztechniken unterstreicht.
Diese Arbeit trägt zum Verständnis dieser Risiken durch die Analyse von Herausforderungen beim Modelltraining auf sensiblen Daten bei und schlägt mögliche Schutzmaßnahmen vor. Am Beispiel von Apples NeuralHash, einem Client-Side-Scanning Ansatz zur Erkennung illegaler Bilder, zeigen wir, dass sogar auf Datenschutz ausgelegte Systeme sensible Daten preisgeben können. Jedoch sind nicht nur Client-Side-Scanning Methoden von Attacken auf die Privatsphäre der Daten betroffen, sondern zum Beispiel auch Bildklassifikatoren wie ResNets. Membership inference attacken, welche prüfen, ob bestimmte Daten zum Training verwendet wurden, sind ein bekanntes Beispiel für Attacken auf die Privatsphäre. Obwohl diese Attacken lange als sehr effektiv galten, zeigen unsere Ergebnisse jedoch, dass hohe Falsch-Positiv-Raten, bedingt durch übermäßig konfidente Modellvorhersagen, deren Effektivität auf ReLU-Netzen stark einschränken. Gleichzeitig führt die Reduktion dieser Überkonfidenz zu einer besseren Modellkalibrierung, erhöht aber das Datenschutzrisiko, wodurch ein Konflikt zwischen Kalibrierung und Privatsphäre entsteht. Durch die Verbreitung multimodaler Modelle werden Vision-Language-Modelle wie CLIP vermehrt zur Bildklassifikation eingesetzt. Basierend auf unseren Erkenntnissen über Membership Inference Attacken auf ResNets, führen wir Identity Inference Attacken ein, die feststellen, ob Daten einer Person allgemein, unabhängig von einzelnen Datenpunkten, im Training verwendet wurden. Diese Angriffe sind breit anwendbar und können sogar aufgrund niedriger Falsch-Positiv-Raten unautorisierte Datennutzung nachweisen. Hat man erst einmal die Datennutzung nachgewiesen, ist das Entfernen gespeicherter Daten aus trainierten Modellen eine schwierige Aufgabe. Daher präsentiert diese Arbeit zwei neue Verteidigungsansätze, um Memorisierung von Trainingsdaten zu reduzieren. Zuerst wird eine Methode zum effizienten Löschen gespeicherter Daten in Vision-Language-Modellen mittels Backdoor Attacken vorgestellt.Dieser Ansatz ist der erste seiner Art der Backdoor Attacken für das Vergessen von sensiblen Daten verwendet. Anschließend stellen wir eine Methode zum Identifizieren von Neuronen in Text-to-Image Modellen vor, die für das Merken von Trainingsdaten verantwortlich sind. Das gezielte Entfernen dieser Neuronen verhindert effektiv das Preisgeben von Trainingsdaten bei Erhalt der Modellleistung.
Insgesamt trägt diese Arbeit zum besseren Verständnis von Datenschutzrisiken und der Entwicklung robusterer Verteidigungsmechanismen bei, was für den sicheren Einsatz von KI im Alltag essenziell ist.
