TU Darmstadt / ULB / TUprints

Differentially private methods in natural language processing

Igamberdiev, Timour (2023)
Differentially private methods in natural language processing.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00024429
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
IgamberdievTimour_PhD_Thesis.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (3MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Differentially private methods in natural language processing
Language: English
Referees: Habernal, Dr. Ivan ; Gurevych, Prof. Dr. Iryna ; Wachsmuth, Prof. Dr. Henning
Date: 18 August 2023
Place of Publication: Darmstadt
Collation: xiii, 170 Seiten
Date of oral examination: 20 July 2023
DOI: 10.26083/tuprints-00024429
Abstract:

In today's world, the protection of privacy is increasingly gaining attention, not only among the general public, but also within the fields of machine learning and natural language processing (NLP). An established gold standard for providing a guarantee of privacy protection to all individuals in a dataset is the framework of differential privacy (DP). Intuitively, differential privacy provides a formal theoretical guarantee that the contribution of any individual to some analysis on a dataset is bounded. In other words, no single individual can influence this analysis 'too much'.

While the application of differential privacy to the fields of statistics and machine learning is becoming more widespread, it is still at a relatively early stage in NLP, with many important issues currently unresolved. This includes finding the most favorable methodologies for privatizing textual data that is used to train an NLP system, as well as dealing with the question of privatizing textual data independent of an NLP system, releasing it for general analysis, such as for use in a variety of downstream tasks. In this thesis, we address these and other fundamental questions relevant to applying privacy-preserving methods to the field of NLP.

We first present a detailed theoretical background on differential privacy and NLP. We discuss the problem of defining privacy from a philosophical perspective, fundamental concepts in the framework of differential privacy (e.g. the privacy guarantees it provides and how to achieve them), as well as the application of differential privacy to the fields of machine learning and NLP. This is followed by a description of important concepts in the field of NLP, including the structure of a modern NLP system, common tasks of text classification and generation, as well as relevant neural architectures.

We then delve into the primary investigations of this thesis, starting from the privatization of text classification systems. First, we tackle the problem of applying differential privacy to the data structure of graphs used in NLP datasets. Specifically, we demonstrate how to successfully apply the algorithm of differentially private stochastic gradient descent (DP-SGD) to graph convolutional networks, which pose theoretical and practical challenges due to their training characteristics. Next, we move into the territory of more 'standard' NLP models and textual datasets, answering the question of whether a common strategy exists for incorporating DP-SGD in these various settings.

In the second principal set of investigations of this thesis, we focus on the privatization of textual data that is independent of a specific NLP system. In particular, we address this problem from the perspective of privatized text rewriting in the setting of local differential privacy (LDP), in which an entire document is rewritten with differentially private guarantees. We first present our modular framework DP-Rewrite, meant to lay down a foundation for the NLP community to solving this task in a transparent and reproducible manner. We then tackle the privatized text rewriting problem itself, proposing the DP-BART model that introduces several techniques which can be applied to a pre-trained BART model, including a novel clipping method, iterative pruning of the model, and further training of internal representations. Using these techniques, we can drastically reduce the amount of perturbation required to achieve a DP guarantee. We thoroughly examine the feasibility of this approach as a whole, with a focus on the problem of the strict adjacency constraint that is inherent in the LDP setting, which leads to a high amount of perturbation of the original text.

Throughout this thesis, we additionally address several crucial points that are important to keep in mind when applying differential privacy to textual data. First is the question of interpretability, such as what exactly is being privatized in a textual dataset when DP is applied to some analysis on it, as well as the exact details of a proposed DP algorithm and the strength of the privacy guarantee that it provides. Furthermore, it is crucial to be aware of the limitations of proposed methodologies that incorporate DP. This includes computational and memory limitations, as well as the trade-off between the level of privacy that can be provided and the utility of an algorithm, with stronger privacy guarantees expected to more negatively impact utility.

Alternative Abstract:
Alternative AbstractLanguage

In der heutigen Welt gewinnt der Schutz der Privatsphäre zunehmend an Bedeutung, nicht nur in der Öffentlichkeit, sondern auch in den Bereichen maschinelles Lernen und Natürliche Sprachverarbeitung (Natural Language Processing, NLP). Ein etablierter Goldstandard für die Gewährleistung des Schutzes der Privatsphäre aller Individuen in einem Datensatz ist das Framework von Differential Privacy (DP). Intuitiv bietet Differential Privacy eine formale theoretische Garantie dafür, dass der Beitrag eines jeden Individuums zu einer bestimmten Analyse eines Datensatzes begrenzt ist. Mit anderen Worten, kann keine einzelne Person diese Analyse "zu viel" beeinflussen.

Während die Anwendung von Differential Privacy in den Bereichen Statistik und maschinelles Lernen immer mehr Verbreitung findet, befindet sie sich im NLP-Bereich noch in einer relativ frühen Phase, in der viele wichtige Fragen noch ungelöst sind. Dazu gehört die Suche nach den günstigsten Methoden für die Privatisierung von Textdaten, die zum Trainieren eines NLP-Systems verwendet werden, sowie die Frage der Privatisierung von Textdaten unabhängig von einem NLP-System, um sie für allgemeine Analysen freizugeben, z. B. für die Verwendung in einer Vielzahl von nachgelagerten Aufgaben. In dieser Arbeit befassen wir uns mit diesen und anderen grundlegenden Fragen, die für die Anwendung datenschutzfreundlicher Methoden im Bereich von NLP relevant sind.

Zunächst wird ein detaillierter theoretischer Hintergrund zu Differential Privacy und NLP vorgestellt. Wir erörtern das Problem der Definition von Privatsphäre aus einer philosophischen Perspektive, grundlegende Konzepte im Rahmen von Differential Privacy (z. B. die Garantien für die Privatsphäre und wie sie erreicht werden können) sowie die Anwendung von Differential Privacy auf die Bereiche des maschinellen Lernens und NLP. Es folgt eine Beschreibung wichtiger Konzepte im Bereich von NLP, einschließlich der Struktur eines modernen NLP-Systems, allgemeiner Aufgaben der Textklassifikation und -generierung sowie relevanter neuronaler Architekturen.

Anschließend gehen wir auf den ersten Hauptteil dieser Arbeit ein, beginnend mit der Privatisierung von Textklassifikationssystemen. Zunächst befassen wir uns mit dem Problem der Anwendung von Differential Privacy auf die Datenstruktur von Graphen, die in NLP-Datensätzen verwendet werden. Insbesondere zeigen wir, wie man den Algorithmus von Differentially Private Stochastic Gradient Descent (DP-SGD) erfolgreich auf Graphfaltungsnetzwerke anwenden kann, die aufgrund ihrer Trainingseigenschaften theoretische und praktische Herausforderungen darstellen. Als Nächstes befassen wir uns mit 'standardisierten' NLP-Modellen und Textdatensätzen und beantworten die Frage, ob es eine gemeinsame Strategie für die Integration von DP-SGD in diesen verschiedenen Konfigurationen gibt.

Im zweiten Hauptteil dieser Arbeit konzentrieren wir uns auf die Privatisierung von Textdaten, die unabhängig von einem bestimmten NLP-System sind. Insbesondere behandeln wir dieses Problem aus der Perspektive des privatisierten Umschreibens von Text im Rahmen von Local Differential Privacy (LDP), bei der ein ganzes Dokument mit Differential Privacy Garantien umgeschrieben wird. Wir stellen zunächst unser modulares Framework DP-Rewrite vor, das der NLP-Gemeinschaft eine Grundlage bieten soll, um diese Aufgabe auf transparente und reproduzierbare Weise zu lösen. Anschließend gehen wir das Problem der privatisierten Textumschreibung selbst an, indem wir das DP-BART-Modell vorstellen, das mehrere Techniken einführt, die auf ein vortrainiertes BART-Modell angewendet werden können, darunter eine neuartige Clipping-Methode, iteratives Pruning des Modells und weiteres Training interner Repräsentationen. Mit diesen Techniken können wir den Umfang der Störungen, die zur Erreichung einer DP-Garantie erforderlich sind, drastisch reduzieren. Wir untersuchen gründlich die Machbarkeit dieses Ansatzes als Ganzes, wobei wir uns auf das Problem der strengen Adjazenzbeschränkung konzentrieren, die der LDP-Umgebung innewohnt und zu einem hohen Störungsgrad des ursprünglichen Textes führt.

In dieser Arbeit gehen wir zusätzlich auf mehrere entscheidende Punkte ein, die bei der Anwendung von Differential Privacy auf Textdaten beachtet werden müssen. Erstens geht es um die Frage der Interpretierbarkeit, z. B. was genau in einem Textdatensatz privatisiert wird, wenn DP auf eine Analyse darauf angewendet wird, sowie um die genauen Details eines vorgeschlagenen DP-Algorithmus und die Stärke der Datenschutzgarantie, die er bietet. Darüber hinaus ist es von entscheidender Bedeutung, dass man sich der Grenzen der vorgeschlagenen Methoden, die DP einbeziehen, bewusst ist. Dazu gehören Beschränkungen in Bezug auf Rechenleistung und Speicherplatz sowie die Abwägung zwischen dem Grad der Privatsphäre, der gewährleistet werden kann, und dem Nutzen eines Algorithmus, wobei sich stärkere Datenschutzgarantien voraussichtlich negativ auf den Nutzen auswirken.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-244295
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Ubiquitous Knowledge Processing
Date Deposited: 18 Aug 2023 12:12
Last Modified: 25 Sep 2023 12:34
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/24429
PPN: 510725325
Export:
Actions (login required)
View Item View Item