On Privacy-Enhanced Distributed Analytics in Online Social Networks

Wainakh, Aidmar (2022)
On Privacy-Enhanced Distributed Analytics in Online Social Networks.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00021034
Ph.D. Thesis, Primary publication, Publisher's Version

Text
2022-02-07_Wainakh_Aidmar.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (8MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

On Privacy-Enhanced Distributed Analytics in Online Social Networks

Language:

English

Referees:

Mühlhäuser, Prof. Dr. Max ; Fischer, Prof. Dr. Mathias

Date:

2022

Place of Publication:

Darmstadt

Collation:

xviii, 184 Seiten

Date of oral examination:

21 March 2022

DOI:

10.26083/tuprints-00021034

Abstract:

More than half of the world's population benefits from online social network (OSN) services. A considerable part of these services is mainly based on applying analytics on user data to infer their preferences and enrich their experience accordingly. At the same time, user data is monetized by service providers to run their business models. Therefore, providers tend to extensively collect (personal) data about users. However, this data is oftentimes used for various purposes without informed consent of the users. Providers share this data in different forms with third parties (e.g., data brokers). Moreover, user sensitive data was repeatedly a subject of unauthorized access by malicious parties. These issues have demonstrated the insufficient commitment of providers to user privacy, and consequently, raised users' concerns. Despite the emergence of privacy regulations (e.g., GDPR and CCPA), recent studies showed that user personal data collection and sharing sensitive data are still continuously increasing.

A number of privacy-friendly OSNs have been proposed to enhance user privacy by reducing the need for central service providers. However, this improvement in privacy protection usually comes at the cost of losing social connectivity and many analytics-based services of the wide-spread OSNs. This dissertation addresses this issue by first proposing an approach to privacy-friendly OSNs that maintains established social connections. Second, approaches that allow users to collaboratively apply distributed analytics while preserving their privacy are presented. Finally, the dissertation contributes to better assessment and mitigation of the risks associated with distributed analytics. These three research directions are treated through the following six contributions.

Conceptualizing Hybrid Online Social Networks: We conceptualize a hybrid approach to privacy-friendly OSNs, HOSN. This approach combines the benefits of using COSNs and DOSN. Users can maintain their social experience in their preferred COSN while being provided with additional means to enhance their privacy. Users can seamlessly post public content or private content that is accessible only by authorized users (friends) beyond the reach of the service providers.

Improving the Trustworthiness of HOSNs: We conceptualize software features to address users' privacy concerns in OSNs. We prototype these features in our HOSN}approach and evaluate their impact on the privacy concerns and the trustworthiness of the approach. Also, we analyze the relationships between four important aspects that influence users' behavior in OSNs: privacy concerns, trust beliefs, risk beliefs, and the willingness to use.

Privacy-Enhanced Association Rule Mining: We present an approach to enable users to apply efficiently privacy-enhanced association rule mining on distributed data. This approach can be employed in DOSN and HOSN to generate recommendations. We leverage a privacy-enhanced distributed graph sampling method to reduce the data required for the mining and lower the communication and computational overhead. Then, we apply a distributed frequent itemset mining algorithm in a privacy-friendly manner.

Privacy Enhancements on Federated Learning (FL): We identify several privacy-related issues in the emerging distributed machine learning technique, FL. These issues are mainly due to the centralized nature of this technique. We discuss tackling these issues by applying FL in a hierarchical architecture. The benefits of this approach include a reduction in the centralization of control and the ability to place defense and verification methods more flexibly and efficiently within the hierarchy.

Systematic Analysis of Threats in Federated Learning: We conduct a critical study of the existing attacks in FL to better understand the actual risk of these attacks under real-world scenarios. First, we structure the literature in this field and show the research foci and gaps. Then, we highlight a number of issues in (1) the assumptions commonly made by researchers and (2) the evaluation practices. Finally, we discuss the implications of these issues on the applicability of the proposed attacks and recommend several remedies.

Label Leakage from Gradients: We identify a risk of information leakage when sharing gradients in FL. We demonstrate the severity of this risk by proposing a novel attack that extracts the user annotations that describe the data (i.e., ground-truth labels) from gradients. We show the high effectiveness of the attack under different settings such as different datasets and model architectures. We also test several defense mechanisms to mitigate this attack and conclude the effective ones.

Alternative Abstract:

Alternative Abstract

Language

Mehr als die Hälfte der Weltbevölkerung nutzt die Dienste der sozialen Online-Netzwerke (OSNs). Ein beträchtlicher Teil dieser Dienste basiert hauptsächlich auf der Analyse von Nutzerdaten. Diese Analysen dienen dazu die Vorlieben der Nutzer zu ermitteln und ihre Erfahrungen entsprechend zu bereichern. Gleichzeitig werden die Nutzerdaten von den Dienstanbietern zu Geld gemacht, um ihre Geschäftsmodelle zu betreiben. Daher neigen die Anbieter dazu, in großem Umfang (persönliche) Daten über die Nutzer. Diese Daten werden jedoch oft für verschiedene Zwecke verwendet ohne dass zuvor die Zustimmung der Nutzer eingeholt wurde. Die Anbieter teilen diese Daten in verschiedenen Formen an Dritte (z. B. an Datenbroker). Außerdem waren sensible Nutzerdaten immer wieder Gegenstand eines unberechtigten Zugriffs durch böswillige Parteien. Diese Vorkommmnisse zeigen, dass das Engagement der der Anbieter, hinsichtlich des Datenschutzes der Nutzer und deren Bedenken, unzureichend ist. Aufkommende Datenschutzbestimmungen (z. B. GDPR und CCPA) sind hauptsächlich dazu gedacht, solche Bedenken zu zerstreuen, Jüngste Studien haben jedoch gezeigt, dass die Erhebung von personenbezogenen Daten und die Weitergabe sensibler Daten weiterhin kontinuierlich zunehmen. Es wurde eine Reihe von datenschutzfreundlichen OSN vorgeschlagen, um die Bedenken der Nutzer zu zerstreuen, indem sie den Bedarf an zentralen Dienstanbietern verringern. Allerdings führt dieser Verbesserung des Schutzes der Privatsphäre in der Regel zu einem Verlust sozialer Konnektivität und einer Verschlechterung analytischer Dienste der weit verbreiteten OSNs. Diese Dissertation befasst sich mit diesem Problem, indem sie zunächst einen Ansatz für datenschutzfreundliche OSNs vorschlägt, der etablierte soziale Verbindungen aufrechterhält. Zusätzlich werden in dieser Arbeit Ansätze vorgestellt, die es den Nutzern ermöglichen, gemeinsam verteilte Analysen unter Wahrung ihrer Privatsphäre durchzuführen. Schließlich trägt die Dissertation dazu bei, die Risiken, die mit verteilten Analysen verbunden sind, besser einzuschätzen und zu entschärfen. Diese drei Forschungs Richtungen werden in den folgenden sechs Beiträgen behandelt.

Konzeptualisierung hybrider sozialer online-Netzwerke: Wir konzipieren einen hybriden Ansatz für datenschutzfreundliche OSNs. Dieser Ansatz kombiniert die Vorteile der Verwendung von zentralisierte soziale Online-Netzwerke (COSNs) und dezentralisierte soziale Online-Netzwerke (DOSNs). Die Benutzer können ihr soziales Erlebnis in ihrem bevorzugten COSN beibehalten, während ihnen zusätzliche Mittel zur Verbesserung ihrer Privatsphäre zur Verfügung gestellt werden. Die Nutzer können nahtlos öffentliche oder private Inhalte posten, die nur von autorisierten Nutzern (Freunden) außerhalb der Reichweite der Dienstanbieter zugänglich sind.

Verbesserung der Vertrauenswürdigkeit von HOSNs: Wir konzipieren Softwarefunktionen, um die Datenschutzbedenken der Benut-zer in OSNs zu berücksichtigen. Wir prototypisieren diese Funktionen in unserem hybriden OSN-Ansatz und bewerten ihre Auswirkungen auf die Datenschutzbedenken und die Vertrauenswürdigkeit des Ansatzes. Darüber hinaus analysieren wir die Beziehungen zwischen vier wichtigen Aspekten, die das Verhalten der Nutzer in OSNs beeinflussen: Datenschutzbedenken, Vertrauensüberzeugungen, Risikoüberzeugungen und die Bereitschaft zur Nutzung.

Datenschutz-erweiterte assoziations-regel-mining: Wir stellen einen Ansatz vor, der es Nutzern ermöglicht, effizient datenschutzfreundliche Assoziations-Regel-Mining auf verteilte Daten anzuwenden. Dieser Ansatz kann in dezentralen und hybriden OSNs eingesetzt werden, um Empfehlungen zu generieren. Wir nutzen ein datenschutzfreundliches verteiltes Graphen-Sampling-Verfahren, um die für das Mining benötigten Daten zu reduzieren und den Kommunikations- und Rechenaufwand zu senken. Anschließend wenden wir einen verteilten häufige Artikelgruppe Mining Algorithmus auf eine datenschutzfreundliche Weise an.

Datenschutzverbesserungen beim föderierten lernen: Wir haben mehrere datenschutzbezogene Probleme bei der aufkommenden verteilten maschinellen Lerntechnik, föderiertes Lernen (FL), identifiziert. Diese Probleme sind hauptsächlich auf die zentralisierte Natur dieser Technik zurückzuführen. Wir erörtern die Lösung dieser Probleme durch Anwendung von FL in einer Hierarchiearchitektur. Zu den Vorteilen dieses Ansatzes gehören eine geringere Zentralisierung der Kontrolle und die Möglichkeit, Verteidigungsund Überprüfungsmethoden flexibler und effizienter innerhalb der Hierarchie zu platzieren.

Analyse von Bedrohungen im föderierten lernen: Wir führen eine kritische Untersuchung der bestehenden Angriffe in FL durch, um das tatsächliche Risiko dieser Angriffe in realen Szenarien besser zu verstehen. Zunächst strukturieren wir die Literatur auf diesem Gebiet und zeigen die Forschungsschwerpunkte und -lücken auf. Dann beleuchten wir eine Reihe von Themen in (1) den Annahmen, die von Forschern üblicherweise gemacht werden und (2) den Bewertungspraktiken. Abschließend diskutieren wir die Auswirkungen dieser Probleme auf die Anwendbarkeit der vorgeschlagenen Angriffe und empfehlen verschiedene Abhilfemaßnahmen.

Etikettenleckage durch Farbverläufe: Wir stellen fest, dass bei der gemeinsamen Nutzung von Gradienten in FL das Risiko eines Informationsverlusts besteht. Wir demonstrieren die Schwere dieses Risikos, indem wir einen neuartigen Angriff vorschlagen, der die Nutzerkommentare, die die Daten beschreiben (d.h. die "ground-truth labels"), aus Gradienten extrahiert. Wir zeigen die Wirksamkeit des Angriffs unter verschiedenen Bedingungen, wie z.B. verschiedenen Datensätzen und Modellarchitekturen. Wir testen auch verschiedene Verteidigungsmechanismen, um diesen Angriff zu entschärfen, und kommen zu dem Schluss, dass diese effektiv sind.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-210340

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Telecooperation

TU-Projects:

DFG|GRK 2050|TP_Reuter_GRK_2050_a

Date Deposited: