TU Darmstadt

ULB

TUprints

Towards Practical Privacy-Preserving Clustering and Health Care Data Analyses

Möllering, Helen (2023)
Towards Practical Privacy-Preserving Clustering and Health Care Data Analyses.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00024708
Ph.D. Thesis, Primary publication, Publisher's Version

Text
final_hmoellering_oct23.pdf
Copyright Information: In Copyright.
Download (16MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Towards Practical Privacy-Preserving Clustering and Health Care Data Analyses

Language:

English

Referees:

Schneider, Prof. Dr. Thomas ; Önen, Prof. PhD Melek

Date:

13 October 2023

Place of Publication:

Darmstadt

Collation:

224 Seiten in verschiedenen Zählungen

Date of oral examination:

29 September 2023

DOI:

10.26083/tuprints-00024708

Abstract:

With the rapid growth in the adoption and democratization of advanced data analysis techniques such as ML and AI, it is imperative to address the privacy concerns arising from the inherent pervasive collection and utilization of sensitive information. In this context, cryptographic secure computation techniques play a crucial role as they enable data analysis while upholding the confidentiality of the input data. These techniques however come with a significant performance overhead compared to plaintext computation. Moreover, some phases of the analysis process, e.g., data preparation, parameter determination, and quality evaluation, have not been adequately considered by the cryptographic community. As a consequence, state-of-the-art secure computation protocols for privacy-preserving data analysis and machine learning nowadays are often not yet ready for being deployed in real-world applications.

In this thesis, we start by investigating the deficiencies of existing secure computation-based solutions for data analyses. Based on our analysis, we take an end-to-end approach to design, implement, and evaluate practical privacy-preserving protocols tailored for specific use cases. We thereby focus on two directions: The first part investigates privacy-preserving protocols for a general class of ML algorithms, namely clustering. The clustering protocols we design combine cryptographic techniques and protocol optimizations with the real-world requirements of plaintext clustering. The second part introduces efficient secure computation protocols for two concrete data analysis applications from the medical domain: The matching of compatible donors and patients for kidney donations and epidemiological modeling. Our solutions critically incorporate interdisciplinary insights.

Practical Privacy-Preserving Clustering. Clustering, an unsupervised ML technique that enables the identification of underlying patterns and structures within data, has a wide range of applications in diverse fields such as health care, marketing, and finance. To ensure the privacy of sensitive input data, numerous secure computation protocols have been proposed for privacy-preserving clustering in recent years. Unfortunately, evaluating their suitability for specific applications and comparing them in terms of privacy guarantees, efficiency, and quality is often complex due to variations in underlying plaintext clustering algorithms, cryptographic techniques, security models, as well as intended participant scenarios and use cases.

We systematize the state-of-the-art in privacy-preserving clustering, introduce criteria on how to assess the suitability of a protocol for a specific use case, and lay out open research questions that need to be solved to make private clustering practical for real-world applications.

Based on the results of our systematization, we introduce the first practical and fully privacy-preserving density-based clustering protocol. In contrast to the K-means clustering algorithm, which is commonly used as a baseline in previous private clustering protocols, our private density-based clustering protocol flexibly determines the number of clusters that suits the input data well and is insensitive to outliers. This makes it much more attractive for real-world applications than a private K-means protocol. One application is the distributed ML training concept, FL, which is susceptible to backdoor attacks manipulating the model in addition to inference attacks extracting information about the training data used. We devise a novel defense mechanism for FL based on our privacy-preserving density based clustering protocol.

This part of the thesis is based on the following three publications: [HMSY21] A. HEGDE, H. MÖLLERING, T. SCHNEIDER, H. YALAME. “SoK: Efficient privacy-preserving clustering”. In: Proceedings on Privacy Enhancing Technologies (PoPETs) 2021.4 (2021). Online: https:/ /ia.cr/2021/809. Code: https://encrypto.de/code/SoK_ppClustering, S. 225–248. CORE Rank A. Appendix A. [BCE+21] B. BOZDEMIR, S. CANARD, O. ERMIS, H. MÖLLERING, M. ÖNEN, T. SCHNEIDER. “Privacy-preserving density-based clustering”. In: ASIA Conference on Computer and Communications Security (ASIACCS). Online: https://ia.cr/2021/612. Code: https://encrypto.de/code/ppDBSCAN. ACM, 2021, S. 658–671. CORE Rank A. Appendix B. [NRC+22] T. D. NGUYEN, P. RIEGER, H. CHEN, H. YALAME, H. MÖLLERING, H. FEREIDOONI, S. MARCHAL, M. MIETTINEN, A. MIRHOSEINI, S. ZEITOUNI, F. KOUSHANFAR, A.- R. SADEGHI, T. SCHNEIDER. “FLAME: Taming backdoors in federated learning”. In: USENIX Security Symposium (USENIX Security). Online: https://ia.cr/2021/025. USENIX, 2022, S. 1415–1432. CORE Rank A*. Appenidx C.

Privacy-Preserving Health Care Data Analysis. A particularly important area for privacy research is health care data analysis due to the highly sensitive nature of medical information and the strong regulatory requirements for data privacy. Secure computation alleviates the trade-off between data usability and privacy by enabling insightful data analyses while still maintaining the privacy and trust of patients, ultimately advancing the quality of care and medical outcomes. We address two important health care data analysis applications in this work. Firstly, we design a novel secure computation protocol addressing the KEP. Secondly, we introduce the problem and first solutions for privacy-preserving epidemiological modeling.

The goal of the KEP is to arrange a series of mutual exchanges between donor-patient pairs. These patients are in need of a kidney donation and unfortunately only have incompatible donors in their own social network. Our secure computation protocol SPIKE finds a locally optimal set of exchange cycles of compatible donors and patients and improves privacy compared to currently deployed centralized approaches. Our approach can reduce legal burdens by keeping patient data locally private and significantly improves efficiency and medical robustness compared to that of the previous state-of-the-art by Breuer et al. (CODASPY'22).

The second highly relevant health care application that we address in this thesis is epidemiological modeling. It predicts the spread of an infectious disease and facilitates the discovery of effective containment strategies. So far, however, epidemiological models often suffer from the lack of precise information about physical contacts, hindering an accurate prediction. We present the RIPPLE framework, in which we formally define privacy-preserving epidemiological modeling. It enables running epidemiological simulations on the up-to-date contact graph of participants without affecting their individual privacy. Additionally, we present two practical instantations with different security and efficiency trade-offs that can run distributed simulations with half a million people in just a few minutes.

This part of the thesis is based on the following publication and technical report: [BHK+22] T. BIRKA, K. HAMACHER, T. KUSSEL, H. MÖLLERING, T. SCHNEIDER. “SPIKE: Secure and private investigation of the kidney exchange problem”. In: BMC Medical Informatics and Decision Making 22.1 (2022). Online: https://arxiv.org/abs/2204.09937. Code: https://github.com/encryptogroup/ppke, S. 253. CORE Rank B. Appendix D. [GHJ+23] D. GÜNTHER, M. HOLZ, B. JUDKEWITZ, H. MÖLLERING, B. PINKAS, T. SCHNEIDER, A. SURESH. “Privacy-preserving epidemiological modeling on mobile graphs”. https://ia.cr/2020/1546. Code: https://zenodo.org/record/6599225. 2023. Appendix E.

Overall, this thesis contributes to make privacy-preserving clustering and secure computation protocols for medical analyses more practical for real-world usage.

Alternative Abstract:

Alternative Abstract

Language

Die rasante Zunahme der Akzeptanz und die Demokratisierung von fortschrittlichen Datenanalysetechniken wie Maschinellem Lernen (ML) und Künstlicher Intelligenz (KI) macht es zwingend erforderlich, sich mit den damit einhergehenden Datenschutzbedenken zu befassen, die sich aus der allgegenwärtigen Erfassung und Nutzung sensibler Daten ergeben. In diesem Zusammenhang spielen kryptographische Techniken eine entscheidende Rolle, da sie Datenanalysen unter Wahrung der Privatheit von Daten ermöglichen. Diese Techniken sind jedoch im Vergleich zu Klartextberechnungen mit erheblichen Effizienzeinbußen verbunden. Darüber hinaus wurden einige Phasen von Datenanalyseprozessen von der aktuellen Forschung zu sicheren kryptografischen Protokollen nicht angemessen berücksichtigt. Es fehlen zum Beispiel typischerweise die Datenaufbereitung, die Festlegung der Parameterwerte und die Auswertung der Analyseergebnisse mit Hinblick auf ihre Qualität. Infolgedessen sind existierende Ansätze in diesem Bereich, der im Englischen privacy-preserving data analysis oder privacy-preserving machine learning genannt wird, noch nicht für den Einsatz in realen Anwendungen geeignet.

In dieser Dissertation untersuchen wir zunächst bestehende kryptographische Protokolle für die sichere Datenanalyse auf mögliche Einschränkungen in ihrer praktischen Einsetzbarkeit in realen Anwendungen. Auf Grundlage unserer Analyse entwerfen, implementieren und evaluieren wir maßgeschneiderte sichere Protokolle zur Wahrung der Privatheit von Daten. Dabei betrachten wir alle Phasen des betrachteten Anwendungsfalls, um eine praktische Einsetzbarkeit zu forcieren. Wir konzentrieren uns auf zwei thematische Schwerpunkte: Der erste Teil dieser Arbeit untersucht sichere Protokolle für eine allgemeine Klasse von ML-Algorithmen, die Clusteranalyse. Dabei werden kryptographische Techniken und Protokolloptimierungen mit den praktischen Anforderungen der Clusteranalyse von Klartextdaten kombiniert. Im zweiten Teil dieser Arbeit werden effiziente Protokolle für die sichere Mehrparteienberechnung in zwei konkreten Datenanalyseanwendungen aus dem medizinischen Bereich vorgestellt: Das Matching von kompatiblen SpenderInnen und PatientInnen für Nierenspenden und die epidemiologische Modellierung. Unsere Lösungen beziehen essenzielle Erkenntnisse aus dem medizinischen Bereich mit ein.

Effiziente Clusteranalyse unter Wahrung der Privatheit. Clustering, eine sogenannte nicht überwachte ML-Technik, ermöglicht die Identifizierung von Mustern und Strukturen in Daten. Die Technik findet Anwendung in vielen verschiedenen Bereichen wie dem Gesundheitswesen, dem Marketing und dem Finanzsektor. Um die Vertraulichkeit sensibler Eingabedaten zu gewährleisten, wurden in den letzten Jahren zahlreiche sichere kryptographische Protokolle für die Durchführung von Clusteranalysen unter Wahrung der Privatheit der Eingabedaten vorgestellt. Diese Protokolle basieren jedoch auf unterschiedlichen Klartext-Clusteranalyse Algorithmen und Sicherheitsmodellen, verwenden verschiedene kryptographische Techniken und wurden für unterschiedliche Szenarien oder spezifische Anwendungsfälle entwickelt. Diese Faktoren erschweren die Vergleichbarkeit der Ergebnisse und damit auch die Beurteilung ihrer Eignung für bestimmte Anwendungen. Wir systematisieren den Stand der Forschung im Bereich der sicheren Protokolle für Clusteranalysen unter Wahrung der Privatheit der Eingabedaten. Dabei stellen wir Kriterien vor, anhand derer die Eignung eines Protokolls für einen bestimmten Anwendungsfall beurteilt werden kann, und erfassen offene Forschungsprobleme, die gelöst werden müssen, um private Clusterbildung für reale Anwendungen praktikabel zu machen.

Basierend auf den Ergebnissen unserer Systematisierung stellen wir das erste effiziente kryptographische Protokoll für eine dichtebasierte Clusteranalyse vor, dass die Privatheit der Eingabedaten vollständig wahrt. Im Gegensatz zum K-means-Algorithmus, der anderen kryptographischen Protokollen zur sicheren Clusteranalyse oft zugrunde liegt, bestimmt unser sicheres dichtebasiertes Clusteranalyse-Protokoll flexibel die Anzahl der Cluster, die zu den Eingabedaten passt, und ist unempfindlich gegenüber Ausreißern in den Eingabedaten. Dies macht es für viele reale Anwendungen attraktiver und praktisch einsetzbarer als ein K-means-basiertes Protokoll. Ein Anwendungsbeispiel ist das verteilte ML-Trainingskonzept Federated Learning (FL), das anfällig für sogenannte Backdoor- und Inferenzangriffe ist. Backdoor-Angriffe versuchen das Modell zu beschädigen oder zu manipulieren, während Inferenzangriffe versuchen, Informationen über die verwendeten Trainingsdaten zu extrahieren. Wir entwickeln ein neuartiges Verteidigungssystem für FL, das auf unserem dichtebasierten Clustering-Protokoll basiert, und FL gegen beide Arten von Angriffen robuster macht.

Dieser Teil der Dissertation basiert auf den folgenden drei Publikationen: HMSY21] A. HEGDE, H. MÖLLERING, T. SCHNEIDER, H. YALAME. “SoK: Efficient privacy-preserving clustering”. In: Proceedings on Privacy Enhancing Technologies (PoPETs) 2021.4 (2021). Online: https://ia .cr/2021/809. Code: https://encrypto.de/code/SoK_ppClustering, S. 225–248. CORE Rank A. Appendix A. [BCE+21] B. BOZDEMIR, S. CANARD, O. ERMIS, H. MÖLLERING, M. ÖNEN, T. SCHNEIDER. “Privacy-preserving density-based clustering”. In: ASIA Conference on Computer and Communications Security (ASIACCS). Online: https://ia.cr/2021/612. Code: https://encrypto.de/code/ppDBSCAN. ACM, 2021, S. 658–671. CORE Rank A. Appendix B. [NRC+22] T. D. NGUYEN, P. RIEGER, H. CHEN, H. YALAME, H. MÖLLERING, H. FEREIDOONI, S. MARCHAL, M. MIETTINEN, A. MIRHOSEINI, S. ZEITOUNI, F. KOUSHANFAR, A.- R. SADEGHI, T. SCHNEIDER. “FLAME: Taming backdoors in federated learning”. In: USENIX Security Symposium (USENIX Security). Online: https://ia.cr/2021/025. USENIX, 2022, S. 1415–1432. CORE Rank A*. Appendix C.

Privatheit von Daten in medizinische Anwendungen. Ein besonders wichtiger Bereich für die Datenschutzforschung sind Datenanalysen im medizinischen Kontext, da diese Informationen hochsensibler Natur sind und sie zudem strengen gesetzlichen Datenschutzanforderungen unterliegen. Kryptographische Protokolle ermöglichen in diesem Zusammenhang eine überzeugende Vereinbarkeit von Datennutzbarkeit und Datenschutz, indem sie aufschlussreiche Datenanalysen ermöglichen und gleichzeitig die Privatheit der medizinischen Daten und somit das Vertrauen der Patienten wahren. Dies kann letztlich zu einer verbesserten Qualität der Pflege und medizinischen Versorgung führen. In dieser Arbeit befassen wir uns mit zwei wichtigen medizinischen Anwendungen. Zum einen entwerfen wir ein neuartiges sicheres Protokoll für die Berechnung von Nierenspenderaustauschen. Zusätzlich definieren wir zum ersten Mal das Problem der epidemiologischen Modellierung unter Wahrung der Privatheit der Kontaktdaten und präsentieren erste Lösungsansätze für dieses Problem.

Das Ziel des Nierenspenderaustauschs ist es, Nierenspenden zwischen Spender-Patienten-Paaren zu arrangieren. Diese Patienten benötigen eine Nierenspende und haben nur inkompatible Spender in ihrem eigenen sozialen Netzwerk. Unser kryptographisches Protokoll SPIKE findet eine lokal optimale Lösungsmenge von Austauschzyklen zwischen kompatiblen Spendern und Patienten und verbessert den Schutz der Privatheit der Daten im Vergleich zu den derzeit eingesetzten zentralisierten Ansätzen. Zudem verringert es möglicherweise die rechtlichen Hürden für medizinische Institutionen einem solchen Programm beizutreten, da die Patientendaten lokal beim Datenhalter verbleiben können. Zusätzlich verbessert SPIKE die Effizienz und die medizinische Robustheit im Vergleich zum bisherigen Stand der Forschung von Breuer et al. (CODASPY'22) erheblich.

Die zweite wichtige medizinische Anwendung, mit der wir uns in dieser Arbeit befassen, ist die epidemiologische Modellierung. Sie ermöglicht es, die Ausbreitung einer Infektionskrankheit vorherzusagen und erleichtert die Entwicklung wirksamer Eindämmungsstrategien. Bislang leiden epidemiologische Modelle jedoch häufig unter dem Mangel an präzisen Informationen über physische Kontakte in einer Population, was eine genaue Vorhersage erschwert. Wir stellen das RIPPLE-Framework vor, in dem wir die Anforderungen an eine verteilte epidemiologische Modellierung definieren. Es ermöglicht die Durchführung epidemiologischer Simulationen auf dem aktuellen Kontaktgraphen der Teilnehmer, ohne deren individuelle Privatsphäre zu beeinträchtigen. Darüber hinaus stellen wir zwei konkrete Instanziierungen von RIPPLE vor, die unterschiedliche Kompromisse in Bezug auf Sicherheit und Effizienz bieten. Mit ihnen können verteilte Simulationen mit einer halben Million Menschen in nur wenigen Minuten durchgeführt werden.

Dieser Teil der Dissertation basiert auf einer Publikation und einem technischen Bericht: [BHK+22] T. BIRKA, K. HAMACHER, T. KUSSEL, H. MÖLLERING, T. SCHNEIDER. “SPIKE: Secure and private investigation of the kidney exchange problem”. In: BMC Medical Informatics and Decision Making 22.1(2022). Online: https://arxiv.org/abs/2204.09937. Code: https://github.com/encryptogroup/ppke, S. 253. CORE Rank B. Appendix D. [GHJ+23] D. GÜNTHER, M. HOLZ, B. JUDKEWITZ, H. MÖLLERING, B. PINKAS, T. SCHNEIDER, A. SURESH. “Privacy-preserving epidemiological modeling on mobile graphs”. https://ia.cr/2020/1546. Code: https://zenodo.org/record/6599225. 2023. Appendix E.

Insgesamt trägt diese Arbeit dazu bei, kryptographische Protokolle für Cluster- und medizinische Datenanalysen praktikabler für den Einsatz in realen Anwendungen zu machen.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-247085

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Cryptography and Privacy Engineering (ENCRYPTO)

Date Deposited:

13 Oct 2023 11:40

Last Modified: