TU Darmstadt / ULB / TUprints

Privacy-Preserving Data Analysis and Distributed Processing in Pandemic Settings and Beyond

Reichert, Leonie (2024)
Privacy-Preserving Data Analysis and Distributed Processing in Pandemic Settings and Beyond.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00028595
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
ClassicThesis.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (2MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Privacy-Preserving Data Analysis and Distributed Processing in Pandemic Settings and Beyond
Language: English
Referees: Scheuermann, Prof. Dr. Björn ; Lueks, Dr. Wouter
Date: 28 November 2024
Place of Publication: Darmstadt
Collation: 14, 211 Seiten
Date of oral examination: 8 October 2024
DOI: 10.26083/tuprints-00028595
Abstract:

Privacy is acknowledged as a fundamental human right and essential for the functioning of modern democracies, particularly as research and the economy become increasingly data driven. The Covid-19 pandemic has given rise to many new applications necessitating the processing of sensitive information such as health, location, and proximity data. Notable examples include discovering new infections by retracing the contacts of diagnosed individuals and identifying super-spreader events through presence tracing. To fight a pandemic, gaining meaningful statistical insight on the current epidemiological situation based on health data - or other sensitive information - is important. For all these applications, the processed data can reveal private information regarding the data providers. Therefore, data providers require concrete privacy guarantees at every step.

This thesis focuses on solutions for processing and analyzing sensitive data in a privacy-preserving way without requiring trust in a central authority. Multiple approaches are proposed to ensure privacy during distributed data processing for Digital Contact Tracing (DCT). To establish a general understanding of the topic, an introduction to the problems and solutions for DCT is presented. The literature is systematized and common challenges with regard to privacy, security, and functionality are identified. Based on the shortcomings of existing contact tracing applications, novel designs for privacy-preserving DCT are presented, along with their respective advantages and drawbacks. The focus is on distributing the tracing process and risk-scoring tasks to users while mitigating the leakage of private data through metadata. Strong privacy guarantees are also provided by using cryptographic primitives such as blind signatures, Oblivious Random Access Memory (ORAM), and Private Set Intersection (PSI). Such techniques allow the design of protocols that only reveal the minimal required amount of information to all parties involved. Systems for super-spreader detection through presence tracing are also presented that can be integrated with DCT systems in a privacy-preserving manner.

While decentralized processing provides better privacy than the centralized alternative, it limits the ability to observe the epidemic situation through statistical analysis. By reviewing common approaches for collecting and analyzing health data for research purposes, we identify various threats to the privacy of people who are willing to share their data. Both in the pandemic and post-pandemic settings, privacy guarantees are a tool to ensure to data providers that their data can not be misused. To this end, a platform is presented that leverages Trusted Execution Environments (TEEs) in combination with oblivious algorithms that safeguard sensitive data during data collection and analysis. To combat the drawbacks of TEEs, new methods are introduced to hide the access patterns and volume patterns of database queries. All contributions presented in this thesis aim to improve the privacy of individuals through solutions that follow the concept of privacy by design.

Alternative Abstract:
Alternative AbstractLanguage

Der Schutz der Privatsphäre ist ein Menschenrecht und ein unerlässlicher Bestandteil von moderne Demokratien. Da Forschung und vor allem die Wirtschaft zunehmend datengesteuert sind, gewinnt dieser Aspekt weiter an Bedeutung. Die Covid-19 Pandemie hat viele neue Anwendungen hervorgebracht, welche die Verarbeitung sensibler Informationen zu Gesundheit, Standort und sozialen Interaktionen erfordern. Die digitale Kontaktnachverfolgung durch Abstandsbestimmung und die Erkennung von Super-Spreader Ereignissen an öffentlichen Orten sind Beispiele für solche Anwendungen. Zum Bekämpfen einer Pandemie ist es nicht nur relevant neue Infektionen zu verhindern. Um Entscheidungen treffen zu können, benötigt es einen repräsentativen Einblick in das momentane Infektionsgeschehen. Für diesen Zweck muss auf der Grundlage von Gesundheitsdaten und anderen sensiblen Informationen aussagekräftige statistische Erkenntnisse gewonnen werden können. Für all diese Anwendungen benötigen die Personen, welche ihre Daten freiwillig bereitstellen, konkrete Datenschutzgarantien,um sicher sein zu können, dass ihre Daten nicht zweckentfremdet werden oder abhanden kommen. Diese Doktorarbeit konzentriert sich auf Lösungen für die Verarbeitung und Analyse sensibler Daten unter Wahrung der Privatsphäre. Der Schwerpunkt liegt hier auf der Entwicklung von Systemen und Algorithmen, bei denen kein blindes Vertrauen in einer zentralen Autorität gesetzt werden muss, sonder Datenschutz auf andere Weise garantiert werden kann.

In dieser Doktorarbeit werden mehrere Ansätze zur Sicherstellung des Datenschutzes bei der digitale Kontaktverfolgung - im Englischen Digital Contact Tracing (DCT) - vorgeschlagen. Um ein allgemeines Verständnis für das Thema zu schaffen, wird eine Einführung in die Probleme und Lösungen für digitale Kontaktnachverfolgung mittels Bluetooth Low Energy (BLE) zur Abstandsbestimmung gegeben. Auf Basis der Literatur wird eine Systematisierung der verschiedenen Ansätze erarbeitet, anhand welcher sich gemeinsame Herausforderungen in Bezug auf Datenschutz, Sicherheit und Funktionalität identifizieren lassen. Ausgehend von den Unzulänglichkeiten bestehender Anwendungen zur Kontaktverfolgung werden neuartige Entwürfe für datenschutzfreundliche digitale Kontaktnachverfolgung mit ihren jeweiligen Vor- und Nachteilen vorgestellt. Ein Schwerpunkt liegt dabei auf der Verteilung der Risikobewertung an die Benutzer, welche durch anonyme Direktnachrichten ihre Kontakte bezüglich möglicher Infektionsrisiken warnen. Zu diesem Zweck werden Fragen der Authentizität von Warnungen angegangen und der Verlust von Privatsphäre durch Metadaten eingedämmt. Noch stärkere Datenschutzgarantien werden auch durch die Verwendung kryptographischer Protokolle wie Oblivious Random Access Memory (ORAM) und Private Set Intersection (PSI) für digitale Kontaktnachverfolgung erreicht. Derartig Techniken ermöglichen Protokollen, bei denen jede Partei nicht mehr sensible Informationen erhält als zwingend notwendig. Auch werden Möglichkeiten angesprochen, wie digitale Kontaktnachverfolgung für Super-Spreader Erkennung in existierende abstandsbasierte Systeme integriert werden kann auf eine Privatsphäre-erhaltende Weise.

Eine dezentrale Risikobewertung für Kontaktnachverfolgung, wie etwa bei der Corona Warn-App, bietet zwar einen besseren Schutz der Privatsphäre als die zentralisierte Alternative, schränkt aber die Möglichkeit ein, die epidemische Situation durch statistische Auswertungen zu beobachten. Bei der Überprüfung gängiger Ansätze für die Erhebung und Analyse von Gesundheitsdaten durch mobile Geräte zu Forschungszwecken stellen wir verschiedene Gefahren für die Privatsphäre von Menschen fest, welche bereit sind, ihre Daten zu teilen. Sowohl in der Pandemie, als auch unabhängig davon, sind Datenschutzgarantien ein Instrument, mit dem sichergestellt werden kann, dass die Daten von Freiwilligen nicht missbraucht und zweckentfremdet werden können. Zu diesem Zweck wird eine Plattform vorgestellt, welche Trusted Execution Environments (TEEs) verwendet, um Datenanalysen auf sensiblen Daten zu realisieren. Um verschiedene Schwächen von TEEs auszugleichen, werden spezielle Algorithmen vorgestellt, deren Ziel es ist zu Verhindern, dass ein Angreifer lernt auf welche Daten zugegriffen und wie viele Daten für eine Datenbankanfrage verarbeitet werden. Alle vorgestellten Beiträge haben das Ziel, die Daten von Individuen besser zu schützen.

German
Uncontrolled Keywords: Privacy by Design, Automated Contact Tracing, Digital Health, Covid-19, Pandemic Measures, Data Donations, Privacy-Preserving Data Sharing
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-285959
Classification DDC: 000 Generalities, computers, information > 004 Computer science
600 Technology, medicine, applied sciences > 600 Technology
600 Technology, medicine, applied sciences > 610 Medicine and health
Divisions: 18 Department of Electrical Engineering and Information Technology > Institute of Computer Engineering > Communication Networks Lab
Date Deposited: 28 Nov 2024 14:31
Last Modified: 02 Dec 2024 08:44
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/28595
PPN: 524258007
Export:
Actions (login required)
View Item View Item