Data Protection in Personalized AI Services: A Decentralized Approach

Meurisch, Christian (2021)
Data Protection in Personalized AI Services: A Decentralized Approach.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00019355
Ph.D. Thesis, Primary publication, Publisher's Version

Preview

Text
phdthesis-meurisch2021.pdf
Copyright Information: CC BY-NC-ND 4.0 International - Creative Commons, Attribution NonCommercial, NoDerivs.
Download (9MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Data Protection in Personalized AI Services: A Decentralized Approach

Language:

English

Referees:

Mühlhäuser, Prof. Dr. Max ; Dustdar, Prof. Dr. Schahram

Date:

2021

Place of Publication:

Darmstadt

Collation:

xxii, 254 Seiten

Date of oral examination:

23 August 2021

DOI:

10.26083/tuprints-00019355

Abstract:

Advances in Artificial Intelligence (AI) have shaped today’s user services, enabling enhanced personalization and new kinds of support. As such AI-based services -- referred to as AI services in this thesis -- necessarily involve (potentially sensitive) user data, the resulting privacy implications are de facto the unacceptable face of this technology: data once provided, e.g., to AI services typically running in the provider's cloud or on (third-party) edge devices, may be used for other (often commercial) purposes than originally intended, even without the user's consent or awareness. While approaches to data protection are manifold, each of them makes a certain tradeoff between personalization, privacy, and applicability -- there is no practical one-size-fits-all solution.

This thesis explores a data decentralization approach in the context of personalized (single-user) AI services to achieve a more favorable tradeoff for users while considering the providers' interests. As a result, this work comprises seven (7) major contributions, two for the systematic understanding of data protection and privacy requirements in AI services, and five technical contributions -- of the latter, three contribute protection mechanisms based on data decentralization and two pave the way for a decentralized (urban) operation. Specifically, the first contribution presents a user study that explores user expectations of such data-demanding AI services and the extent to which privacy concerns arise. Based on these findings, the second contribution classifies the related work of data protection in AI services in a novel way, highlighting the identified research gaps -- some of which are addressed in this thesis, as outlined below.

While data decentralization promises users more control over their own data, it entails issues related to both efficiency and the protection of the provider's intellectual property due to the need for locally running AI services; this part of the thesis contributes three building blocks to address these issues: the third contribution of this thesis comprises a privacy-by-design platform, which relies on an open architecture and decentralized data-confining personal data stores with design and runtime support for AI services running locally to access user data; it forms the basis for the following building blocks. The fourth contribution adds a building block to ensure confidential processing of user data locally by AI services while protecting providers' intellectual property, even when both are offloaded to untrusted (third-party) edge devices. The fifth contribution adds a building block to address the cold-start problem and efficiency issues (e.g., caused by labeling effort for users, local resource use) specifically of AI services relying on supervised learning algorithms in local personalization.

To support mobile users in coping with resource-intensive, latency-demanding AI services and provide ambient support to them not only at home, the last part of this thesis enables a city-wide, decentralized operation of this platform. The sixth contribution presents two economic (edge computing) infrastructure concepts, which propose to exploit existing (but originally for other purposes used) infrastructures that are predestined for this: one is based on publicly-owned augmented street lamps; the other relies on a sharing concept of privately-owned wireless home routers and their LAN-connected home resources. The seventh and last contribution adds a proactive deployment mechanism to efficiently conceal the inherent initialization overhead of (personalized, data-protected) AI services on nearby edge devices for mobile users.

A series of evaluations on sample AI services provides the proof of the proposed concepts---confirming the achieved unique tradeoff between personalization, privacy, and applicability.

Alternative Abstract:

Alternative Abstract

Language

Fortschritte in der Künstlichen Intelligenz (KI) haben die heutigen Nutzerdienste geprägt, wodurch eine verbesserte Personalisierung dieser Dienste und neue Unterstützungsformen ermöglicht wurden. Da solche KI-basierten Dienste -- in dieser Arbeit kurz als KI-Dienste (engl. AI services) bezeichnet -- notwendigerweise (teils sensible) Nutzerdaten erfordern, sind die daraus resultierenden Auswirkungen auf die Privatsphäre de facto die Kehrseite der Medaille: Einmal zur Verfügung gestellte Daten, z.B. für KI-Dienste, die in der Cloud des Anbieters oder auf nahegelegenen Geräten von Drittanbietern laufen, können für andere (oft kommerzielle) Zwecke als die ursprünglich beabsichtigten Zwecke verwendet werden -- auch ohne die Zustimmung oder Kenntnis des Nutzers. Obwohl bestehende Ansätze zum Schutz der Nutzerdaten vielfältig sind, geht jeder von ihnen einen gewissen Kompromiss zwischen der Personalisierung der Nutzerdienste, der Privatsphäre der Nutzer und seiner praktischen Anwendbarkeit ein -- zurzeit existiert keine praktisch-einsetzbare Lösung, die diese Aspekte gleichermaßen und vollumfänglich berücksichtigt.

Diese Arbeit erforscht einen Daten-Dezentralisierungs-Ansatz im Kontext personalisierter KI-Dienste, um einen für den Nutzer vorteilhafteren Kompromiss zu erzielen -- bei gleichzeitiger Berücksichtigung der Anbieterinteressen. Insgesamt umfasst diese Arbeit sieben (7) Hauptbeiträge: Zwei tragen zum systematischen Verständnis der Anforderungen an den Schutz der Privatsphäre und Nutzererwartungen an KI-Dienste bei; die restlichen fünf sind technische Beiträge, von denen drei neuartige Schutzmechanismen und zwei Konzepte für einen dezentralen (stadtweiten) Betrieb darstellen. Der erste Beitrag stellt eine Nutzerstudie vor, die zunächst untersucht, welche Erwartungen die Nutzer an solche personalisierten KI-Dienste haben und in welchem Ausmaß Bedenken hinsichtlich ihrer Privatsphäre bestehen. Basierend auf diesen Erkenntnissen klassifiziert der zweite Beitrag zunächst die relevanten verwandten Arbeiten in einer neuartigen Weise und identifiziert bestehende Forschungslücken -- von denen einige in dieser Arbeit, wie nachfolgend näher erläutert, adressiert werden.

Während die Daten-Dezentralisierung den Nutzern mehr Kontrolle über ihre eigenen Daten verspricht, bringt sie aufgrund der Notwendigkeit lokal laufender KI-Dienste Probleme sowohl in Bezug auf die Effizienz als auch den Schutz des geistigen Eigentums des Anbieters mit sich. Dieser Teil der Arbeit steuert drei Bausteine bei, um diese Probleme zu adressieren: Der dritte Beitrag dieser Arbeit umfasst eine Privacy by Design-Plattform, die auf einer offenen Architektur und lokalen „daten-einsperrenden“ Datenspeicher basiert; diese bietet zudem eine Design- und Laufzeitunterstützung für lokal laufende KI-Dienste an und bildet somit die Grundlage für die folgenden Bausteine. Der vierte Beitrag trägt einen Baustein für die vertrauliche, lokale Verarbeitung von Nutzerdaten durch KI-Dienst bei, wobei insbesondere das geistige Eigentum der Anbieter -- auch auf nicht vertrauenswürdigen Geräten von Drittanbietern -- geschützt wird. Der fünfte Beitrag trägt einen Baustein bei, um das Kaltstartproblem und die Effizienzprobleme speziell von KI-Diensten, die auf überwachte Lernalgorithmen bei der lokalen Personalisierung aufbauen, zu adressieren.

Um nicht nur von einer (Umgebungs-)Unterstützung zu Hause zu profitieren, ermöglicht der letzte Teil dieser Arbeit einen stadtweiten, dezentralen Betrieb dieser Plattform: Der sechste Beitrag schlägt zwei kosteneffiziente (Edge Computing-)Infrastrukturkonzepte vor, die bereits existierende (aber zweckfremde) Infrastrukturen ausnutzen: das eine Konzept basiert auf Straßenlampen in öffentlichem Besitz; das andere nutzt ein „Sharing“-Konzept, um privat-betriebene drahtlose Heimrouter und daran angeschlossene lokale Ressourcen für andere Nutzer nutzbar zu machen. Der siebte und letzte Beitrag trägt einen proaktiven, effizienten „Deployment“-Mechanismus bei, um den inhärenten Initialisierungsaufwand von (personalisierten, datenschützenden) KI-Diensten auf nahegelegenen Geräten für mobile Benutzer zu verbergen.

Eine Reihe von Evaluationen auf exemplarischen KI-Diensten zeigt die Machbarkeit aller Beiträge und bestätigt zugleich den erreichten einzigartigen Kompromiss zwischen den drei Aspekten Personalisierung, Privatsphärenschutz und Anwendbarkeit.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-193559

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Telecooperation

Date Deposited:

19 Oct 2021 07:53

Last Modified: