A Techno-Economic Multi-Stakeholder Perspective on Wireless Networks: Game Theory and Online Learning Approaches
A Techno-Economic Multi-Stakeholder Perspective on Wireless Networks: Game Theory and Online Learning Approaches
Emerging applications in wireless networks, including smart cities, digital twins (DTs), and immersive services such as augmented reality (AR) and virtual reality (VR), rely on the networks' communication, distributed sensing, and computation capabilities. To enable these emerging applications, many distributed communication, computation, sensing, and data storage resources are required. Consequently, resource allocation is a key issue in wireless networks, where stakeholders that own resources, e.g., infrastructure providers (IPs) or mobile network operators (MNOs), interact with stakeholders that require these resources, e.g., service providers (SPs) or users. In addition to resource allocation, the interactions between stakeholders include the exchange of payments, strategic information, and data.
In this thesis, we propose the techno-economic multi-stakeholder perspective as a novel paradigm for resource allocation in wireless networks. This paradigm combines the multi-stakeholder perspective, where autonomous stakeholders interact, with the techno-economic perspective, in which decisions include the consideration of technical factors such as data rates and energy consumption as well as economic factors such as costs, payments, and revenues. For this, we present a novel systematic approach for the techno-economic multi-stakeholder modeling and present methods for the autonomous decision making of multiple stakeholders based on game theory and online learning. Based on this model, we identify and address four major challenges that arise in practical applications: incentive design, information asymmetries, uncertainty, and multi-user competition. To demonstrate the flexibility of the proposed model and to cover a variety of different stakeholders as well as considered resources, we consider one practical application per challenge as a representative example.
The first challenge is incentive design. In many applications, it is essential to design incentives that align stakeholder interests and promote cooperation. Typical for these applications is that one stakeholder has to design the incentives while the other stakeholders decide whether and how to participate. We address this challenge by considering the representative example of coverage maximization in mobile crowdsensing (MCS), where mobile units (MUs) contribute sensing data to a mobile crowdsensing platform (MCSP) to maximize the spatial coverage of sensed data. For this, we demonstrate how our techno-economic multi-stakeholder model can be applied including a novel combination of two incentive mechanisms: payments and sharing data. We show that the following three problems have to be solved jointly: (i) the autonomous decision making of MUs, i.e., choosing which sensing data to contribute under certain preferences for incentives, (ii) the MCSP’s selection of MUs to maximize its profit, and (iii) the allocation of limited communication resources. To solve these problems jointly, we propose a novel two-stage matching algorithm to find a solution for the decision making of the MUs and the MCSP in the first stage and the resource allocation in the second stage. Numerical simulations demonstrate that the proposed algorithm improves the MCSP's utility by 27%, increases the spatial coverage of sensed data by 12%, and enables 40% more users to contribute to their most preferred tasks compared to a state-of-the-art scheme.
The second challenge is posed by information asymmetries, which arise when multiple stakeholders possess different types or amounts of information. This is common in scenarios with payment negotiations for resource allocation, where information asymmetries occur regarding costs for resource usage, revenues, resource demands, or resource availability. To address this challenge, we select service placement in multi-access edge computing (MEC) as a representative application. In this application, SPs offer heterogeneous services to users while an IP supplies computing and communication resources. We propose a bargaining mechanism for the interaction between the SPs and the IP. For this, we derive the linear equilibrium strategies (LES) that ensure that no stakeholder benefits from unilateral deviation. We compare our bargaining approach to a conventional approach where the IP sets a fixed price for its resources. Using simulations based on real-world data from 544 users and 16 SPs, we show that the proposed bargaining mechanism achieves 14.2% higher social welfare than the fixed pricing approach, reaches 96% of the optimal social welfare, and achieves 79% of the optimal network traffic reduction to the core network. It also outperforms the fixed price algorithm by 60% in terms of how many user requests can be processed on the MEC network, achieving 89.8% of the optimum obtained by solving a service placement optimization problem with full information.
The third challenge is uncertainty. Stakeholders in wireless networks often face uncertainty about their own technical or economic quantities as well as the environment. Unlike standard reinforcement learning (RL) settings that involve a single agent interacting with an unknown environment, this challenge involves multiple autonomous stakeholders who must simultaneously learn while interacting strategically with one another. We address this challenge by considering the task assignment problem in MCS. In this application, each MU selects a task type, for which the required effort is initially unknown, and submits a proposal to the MCSP that states the requested payment for performing it. The MCSP then chooses which MUs will perform the tasks to maximize its profit. This is difficult, as two problems are included: (i) finding strategies of the MUs as well as the MCSP that lead to a stable solution, where neither the MCSP nor any MU can benefit from unilateral deviation and (ii) the online learning problem, where MUs have to learn their required efforts associated with the task types over time. We propose to model this scenario as a matching game with uncertainty concerning the preferences of the MUs, and we propose a novel decentralized online learning algorithm for which we prove that it converges to a stable solution. Simulation results demonstrate that the proposed algorithm reduces task completion time compared to the widely used epsilon-greedy learning by 16%, improves system-wide energy efficiency by up to 7.5%, and we show using simulations that our proposed approach achieves 98% of the maximum achievable social welfare.
The fourth challenge is multi-user competition, where a large number of users attempt to access distributed resources in the network. Effectively managing this competition requires the consideration of the autonomous decision making of the users as well as of the resource providers while having a low communication overhead. Traditional decentralized resource allocation approaches often model only one type of stakeholder, either the users or the resource providers as the decision makers. For the challenge multi-user competition, we consider the example of task offloading in MEC, where multiple users can offload their computation tasks to shared computation servers at the access points (APs) which are owned by an MNO. For task offloading, MUs pay the MNO, and each MU’s willingness to pay differs, e.g., due to its battery level. To model the interaction between MUs and the MNO, we formulate a matching game. To reduce the required communication overhead, we propose a novel decentralized online learning algorithm that combines online learning with game-theoretic principles to learn the MUs' task offloading strategies, while considering the MNO as an autonomous decision maker which aims to maximize its profit. Numerical evaluations show that the proposed algorithm reduces the MUs' energy consumption by up to 10% compared to state-of-the-art decentralized task offloading algorithms, increases the MNO’s cumulative revenue by 25%, and achieves a 55% reduction in communication overhead relative to an algorithm that is based on game theory.
Neue Anwendungen in drahtlosen Netzwerken, darunter Smart Cities, digitale Zwillinge und immersive Dienste wie Augmented Reality (AR) und Virtual Reality (VR), benötigen zahlreiche verteilte Kommunikations-, Rechen-, Sensorik- und Datenspeicherressourcen. Daher ist die Ressourcenallokation eine zentrale Herausforderung in drahtlosen Netzwerken, in denen Stakeholder, die über Ressourcen verfügen, beispielsweise Infrastrukturanbieter oder Mobilfunknetzbetreiber, mit Stakeholdern interagieren, die diese Ressourcen benötigen, beispielsweise Dienstanbieter oder Nutzer. Neben der Ressourcenallokation umfasst die Interaktion zwischen den Stakeholdern auch Zahlungen und den Austausch von strategischen Informationen und Daten.
In dieser Dissertation schlagen wir die techno-ökonomische Multi-Stakeholder-Perspektive als neue Sichtweise auf die Ressourcenallokation in drahtlosen Netzwerken vor. Dieses Paradigma kombiniert die Multi-Stakeholder-Perspektive, in der autonome Stakeholder interagieren, mit der techno-ökonomischen Perspektive, in der Entscheidungen sowohl technische Faktoren wie Datenraten und Energieverbrauch als auch ökonomische Faktoren wie Kosten, Zahlungen und Einnahmen berücksichtigen müssen. Dazu stellen wir einen neuartigen systematischen Ansatz für die techno-ökonomische Multi-Stakeholder-Modellierung vor und präsentieren Methoden für die autonome Entscheidungsfindung mehrerer Stakeholder auf der Grundlage von Spieltheorie und Online-Verfahren des maschinellen Lernens. Basierend auf diesem Modell identifizieren und adressieren wir vier Herausforderungen, die sich in der praktischen Anwendung ergeben: Anreizgestaltung, Informationsasymmetrien, Unsicherheit und Wettbewerb zwischen mehreren Nutzern. Um die Flexibilität des vorgeschlagenen Modells zu demonstrieren und eine Vielzahl unterschiedlicher Stakeholder sowie Ressourcen abzudecken, betrachten wir pro Herausforderung eine andere Anwendung als repräsentatives Beispiel.
Die erste Herausforderung ist die Anreizgestaltung. In vielen Anwendungen ist es notwendig, Anreize zu schaffen, die die Interessen der Stakeholder in Einklang bringen und die Zusammenarbeit fördern. Typisch für diese Anwendungen ist, dass ein Stakeholder die Anreize gestalten muss, während die anderen Stakeholder entscheiden, ob und wie sie sich beteiligen. Wir adressieren diese Herausforderung am repräsentativen Beispiel der Coverage Maximization im Mobile Crowdsensing (MCS), bei dem mobile Geräte Sensordaten an eine Mobile-Crowdsensing-Plattform (MCSP) übermitteln, mit dem Ziel, die räumliche Abdeckung der verfügbaren Sensordaten zu maximieren. Dazu zeigen wir, wie unser techno-ökonomisches Multi-Stakeholder-Modell angewendet werden kann, und integrieren eine neuartige Kombination aus zwei Anreizmechanismen: Zahlungen und das Teilen von Daten. Wir zeigen, dass die folgenden drei Probleme gemeinsam gelöst werden müssen: (i) die autonome Entscheidungsfindung aus Sicht der mobilen Geräte, d. h., die Auswahl der zu liefernden Sensordaten unter bestimmten Präferenzen für Anreize, (ii) die Auswahl der mobilen Geräte durch die MCSP zur Maximierung ihres Gewinns und (iii) die Allokation der begrenzten Kommunikationsressourcen. Um diese Probleme gemeinsam zu lösen, schlagen wir einen neuartigen zweistufigen Matching-Algorithmus vor, mit dem in der ersten Stufe eine Lösung für die Entscheidungsfindung der mobilen Geräte und der MCSP gefunden wird und in der zweiten Stufe die Ressourcenallokation erfolgt. Numerische Simulationen zeigen, dass der vorgeschlagene Algorithmus die Nutzenfunktion der MCSP um 27% verbessert, die räumliche Abdeckung der verfügbaren Sensordaten um 12% erhöht und 40% mehr Nutzer der mobilen Geräte ihr bevorzugtes Ergebnis erhalten, als dies mit einem Verfahren nach dem Stand der Technik der Fall wäre.
Die zweite Herausforderung besteht in Informationsasymmetrien, die entstehen, wenn mehrere Stakeholder über unterschiedliche Arten oder Mengen von Informationen verfügen. Dies ist häufig in Szenarien mit Zahlungsverhandlungen für die Ressourcenallokation der Fall, in denen Informationsasymmetrien hinsichtlich der Kosten für die Ressourcennutzung, der Einnahmen, des Ressourcenbedarfs oder der Ressourcenverfügbarkeit auftreten. Um diese Herausforderung anzugehen, wählen wir Service Placement im Multi-Access-Edge-Computing (MEC) als repräsentative Anwendung. In dieser Anwendung bieten Diensteanbieter den Nutzern heterogene Dienste an, während ein Infrastrukturanbieter Rechen- und Kommunikationsressourcen bereitstellt. Wir schlagen einen Verhandlungsmechanismus für die Interaktion zwischen den Diensteanbietern und dem Infrastrukturanbieter vor. Für die Verhandlung leiten wir lineare Gleichgewichtsstrategien her, die sicherstellen, dass kein Stakeholder von einseitigen Abweichungen profitieren kann. Wir vergleichen unseren Verhandlungsansatz mit einem herkömmlichen Ansatz, bei dem der Infrastrukturanbieter einen festen Preis für seine Ressourcen festlegt. Anhand von Simulationen auf der Grundlage realer Daten von 544 Nutzern und 16 Diensteanbietern zeigen wir, dass der vorgeschlagene Verhandlungsmechanismus eine um 14,2% höhere soziale Wohlfahrt als der Festpreisansatz erzielt, 96% der optimalen sozialen Wohlfahrt erreicht und 79% der optimalen Reduzierung des Netzwerkverkehrs zum Kernnetzwerk erzielt. Außerdem übertrifft der vorgeschlagene Algorithmus den Festpreisalgorithmus um 60% hinsichtlich der Anzahl der Nutzeranfragen, die im MEC-Netzwerk verarbeitet werden können, und erreicht 89,8% des Optimalwerts, der durch die Lösung des Problems mit vollständigen Informationen erzielt wird.
Die dritte Herausforderung ist Unsicherheit. Die Stakeholder in drahtlosen Netzwerken sind häufig mit Unsicherheiten hinsichtlich ihrer eigenen technischen oder ökonomischen Größen sowie hinsichtlich der Umgebung konfrontiert. Im Gegensatz zu herkömmlichen Reinforcement Learning (RL) Verfahren, in denen ein einzelner Akteur mit einer unbekannten Umgebung interagiert, sind in dieser Herausforderung mehrere autonome Stakeholder beteiligt, die gleichzeitig lernen und strategisch miteinander interagieren müssen. Wir gehen diese Herausforderung an, indem wir das Task Assignment Problem in MCS als repräsentatives Beispiel betrachten. In dieser Anwendung wählt jedes mobile Gerät einen Aufgabentyp aus, für den der erforderliche Aufwand zunächst unbekannt ist, und sendet einen Vorschlag zur MCSP, in dem die für die Ausführung der Aufgabe geforderte Zahlung angegeben ist. Die MCSP wählt dann die mobilen Geräte aus, die die Aufgaben ausführen sollen, um ihren Gewinn zu maximieren. Dies ist schwierig, da zwei Probleme zu lösen sind: (i) Es müssen Strategien der mobilen Geräte und der MCSP gefunden werden, die zu einer stabilen Lösung führen, bei der weder die MCSP noch ein mobiles Gerät von einseitigen Abweichungen profitieren kann, und (ii) die mobilen Geräte müssen den mit den Aufgabentypen verbundenen Aufwand lernen. Wir schlagen vor, dieses Szenario als Matching-Spiel mit Unsicherheit hinsichtlich der Präferenzen der mobilen Geräte zu modellieren, und wir schlagen einen neuartigen dezentralen Online-Lernalgorithmus vor, für den wir nachweisen, dass er zu einer stabilen Lösung konvergiert. Die Simulationsergebnisse zeigen, dass der vorgeschlagene Algorithmus die Aufgabenbearbeitungszeit im Vergleich zum weit verbreiteten epsilon-greedy-Lernverfahren um 16% reduziert und die systemweite Energieeffizienz um bis zu 7,5% verbessert. Anhand von Simulationen zeigen wir außerdem, dass unser Ansatz 98% der maximal erreichbaren sozialen Wohlfahrt erreicht.
Die vierte Herausforderung ist der Wettbewerb zwischen Nutzern, bei dem eine große Anzahl von Nutzern auf verteilte Ressourcen im Netzwerk zugreift. Um diesen Wettbewerb effektiv zu steuern, müssen sowohl die autonomen Entscheidungen der Nutzer als auch der Ressourcenanbieter berücksichtigt werden, während gleichzeitig der Kommunikationsaufwand gering gehalten werden muss. Herkömmliche dezentrale Ansätze zur Ressourcenallokation modellieren oft nur einen Typ von Stakeholdern, entweder die Nutzer oder die Ressourcenanbieter als Entscheidungsträger. Zur Veranschaulichung des Wettbewerbs zwischen Nutzern betrachten wir das Task Offloading in MEC: Mehrere Nutzer lagern dabei ihre Rechenaufgaben an verteilte Server aus, die an den Access Points des Mobilfunknetzes stehen und dem Netzbetreiber gehören. Für die Ausführung der Rechenaufgaben entrichten die Nutzer Zahlungen an den Netzbetreiber. Dabei variiert ihre individuelle Zahlungsbereitschaft, beispielsweise abhängig vom Batteriestand des jeweiligen mobilen Geräts. Um die Interaktion zwischen den Nutzern und dem Netzbetreiber zu modellieren, formulieren wir ein Matching-Spiel. Um den erforderlichen Kommunikationsaufwand zu reduzieren, schlagen wir einen neuartigen dezentralen Online-Lernalgorithmus vor, der Prinzipien der Online-Lernverfahren mit spieltheoretischen Prinzipien kombiniert, um die Strategien der Nutzer zu lernen, wobei der Netzbetreiber als autonomer Entscheidungsträger betrachtet wird, der seinen Gewinn maximieren möchte. Numerische Auswertungen zeigen, dass der vorgeschlagene Algorithmus den Energieverbrauch der mobilen Geräte der Nutzer im Vergleich zu den dezentralen Vergleichsalgorithmen um bis zu 10% reduziert, den kumulierten Umsatz des Netzbetreibers um 25% steigert und den Kommunikationsaufwand im Vergleich zu einem auf Spieltheorie basierenden Algorithmus um 55% reduziert.

