TU Darmstadt / ULB / TUprints

Optimization and Learning Approaches for Energy Harvesting Wireless Communication Systems

Ortiz Jimenez, Andrea Patricia (2019)
Optimization and Learning Approaches for Energy Harvesting Wireless Communication Systems.
Technische Universität
Ph.D. Thesis, Primary publication

2019-11-14_Ortiz_Jimenez_Andrea_Patricia.pdf - Published Version
Copyright Information: CC BY-NC-SA 4.0 International - Creative Commons, Attribution NonCommercial, ShareAlike.

Download (2MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Optimization and Learning Approaches for Energy Harvesting Wireless Communication Systems
Language: English
Referees: Klein, Prof. Dr. Anja ; Gündüz, Dr. Deniz
Date: 14 November 2019
Place of Publication: Darmstadt
Date of oral examination: 31 October 2019

Emerging technologies such as Internet of Things (IoT) and Industry 4.0 are now possible thanks to the advances in wireless sensor networks. In such applications, the wireless communication nodes play a key role because they provide the connection between different sensors as well as the communication to the outside world. In general, these wireless communication nodes are battery operated. However, depending on the specific application, charging or replacing the batteries can be too expensive or even infeasible, e.g., when the nodes are located in remote locations or inside structures. Therefore, in order to provide sustainable service and to reduce the operation expenses, energy harvesting (EH) has been considered as a promising technology in which the nodes collect energy from the environment using natural or man-made energy sources such as solar or electromagnetic radiation. The idea behind EH is that the wireless communication nodes can recharge their batteries while in idle mode or while transmitting data to neighboring nodes. As a result, the lifetime of the wireless communication network is not limited by the availability of energy.

The consideration of EH brings new challenges in the design of transmission policies. This is because in addition to the fluctuating channel conditions and data arrival processes, the variability of the amount of energy available for the communication should be taken into account. Moreover, the three processes, EH, data arrival and channel fading, should be jointly considered in order to achieve optimum performance. In this context, this dissertation contributes to the research on EH wireless communication networks by considering power allocation and resource allocation problems in four different scenarios, namely, EH point-to-point, EH two-hop, EH broadcast and EH multiple access, which are the fundamental constituents of more complicated networks. Specifically, we determine the optimal allocation policies and the corresponding upper bounds of the achievable performance by considering offline approaches in which non-causal knowledge regarding system dynamics, i.e., the EH, data arrival and channel fading processes, is assumed. Furthermore, we overcome this unrealistic assumption by developing novel learning approaches, based on reinforcement learning, under the practical assumption that only causal knowledge of the system dynamics is available.

First, we focus on the EH point-to-point scenario where an EH transmitter sends data to a receiver. For this scenario, we formulate the power allocation problem for throughput maximization considering not only the transmit power, but also the energy consumed by the circuit. Adopting an offline approach, we characterize the optimum power allocation policy and exploit this analysis in the development of a learning approach. Specifically, we develop a novel learning algorithm which considers a realistic EH point-to-point scenario, i.e., only causal knowledge of the system dynamics is assumed to be available. For the proposed learning algorithm, we exploit linear function approximation to cope with the infinite number of values the harvested energy, the incoming data and the channel coefficients can take. In particular, we propose four feature functions which are inspired by the characteristics of the problem and the insights gained from the offline approach. Through numerical simulations, we show that the proposed learning approach achieves a performance close to the offline optimum without the requirement of non-causal knowledge of the system dynamics. Moreover, it can achieve a performance up to 50% higher than the performance of reference learning schemes such as Q-learning, which do not exploit the characteristics of the problem.

Secondly, we investigate an EH two-hop scenario in which an EH transmitter communicates with a receiver via an EH relay. For this purpose, we consider the main relaying strategies, namely, decode-and-forward and amplify-and-forward. Furthermore, we consider both, the transmit power and the energy consumed by the circuit in each of the EH nodes. For the EH decode-and-forward relay, we formulate the power allocation problem for throughput maximization and consider an offline approach to find the optimum power allocation policy. We show that the optimal power allocation policies of both nodes, transmitter and relay, depend on each other. Additionally, following a learning approach, we investigate a more realistic scenario in which the EH transmitter and the EH decode-and-forward relay have only partial and causal knowledge about the system dynamics, i.e., each node has only causal knowledge about the EH, data arrival and channel fading processes associated to it. To this aim, two novel learning algorithms are proposed which take into account whether or not the EH nodes cooperate with each other to improve their learning processes. For the cooperative case, we propose the inclusion of a signaling phase in which the EH nodes exchange their current parameters. Through numerical simulations, we show that by providing the nodes with a complete view of the system state in a signaling phase, a performance gain of up to 40% can be achieved compared to the case when no cooperation is considered. Following a similar procedure, we investigate the EH two-hop scenario with an EH amplify-and-forward relay. We show that the resulting power allocation problem for throughput maximization is non-convex. Consequently, we propose an offline approach based on a branch-and-bound algorithm tailored to the EH two-hop scenario to find the optimal power allocation policy. Additionally, a centralized learning algorithm is proposed for the realistic case in which only causal knowledge of the system dynamics is available. The proposed learning approach exploits the fact that, with an amplify-and-forward relay, the communication between the transmitter and the receiver depends on a single effective channel, which is composed of the link between the transmitter and the relay, the relay gain and the channel from the relay to the receiver. By means of numerical simulations, we show that the proposed learning algorithm achieves a performance up to two times higher than the performance achieved by reference schemes. Additionally, the extension of the proposed approaches to EH multi-hop scenarios is discussed.

Thirdly, an EH broadcast scenario in which an EH transmitter sends individual data to multiple receivers is studied. We show that the power allocation problem for throughput maximization in this scenario leads to a non-convex problem when an arbitrary number of receivers is considered. However, following an offline approach we find the optimal power allocation policy for the special case when two receivers are considered. Furthermore, inspired by the offline approach for two users, a novel learning approach which does not pose any restriction on the number of receiver nodes is developed. The proposed learning approach is a two-stage learning algorithm which separates the learning task into two subtasks: determining how much power to use in each time interval and deciding how to split this selected power for the transmission of the individual data intended for each receiver. Through numerical simulations, we show that the separation of tasks leads to a performance up to 40% higher than the one achieved by standard learning techniques, specially for large numbers of receivers.

Finally, an EH multiple access scenario is considered in which multiple EH transmitters communicate with a single receiver using multiple orthogonal resources. In this case, the focus is on the formulation of the resource allocation problem considering the EH processes at the different transmitters. We show that the resulting resource allocation problem falls into the category of non-linear knapsack problems which are known to be NP-hard. Therefore, we propose an offline approach based on dynamic programming to find the optimal solution. Furthermore, by exploiting the characteristics of the scenario, a novel learning approach is proposed which breaks the original resource allocation problem into smaller subproblems. As a result, it is able to handle the exponential growth of the space of possible solutions when the network size increases. Through numerical simulations, we show that in contrast to conventional reinforcement learning algorithms, the proposed learning approach is able to find the resource allocation policy that aims at maximizing the throughput when the network size is large. Furthermore, it achieves a performance up to 25% higher than the performance of the greedy policy that allocates the resources to the users with the best channel conditions.

Additionally, in order to carry out a full assessment of the proposed learning algorithms, we provide convergence guarantees and a computational complexity analysis for all the developed learning approaches in the four considered scenarios.

Alternative Abstract:
Alternative AbstractLanguage

Fortschritte im Bereich drahtloser Sensornetze haben die Entwicklung von Technologien wie dem Internet der Dinge (engl. Internet of Things, IoT) und der Industrie 4.0 ermöglicht. Eine Schlüsselrolle in solchen Anwendungen spielen die drahtlosen Kommunikationsknoten, da sie Verbindungen zwischen verschiedenen Sensoren sowie die Kommunikation nach außen ermöglichen. Typischerweise sind die drahtlosen Kommunikationsknoten batteriebetriebene Geräte. Je nach Anwendung kann das Laden oder Ersetzen der Akkus jedoch zu teuer oder sogar nicht möglich sein, etwa wenn sich die Knoten an abgelegenen Orten befinden oder fest verbaut sind. Energy Harvesting (EH) gilt als eine vielversprechende Technologie, um in solchen Fällen einen dauerhaften Dienst zu erbringen und die Betriebskosten zu senken, indem die Kommunikationsknoten Energie aus natürlichen oder künstlichen Energiequellen in ihrer Umgebung, wie Sonnenstrahlung oder elektromagnetischer Strahlung, sammeln. EH beruht auf der Idee, dass die drahtlosen Kommunikationsknoten ihre Batterien nicht nur dann aufladen können, während sie auf das Ankommen neuer Daten warten, sondern auch während sie Daten an benachbarte Knoten übertragen. Infolgedessen ist die Lebensdauer des drahtlosen Kommunikationsnetzes nicht durch die Verfügbarkeit von Energie begrenzt.

Die Berücksichtigung von EH bringt neue Herausforderungen bei der Gestaltung drahtloser Übertragungsstrategien mit sich. Grund dafür ist, dass neben schwankenden Kanalbedingungen und Datenankunftsprozessen auch die Variabilität der für die Kommunikation verfügbaren Energiemenge erwogen werden muss. Darüber hinaus sollten die Prozesse des EHs, der Datenankunft und des Kanalfadings gemeinsam betrachtet werden, um eine optimale Performanz zu erzielen. Die vorliegende Dissertation trägt zur Erforschung drahtloser EH-Kommunikationsnetze bei, indem sie die Probleme der Leistungsverteilung und der Ressourcenallokation in vier verschiedenen Szenarien betrachtet, welche die grundlegenden Kommunikationsmuster in drahtlosen Netzwerken darstellen. Diese sind die Punkt-zu-Punkt-, die Zwei-Hop-, die Broadcast- und die Vielfachzugriff-Kommunikation. Konkret ermitteln wir optimale Allokationsstrategien und entsprechende obere Schranken an die erreichbare Performanz mithilfe von Offline-Ansätzen, die auf der für praktische Anwendungen unrealistischen Annahme nicht-kausaler Kenntnis der Systemdynamik, d.h. der EH-, Datenankunfts- und Kanalfadingprozesse, basieren. Zudem schlagen wir neuartige Lernansätze basierend auf Methoden des bestärkenden Lernens vor, welche auf der praxistauglichen Annahme beruhen, dass nur kausale Kenntnis der Systemdynamik verfügbar ist.

Im EH-Punkt-zu-Punkt-Szenario sendet ein EH-Sender Daten an einen Empfänger. Für dieses Szenario wird das Problem der Leistungsverteilung zur Durchsatzmaximierung formuliert, unter Berücksichtigung sowohl der Sendeleistung, als auch des Energieverbrauchs der Schaltung. Mithilfe eines Offline-Ansatzes charakterisieren wir die optimale Strategie der Leistungsverteilung und nutzen diese Analyse zur Entwicklung eines Lernansatzes. Wir entwickeln einen neuartigen Lernalgorithmus, der ein realistisches EH-Punkt-zu-Punkt-Szenario berücksichtigt, in welchem nur kausale Kenntnis der Systemdynamik vorausgesetzt wird. Um die unendliche Anzahl an Werten zu bewältigen, die die gewonnene Energie, die eingehenden Daten und die Kanalkoeffizienten annehmen können, nutzt der vorgeschlagene Lernalgorithmus eine lineare Approximation. Insbesondere schlagen wir vier Merkmals-Funktionen vor, die sich aus den Eigenschaften des Problems und den Erkenntnissen aus dem Offline-Ansatz ableiten lassen. Mittels numerischer Simulationen zeigen wir, dass der vorgeschlagene Lernansatz eine Performanz nahe dem Offline-Optimum erreicht, ohne dass nicht-kausale Kenntnis der Systemdynamik erforderlich ist. Darüber hinaus kann der Algorithmus eine bis zu 50% höhere Performanz erzielen als Lernalgorithmen aus der Literatur, welche die spezifischen Eigenschaften des Problems nicht ausnutzen, wie etwa Q-Learning.

Im betrachteten EH-Zwei-Hop-Szenario kommuniziert ein EH-Sender über ein EH-Relais mit einem Empfänger, wobei entweder Decode-And-Forward oder Amplify-And-Forward als Relaisstrategie verwendet wird. Wir berücksichtigen sowohl die Sendeleistung als auch den Energieverbrauch der Schaltung in jedem der EH-Knoten. Für das EH-Decode-and-Forward-Relais formulieren wir das Problem der Leistungsverteilung zur Durchsatzmaximierung und betrachten einen Offline-Ansatz, um die optimale Leistungsverteilungsstrategie zu finden. Wir zeigen, dass die optimalen Strategien für die Leistungsverteilung an beiden Knoten, Sender und Relais, voneinander abhängen. Darüber hinaus untersuchen wir mithilfe eines Lernansatzes ein realistischeres Szenario, in welchem der EH-Sender und das EH-Decode-and-Forward-Relais nur partielle und kausale Kenntnis der Systemdynamik haben, d.h. jeder Knoten verfügt nur über kausale Kenntnis der EH-, Datenankunfts- und Kanalfadingprozesse. Zu diesem Zweck werden zwei neue Lernalgorithmen vorgeschlagen, die berücksichtigen, ob die EH-Knoten miteinander kooperieren, um ihre Lernprozesse zu verbessern, oder nicht. Im Falle der Kooperation schlagen wir den Einsatz einer Signalisierungsphase vor, in der sich die EH-Knoten über ihre aktuellen Parameter austauschen. Mittels numerischer Simulationen zeigen wir, dass das Bereitstellen eines vollständigen Überblicks über den Systemzustand an den Knoten mithilfe einer Signalisierungsphase einen Performanzgewinn von bis zu 40% ermöglicht, verglichen mit dem Fall, in dem keine Kooperation in Betracht gezogen wird. Basierend auf einem ähnlichen Verfahren untersuchen wir das EH-Zwei-Hop-Szenario mit einem EH-Amplify-And-Forward-Relais. Wir zeigen, dass das daraus resultierende Problem der Leistungsverteilung zur Durchsatzmaximierung nicht konvex ist. Um die optimale Leistungsverteilungsstrategie zu finden, schlagen wir daher einen Offline-Ansatz vor, der auf einem Branch-and-Bound-Algorithmus basiert. Zusätzlich wird ein zentralisierter Lernalgorithmus für den realistischen Fall vorgeschlagen, in dem nur kausale Kenntnis der Systemdynamik vorhanden ist. Der vorgeschlagene Lernansatz basiert auf der Tatsache, dass die Kommunikation zwischen Sender und Empfänger mit einem Amplify-And-Forward-Relais von einem einzigen effektiven Kanal abhängt, der sich aus der Verbindung zwischen dem Sender und dem Relais, der Relaisverstärkung und dem Kanal vom Relais zum Empfänger zusammensetzt. Anhand numerischer Simulationen zeigen wir, dass der vorgeschlagene Lernalgorithmus eine Performanz erreicht, die bis zu zweimal höher ist als die Performanz von Referenzansätzen. Zusätzlich zeigen wir, wie die vorgeschlagenen Ansätze auf EH-Multi-Hop-Szenarien erweitert werden können.

Im EH-Broadcast-Szenario sendet ein EH-Sender individuelle Daten an mehrere Empfänger. Wir zeigen, dass das Problem der Leistungsverteilung zur Durchsatzmaximierung in diesem Szenario zu einem nicht-konvexen Problem führt, wenn eine beliebige Anzahl von Empfängern berücksichtigt wird. Basierend auf einem Offline-Ansatz finden wir jedoch die optimale Leistungsverteilungsstrategie für den Sonderfall von zwei Empfängern. Inspiriert durch den Offline-Ansatz für zwei Empfänger wird ein neuartiger Lernansatz entwickelt, der für eine beliebige Zahl an Empfängerknoten geeignet ist. Der vorgeschlagene Lernalgorithmus ist zweistufig und unterteilt die Lernaufgabe in zwei Teilaufgaben: Einerseits, zu bestimmen, wie viel Energie in jedem Zeitintervall verbraucht werden soll, und andererseits, zu entscheiden, wie die gewählte Energiemenge zur Übertragung individueller Daten an die verschiedenen Empfänger aufgeteilt werden soll. Mittels numerischer Simulationen zeigen wir, dass die Unterteilung der Lernaufgabe zu einer um bis zu 40% höheren Performanz führt als die von Standard-Lerntechniken, insbesondere für eine große Anzahl von Empfängern.

Im EH-Vielfachzugriff-Szenario kommunizieren mehrere EH-Sender mit einem einzigen Empfänger über mehrere orthogonale Ressourcen. In diesem Fall liegt der Fokus auf der Formulierung des Ressourcenallokationsproblems unter Berücksichtigung der EH-Prozesse an den verschiedenen Sendern. Wir zeigen, dass das daraus resultierende Ressourcenallokationsproblem in die Kategorie der nichtlinearen Rucksackprobleme fällt, welche NP-schwer zu lösen sind. Um die optimale Lösung zu finden, schlagen wir daher einen Offline-Ansatz vor, der auf dynamischer Programmierung basiert. Unter Ausnutzung der Eigenschaften des Szenarios wird ein neuartiger Lernansatz vorgeschlagen, der das ursprüngliche Problem der Ressourcenallokation in kleinere Teilprobleme zerlegt. Dieses Vorgehen ermöglicht es, das exponentielle Wachstum des Lösungsraums bei zunehmender Netzwerkgröße zu bewältigen. Anhand numerischer Simulationen zeigen wir, dass der vorgeschlagene Lernansatz in großen Netzwerken, im Gegensatz zu herkömmlichen Lernalgorithmen auf Basis des bestärkenden Lernens, jene Ressourcenallokationsstrategie findet, die darauf abzielt, den Durchsatz zu maximieren. Desweiteren erreicht der vorgeschlagene Lernansatz eine bis zu 25% höhere Performanz als die sogenannte gierige Strategie, welche die Ressourcen den Nutzern mit den besten Kanalbedingungen zuweist.

Um die vorgeschlagenen Lernalgorithmen umfassend bewerten zu können, leiten wir Konvergenzgarantien her und analysieren die Komplexität aller entwickelter Lernansätze in den vier betrachteten Szenarien.

URN: urn:nbn:de:tuda-tuprints-93006
Classification DDC: 600 Technology, medicine, applied sciences > 620 Engineering and machine engineering
Divisions: 18 Department of Electrical Engineering and Information Technology > Institute for Telecommunications > Communications Engineering
Date Deposited: 29 Nov 2019 08:13
Last Modified: 17 Aug 2021 11:13
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/9300
PPN: 456559825
Actions (login required)
View Item View Item