Deep Reinforcement Learning in Communication Systems – Addressing Partial Observability in Decentralized Multi-Agent Systems with Learned Communication
Deep Reinforcement Learning in Communication Systems – Addressing Partial Observability in Decentralized Multi-Agent Systems with Learned Communication
Communication systems are the backbone of the modern digital world. To provide services that support our everyday lives, countless interconnected components around the globe process and exchange data. With rising complexity, it becomes increasingly challenging to handcraft algorithms that efficiently control these systems.
With Reinforcement Learning (RL), agents autonomously learn to solve a sequential decision-making problem via trial and error. In recent years, the use of neural networks in RL has led to multiple breakthroughs, from surpassing human world champions in games to real-world applications in robotics. Also in the domain of communication systems, RL outperforms many handcrafted heuristics and is expected to play a major role in the future Internet. Orthogonally, recent works explore communication in RL, where in addition to selecting actions, agents learn to encode and interpret messages. The goal of this message exchange is to reduce uncertainty and improve decision-making, for example, by sharing intentions and partial observations. However, existing methods often neglect essential properties of real communication systems, rendering the transfer to the real world challenging.
This thesis investigates the intersection of communication in RL and decentralized communication systems. We show that agents can not only learn to communicate but also make efficient use of limited communication resources. Given an unreliable communication channel with limited capacity, we propose a method that allows agents to adapt the size of their messages and improve the efficiency of the communication. Restricting communication to a message exchange between agents, as common in related works, limits its applicability in decentralized systems. Our main contribution is a novel framework that conceptually separates decision-making agents and components in a communication system. Components learn to exchange messages and iteratively refine local representations, which, in turn, are leveraged by agents to solve tasks. We show that this framework enables learning of a decentralized and generalizing routing protocol, given only a sparse reward signal. Overall, we propose and extend three multi-agent environments that can be leveraged by future work to investigate subsequent challenges.
This thesis provides evidence that RL methods with learned communication allow tackling the ever-increasing complexity of future communication systems. When components in a system have dependent goals, they may benefit from an autonomous message exchange. Future work could investigate methods for decentralized training, study remaining challenges such as asynchronicity and message delays, and evaluate learned communication in real communication systems.
Kommunikationssysteme sind in der heutigen digitalen Welt essenziell. Um alltägliche Aufgaben zu lösen, verwenden wir Dienste, bei denen unzählige miteinander vernetzte Komponenten Daten verarbeiten und austauschen. Mit steigender Komplexität wächst die Schwierigkeit, händisch Algorithmen zur effizienten Kontrolle dieser Systeme zu erstellen.
Mit Reinforcement Learning (RL) lernen Agenten selbstständig, ein sequenzielles Entscheidungsproblem zu lösen. In den letzten Jahren erzielte RL mit neuronalen Netzen mehrere Durchbrüche, von Siegen gegen Weltmeister in Spielen bis zu Anwendungen in der Robotik. Auch in Kommunikationssystemen übertrifft RL viele händisch erstellte Heuristiken und wird voraussichtlich eine große Rolle im künftigen Internet spielen. Unabhängig davon werden Methoden zur Kommunikation in RL erforscht, bei denen Agenten neben der Aktionsfindung lernen, Nachrichten auszutauschen. Das Ziel ist die Reduktion von Unsicherheit und eine Verbesserung der Entscheidungen, etwa durch den Austausch von Intentionen und Beobachtungen. Allerdings vernachlässigen viele aktuelle Methoden wichtige Eigenschaften realer Kommunikationssysteme, was deren Übertragung in die Praxis erschwert.
In dieser Arbeit untersuchen wir Kommunikation in RL im Kontext dezentraler Kommunikationssysteme. Wir zeigen, dass nicht nur Kommunikation an sich, sondern parallel auch die effiziente Nutzung von beschränkten Ressourcen gelernt werden kann. In einem unzuverlässigen Kommunikationskanal mit endlicher Kapazität ermöglicht unser Ansatz eine Anpassung der Nachrichtengröße und so eine effiziente Auslastung des Kanals. Eine Limitierung auf den Nachrichtenaustausch zwischen Agenten, wie in verwandten Arbeiten üblich, schränkt die Anwendbarkeit in dezentralen Systemen ein. Der Kernbeitrag dieser Arbeit ist eine konzeptionelle Trennung von Agenten und Komponenten im Kommunikationssystem. Komponenten tauschen Nachrichten aus, um ihr Wissen zu erweitern, welches von Agenten zur Problemlösung genutzt wird. Wir zeigen, dass dieser Ansatz bereits durch ein spärliches Belohnungssignal ein dezentrales und generalisierendes Routingprotokoll erlernen kann. Insgesamt erstellen und erweitern wir drei Multiagentenumgebungen, die zukünftige Forschung erleichtern können.
Mit dieser Arbeit liefern wir Anhaltspunkte dafür, dass RL mit gelerntem Nachrichtenaustausch bei der Bewältigung der Komplexität künftiger Kommunikationssysteme helfen kann. Wenn Komponenten abhängige Ziele haben, könnten sie von einem autonomen Nachrichtenaustausch profitieren. Zukünftige Arbeiten können dezentrale Trainingsverfahren untersuchen, Asynchronität und Verzögerungen betrachten und gelernte Kommunikation in realen Systemen evaluieren.

