Generalization and Transferability in Reinforcement Learning
Generalization and Transferability in Reinforcement Learning
Reinforcement learning has proven capable of extending the applicability of machine learning to domains in which knowledge cannot be acquired from labeled examples but only via trial-and-error. Being able to solve problems with such characteristics is a crucial requirement for autonomous agents that can accomplish tasks without human intervention. However, most reinforcement learning algorithms are designed to solve exactly one task, not offering means to systematically reuse previous knowledge acquired in other problems. Motivated by insights from homotopic continuation methods, in this work we investigate approaches based on optimization- and concurrent systems theory to gain an understanding of conceptual and technical challenges of knowledge transfer in reinforcement learning domains. Building upon these findings, we present an algorithm based on contextual relative entropy policy search that allows an agent to generate a structured sequence of learning tasks that guide its learning towards a target distribution of tasks by giving it control over an otherwise hidden context distribution. The presented algorithm is evaluated on a number of robotic tasks, in which a desired system state needs to be reached, demonstrating that the proposed learning scheme helps to increase and stabilize learning performance.
Reinforcement Learning hat sich als Schlüsseltechnik erwiesen, die Anwendbarkeit des maschinellen Lernens auf Bereiche zu erweitern, in denen Wissen nicht anhand von Beispielen, sondern nur durch eigenständige Exploration erworben werden kann. Die Fähigkeit solche Probleme lösen zu können, ist eine entscheidende Eigenschaft autonomer Agenten, die Aufgaben ohne menschliches Zutun erfüllen. Die meisten Reinforcement Learning Algorithmen sind jedoch für das Lösen genau einer Aufgabe konzipiert und bieten deshalb keine Möglichkeit zur systematischen Wiederverwendung bereits erlernten Wissens. In dieser Arbeit untersuchen wir - motiviert durch Erkenntnisse aus homotopischen Continuation Methoden - Ansätze der Optimierungs- und nebenläufigen Systemtheorie, um ein Verständnis für die konzeptionellen und technischen Herausforderungen des Wissenstransfers im Reinforcement Learning zu erlangen. Aufbauend auf diesen Erkenntnissen präsentieren wir einen Algorithmus basierend auf Contextual Relative Entropy Policy Search, der einem Agenten die Generierung einer strukturierten Sequenz von Lernaufgaben, die sein Lernen auf eine Zielverteilung von Aufgaben lenkt, ermöglicht, indem er ihm die Kontrolle über eine ansonsten stationäre Kontextverteilung gibt. Der vorgestellte Algorithmus wird anhand verschiedener Robotikaufgaben evaluiert, in denen ein vorgegebener Systemzustand erreicht werden muss. Die Ergebnisse zeigen, dass das vorgeschlagene Lernschema hilft, die Lernleistung zu erhöhen und zu stabilisieren.

