TU Darmstadt

ULB

TUprints

Sample-Efficient I-Projections for Robot Learning

Arenz, Julian Oleg (2021)
Sample-Efficient I-Projections for Robot Learning.
Technische Universität Darmstadt
doi: 10.12921/tuprints-00014271
Ph.D. Thesis, Primary publication, Publisher's Version

Preview

Text
20201201_Sample-Efficient_I-Projections_for_Robot_learning.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (16MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Sample-Efficient I-Projections for Robot Learning

Language:

English

Referees:

Peters, Prof. Jan ; Neumann, Prof. Dr. Gerhard

Date:

2021

Place of Publication:

Darmstadt

Collation:

xix, 188 Seiten

Date of oral examination:

23 September 2020

DOI:

10.12921/tuprints-00014271

Abstract:

Robots had a great impact on the manufacturing industry ever since the early seventies when companies such as KUKA and ABB started deploying their first industrial robots. These robots merely performed very specific tasks in specific ways within well-defined environments. Still, they proved to be very useful as they could exceed human performance at these tasks. However, in order to enable robots to enter our daily life, they need to become more versatile and need to operate in much less structured environments. This thesis is partly devoted to stretching these limitations by means of learning, namely imitation learning (IL) and inverse reinforcement learning (IRL).

Reinforcement learning (RL) is a powerful approach to enable robots to solve a task in an unknown environment. The practitioner describes a desired behavior by specifying a reward function and the robot autonomously interacts with the environment in order to find a control policy that generates high accumulated reward. However, RL is not suitable for teaching new tasks by non-experts because specifying appropriate reward functions can be difficult. Demonstrating the desired behavior is often easier for non-experts. Imitation learning can be used in order to enable the robot to reproduce the demonstrations. However, without explicitly inferring and modeling the intentions of the demonstrations, it can become difficult to solve the task for unseen situations. Inverse reinforcement learning (IRL) therefore aims to infer a reward function from the demonstrations, such that optimizing this reward function yields the desired behavior even for different situations.

This thesis introduces a unifying approach to solve the inverse reinforcement learning problem in the same way as the reinforcement learning problem. This is achieved by framing both problems as information projection problems, i.e., we strive to minimize the relative entropy between a probabilistic model of the robot behavior and a given desired distribution. Furthermore, a trust region on the robot behavior is used to stabilize the optimization. For inverse reinforcement learning, the desired distribution is implicitly given by the expert demonstrations. The resulting optimization can be efficiently solved using state-of-the-art reinforcement learning methods. For reinforcement learning, the log-likelihood of the desired distribution is given by the reward function. The resulting optimization problem corresponds to a standard reinforcement learning formulation, except for an additional objective of maximizing the entropy of the robot behavior. This entropy objective adds little overhead to the optimization, but can lead to better exploration and more diversified policies.

Trust-region I-projections are not only useful for training robots, but can also be applied to other machine learning problems. I-projections are typically used for variational inference, in order to approximate an intractable distribution by a simpler model. However, the resulting optimization problems are usually optimized based on stochastic gradient descent which often suffers from high variance in the gradient estimates. As trust-region I-projections where shown to be effective for reinforcement learning and inverse reinforcement learning, this thesis also explores their use for variational inference. More specifically, trust-region I-projections are investigated for the problem of approximating an intractable distribution by a Gaussian mixture model (GMM) with an adaptive number of components. GMMs are highly desirable for variational inference because they can yield arbitrary accurate approximations while inference from GMMs is still relatively cheap. In order to make learning the GMM feasible, we derive a lower bound that enables us to decompose the objective function. The optimization can then be performed by iteratively updating individual components using a technique from reinforcement learning. The resulting method is capable of learning approximations of significantly higher quality than existing variational inference methods.

Due to the similarity of the underlying optimization problems, the insights gained from our variational inference method are also useful for IL and IRL. Namely, a similar lower bound can be applied also for the I-projection formulation of imitation learning. However, whereas for variational inference the lower bound serves to decompose the objective function, for imitation learning it allows us to provide a reward signal to the robot that does not depend on its behavior. Compared to reward functions that are relative to the current behavior of the robot---which are typical for popular adversarial methods---behavior-independent reward functions have the advantages that we can show convergence even for greedy optimization. Furthermore, behavior-independent reward functions solve the inverse reinforcement learning problem, thereby closing the gap between imitation learning and IRL. However, algorithms derived from our non-adversarial formulation are actually very similar to existing AIL methods, and we can even show that adversarial inverse reinforcement learning (AIRL) is indeed an instance of our formulation. AIRL was derived from an adversarial formulation, and we point out several problems of that derivation. In contrast, we show that AIRL can be straightforwardly derived from out non-adversarial formulation. Furthermore, we demonstrate that the non-adversarial formulation can be also used to derive novel algorithms by presenting a non-adversarial method for offline imitation learning.

Alternative Abstract:

Alternative Abstract

Language

Roboter haben schon seit den frühen siebziger Jahren einen großen Einfluss auf die Fertigungsindustrie, als Unternehmen wie KUKA und ABB ihre ersten Industrieroboter auslieferten. Diese Roboter führten zwar in der Regel nur eng definierte Aufgaben auf ganz bestimmte Weise und in genau definierten Umgebungen aus, doch erwiesen sie sich schon damals als sehr nützlich, da sie bei diesen Aufgaben den Menschen überlegen waren. Um es Robotern jedoch zu ermöglichen, auch in unserem täglichen Leben von Nutzen zu sein, müssen sie vielseitiger werden und in viel weniger strukturierten Umgebungen arbeiten können.

Verstärkendes Lernen ist ein vielversprechender Ansatz, um es Robotern zu ermöglichen, eine Aufgabe in einer unbekannten Umgebung zu lösen. Der Robotik-Experte beschreibt ein gewünschtes Verhalten, indem er eine Belohnungsfunktion angibt, die das Verhalten des Roboters kontinuierlich bewertet und diese skalaren Bewertungen an den Roboter weitergibt. Der Roboter interagiert autonom mit der Umgebung, und verändert sein Verhalten mit dem Ziel, auf lange Sicht eine hohe Belohnung zu erhalten. Verstärkendes Lernen eignet sich jedoch nicht für das Lehren neuer Aufgaben durch Nicht-Experten, da es sehr schwierig ist solche mathematischen Belohnungsfunktionen so zu definieren, dass sie zum gewünschten Verhalten führen. Für Nicht-Experten ist es häufig einfacher das gewünschte Verhalten vorzumachen. Lernen durch Imitation kann verwendet werden, um den Roboter in die Lage zu versetzen, solche Demonstrationen zu reproduzieren. Ohne die Absichten der Demonstrationen explizit abzuleiten und zu modellieren, kann es jedoch schwierig werden, die Aufgabe unter veränderten Bedingungen zu lösen. Inverses Verstärkendes Lernen zielt daher darauf ab, aus den Demonstrationen eine Belohnungsfunktion abzuleiten, sodass die Optimierung dieser Belohnungsfunktion auch für neue Situationen zum gewünschten Verhalten führt.

Diese Arbeit stellt einen vereinheitlichenden Ansatz vor, um Inverses Verstärkendes Lernen auf die gleiche Weise zu lösen wie Verstärkendes Lernen. Dies wird erreicht, indem beide Probleme als Informations-Projektion (I-Projection) formuliert werden, das heißt es wird versucht, die relative Entropie zwischen einem probabilistischen Modell des Roboterverhaltens und einer gegebenen gewünschten Wahrscheinlichkeitsverteilung zu minimieren. Um die Stabilität beim Lösen dieses Optimierungsproblems zu erhöhen wird ein sogenanntes Trust-Region-Verfahren angewendet. Das Trust-Region-Verfahren ist ein iteratives Verfahren, bei dem sich das Verhalten des Roboters zwischen jeder Iteration nur leicht verändern darf. Die resultierende Trust-Region I-Projection kann sowohl für Verstärkendes Lernen als auch für Inverses Verstärkendes Lernen angewendet werden. Beim inversen Verstärkenden Lernen ist die gewünschte Verteilung durch die Demonstrationen implizit gegeben. Die daraus resultierende Optimierung kann mit modernsten Methoden des Verstärkenden Lernens effizient gelöst werden. Beim Verstärkenden Lernen ist die (unnormalisierte) Wahrscheinlichkeitverteilung durch die exponentierte Belohnungsfunktion gegeben. Das resultierende Optimierungsproblem entspricht einer Standardformulierung des Verstärkenden Lernens, doch wird zusätzlich noch versucht die Entropie des Roboterverhaltens zu maximieren. Dieses Entropie-Kriterium verleitet den Roboter dazu, die Auswirkungen seines Verhaltens besser zu erkunden und führt zudem zu vielseitigem Verhalten.

Trust-Region I-Projections sind nicht nur für das Trainieren von Robotern nützlich, sondern können auch auf andere Problemstellungen des Maschinellen Lernens angewandt werden. So werden I-Projections häufig dazu verwendet komplexe Wahrscheinlichkeitsverteilungen durch ein einfacheres Modell zu approximieren. Das entsprechende Optimierungsproblem nennt sich Variational Inference und wird häufig mit einem Verfahren namens Stochastic Gradient Descent gelöst. Da sich die Trust-Region I-Projection allerdings sowohl für Verstärkendes Lernen als auch für Inverses Verstärkendes Lernen als effektiv erwiesen hat, untersuchen wir diesen Ansatz auch für Variational Inference. Genauer gesagt wird die Trust-Region I-Projection auf das Problem der Approximation einer komplexen Verteilung durch ein Gaußsches Mischmodell (GMM) untersucht. GMMs eignen sich zur Variational Inference, da sie jede Verteilung beliebig genau approximieren können, dabei allerdings relativ einfach zu handhaben sind. Um das Lernen des GMMs zu vereinfachen, leiten wir eine untere Schranke ab, die es uns ermöglicht, das Optimierungskriterium zu zerlegen. Die Optimierung kann dann durch iteratives Lernen einzelner Komponenten mithilfe einer Technik aus dem Verstärkendem Lernen durchgeführt werden. Die resultierende Methode ist in der Lage, Approximationen von deutlich höherer Qualität zu lernen als bestehenden Methoden der Variational Inference.

Aufgrund der Ähnlichkeit der zugrundeliegenden Optimierungsprobleme sind die mit unserer Variational-Inference-Methode gewonnenen Erkenntnisse auch für das Lernen durch Imitation und für Inverses Verstärkende Lernen relevant. Eine ähnliche untere Schranke kann nämlich auch für die I-Projection-Formulierung des Lernens durch Imitation angewandt werden. Während jedoch bei der Variational Inference die untere Schranke dazu dient, die Zielfunktion zu zerlegen, erlaubt sie uns beim Lernen durch Imitation, eine Belohnungsfunktion zu lernen, die nicht vom momentanen Verhalten abhängt. Verglichen mit Belohnungsfunktionen, die relativ zum aktuellen Verhalten des Roboters sind -- was typisch für die momentan beliebten adversarialen Methoden ist --, haben verhaltensunabhängige Belohnungsfunktionen den Vorteil, dass wir selbst bei vollständiger Optimierung in jeder Iteration, Konvergenz zeigen können. Darüber hinaus lösen verhaltensunabhängige Belohnungsfunktionen das Problem des Inversen Verstärkenden Lernens und schließen damit die Lücke zwischen dem Lernen durch Imitation und Inversem Verstärkenden Lernen. Allerdings sind die Algorithmen, die aus unserer nicht-adversarialen Formulierung abgeleitet wurden, den bestehenden adversarialen Methoden sehr ähnlich, und wir können sogar zeigen, dass die Methode namens Adversarial Inverse Reinforcement Learning (AIRL) tatsächlich ein Beispiel für unsere Formulierung ist. AIRL wurde allerdings aus einer adversarialen Formulierung abgeleitet, was zu mehreren Problemen führte, die wir in dieser Arbeit aufzeigen. Im Gegensatz dazu zeigen wir, dass AIRL direkt aus unserer nicht-adversarialen Formulierung abgeleitet werden kann. Darüber hinaus zeigen wir, dass die nicht-adversariale Formulierung auch zur Ableitung neuer Algorithmen verwendet werden kann, indem wir eine nicht-adversariale Methode für das interaktionslose Lernen durch Imitation vorstellen.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-142716

Additional Information:

In reference to IEEE copyrighted material which is used with permission in this thesis, the IEEE does not endorse any of TU Darmstadt’s products or services. Internal or personal use of this material is permitted. If interested in reprinting/republishing IEEE copyrighted material for advertising or promotional purposes or for creating new collective works for resale or redistribution, please go to http://www.ieee.org/publications_standards/publications/rights/rights_link.html to learn how to obtain a License from RightsLink. If applicable, University Microfilms and/or ProQuest Library, or the Archives of Canada may supply single copies of the dissertation.

Classification DDC:

000 Generalities, computers, information > 000 Generalities
000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Intelligent Autonomous Systems

TU-Projects:

EC/H2020|645582|RoMaNS

Date Deposited:

13 Jan 2021 13:55

Last Modified:

10 Jan 2023 14:10

URI:

https://tuprints.ulb.tu-darmstadt.de/id/eprint/14271