TU Darmstadt / ULB / TUprints

Learning Hierarchical Policies from Human Feedback

Daniel, Christian (2016)
Learning Hierarchical Policies from Human Feedback.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text
DefenseBW.pdf
Copyright Information: CC BY-NC-ND 3.0 Unported - Creative Commons, Attribution, NonCommercial, NoDerivs.

Download (7MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Learning Hierarchical Policies from Human Feedback
Language: English
Referees: Peters, Prof Jan ; Watkins, Prof Chris
Date: 1 May 2016
Place of Publication: Darmstadt
Date of oral examination: 22 April 2016
Abstract:

Robots are on the verge of becoming ubiquitous. In the form of affordable humanoid toy robots, autonomous cars, vacuum robots or quadrocopters, robots are becoming part of our everyday life. As of today, most of these robots still follow largely hard coded behavior routines. Constraining a robot’s behavior to pre-programmed routines, however, limits its potential in several important ways. For example, programming even simple behavior patterns is a challenging task and programming behavior with human like performance by hand seems impossible. The goal of this thesis, thus, is to develop methods which allow robots to learn solutions to tasks through trial and error instead of relying on manual programming. These learned solutions should fulfill a range of desired properties. Foremost, the solutions should be learned on real world robots and not be constrained to simplified simulation environments. Furthermore, we would like the robot to learn versatile solutions which are able to cope with different variations of a task. Finally, we would like to be able to also solve more complicated tasks which require sequencing of multiple skills. In the first part of this thesis, we propose an algorithm to learn such versatile solutions. The proposed algorithm aims to find a hierarchical policy, consisting of a gating policy and a set of sub-policies. The gating policy selects a sub-policy and the sub-policy decides which action to take. Each of the learned sub-policies may be able to solve the task or a part of the overall task. To learn multiple sub-policies from one sample set, we employ an expectation-maximization based learning algorithm, where the sub-policies are updated according to their responsibilities for individual samples. These responsibilities indicate how likely it is that a certain sub-policy generated a given state-action pair. By constraining our learning algorithm to solutions which increase the entropy of the responsibilities, the robot will learn a set of sub-policies that encode different solutions for the same task. This kind of concurrency is highly desirable as it allows the robot to learn back-up solutions which may still be valid even if the original solution fails due to changes in the robot or environment. In the second part of this thesis, we tackle the challenge of learning skills directly from state- action trajectories. A common approach in robot learning is to assume access to some sort of parametrized skill to represent the robot’s behavior over multiple time steps. These skills are usually either movement primitives (MPs) or parametrized feedback controllers. While especially MPs have been a cornerstone in advancing the state of the art in robot learning, it is not clear how to learn from the actions taken throughout the execution of a skill and MPs usually do not encode feedback. In the discrete state-action reinforcement learning (RL) setting, macro-actions, or options, have been introduced to address the problem of learning temporally correlated actions, which can be viewed as a form of skill. To connect robot learning with the advances in the field of discrete state-action RL, we propose a probabilistic framework to infer options from state- action trajectory observations. The inference is based on a hidden Markov model (HMM), where the options indices are modeled as latent variables and where inference can be performed by adapting well known expectation-maximization algorithms. Because this framework allows for the inference of parametric policies, it is also compatible with policy search (PS) methods, a class of RL algorithms which is at the core of many recent successes in robot learning. Learning methods, such as the one we propose in the first chapter of this thesis, enable robots to learn from trial and error instead of having to program specific solutions. Unfortunately, the quality of the learned solutions still depends heavily on a significant amount of expert knowledge and programming which has to be directed at designing reward functions. In RL, reward functions effectively serve as task description, guiding the robot to a good solution by encoding the desir- ability of states and actions. Designing these reward functions, however, is a difficult task even for experts and it is unlikely that non-experts will be able to train robots on new tasks by means of programming reward functions. Thus, in the last part of this thesis, we propose a method which allows the robot to model a teacher’s implicit reward function during the RL process. This reward model is represented by a Gaussian process (GP), a class of probabilistic function approximators which allow us to take both the teacher’s and the robot’s uncertainty into account. Using the proposed method, the robot can ask the teacher to evaluate the quality of just a few select robot actions, such that the robot can improve its reward model. To minimize the amount of human- robot interactions, the robot uses its uncertainty estimate to request evaluations only for actions which seem to be promising but have a high uncertainty. In this setting, the teacher will not need to be a roboticist and no manual coding is required. Altogether, the individual contributions of this thesis allow robots to learn versatile solutions to complicated tasks from trial and error. These solutions generalize over similar settings and are robust by representing multiple solutions to one task. The robot is able to learn these solutions by interacting with a human teacher, eliminating the need for task specific expert programming. The contributions of this thesis are evaluated on a wide array of both simulated and real world tasks and the results show the effectiveness of the proposed methods.

Alternative Abstract:
Alternative AbstractLanguage

Roboter sind kurz davor allgegenwärtig zu werden. Ob als preiswerte humanoide Spielzeugroboter, autonome Autos, Staubsaugroboter oder Quadrocopter werden Roboter immer mehr Teil unseres Alltags. Gegenwärtig folgen diese Roboter allerdings hauptsächlich händisch pro- grammierten Verhaltensroutinen. Wenn man aber das Verhalten eines Roboters auf fest programmierte Routinen begrenzt, kann man das volle Potenzial dieses Roboters nicht nutzen. Selbst bei einfachen Aufgaben ist es oft schwierig, gute Lösungen von Hand zu programmieren. Men- schenähnliche Leistungsstufen von Hand für komplizierte Aufgaben zu programmieren scheint fast unmöglich. Das Ziel dieser Arbeit ist deshalb Methoden zu entwickeln, die es Robotern ermöglichen Lösungen zu Aufgaben durch "trial and error" zu finden, anstatt auf händisch programmierte Lösungen für spezifische Aufgaben angewiesen zu sein. Diese gelernten Lösungen sollten verschiedene wünschenswerte Eigenschaften aufweisen. So sollten diese Lösungen auf realen Robotern gelernt werden können und nicht auf stark vereinfachte simulierte Umgebungen beschränkt sein. Zusätzlich sollte der Roboter vielfach anwendbare Lösungen lernen, die in vielen verschiedenen Variationen einer Aufgabe anwendbar sind. Schlussendlich sollte der Roboter auch komplizierte Aufgaben lösen können, die eine Aneinanderkettung mehrerer "Skills" benötigen, wobei der Ausdruck "Skill" ein gelerntes Verhalten oder eine Fertigkeit des Roboters beschreibt. In dem ersten Teil dieser Arbeit stellen wir einen Algorithmus vor der solche vielseitigen Lö- sungen lernen kann. Dieser Algorithmus findet eine hierarchische Policy, die aus einer Gating- Policy und mehren Unter-Policies besteht. Dabei wählt die Gating-Policy zwischen den ver- schiedenen Unter-Policies und die Unter-Policies codieren die Aktionen, die der Roboter aus- führt. Jede der gelernten Unter-Policies kann eine Aufgabe oder einen Teil einer komplizierteren Aufgabe lösen. Um mehrere Unter-Policies gleichzeitig von einem Datensatz zu trainieren, nutzen wir einen expectation-maximization Algorithmus, bei dem jeder Datenpunkt (state-action Paar) für das Update aller Unter-Policies genutzt wird. Der Einfluss jedes state-action Paares auf das Update einzelner Unter-Policies ist dabei davon abhängig, wie sehr der Datenpunkt von der Unter-Policy erklärt wird, also wie wahrscheinlich es ist, das die Unter-Policy diese state-action Paar selbst erzeugt hat. Dies wird auch als Verantwortung der Unter-Policy für einen Datenpunkt bezeichnet. Wenn wir unseren Algorithmus auf Lösungen begrenzen, die eine hohe Entropie dieser Verantwortungen haben, wird der Roboter Unter-Policies lernen die verschiedene Lösun- gen für die gleiche Aufgabe codieren. Diese Mehrfachlösungen sind sehr wünschenswert, da sie dem Roboter erlauben Ersatzlösungen zu lernen die eingesetzt werden können falls die bevorzugte Lösung nicht mehr valide ist. Dies kann zum Beispiel durch unvorhergesehene Änderungen in der Umgebung des Roboters erforderlich werden. Im zweiten Teil dieser Arbeit untersuchen wir Lösungen um Skills direkt von beobachteten state-action Trajektorien zu lernen. Ein beliebter Ansatz im Bereich des Roboterlernens ist es parametrisierte Skills zu verwenden, um das Roboterverhalten über mehrere Zeitschritte hinweg zu beschreiben. Diese Skills sind häufig entweder sogenannte Movement Primitives (MPs) oder parametrisierte Regler. Während besonders MPs wesentlich zu Erfolgen im Feld des Roboter- lernens beigetragen haben, lösen diese Ansätze nicht die Frage, wie alle state-action Paare einer Trajektorie genutzt werden können, um die Effektivität der Lernalgorithmen weiter zu steigern. Im Feld des diskreten RLs Options genannt, eingeführt um von solchen zeitlich zusammenhängenden Aktionen Skills zu ler- nen. Um das Feld des Roboterlernens mit den Fortschritten des diskreten RLs zu verbinden, schlagen wir ein probabilistisches Modell vor womit Options durch Inferenz von kontinuier- lichen state-action Paaren gelernt werden können. Diese Inferenz basiert auf einem Hidden Markov Model (HMM), in dem die Option-Indizes als latente Variablen modelliert werden und für welches bekannte expectation-maximization Algorithmen angewandt werden können. Da dieses Modell die Inferenz von parametrisierten Policies erlaubt, ist es kompatibel mit sogenannten Pol- icy Search (PS) Methoden, einer Klasse von RL Algorithmen, die das Herzstück vieler derzeitiger Fortschritte im Roboterlernens ist. Lernmethoden, wie diese die wir im ersten Kapitel dieser Arbeit beschreiben, befähigen Roboter von selbstständigen Versuchen und Fehlern "trial and error" zu lernen, anstatt spezi- fisch programmierte Lösungen zu erforden. Allerdings hängt die Qualität dieser gelernten Lö- sungen immer noch stark von einer beachtlichen Menge an Expertenwissen ab, das in die Pro- grammierung sogenannter Rewardfunktionen fließt. In RL dienen diese Rewardfunktionen als Beschreibung einer Aufgabe, die den Roboter zu einer guten Lösung führt, indem die Qualität von verschiedenen states und actions codiert wird. Die Erstellung solcher Rewardfunktionen ist aber eine schwierige Aufgabe in sich selbst, an der selbst Experten oft scheitern und es ist da- her unwahrscheinlich, dass Laien Robotern neue Aufgaben auf diesem Wege beibringen können. Daher beschreiben wir in dem letzten Teil dieser Arbeit eine neue Methode, die es dem Roboter er- laubt die implizite Rewardfunktion eines menschlichen Lehrers während des RL Prozesses selbst zu erlernen. Der Roboter lernt dazu ein Modell der Rewardfunktion, welches als Gauß- Prozess (GP) , eine Klasse probabilistischer Funktionsapproximatoren, repräsentiert wird. Dieses Modell erlaubt es dem Roboter sowohl seine eigene Unsicherheit bezüglich der Rewardfunktion als auch die Unsicherheit des Lehrers zu berechnen. Mit der vorgestellten Methode kann der Roboter den Lehrer um Evaluationen selektiver Aktionen bitten, damit der Roboter sein Modell der Reward- funktion verbessern kann. Um die Anzahl der Mensch-Roboter Interaktionen zu minimieren, nutzt der Roboter seine Einschätzung der Unsicherheit um Evaluationen nur für vielversprechende Ak- tionen anzufordern, die aber mit einer hohen Unsicherheit belegt sind. In diesem Szenario muss der Lehrer kein Experte sein und ein manuelles Programmieren des Roboters ist nicht erforderlich. Gemeinsam erlauben es die individuellen Beiträge dieser Arbeit, dem Roboter vielfältige Lösungen für komplizierte Aufgaben durch trial and error zu lernen. Diese Lösungen generalisieren über ähnliche Aufgaben hinweg und sind robust, da mehrere Lösungen für eine Aufgabe gefunden werden. Der Roboter kann diese Lösungen durch die Interaktion mit einem menschlichen Lehrer lernen, was die aufgabenspezifische Programmierung des Roboters hinfällig macht. Die Beiträge dieser Arbeit werden im Folgenden im Detail dargestellt und auf verschiedenen simulierten und realen Aufgaben evaluiert.

German
URN: urn:nbn:de:tuda-tuprints-53455
Classification DDC: 600 Technology, medicine, applied sciences > 600 Technology
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 09 May 2016 13:37
Last Modified: 15 Jul 2020 08:51
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/5345
PPN: 386821232
Export:
Actions (login required)
View Item View Item