TU Darmstadt / ULB / TUprints

Off-Policy Reinforcement Learning for Robotics

Tosatto, Samuele (2021)
Off-Policy Reinforcement Learning for Robotics.
Technische Universität
doi: 10.26083/tuprints-00017536
Ph.D. Thesis, Primary publication, Publisher's Version

[img]
Preview
Text
thesis.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (36MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Off-Policy Reinforcement Learning for Robotics
Language: English
Referees: Peters, Prof. Jan ; White, Prof. Martha
Date: 2021
Place of Publication: Darmstadt
Collation: XV, 142 Seiten
Date of oral examination: 21 December 2020
DOI: 10.26083/tuprints-00017536
Abstract:

Nowadays, industrial processes are vastly automated by means of robotic manipulators. In some cases, robots occupy a large fraction of the production line, performing a rich range of tasks. In contrast to their tireless ability to repeatedly perform the same tasks with millimetric precision, current robotics exhibits low adaptability to new scenarios. This lack of adaptability in many cases hinders a closer human-robot interaction; furthermore, when one needs to apply some change to the production line, the robots need to be reconfigured by highly-qualified figures. Machine learning and, more particularly, reinforcement learning hold the promise to provide automated systems that can adapt to new situations and learn new tasks. Despite the overwhelming progress in recent years in the field, the vast majority of reinforcement learning is not directly applicable to real robotics. State-of-the-art reinforcement learning algorithms require intensive interaction with the environment and are unsafe in the early stage of learning when the policy perform poorly and potentially harms the systems. For these reasons, the application of reinforcement learning has been successful mainly on simulated tasks such as computer- and board-games, where it is possible to collect a vast amount of samples in parallel, and there is no possibility to damage any real system. To mitigate these issues, researchers proposed first to employ imitation learning to obtain a reasonable policy, and subsequently to refine it via reinforcement learning. In this thesis, we focus on two main issues that prevent the mentioned pipe-line from working efficiently: (i) robotic movements are represented with a high number of parameters, which prevent both safe and efficient exploration; (ii) the policy improvement is usually on-policy, which also causes inefficient and unsafe updates. In Chapter 3 we propose an efficient method to perform dimensionality reduction of learned robotic movements, exploiting redundancies in the movement spaces (which occur more commonly in manipulation tasks) rather than redundancies in the robot kinematics. The dimensionality reduction allows the projection to latent spaces, representing with high probability movements close to the demonstrated ones. To make reinforcement learning safer and more efficient, we define the off-policy update in the movement’s latent space in Chapter 4. In Chapter 5, we propose a novel off-policy gradient estimation, which makes use of a particular non-parametric technique named Nadaraya-Watson kernel regression. Building on a solid theoretical framework, we derive statistical guarantees. We believe that providing strong guarantees is at the core of a safe machine learning. In this spirit, we further expand and analyze the statistical guarantees on Nadaraya-Watson kernel regression in Chapter 6. Usually, to avoid challenging exploration in reinforcement learning applied to robotics, one must define highly engineered reward-function. This limitation hinders the possibility of allowing non-expert users to define new tasks. Exploration remains an open issue in high-dimensional and sparse reward. To mitigate this issue, we propose a far-sighted exploration bonus built on information-theoretic principles in Chapter 7. To test our algorithms, we provided a full analysis both on simulated environment, and in some cases on real world robotic tasks. The analysis supports our statement, showing that our proposed techniques can safely learn in the presence of a limited set of demonstration and robotic interactions.

Alternative Abstract:
Alternative AbstractLanguage

Heutzutage werden industrielle Prozesse mit Hilfe von Robotermanipulatoren weitgehend automatisiert. In einigen Fällen besetzen Roboter einen großen Teil der Produktionslinie und führen eine Vielzahl von Aufgaben aus. Im Gegensatz zu ihrer unermüdlichen Fähigkeit, immer wieder die gleichen Aufgaben mit millimetergenauer Präzision auszuführen, weist die heutige Robotik eine geringe Anpassungsfähigkeit an neue Szenarien auf. Dieser Mangel an Anpassungsfähigkeit behindert in vielen Fällen eine engere Mensch-Roboter- Interaktion; zudem müssen die Roboter, wenn an der Produktionslinie änderungen vorgenommen werden müssen, von hochqualifizierten Personen umkonfiguriert werden. Maschinelles Lernen und insbesondere das Verstärkungslernen versprechen automatisierte Systeme, die sich an neue Situationen anpassen und neue Aufgaben lernen können. Trotz der überwältigenden Fortschritte, die in den letzten Jahren auf diesem Gebiet erzielt wurden, ist die überwiegende Mehrheit des Reinforcement Learning nicht direkt auf die echte Robotik anwendbar. Moderne Reinforcement Learning-Algorithmen erfordern eine intensive Interaktion mit der Umgebung und sind in der frühen Phase des Lernens unsicher, wenn die Politik schlecht abschneidet und die Systeme potenziell schädigt. Aus diesen Gründen hat sich die Anwendung von Reinforcement Learning vor allem bei simulierten Aufgaben wie Computer- und Brettspielen bewährt, bei denen es möglich ist, eine riesige Menge an Proben parallel zu sammeln, und bei denen es keine Möglichkeit gibt, ein reales System zu beschädigen. Um diese Probleme zu entschärfen, schlugen die Forscher vor, zunächst Imitationslernen einzusetzen, um eine vernünftige Strategie zu erhalten, und diese dann durch Verstärkungslernen zu verfeinern. In dieser Arbeit identifizieren wir zwei Hauptprobleme, die die erwähnte Rohrleitung daran hindern, effizient zu arbeiten: (i) Roboterbewegungen werden mit einer hohen Anzahl von Parametern dargestellt, die sowohl eine sichere als auch eine effiziente Exploration verhindern; (ii) die Verbesserung der Richtlinie ist in der Regel eine On-Policy, was ebenfalls ineffiziente und unsichere Aktualisierungen verursacht. Wir schlagen in Kapitel 3 eine effiziente Methode zur Reduzierung der Dimensionalität gelernter Roboter-bewegungen vor, wobei Redundanzen in den Bewegungsräumen (die häufiger bei Manipulationsaufgaben auftreten) statt Redundanzen in der Roboterkinematik ausgenutzt werden. Die Dimensionalitätsreduktion erlaubt die Projektion auf latente Räume, die mit hoher Wahrscheinlichkeit Bewegungen in der Nähe der gezeigten darstellen. Um das Reinforcement Learning sicherer und effizienter zu machen, definieren wir in Kapitel 4 die Off-Policy-Aktualisierung im Latenzraum der Bewegung. In Kapitel 5 schlagen wir eine neuartige Gradientenschätzung außerhalb der Richtlinien vor, die sich einer bestimmten nichtparametrischen Technik namens Nadaraya-Watson-Kernel-Regression bedient. Aufbauend auf einem soliden theoretischen Rahmen leiten wir statistische Garantien ab. Wir glauben, dass die Bereitstellung starker Garantien das Kernstück eines sicheren maschinellen Lernens ist. In diesem Sinne erweitern und analysieren wir in Kapitel 6 die statistischen Garantien der Nadaraya-Watson-Kernel-Regression weiter. Gewöhnlich muss man hoch entwickelte Belohnungsfunktionen definieren, um herausfordernde Erkundungen beim auf die Robotik angewandten Reinforcement Learning zu vermeiden. Diese Einschränkung behindert die Möglichkeit, nicht-experten Benutzern die Definition neuer Aufgaben zu ermöglichen. Die Exploration bleibt bei hochdimensionaler und spärlicher Belohnung ein offenes Thema. Um dieses Problem zu entschärfen, schlagen wir in Kapitel 7 einen weitsichtigen Explorationsbonus vor, der auf informationstheoretischen Prinzipien aufbaut. Um eine umfassende und statistisch fundierte Analyse unseres Algorithmus zu ermöglichen, haben wir ihn in einer simulierten Umgebung getestet, während wir seine Anwendbarkeit in der realen Welt der Robotik erprobt haben. Die Analyse untermauert unsere Aussage und zeigt, dass die von uns vorgeschlagenen Techniken in Gegenwart einer begrenzten Anzahl von Demonstrationen und Roboterinteraktionen sicher gelernt werden können.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-175368
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 17 Feb 2021 12:23
Last Modified: 17 Feb 2021 12:23
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/17536
PPN: 476584868
Export:
Actions (login required)
View Item View Item