TU Darmstadt / ULB / TUprints

Reinforcement Learning Curricula as Interpolations between Task Distributions

Klink, Pascal (2023)
Reinforcement Learning Curricula as Interpolations between Task Distributions.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00024782
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
thesis.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (17MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Reinforcement Learning Curricula as Interpolations between Task Distributions
Language: English
Referees: Peters, Prof. Dr. Jan ; Stone, Prof. Dr. Peter ; Pajarinen, Prof. Dr. Joni
Date: 15 November 2023
Place of Publication: Darmstadt
Collation: xviii, 175 Seiten
Date of oral examination: 7 November 2023
DOI: 10.26083/tuprints-00024782
Abstract:

In the last decade, the increased availability of powerful computing machinery has led to an increasingly widespread application of machine learning methods. Machine learning has been particularly successful when large models, typically neural networks with an ever-increasing number of parameters, can leverage vast data to make predictions. While reinforcement learning (RL) has been no exception from this development, a distinguishing feature of RL is its well-known exploration-exploitation trade-off, whose optimal solution – while possible to model as a partially observable Markov decision process – evades computation in all but the simplest problems. Consequently, it seems unsurprising that notable demonstrations of reinforcement learning, such as an RL-based Go agent (AlphaGo) by Deepmind beating the professional Go player Lee Sedol, relied both on the availability of massive computing capabilities and specific forms of regularization that facilitate learning. In the case of AlphaGo, this regularization came in the form of self-play, enabling learning by interacting with gradually more proficient opponents. In this thesis, we develop techniques that, similarly to the concept of self-play of AlphaGo, improve the learning performance of RL agents by training on sequences of increasingly complex tasks. These task sequences are typically called curricula and are known to side-step problems such as slow learning or convergence to poor behavior that may occur when directly learning in complicated tasks. The algorithms we develop in this thesis create curricula by minimizing distances or divergences between probability distributions of learning tasks, generating interpolations between an initial distribution of easy learning tasks and a target task distribution. Apart from improving the learning performance of RL agents in experiments, developing methods that realize curricula as interpolations between task distributions results in a nuanced picture of key aspects of successful reinforcement learning curricula.

In Chapter 1, we start this thesis by introducing required reinforcement learning notation and then motivating curriculum reinforcement learning from the perspective of continuation methods for non-linear optimization. Similar to curricula for reinforcement learning agents, continuation methods have been used in non-linear optimization to solve challenging optimization problems. This similarity provides an intuition about the effect of the curricula we aim to generate and their limits. In Chapter 2, we transfer the concept of self-paced learning, initially proposed in the supervised learning community, to the problem of RL, showing that an automated curriculum generation for RL agents can be motivated by a regularized RL objective. This regularized RL objective implies generating a curriculum as a sequence of task distributions that trade off the expected agent performance against similarity to a specified distribution of target tasks. This view on curriculum RL contrasts existing approaches, as it motivates curricula via a regularized RL objective instead of generating them from a set of assumptions about an optimal curriculum. In experiments, we show that an approximate implementation of the aforementioned curriculum – that restricts the interpolating task distribution to a Gaussian – results in improved learning performance compared to regular reinforcement learning, matching or surpassing the performance of existing curriculum-based methods. Subsequently, Chapter 3 builds up on the intuition of curricula as sequences of interpolating task distributions established in Chapter 2. Motivated by using more flexible task distribution representations, we show how parametric assumptions play a crucial role in the empirical success of the previous approach and subsequently uncover key ingredients that enable the generation of meaningful curricula without assuming a parametric model of the task distributions. One major ingredient is an explicit notion of task similarity via a distance function of two Markov Decision Processes. We turn towards optimal transport theory, allowing for flexible particle-based representations of the task distributions while properly considering the newly introduced metric structure of the task space. Combined with other improvements to our first method, such as a more aggressive restriction of the curriculum to tasks that are not too hard for the agent, the resulting approach delivers consistently high learning performance in multiple experiments. In the final Chapter 4, we apply the refined method of Chapter 3 to a trajectory-tracking task, in which we task an RL agent to follow a three-dimensional reference trajectory with the tip of an inverted pendulum mounted on a Barrett Whole Arm Manipulator. The access to only positional information results in a partially observable system that, paired with its inherent instability, underactuation, and non-trivial kinematic structure, presents a challenge for modern reinforcement learning algorithms, which we tackle via curricula. The technically infinite-dimensional task space of target trajectories allows us to probe the developed curriculum learning method for flaws that have not surfaced in the rather low-dimensional experiments of the previous chapters. Through an improved optimization scheme that better respects the non-Euclidean structure of target trajectories, we reliably generate curricula of trajectories to be tracked, resulting in faster and more robust learning compared to an RL baseline that does not exploit this form of structured learning. The learned policy matches the performance of an optimal control baseline on the real system, demonstrating the potential of curriculum RL to learn state estimation and control for non-linear tracking tasks jointly.

In summary, this thesis introduces a perspective on reinforcement learning curricula as interpolations between task distributions. The methods developed under this perspective enjoy a precise formulation as optimization problems and deliver empirical benefits throughout experiments. Building upon this precise formulation may allow future work to advance the formal understanding of reinforcement learning curricula and, with that, enable the solution of challenging decision-making and control problems with reinforcement learning.

Alternative Abstract:
Alternative AbstractLanguage

In den letzten zehn Jahren hat die zunehmende Verfügbarkeit leistungsstarker Computer zu einer immer breiteren Anwendung von Methoden des maschinellen Lernens geführt. Das maschinelle Lernen ist besonders erfolgreich, wenn große Modelle, in der Regel neuronale Netze mit einer immer größer werdenden Anzahl von Parametern, große Datenmengen nutzen können, um Vorhersagen zu treffen. Während das Verstärkungslernen (Reinforcement Learning, RL) keine Ausnahme von dieser Entwicklung darstellt, ist der bekannte “Exploration-Exploitation Trade-Off” ein entscheidendes Merkmal von RL, dessen optimale Lösung - obwohl sie als teilweise beobachtbarer Markov-Entscheidungsprozess modelliert werden kann - sich der Berechnung bei allen außer den einfachsten Problemen entzieht. Daher scheint es nicht überraschend, dass bemerkenswerte Demonstrationen des Reinforcement Learnings, wie z.B. der RL-basierte Go-Agent AlphaGo von Deepmind, der den professionellen Go-Spieler Lee Sedol besiegte, sowohl auf die Verfügbarkeit massiver Rechenkapazitäten als auch auf spezifische Formen der Regularisierung, die das Lernen erleichtern, angewiesen war. Im Fall von AlphaGo kam diese Regularisierung in Form von Selbstspiel, welches das Lernen durch Interaktion mit allmählich besser werdenden Gegnern ermöglicht. In dieser Arbeit entwickeln wir Techniken, die, ähnlich wie das Konzept des Selbstspiels von AlphaGo, die Lernleistung von RL-Agenten durch das Training auf Sequenzen von zunehmend komplexen Aufgaben verbessern. Diese Aufgabensequenzen werden typischerweise als Curricula bezeichnet und sind dafür bekannt, Probleme wie langsames Lernen oder Konvergenz zu schlechtem Verhalten zu umgehen, die beim direkten Lernen in komplizierten Aufgaben auftreten können. Die Algorithmen, die wir in dieser Arbeit entwickeln, erstellen Curricula, indem sie Abstände oder Divergenzen zwischen Wahrscheinlichkeitsverteilungen von Lernaufgaben minimieren. Dabei erzeugen sie Interpolationen zwischen einer Anfangsverteilung von einfachen Lernaufgaben und einer Zielaufgabenverteilung. Neben der Verbesserung der Lernleistung von RL-Agenten in Experimenten führt die Entwicklung von Methoden, die Curricula als Interpolationen zwischen Aufgabenverteilungen realisieren, zu einem differenzierteren Bild von Schlüsselaspekten erfolgreicher Reinforcement Learning Curricula. In Kapitel 1 beginnen wir diese Arbeit mit einer Einführung in die erforderliche Notation des Reinforcement Learnings und motivieren dann das Reinforcement Learning mit Curricula aus der Perspektive von Continuation Methods in der nichtlinearen Optimierung. Ähnlich wie bei Curricula für das Verstärkungslernen werden Continuation Methods in der nichtlinearen Optimierung verwendet, um schwierige Optimierungsprobleme zu lösen. Diese Ähnlichkeit vermittelt eine Intuition über den Effekt und die Grenzen der Curricula, die wir erstellen wollen. In Kapitel 2 übertragen wir das Konzept des Self-Paced Learnings, das ursprünglich im Bereich des Supervised Learnings vorgeschlagen wurde, auf das Problem des RL, indem wir zeigen, dass eine automatisierte Curriculumerstellung für RL-Agenten durch ein regularisiertes RL Problem motiviert werden kann. Dieses regularisierte RL Problem impliziert die Generierung eines Curriculums als eine Sequenz von Aufgabenverteilungen, die die erwartete Agentenleistung gegen die Ähnlichkeit mit einer spezifizierten Verteilung von Zielaufgaben abwägen. Diese Sichtweise auf das Curriculum Reinforcement Learning steht im Gegensatz zu bestehenden Ansätzen, da sie Curricula über ein regularisiertes RL Problem motiviert, anstatt diese aus einer Reihe von Annahmen über einen optimalen Lehrplan zu generieren. In Experimenten zeigen wir, dass eine approximative Implementierung des oben erwähnten Curriculums - die die interpolierende Aufgabenverteilung auf eine Gauß-Verteilung beschränkt - zu einer verbesserten Lernleistung im Vergleich zu regulärem Reinforcement Learning führt und die Leistung bestehender curriculum-basierter Methoden erreicht oder übertrifft.

Anschließend baut Kapitel 3 auf der in Kapitel 2 entwickelten Intuition von Lehrplänen als Sequenzen interpolierender Aufgabenverteilungen auf. Motiviert durch die Verwendung flexiblerer Repräsentationen von Aufgabenverteilungen zeigen wir, wie parametrische Annahmen eine entscheidende Rolle für den empirischen Erfolg des vorherigen Ansatzes spielen, und decken anschließend Schlüsselbestandteile für die Erstellung sinnvoller Curricula ohne Annahmen über parametrische Modelle der Aufgabenverteilungen auf. Ein wichtiger Bestandteil ist ein expliziter Begriff der Aufgabenähnlichkeit über eine Distanzfunktion zweier Markov-Entscheidungsprozesse. Wir wenden uns der Theorie des optimalen Transports zu, die flexible partikelbasierte Darstellungen der Aufgabenverteilungen ermöglicht und gleichzeitig die neu eingeführte metrische Struktur des Aufgabenraums angemessen berücksichtigt. In Kombination mit anderen Verbesserungen unserer ersten Methode, wie einer aggressiveren Beschränkung des Lehrplans auf Aufgaben, die für den Agenten nicht zu schwer sind, liefert der resultierende Ansatz in mehreren Experimenten eine konstant hohe Lernleistung.

Im abschließenden Kapitel 4 wenden wir die verfeinerte Methode aus Kapitel 3 auf eine Bahnverfolgungsaufgabe an, bei der wir einen RL-Agenten damit beauftragen, einer dreidimensionalen Referenztrajektorie mit der Spitze eines, auf einem Barrett-Wholearm-Manipulator montierten, sphärischen Pendels zu folgen. Die partielle Beobachtbarkeit des Systems durch das Fehlen von Geschwindigkeitsinformationen, gepaart mit einem inhärent instabilen, unteraktuierten System und einer nicht-trivialen Kinematik, stellt eine Herausforderung für moderne Reinforcement-Learning-Algorithmen dar, die wir mit Hilfe von Curricula angehen. Der technisch unendlich-dimensionale Aufgabenraum der Zieltrajektorien erlaubt es uns, die entwickelte Curriculum-Lernmethode auf Schwächen zu untersuchen, die in den eher niedrig-dimensionalen Experimenten der vorherigen Kapitel nicht auftraten. Durch ein verbessertes Optimierungsschema, das die nicht-euklidische Struktur der Zieltrajektorien besser berücksichtigt, generieren wir zuverlässig Curricula über zu verfolgende Trajektorien. Das Training auf diesen Trajektorien führt zu schnellerem und robusterem Lernen als direktes Training auf den Zieltrajektorien. Das erlernte Verhalten erreicht auf dem realen System die Leistung eines Reglers, der mit Hilfe von Ansätzen der Optimalen Steuerung entworfen wurde, was das Potenzial von Curriculum RL für das gemeinsame Erlernen von Zustandsschätzung und Regelung für nichtlineare Bahnverfolgungsaufgaben demonstriert. Zusammenfassend führt diese Arbeit eine Perspektive auf Reinforcement Learning Curricula als Interpolationen zwischen Aufgabenverteilungen ein. Die unter dieser Sichtweise entwickelten Methoden genießen eine präzise Formulierung als Optimierungsprobleme und liefern in Experimenten empirische Vorteile. Aufbauend auf dieser präzisen Formulierung können zukünftige Arbeiten das formale Verständnis von Reinforcement Learning Curricula vorantreiben und damit die Lösung von anspruchsvollen Entscheidungs- und Kontrollproblemen mit Reinforcement Learning ermöglichen.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-247829
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 15 Nov 2023 10:46
Last Modified: 16 Nov 2023 06:50
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/24782
PPN: 513212191
Export:
Actions (login required)
View Item View Item