Gaussian Processes in Reinforcement Learning: Stability Analysis and Efficient Value Propagation

Control of nonlinear systems on continuous domains is a challenging task for various reasons. For robust and accurate control of complex systems a precise model of the system dynamics is essential. Building such highly precise dynamics models from physical knowledge often requires substantial manual effort and poses a great challenge in industrial applications. Acquiring a model automatically from system measurements employing regression techniques allows to decrease manual effort and, thus, poses an interesting alternative to knowledge-based modeling. Based on such a learned dynamics model, an approximately optimal controller can be inferred automatically. Such approaches are the subject of model-based reinforcement learning (RL) and learn optimal control from interactions with the system. Especially when probabilistic dynamics models such as Gaussian processes are employed, model-based RL has been tremendously successful and has attracted much attention from both the control and machine learning communities. However, several problems need to be solved to facilitate widespread deployment of model-based RL for learning control in real world scenarios. In this thesis, we address two current limitations of model-based RL that are indispensable prerequisites for widespread deployment of model-based RL in real world tasks. In many real world applications a poor controller can cause severe damage to the system or even put the safety of humans at risk. Thus, it is essential to ensure that the controlled system behaves as desired. While this question has been studied extensively in classical control, stability of closed-loop control systems with dynamics given as a Gaussian process has not been considered yet. We propose an automatic tool to compute regions of the state space where the desired behavior of the system can be guaranteed. We consider dynamics given as the mean of a GP as well as the full GP posterior distribution. In the first case, the proposed tool constructs regions of the state space, such that the trajectories starting in this region converge to the target state. From this asymptotic result, we follow statements for finite time horizons and stability under the presence of disturbances. In the second case the system dynamics is given as a GP posterior distribution. Thus, computation of multi-step-ahead predictions requires averaging over all plausible dynamics models given the observations. A a consequence, multi-step-ahead predictions become analytically intractable. We propose an approximation based on numerical quadrature that can handle complex state distributions, e.g., with multiple modes and provides upper bounds for the approximation error. Exploiting these error bounds, we present an automatic tool to compute stability regions. In these regions of the state space, our tool guarantees that for a finite time horizon the system behaves as desired with a given probability. Furthermore, we analyze asymptotic behavior of closed-loop control systems with dynamics given as a GP posterior distribution. In this case we show that for some common choices of the prior, the system has a unique stationary distribution to which the system state converges irrespective of the starting state. Another major challenge of RL for real world control applications is to minimize interactions with the system required for learning. While RL approaches based on GP dynamics models have demonstrated great data efficiency, the average amount of required system interactions can further be reduced. To achieve this goal, we propose to employ the numerical quadrature based approximation to propagate the value of a state. To show how this approximation can further increase data efficiency, we employ it in the two main classes of model-based RL: policy search and value iteration. In policy search, the state distribution must be computed to evaluate the expected long-term reward for a policy. The proposed numerical quadrature based approximation substantially improves estimates of the expected long-term reward and its gradients. As a result, data efficiency is significantly increased. For the value function based approaches for policy learning, the value propagation step is completely characterized by the Bellman equation. However, this equation is intractable for nonlinear dynamics. In this case, we propose a projection-based value iteration approach. We employ numerical quadrature to facilitate projection of the value function onto a linear feature space. Suitable features for value function representation are learned online without manual effort. This feature learning is constructed such that upper bounds for the projection error can be obtained. The proposed value iteration approach learns globally optimal policies and significantly benefits from the introduced highly accurate approximations.

Sprache

Englisch

Alternativtitel

Gaußsche Prozesse im Bestärkenden Lernen: Stabilitätsanalyse und effiziente Propagation des Werts

Alternatives Abstract

Die Regelung nichtlinearer Systeme ist aus vielerlei Gründen eine technische Herausforderung. Um eine robuste und präzise Regelung zu erreichen, ist ein Modell der Systemdynamik essentiell. Die Herleitung eines akkuraten Dynamikmodells aus physikalischem Wissen verursacht häufig sehr hohen Arbeitsaufwand und ist eine Herausforderung in industriellen Anwendungen. Die automatische Berechnung eines Modells aus Messungen mit Hilfe von Regression erlaubt es, den Arbeitsaufwand deutlich zu verringern und ist daher eine sinnvolle Alternative zu klassischer, wissensbasierter Modellierung. Basierend auf solch einem gelernten Modell kann ein näherungsweise optimaler Regler automatisch bestimmt werden. Solche Ansätze sind Gegenstand des modellbasierten Reinforcement Learnings (RL) und lernen optimale Regelung eines Systems aus Interaktionen mit ebendiesem. Gerade in Kombination mit probabilistischen Dynamikmodellen wie z.B. Gaußschen Prozessen, hat sich modellbasiertes RL als außerordentlich erfolgreich erwiesen und viel Aufmerksamkeit der Experten sowohl in Regelungstechnik als auch in Machine Learning erregt. Allerdings müssen noch einige Probleme gelöst werden, um modellbasiertes RL massentauglich für reale praktische Probleme zu machen. In der vorliegenden Arbeit adressieren wir zwei der aktuellen Einschränkungen von RL, deren Lösung eine Vorraussetzung für die breite Anwendung solcher Methoden in der Praxis ist. In vielen Anwendungen kann ein schlecht eingestellter Regler das System beschädigen oder sogar Menschen in Gefahr bringen. Daher ist es essentiell, das wunschgemäße Systemverhalten abzusichern. Während diese Fragesellung in der klassichen Regelungstechnik schon ausgiebig studiert wurde, ist die Stabilität von geschlossenen Regelkreisen mit Gaußschen Prozessen als Dynamikmodell bislang noch nicht betrachtet worden. Wir stellen einen Ansatz vor, um automatisiert Bereiche des Zustandsraums zu berechnen, in denen die Konvergenz zum Zielzustand garantiert ist. Dabei betrachten wir Dynamiken, die als Mittelwert sowie als volle a-posteriori Verteilung eines Gaußschen Prozesses gegeben sind. Im ersten Fall berechnet unser Ansatz Bereiche des Zustandsraums, von denen aus die Systemtrajektorien zum Zielzustand konvergieren. Aus diesem asymptotischen Ergebnis leiten wir Aussagen her für endliche Zeithorizonte sowie über die Stabilität des Systems wenn Störungen auftreten. Im zweiten Fall nehmen wir als Dynamikmodell die a-posteriori Verteilung eines Gaußschen Prozesses an. Daher muss für die Vorhersage des Systemzustands nach mehreren Zeitschritten über alle plausiblen Dynamikmodelle gegeben unsere Beobachtungen gemittelt werden. Folglich sind solche Mehrschrittvorhersagen nicht analytisch lösbar. Wir schlagen daher eine Approximation basierend auf numerischer Quadratur vor, die komplexe Zustandsverteilungen, z.B. mit mehrereren Modi, abbilden kann. Zusätzlich kann bei dieser Approximation der Fehler nach oben hin beschränkt werden. Mit Hilfe dieser Fehlerschranken berechnet unser Ansatz automatisiert stabile Bereiche des Systems. In diesen Bereichen ist das wunschgemäße Verhalten des Systems mit einer gegebenenWahrscheinlichkeit garantiert. Desweiteren analysieren wir das asymptotische Verhalten von geschlossenen Regelkreisen mit einer GP a-posteriori Vetreilung über Dynamiken. Wir zeigen, dass eine eindeutige, stationäre Verteilung existiert, zu der der Systemzustand unabhängig von der Wahl des Startpunkts konvergiert. Eine weitere große Herausforderung für RL in der Praxis ist, dass die Anzahl der benötigten Systeminteraktionen möglichst gering sein soll. Obwohl sich RL mit Gaußschen Prozessen als Dynamikmodell als sehr dateneffizient erwiesen hat, kann die durschnittliche Anzahl der benötigten Systeminteraktionen noch weiter reduziert werden. Um dieses Ziel zu erreichen, schlagen wir den Einsatz der oben erwähnten, auf numerischer Quadratur basierenden Approximation vor, um den Wert eines Zustands zu propagieren. Wir zeigen, wie diese Approximation die Dateneffizienz erhöhen kann, indem wir es in den zwei Hauptklassen von modellbasiertem RL anwenden: Policy Search und Value Iteration. In Policy Search muss die Zustandsverteilung berechnet werden, um die erwartete Langzeitbelohnung eines Reglers zu bestimmen. Die vorgeschlagene Approximation auf Basis numerischer Quadratur verbessert signifikant die Schätzung der erwarteten Langzeitbelohnung und ihres Gradienten. Dies führt zu einer deutlich gesteigerten Dateneffizienz. Bei den Ansätzen, die zum Lernen des optimalen Reglers eine Value Funktion verwenden, ist die Value Weiterverbreitung durch die Bellman Gleichung charakterisiert. Allerdings ist diese Gleichung für nichtlineare Dynamiken analytisch nicht lösbar. Für dieses Szenario schlagen wir einen projektionsbasierten Ansatz zur Value Iteration vor. Wir verwenden numerische Quadratur, um die Projektion der Value Funktion auf einen linearen Merkmalsraum zu ermöglichen. Für die Darstellung der Value Funktion geeinete Merkmale werden dabei online und ohne manuellen Aufwand gelernt. Dieses Lernen der Merkmale ist so konstruiert, dass obere Schranken für den Projektionsfehler hergeleitet werden können. Der vorgeschlagene Ansatz zur Value Iteration lernt global optimale Regler und profitiert deutlich von der vorgestellten hochpräzisen Approximation.

Fachbereich/-gebiet

20 Fachbereich Informatik

20 Fachbereich Informatik > Intelligente Autonome Systeme