Iterative Synthesis of Extremal Fields for Near-Optimal Feedback Control of Robotic Systems

Zelch, Christoph (2024)
Iterative Synthesis of Extremal Fields for Near-Optimal Feedback Control of Robotic Systems.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00027577
Ph.D. Thesis, Primary publication, Publisher's Version

Text
dissertation_main_published_version.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (13MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Iterative Synthesis of Extremal Fields for Near-Optimal Feedback Control of Robotic Systems

Language:

English

Referees:

Stryk, Prof. Dr. Oskar von ; Conway, Prof. Ph.D Bruce A.

Date:

23 October 2024

Place of Publication:

Darmstadt

Collation:

xix, 175 Seiten

Date of oral examination:

18 March 2024

DOI:

10.26083/tuprints-00027577

Abstract:

Optimal control of robots, vehicles, or industrial plants is essential, as it can provide much better, e.g., faster or more energy efficient, operation of these systems than hand-crafted control policies. Optimal control theory and (numerical) methods allow the computation of control sequences for high-dimensional dynamic systems by mathematically defining high-level goals. It is based on mathematical nonlinear dynamics models of such systems, which are often available in high quality for robots and vehicles, typically based on first principles of physics (white-box approaches). However, if the computed sequence of optimal actions is applied to a real robot, the system’s states will eventually deviate from the precomputed trajectory due to inevitable model inaccuracies or unforeseen perturbations. This motivates the search for a nonlinear feedback controller that provides optimal control values not only on an optimal path but in real-time for arbitrary system states, which allows the controlled system to proceed optimally, even in case of disturbances. Explicit formulations of optimal feedback controllers only exist for certain systems, e.g., with linear dynamics and quadratic cost functions, but not for general robots with nonlinear system dynamics. In contrast to white-box approaches based on explicit mathematical models of system dynamics, machine learning approaches based on data-driven black-box models can learn optimal feedback control policies for more general optimal control problems with nonlinear systems. However, they crucially depend on the training scenarios to collect large amounts of data and cannot generalize well beyond these, while white-box approaches are often also useful in scenarios that have not been encountered before. The main motivation for this thesis is to investigate the combination of white-box optimal control approaches and black-box machine learning to benefit from the advantages of both concepts. The focus is on the extremal field approach, where a near-optimal feedback control policy is learned from a set of optimal reference trajectories, the extremal field. It uses the advantages of machine learning approaches and, at the same time, leverages the capabilities of available numerical optimal control solvers that allow the incorporation of knowledge about the problem structure and the consideration of nonlinear constraints. In this work, the reference trajectories are computed iteratively from carefully selected start states to use the information provided by previously computed trajectories and the current feedback control policy approximation. Because of the curse of dimensionality, it is challenging to cover high-dimensional joint spaces with sufficient training data, which makes it necessary to focus on small subspaces relevant to a specific task. To address the problem of simultaneously sufficient and efficient coverage of a relevant part of the joint space, three complementing start state selection strategies for the computation of the extremal field are developed. They utilize information from the optimal control solver, from already computed optimal trajectories and uncertainty information provided by the current approximation of the feedback policy. Further, a switch-over to a proportional-integral (PI) controller in the vicinity of a goal state is proposed to stabilize the system around this state without the need for large amounts of training data in this area. The interpolation between the optimal trajectories to fit the feedback control policy is an essential part of the extremal field approach. It imposes specific requirements on the approximation methods formulated in this work. Two ubiquitous function approximation methods, Gaussian processes and artificial neural networks, are compared and analyzed regarding their suitability for the approximation of optimal feedback control policies with respect to these requirements. The quality of the feedback control approximation in the extremal field approach can be degraded if data from multiple different solution clusters is merged since the approximation method may directly interpolate between different solutions and, thus, blur their structures. Current trajectory clustering approaches capable of addressing this problem are often learning-based or use pointwise Euclidean distances between two trajectories. A rule-based trajectory clustering approach is developed, which is based on the extraction of characteristic features from motion trajectories’ graphs to create a compressed trajectory representation. This representation can be used in an existing string kernel-based distance measure. The proposed methods are evaluated on different robot models with nonlinear dynamics in simulation (including a detailed nonlinear dynamics model of an industrial robot arm) and physical experiments (Furuta pendulum arm).

Alternative Abstract:

Alternative Abstract

Language

Die optimale Steuerung von Robotern, Fahrzeugen oder industriellen Anlagen ist von entscheidender Bedeutung, da sie einen besseren, z.B. energieefizienteren oder schnelleren, Betrieb dieser Systeme erlaubt, als mit manuell erstellten Kontrollstrategien möglich ist. Die Theorie und numerischen Methoden der optimalen Steuerungen erlauben die Berechnung von Steuersignalen für hochdimensionale dynamische Systeme auf Grundlage mathematisch definierter, allgemeiner Zielvorgaben. Sie basiert auf mathematischen Modellen der nichtlinearen Systemdynamiken, welche in vielen Fällen in hoher Qualität für Roboter und Fahrzeuge verfügbar sind und üblicherweise auf den Gesetzen der Technischen Mechanik, insbesondere der Mehrkörperdynamik, beruhen (White-Box-Verfahren). Werden die berechneten optimalen Steuersignale jedoch auf realen Systemen ausgeführt, so führen Modell-Ungenauigkeiten oder unvorhergesehene Störungen von außen über kurz oder lang zu Abweichungen von der vorausberechneten Zustandstrajektorie. Dies motiviert die Suche nach einem optimalen Regler, der optimale Steuerungen nicht nur auf einem vorausberechneten Pfad oder einer Trajektorie des Systemzustands, sondern in Echtzeit für beliebige Systemzustände berechnet, sodass das geregelte System sich auch bei Störungen optimal verhält. Explizite Formulierungen optimaler Regler existieren nur für bestimmte Systeme, wie solchen mit linearer Dynamik und quadratischer Gütefunktion, aber nicht für beliebige Roboter mit typischerweise nichtlinearen Systemdynamiken. Im Gegensatz zu White-Box-Ansätzen, die auf expliziten mathematischen Modellen der Systemdynamik beruhen, basieren Verfahren des maschinellen Lernens auf datengestützten Black-Box-Modellen und können optimale Regler für allgemeinere Probleme mit nichtlinearen Systemdynamiken bestimmen. Allerdings hängen diese stark von den verwendeten Trainings-Szenarien ab, in welchen große Mengen an Trainingsdaten gesammelt werden. Sie können über diese Szenarien hinaus jedoch nicht gut verallgemeinern. White-Box-Ansätze hingegen sind oft auch in neuen Szenarien sehr gut anwendbar. Die Hauptmotivation dieser Dissertation ist die Untersuchung der Kombination von White-Box-Verfahren basierend auf der Theorie und Numerik optimaler Steuerungen und Black-Box-Verfahren des maschinellen Lernens, um von den Vorteilen beider Verfahren zu profitieren. Der Schwerpunkt liegt dabei auf dem Extremalfeld-Ansatz, bei welchem ein annähernd optimaler Regler aus einer Reihe optimaler Referenztrajektorien gelernt wird. Es nutzt die Vorteile maschineller Lernverfahren und gleichzeitig die Fähigkeit numerischer Optimalsteuerungslöser, Vorwissen über die Problemstruktur bei der Berechnung der optimalen Lösung zu berücksichtigen und nichtlineare Nebenbedingungen zu beachten. In dieser Arbeit werden die Referenztrajektorien iterativ von sorgfältig ausgewählten Startzuständen berechnet, um bei der Wahl eines Startzustands Informationen von bereits berechneten Trajektorien und dem aktuellen Modell der optimalen Regelung berücksichtigen zu können. Wegen des Fluchs der Dimensionalität (curse of dimensionality) ist es sehr schwierig, die hochdimensionalen Zustandsräume der Gelenkwinkel eines Roboters mit Trainingsdaten vollständig abzudecken, woraus die Notwendigkeit erwächst, sich auf kleinere Teilräume zu konzentrieren, welche für eine bestimmte Aufgabe relevant sind. Um das Problem, einen problemrelevanten Bereich des Gelenkwinkel-Raumes ausreichend und gleichzeitig effizient mit Daten abzudecken, zu adressieren, werden drei sich ergänzende Strategien zur Auswahl neuer Startzustände entwickelt. Diese verwenden Informationen von den numerischen Optimalsteuerungslösern, von bereits berechneten Trajektorien und Unsicherheits-Schätzungen, die zur aktuellen Approximation des Reglers verfügbar sind. Ferner wird der Ansatz vorgestellt, den gelernten Regler auf einen Proportional-Integral (PI)-Regler umzuschalten, sobald der Systemzustand in die Nähe des Zielzustands kommt, um das dynamische System um den Zielzustand zu stabilisieren, ohne diesen Bereich mit vielen Trainingsdaten abdecken zu müssen. Die Interpolation zwischen den optimalen Trajektorien zur Anpassung an die Regler ist ein wesentlicher Bestandteil des Extremalfeld-Ansatzes. Sie stellt spezifische Anforderungen an die Approximationsverfahren, welche in dieser Arbeit formuliert werden. Zwei gängige Methoden zur Funktionsapproximation, Gauß-Prozesse und künstliche neuronale Netze, werden hinsichtlich ihrer Eignung für die Approximation von optimalen Reglern auf Grundlage dieser Anforderungen verglichen und analysiert. Die Qualität der Approximation des optimalen Reglers im Extremalfeld-Ansatz kann sich verschlechtern, wenn Daten aus mehreren unterschiedlichen Lösungsclustern zusammengeführt werden, da die Approximationsmethode zwischen diesen verschiedenen Lösungen mit unterschiedlichen Strukturen direkt interpolieren und diese dadurch verwischen kann. Derzeitige Ansätze zum Clustern von Trajektorien, die zur Lösung dieses Problems verwendet werden können, basieren oft auf Lernverfahren oder verwenden punktweise euklidische Abstände zwischen zwei Trajektorien. Es wird ein regel-basierter Ansatz zum Clustern von Trajektorien entwickelt, der darauf beruht, charakteristische Merkmale aus den Graphen der Bewegungs-Trajektorien zu extrahieren, um daraus eine komprimierte Repräsentation der Trajektorie zu erstellen, welche dann in einem Distanzmaß für Zeichenketten verwendet werden kann. Die vorgeschlagenen Methoden werden an verschiedenen Robotermodellen mit nichtlinearer Dynamik in Simulationen (einschließlich eines detaillierten nichtlinearen Dynamikmodells eines Industrieroboterarms) und physikalischen Experimenten (Furuta-Pendelarm) evaluiert.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-275778

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Simulation, Systems Optimization and Robotics Group

Date Deposited:

23 Oct 2024 12:05

Last Modified: