Optimal Trajectory Generation and Learning Control for Robot Table Tennis

As robots become more capable in terms of hardware, and more complex tasks are considered, optimality starts playing a more important role in the design of algorithms implemented in these systems. Optimality is a guiding principle that directs the computation of feasible and efficient solutions to different robotics tasks. In control theory, this principle is implemented online as a set of efficient numerical optimization algorithms, that in addition to solving the task, purports to save a suitably defined effort or energy term. This thesis investigates trajectory generation, learning and control for dynamic tasks from the unifying point of view of optimization. As an application, we focus on Table Tennis, a chal- lenging task where robots are yet to outperform humans. We believe that the required dexterity and accuracy for this dynamical task hinges on the developments in online optimization and efficient learning algorithms. We consider trajectory generation for table tennis in the first part of the thesis. In highly dynamic tasks like table tennis that involve moving targets, planning is necessary to figure out when, where and how to intercept the target. Motion planning can be very challenging in robotic table tennis in particular, due to time constraints, dimension of the search space and joint limits. Conventional planning algorithms often rely on a fixed virtual hitting plane to construct robot striking trajectories. These algorithms, however, generate restrictive strokes and can result in unnatural strategies when compared with human playing. In this thesis, we introduce a new trajectory generation framework for robotic table tennis that does not involve a fixed hitting plane. A free-time optimal control approach is used to derive two different trajectory optimizers. The resulting two algorithms, Focused Player and Defensive Player, encode two different play- styles. We evaluate their performance in simulation and in our robot table tennis platform with a high speed cable-driven seven DOF robot arm. The algorithms return the balls with a higher probability to the opponent’s court when compared with a virtual hitting plane based method. Moreover, both can be run online and the trajectories can be corrected with new ball observations. In the second part of the thesis, we look at how such trajectories, computed on the kine- matics level, can be tracked accurately with learning control based approaches. Highly dynamic tasks like table tennis require large accelerations and precise tracking for successful perfor- mance. To track desired trajectories well, such tasks usually rely on accurate models and/or high gain feedback. While kinematic optimization allows for efficient representation and online generation of hitting trajectories, learning to track such dynamic movements with inaccurate models remains an open problem. In particular, stability issues surrounding the learning per- formance, in the iteration domain, can prevent the successful implementation of model based learning approaches. To achieve accurate tracking for these tasks in a stable and efficient way, we propose a new adaptive Iterative Learning Control algorithm that is implemented efficiently using a recursive approach. Moreover, covariance estimates of model matrices are used to ex- ercise caution during learning. We evaluate the performance of the proposed approach in our robotic table tennis platform, where we show how the performance of two Barrett WAMs can be optimized. Our implementation on the table tennis platform compares favorably with two state-of-the-art approaches. Finally, we discuss an alternative learning from demonstrations approach, where we learn sparse representations from demonstrated movements. Learning from demonstrations is an easy and intuitive way to show examples of successful behavior to a robot. However, the fact that humans optimize or take advantage of their body and not of the robot, usually called the embodiment problem in robotics, often prevents industrial robots from executing the task in a straightforward way. The shown movements often do not or cannot utilize the degrees of freedom of the robot efficiently, and typically suffer from excessive execution errors. In the last chapter, we show a new approach that can alleviate some of these difficulties by learning sparse representations of movement. Moreover, the number of learned parameters are independent of the degrees of freedom of the robot. Sparsity is a desirable feature for policy search Rein- forcement Learning algorithms that adapt the parameters of these movement primitives. By ranking the learned parameters on the Elastic Net path in terms of importance, we note that our approach could be potentially useful to combat the curse of dimensionality in robot learning applications. We show preliminary results on the real robot setup, including a successful table tennis serve using our new movement primitive representation. Throughout the thesis, we present and analyze in detail new control and learning algo- rithms. Efficient online optimization approaches are presented that can be used to solve not just table tennis problems, but they can be adapted to solve different dynamic tasks.

Sprache

Englisch

Alternativtitel

Optimale Trajektoriengenerierung und Lernkontrolle für Roboter-Tischtennis

Alternatives Abstract

Roboter werden in Bezug auf Ihre Hardware immer leistungsfähiger und können somit für kom- plexere Aufgaben in Betracht gezogen werden. Die Optimalität von Algorithmen die für diese Systeme implementiert werden, spielt hierbei eine immer wichtigere Rolle und ist ein Leitprin- zip, das die Berechnung praktikabler und effizienter Lösungen für verschiedene Aufgaben in der Robotik steuert. In der Kontrolltheorie wird dieses Prinzip unter der Vorgabe eines geeignet definierten Aufwands durch effiziente numerische Optimierungsalgorithmen umgesetzt. Diese Arbeit untersucht die Erzeugung, das Lernen und die Kontrolle von Trajektorien für dynamische Aufgaben, ausgehend vom vereinigenden Standpunkt der Optimierung. Als Anwen- dung konzentrieren wir uns auf das Tischtennis, eine anspruchsvolle Aufgabe bei der Roboter den Menschen noch nicht übertreffen. Wir glauben, dass die erforderliche Geschicklichkeit und Genauigkeit für diese dynamische Aufgabe von den Entwicklungen der Online-Optimierung und effizienten Lernalgorithmen abhängt. Wir betrachten die Erzeugung von Trajektorien für das Tischtennis im ersten Teil der Arbeit. Bei hochdynamischen Aufgaben wie Tischtennis, bei denen Ziele bewegt werden, ist Planung notwendig um herauszufinden, wann, wo und wie man das Ziel treffen soll. Die Planung von Bewegungen kann insbesondere im Roboter-Tischtennis aufgrund von Zeitbeschränkungen, Di- mension des Suchraums und Gelenkgrenzen sehr schwierig sein. Herkömmliche Algorithmen für die Planung von Schlagbewegungen beruhen häufig auf einer festen virtuellen Trefferebene. Damit können jedoch nur restriktive Schläge erzeugt werden und dies kann im Vergleich zum menschlichen Spiel zu unnatürlichen Strategien führen. Deshalb stellen wir in dieser Arbeit ein neues Framework zur Erzeugung von Trajektorien für das Roboter-Tischtennis vor, welches kei- ne feste Trefferfläche beinhaltet. Hierfür wird ein optimaler freier Steuerungsansatz verwendet, um zwei verschiedene Optimierungsansätze für die Trajektorien abzuleiten. Die resultierenden zwei Algorithmen, Focused Player und Defensive Player, kodieren jeweils zwei verschiedene Spielstile. Wir evaluieren ihre Leistung in der Simulation und mit Hilfe unserer Plattform für Roboter-Tischtennis, bestehend aus einem Kabel betriebenem Hochgeschwindigkeits-Arm mit sieben Freiheitsgraden. Im Vergleich zu Methoden die auf einer virtuellen Trefferebene basie- ren, geben beide Algorithmen die Bälle mit einer höheren Wahrscheinlichkeit in die Hälfte des Gegners zurück. Darüber hinaus können beide Ansätze online ausgeführt werden und die Tra- jektorien können mit neuen Ballbeobachtungen korrigiert werden. Im zweiten Teil der Arbeit betrachten wir, wie Trajektorien die auf der Ebene der Kinematik berechnet werden, mit Lernbasierten Ansätzen genau verfolgt werden können. Hochdynamische Aufgaben wie das Tischtennis erfordern große Beschleunigungen und ein präzises Tracking für eine erfolgreiche Leistung. Um die gewünschten Trajektorien gut zu verfolgen, benötigen sol- che Aufgaben in der Regel genaue Modelle und/oder Feedback mit hohem Signal. Während die kinematische Optimierung eine effiziente Darstellung und Online-Erzeugung von Schlagbah- nen ermöglicht, ist das Lernen der Verfolgung von dynamischen Bewegungen mit ungenauen Modellen, weiterhin ein offenes Problem. Insbesondere können Stabilitätsprobleme von ite- rativen Verfahren im Zusammenhang mit der Lernleistung, die erfolgreiche Implementierung von modellbasierten Lernansätzen verhindern. Um eine genaue Ausführung für diese Aufgaben auf eine stabile und effiziente Weise zu erreichen, schlagen wir einen neuen adaptiv iterativen Lernsteuerungsansatz vor, der mit Hilfe eines rekursiven Ansatzes effizient implementiert wird. Darüber hinaus werden Kovarianzmatrizen der Modelle verwendet, um Unsicherheitsschätzun- gen in den Lernprozess mit einzubeziehen. Wir bewerten die Leistung des vorgeschlagenen Ansatzes an Hand unserer Plattform für Roboter-Tischtennis, indem wir zeigen wie der Arm op- timiert werden kann. Im Vergleich zum aktuellsten Stand der Technik weist unsere Umsetzung Vorteile auf. Schließlich diskutieren wir einen alternativen Ansatz zum Lernen von dünnbesetzten Dar- stellungen aus demonstrierten Bewegungen. Lernen aus Demonstrationen ist eine einfache und intuitive Möglichkeit, einem Roboter Beispiele für erfolgreiches Verhalten zu zeigen. Die Tat- sache, dass Menschen ihren Körper und nicht den Roboter optimieren oder nutzen, wird in der Robotik oft als Problem der Verkörperung bezeichnet und verhindert, dass Industrieroboter die gleiche Aufgabe einfach ausführen können. Die gezeigten Bewegungen können die Frei- heitsgrade des Roboters oft nicht effizient nutzen und leiden typischerweise unter exzessiven Ausführungsfehlern. Im letzten Kapitel zeigen wir einen neuen Ansatz, der einige dieser Schwie- rigkeiten lindern kann, indem dünn besetzte Darstellungen von Bewegungen gelernt werden. Darüber hinaus ist die Anzahl der gelernten Parameter unabhängig von den Freiheitsgraden des Roboters. Eine dünn besetzte Darstellung ist ein wünschenswertes Merkmal für die Suche nach Strategien die im Bestärkenden Lernen versuchen die Parameter von Bewegungsprimiti- ven anzupassen. Indem wir die erlernten Parameter auf dem Pfad eines elastischen Netzes nach Wichtigkeit ordnen, stellen wir fest, dass unser Ansatz möglicherweise den Fluch der Dimensio- nalität für Lernanwendungen in der Robotik mildern kann. Wir zeigen vorläufige Ergebnisse auf unserer physischen Roboterplattform, einschließlich eines erfolgreichen Tischtennis-Aufschlags unter Verwendung unserer neuen Darstelllung von Bewegungsprimitiven. Im Verlauf der Arbeit präsentieren und analysieren wir neue Steuerungs- und Lernalgorith- men. Es werden Online- und effiziente Optimierungsansätze vorgestellt, mit denen nicht nur Probleme im Tischtennis, sondern auch andere dynamische Aufgaben gelöst werden können.

Fachbereich/-gebiet

20 Fachbereich Informatik > Intelligente Autonome Systeme

DDC

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

Institution

Technische Universität Darmstadt

Ort

Darmstadt