Abstract: |
As robots become more capable in terms of hardware, and more complex tasks are considered,
optimality starts playing a more important role in the design of algorithms implemented in these
systems. Optimality is a guiding principle that directs the computation of feasible and efficient
solutions to different robotics tasks. In control theory, this principle is implemented online as a
set of efficient numerical optimization algorithms, that in addition to solving the task, purports
to save a suitably defined effort or energy term.
This thesis investigates trajectory generation, learning and control for dynamic tasks from
the unifying point of view of optimization. As an application, we focus on Table Tennis, a chal-
lenging task where robots are yet to outperform humans. We believe that the required dexterity
and accuracy for this dynamical task hinges on the developments in online optimization and
efficient learning algorithms.
We consider trajectory generation for table tennis in the first part of the thesis. In highly
dynamic tasks like table tennis that involve moving targets, planning is necessary to figure out
when, where and how to intercept the target. Motion planning can be very challenging in robotic
table tennis in particular, due to time constraints, dimension of the search space and joint limits.
Conventional planning algorithms often rely on a fixed virtual hitting plane to construct robot
striking trajectories. These algorithms, however, generate restrictive strokes and can result in
unnatural strategies when compared with human playing. In this thesis, we introduce a new
trajectory generation framework for robotic table tennis that does not involve a fixed hitting
plane. A free-time optimal control approach is used to derive two different trajectory optimizers.
The resulting two algorithms, Focused Player and Defensive Player, encode two different play-
styles. We evaluate their performance in simulation and in our robot table tennis platform
with a high speed cable-driven seven DOF robot arm. The algorithms return the balls with a
higher probability to the opponent’s court when compared with a virtual hitting plane based
method. Moreover, both can be run online and the trajectories can be corrected with new ball
observations.
In the second part of the thesis, we look at how such trajectories, computed on the kine-
matics level, can be tracked accurately with learning control based approaches. Highly dynamic
tasks like table tennis require large accelerations and precise tracking for successful perfor-
mance. To track desired trajectories well, such tasks usually rely on accurate models and/or
high gain feedback. While kinematic optimization allows for efficient representation and online
generation of hitting trajectories, learning to track such dynamic movements with inaccurate
models remains an open problem. In particular, stability issues surrounding the learning per-
formance, in the iteration domain, can prevent the successful implementation of model based
learning approaches. To achieve accurate tracking for these tasks in a stable and efficient way,
we propose a new adaptive Iterative Learning Control algorithm that is implemented efficiently
using a recursive approach. Moreover, covariance estimates of model matrices are used to ex-
ercise caution during learning. We evaluate the performance of the proposed approach in our
robotic table tennis platform, where we show how the performance of two Barrett WAMs can
be optimized. Our implementation on the table tennis platform compares favorably with two
state-of-the-art approaches.
Finally, we discuss an alternative learning from demonstrations approach, where we learn
sparse representations from demonstrated movements. Learning from demonstrations is an
easy and intuitive way to show examples of successful behavior to a robot. However, the fact
that humans optimize or take advantage of their body and not of the robot, usually called the
embodiment problem in robotics, often prevents industrial robots from executing the task in
a straightforward way. The shown movements often do not or cannot utilize the degrees of
freedom of the robot efficiently, and typically suffer from excessive execution errors. In the last
chapter, we show a new approach that can alleviate some of these difficulties by learning sparse
representations of movement. Moreover, the number of learned parameters are independent
of the degrees of freedom of the robot. Sparsity is a desirable feature for policy search Rein-
forcement Learning algorithms that adapt the parameters of these movement primitives. By
ranking the learned parameters on the Elastic Net path in terms of importance, we note that our
approach could be potentially useful to combat the curse of dimensionality in robot learning
applications. We show preliminary results on the real robot setup, including a successful table
tennis serve using our new movement primitive representation.
Throughout the thesis, we present and analyze in detail new control and learning algo-
rithms. Efficient online optimization approaches are presented that can be used to solve not just
table tennis problems, but they can be adapted to solve different dynamic tasks. |
Alternative Abstract: |
Alternative Abstract | Language |
---|
Roboter werden in Bezug auf Ihre Hardware immer leistungsfähiger und können somit für kom-
plexere Aufgaben in Betracht gezogen werden. Die Optimalität von Algorithmen die für diese
Systeme implementiert werden, spielt hierbei eine immer wichtigere Rolle und ist ein Leitprin-
zip, das die Berechnung praktikabler und effizienter Lösungen für verschiedene Aufgaben in
der Robotik steuert. In der Kontrolltheorie wird dieses Prinzip unter der Vorgabe eines geeignet
definierten Aufwands durch effiziente numerische Optimierungsalgorithmen umgesetzt.
Diese Arbeit untersucht die Erzeugung, das Lernen und die Kontrolle von Trajektorien für
dynamische Aufgaben, ausgehend vom vereinigenden Standpunkt der Optimierung. Als Anwen-
dung konzentrieren wir uns auf das Tischtennis, eine anspruchsvolle Aufgabe bei der Roboter
den Menschen noch nicht übertreffen. Wir glauben, dass die erforderliche Geschicklichkeit und
Genauigkeit für diese dynamische Aufgabe von den Entwicklungen der Online-Optimierung und
effizienten Lernalgorithmen abhängt.
Wir betrachten die Erzeugung von Trajektorien für das Tischtennis im ersten Teil der Arbeit.
Bei hochdynamischen Aufgaben wie Tischtennis, bei denen Ziele bewegt werden, ist Planung
notwendig um herauszufinden, wann, wo und wie man das Ziel treffen soll. Die Planung von
Bewegungen kann insbesondere im Roboter-Tischtennis aufgrund von Zeitbeschränkungen, Di-
mension des Suchraums und Gelenkgrenzen sehr schwierig sein. Herkömmliche Algorithmen
für die Planung von Schlagbewegungen beruhen häufig auf einer festen virtuellen Trefferebene.
Damit können jedoch nur restriktive Schläge erzeugt werden und dies kann im Vergleich zum
menschlichen Spiel zu unnatürlichen Strategien führen. Deshalb stellen wir in dieser Arbeit ein
neues Framework zur Erzeugung von Trajektorien für das Roboter-Tischtennis vor, welches kei-
ne feste Trefferfläche beinhaltet. Hierfür wird ein optimaler freier Steuerungsansatz verwendet,
um zwei verschiedene Optimierungsansätze für die Trajektorien abzuleiten. Die resultierenden
zwei Algorithmen, Focused Player und Defensive Player, kodieren jeweils zwei verschiedene
Spielstile. Wir evaluieren ihre Leistung in der Simulation und mit Hilfe unserer Plattform für
Roboter-Tischtennis, bestehend aus einem Kabel betriebenem Hochgeschwindigkeits-Arm mit
sieben Freiheitsgraden. Im Vergleich zu Methoden die auf einer virtuellen Trefferebene basie-
ren, geben beide Algorithmen die Bälle mit einer höheren Wahrscheinlichkeit in die Hälfte des
Gegners zurück. Darüber hinaus können beide Ansätze online ausgeführt werden und die Tra-
jektorien können mit neuen Ballbeobachtungen korrigiert werden.
Im zweiten Teil der Arbeit betrachten wir, wie Trajektorien die auf der Ebene der Kinematik
berechnet werden, mit Lernbasierten Ansätzen genau verfolgt werden können. Hochdynamische
Aufgaben wie das Tischtennis erfordern große Beschleunigungen und ein präzises Tracking für
eine erfolgreiche Leistung. Um die gewünschten Trajektorien gut zu verfolgen, benötigen sol-
che Aufgaben in der Regel genaue Modelle und/oder Feedback mit hohem Signal. Während die
kinematische Optimierung eine effiziente Darstellung und Online-Erzeugung von Schlagbah-
nen ermöglicht, ist das Lernen der Verfolgung von dynamischen Bewegungen mit ungenauen
Modellen, weiterhin ein offenes Problem. Insbesondere können Stabilitätsprobleme von ite-
rativen Verfahren im Zusammenhang mit der Lernleistung, die erfolgreiche Implementierung
von modellbasierten Lernansätzen verhindern. Um eine genaue Ausführung für diese Aufgaben
auf eine stabile und effiziente Weise zu erreichen, schlagen wir einen neuen adaptiv iterativen
Lernsteuerungsansatz vor, der mit Hilfe eines rekursiven Ansatzes effizient implementiert wird.
Darüber hinaus werden Kovarianzmatrizen der Modelle verwendet, um Unsicherheitsschätzun-
gen in den Lernprozess mit einzubeziehen. Wir bewerten die Leistung des vorgeschlagenen
Ansatzes an Hand unserer Plattform für Roboter-Tischtennis, indem wir zeigen wie der Arm op-
timiert werden kann. Im Vergleich zum aktuellsten Stand der Technik weist unsere Umsetzung
Vorteile auf.
Schließlich diskutieren wir einen alternativen Ansatz zum Lernen von dünnbesetzten Dar-
stellungen aus demonstrierten Bewegungen. Lernen aus Demonstrationen ist eine einfache und
intuitive Möglichkeit, einem Roboter Beispiele für erfolgreiches Verhalten zu zeigen. Die Tat-
sache, dass Menschen ihren Körper und nicht den Roboter optimieren oder nutzen, wird in
der Robotik oft als Problem der Verkörperung bezeichnet und verhindert, dass Industrieroboter
die gleiche Aufgabe einfach ausführen können. Die gezeigten Bewegungen können die Frei-
heitsgrade des Roboters oft nicht effizient nutzen und leiden typischerweise unter exzessiven
Ausführungsfehlern. Im letzten Kapitel zeigen wir einen neuen Ansatz, der einige dieser Schwie-
rigkeiten lindern kann, indem dünn besetzte Darstellungen von Bewegungen gelernt werden.
Darüber hinaus ist die Anzahl der gelernten Parameter unabhängig von den Freiheitsgraden
des Roboters. Eine dünn besetzte Darstellung ist ein wünschenswertes Merkmal für die Suche
nach Strategien die im Bestärkenden Lernen versuchen die Parameter von Bewegungsprimiti-
ven anzupassen. Indem wir die erlernten Parameter auf dem Pfad eines elastischen Netzes nach
Wichtigkeit ordnen, stellen wir fest, dass unser Ansatz möglicherweise den Fluch der Dimensio-
nalität für Lernanwendungen in der Robotik mildern kann. Wir zeigen vorläufige Ergebnisse auf
unserer physischen Roboterplattform, einschließlich eines erfolgreichen Tischtennis-Aufschlags
unter Verwendung unserer neuen Darstelllung von Bewegungsprimitiven.
Im Verlauf der Arbeit präsentieren und analysieren wir neue Steuerungs- und Lernalgorith-
men. Es werden Online- und effiziente Optimierungsansätze vorgestellt, mit denen nicht nur
Probleme im Tischtennis, sondern auch andere dynamische Aufgaben gelöst werden können. | German |
|