TU Darmstadt / ULB / TUprints

Modeling and Learning of Complex Motor Tasks: A Case Study with Robot Table Tennis

Muelling, Katharina (2013)
Modeling and Learning of Complex Motor Tasks: A Case Study with Robot Table Tennis.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text
Muelling_Thesis.pdf
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .

Download (19MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Modeling and Learning of Complex Motor Tasks: A Case Study with Robot Table Tennis
Language: English
Referees: Peters, Prof. Dr. Jan ; Asfour, Prof. Dr. Tamim
Date: July 2013
Place of Publication: Darmstadt
Date of oral examination: 23 July 2013
Abstract:

Most tasks that humans need to accomplished in their everyday life require certain motor skills. Although most motor skills seem to rely on the same elementary movements, humans are able to accomplish many different tasks. Robots, on the other hand, are still limited to a small number of skills and depend on well-defined environments. Modeling new motor behaviors is therefore an important research area in robotics. Computational models of human motor control are an essential step to construct robotic systems that are able to solve complex tasks in a human inhabited environment. These models can be the key for robust, efficient, and human-like movement plans. In turn, the reproduction of human-like behavior on a robotic system can be also beneficial for computational neuroscientists to verify their hypotheses. Although biomimetic models can be of great help in order to close the gap between human and robot motor abilities, these models are usually limited to the scenarios considered. However, one important property of human motor behavior is the ability to adapt skills to new situations and to learn new motor skills with relatively few trials. Domain-appropriate machine learning techniques, such as supervised and reinforcement learning, have a great potential to enable robotic systems to autonomously learn motor skills. In this thesis, we attempt to model and subsequently learn a complex motor task. As a test case for a complex motor task, we chose robot table tennis throughout this thesis. Table tennis requires a series of time critical movements which have to be selected and adapted according to environmental stimuli as well as the desired targets. We first analyze how humans play table tennis and create a computational model that results in human-like hitting motions on a robot arm. Our focus lies on generating motor behavior capable of adapting to variations and uncertainties in the environmental conditions. We evaluate the resulting biomimetic model both in a physically realistic simulation and on a real anthropomorphic seven degrees of freedom Barrett WAM robot arm. This biomimetic model based purely on analytical methods produces successful hitting motions, but does not feature the flexibility found in human motor behavior. We therefore suggest a new framework that allows a robot to learn cooperative table tennis from and with a human. Here, the robot first learns a set of elementary hitting movements from a human teacher by kinesthetic teach-in, which is compiled into a set of motor primitives. To generalize these movements to a wider range of situations we introduce the mixture of motor primitives algorithm. The resulting motor policy enables the robot to select appropriate motor primitives as well as to generalize between them. Furthermore, it also allows to adapt the selection process of the hitting movements based on the outcome of previous trials. The framework is evaluated both in simulation and on a real Barrett WAM robot. In consecutive experiments, we show that our approach allows the robot to return balls from a ball launcher and furthermore to play table tennis with a human partner. Executing robot movements using a biomimetic or learned approach enables the robot to return balls successfully. However, in motor tasks with a competitive goal such as table tennis, the robot not only needs to return the balls successfully in order to accomplish the task, it also needs an adaptive strategy. Such a higher-level strategy cannot be programed manually as it depends on the opponent and the abilities of the robot. We therefore make a first step towards the goal of acquiring such a strategy and investigate the possibility of inferring strategic information from observing humans playing table tennis. We model table tennis as a Markov decision problem, where the reward function captures the goal of the task as well as knowledge on effective elements of a basic strategy. We show how this reward function, and therefore the strategic information can be discovered with model-free inverse reinforcement learning from human table tennis matches. The approach is evaluated on data collected from players with different playing styles and skill levels. We show that the resulting reward functions are able to capture expert-specific strategic information that allow to distinguish the expert among players with different playing skills as well as different playing styles. To summarize, in this thesis, we have derived a computational model for table tennis that was successfully implemented on a Barrett WAM robot arm and that has proven to produce human-like hitting motions. We also introduced a framework for learning a complex motor task based on a library of demonstrated hitting primitives. To select and generalize these hitting movements we developed the mixture of motor primitives algorithm where the selection process can be adapted online based on the success of the synthesized hitting movements. The setup was tested on a real robot, which showed that the resulting robot table tennis player is able to play a cooperative game against an human opponent. Finally, we could show that it is possible to infer basic strategic information in table tennis from observing matches of human players using model-free inverse reinforcement learning.

Alternative Abstract:
Alternative AbstractLanguage

Menschen üben motorische Fähigkeiten, wie das Greifen einer Kaffeetasse oder das Fangen eines Gegenstandes mit großer Leichtigkeit aus. Sogar schwierigere und komplexe Aufgaben wie Fahrrad fahren oder Tischtennis spielen sind oft bis zu einem gewissen Grad schnell zu erlernen. Auch wenn viele dieser Fähigkeiten nur auf einer kleinen Anzahl elementarer Bewegungen beruhen, ist der Mensch dennoch in der Lage eine Vielzahl unterschiedlicher Aufgaben zu bewältigen. Roboter hingegen sind immer noch festgelegt auf eine bestimmte Anzahl motorischer Abläufe, die in wohl definierten Arbeitsumgebungen ausgeführt werden. Die Modellierung und das Lernen motorische Fähigkeiten ist daher ein wichtiger Aspekt in der Robotik. Mathematische Modelle der motorischen Kontrolle des Menschen können daher genutzt werden um Roboter zu entwickeln, die in der Lage sind komplexe Aufgaben in einem von Menschen bewohnten Umfeld zu bewältigen. Solche Modelle können der Schlüssel zu robusten, effizienten und menschenähnlichen Bewegungsabläufen sein. Im Gegenzug kann die Reproduktion von menschenähnlichen Bewegungsverhalten auf Robotern auch nützlich sein, um diese mathematischen Modelle zu verifizieren. Auch wenn biomimetische Modelle eine große Hilfe sein können, um die Lücke zwischen Mensch und Roboter zu schließen, stellen sie dennoch einen fixen Plan dar, der auf eine bestimmte Anzahl von Szenarien begrenzt ist. Eine wichtige Eigenschaft des Menschen ist jedoch die Fähigkeit, motorische Abläufe an neue Gegebenheiten anzupassen und neue Bewegungen mit relativ wenigen Versuchen zu lernen. Domänenspezifische Verfahren des maschinellen Lernens, wie überwachtes Lernen und Reinforcement-Learning (Lernen durch Versuch und Fehlschlag), haben ein großes Potential um in der Robotik das autonome Lernen von motorischen Fähigkeiten zu ermöglichen. Das Ziel dieser Doktorarbeit ist es eine komplexe motorische Aufgabe zu modellieren und anschließend zu lernen. Als Fallbeispiel verwenden wir Tischtennis. Im Tischtennis kommt es nicht nur darauf an, eine Bewegung bis zur Perfektion zu erlernen. Vielmehr besteht die Aufgabe aus mehreren zeitkritischen Bewegungen, die aufgrund spezifischer Reize der Umgebung ausgewählt, kombiniert und an neue Anforderungen angepasst werden müssen. In dieser Arbeit analysieren wir zunächst Charakteristiken der menschlichen Bewegungskoordination im Tischtennis und erstellen anhand dessen ein mathematisches Modell, welches in der Lage ist menschenähnliche Schlagbewegungen auf einem Roboterarm zu erzeugen. Unser Fokus liegt dabei auf der Erzeugung von Bewegungsabläufen, die mit verschiedenen Variationen und Unsicherheiten der Umgebung umgehen können. Das resultierende biomimetische Modell wird sowohl in einer physikalisch realistischen Simulation, als auch auf einem realen antropomorphischen Barrett WAM Roboterarm mit sieben Freiheitsgraden getestet. Das biomimetische Modell ist in der Lage menschenähnliche Schlagbewegungen zu produzieren, berücksichtigt jedoch nicht die Lernfähigkeit von Menschen. Um diese Anforderung zu erfüllen, zeigen wir in dieser Arbeit, dass die motorischen Fähigkeiten in einer so komplexen Aufgabe wie Tischtennis mittels Imitation und Reinforcement Learning gelernt werden können. Dafür verwenden wir die Erkenntnis, dass Menschen komplexe Bewegungsabläufe aus einer kleinen Anzahl einfacher generalisierbarer Bewegungsprimitive zusammensetzen. Dadurch können einzelne Schlagbewegungen dem Roboter demonstriert und mittels Imitationslernen reproduziert werden. Da sich die einzelnen Schlagbewegungen entsprechend der relativen Entfernung des zu schlagenden Balles vom Roboter, sowie vom Geschwindigkeitsprofil des Balles unterscheiden, muss der Roboter in der Lage sein aus einer kleinen Anzahl von Beispielen die Schlagbewegung zu generalisieren. Dafür entwickeln wir in dieser Arbeit einen neuen Algorithmus, genannt Mixture of Motor Primitives. Der Mixture of Motor Primitives Algorithmus ermöglicht es, basierend auf einer Bibliothek von Bewegungsprimitiven die richtigen Schlagbewegungen, abhängig von der vorherrschenden Situation auszuwählen und zu generalisieren. Der Selektionsprozess der Schlagbewegungen kann dabei selbstständig vom System mittels Reinforcement Learning erlernt werden. Das Framework wurde sowohl in Simulation als auch auf einem realen Barrett WAM Roboter getestet. Dafür lernt der Roboter zunächst eine kleine Anzahl von Schlagbewegungen von einem menschlichen Lehrer durch kinesthetic teach-in. Diese Bewegungen werden dann in eine Bibliothek von Bewegungsprimitiven übersetzt. Wir zeigen, dass diese Bewegungen mit Hilfe unseres Algorithmuses zu einem breiteren Spektrum von Situationen verallgemeinert werden können. Unser Verfahren erlaubt dem Roboter dadurch, Bälle von einer Ballkanone erfolgreich zurück zu spielen sowie gegen einen menschlichen Gegner zu spielen und sein eigenes Verhalten dabei online zu verbessern. Die Ausführung von Bewegungen auf dem Roboter mit Hilfe des biomimetischen und gelernten Ansatzes, ermöglicht dem Roboter zugespielte Bälle zurückzuspielen. Motorische Aufgaben mit kompetetiven Zielstellungen wie im Tischtennis erfordern jedoch zusätzlich eine Strategie, um das Spiel zu gewinnen. Solch eine Strategie kann nur schwer von Hand implementiert werden, da diese sowohl vom Gegner als auch von den Fähigkeiten des Roboter abhängig ist. In dieser Arbeit wird ein Grundstein gelegt um eine solche Strategie erlernen zu können. Im Detail wird die Möglichkeit strategische Informationen aus der Beobachtung von menschenlichen Tischtennisspielen zu extrahieren diskutiert. Dafür modellieren wir Tischtennis als Markov-Entscheidunsproblem, in welchem die Belohnungsfunktion das Ziel sowie das Wissen um die elementaren strategischen Elemente enthalten sind. Wir zeigen wie diese Belohnungsfunktion und damit die strategischen Informationen unter Zuhilfenahme von modellfreien Inverse Reinforcement Learning Methoden aus Daten von Tischtennis spielenden Menschen extrahiert werden können. Diese Daten haben wir von Spielern mit unterschiedlichen Spielweisen und Spielfähigkeiten gesammelt. Wir zeigen, dass die resultierenden Belohnungsfunktionen in der Lage sind expertenspezifische strategische Informationen zu erfassen und zwischen den unterschiedlichen Spielweisen und Spielfähigkeiten der Versuchspersonen zu unterscheiden.

German
URN: urn:nbn:de:tuda-tuprints-35576
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science
20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 22 Aug 2013 10:50
Last Modified: 22 Aug 2013 10:50
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/3557
PPN: 386305544
Export:
Actions (login required)
View Item View Item