TU Darmstadt / ULB / TUprints

Learning Sequential Skills for Robot Manipulation Tasks

Manschitz, Simon (2018)
Learning Sequential Skills for Robot Manipulation Tasks.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

PhD Thesis of Simon Manschitz - Text (PhD Thesis of Simon Manschitz)
2017_phdthesis.pdf - Accepted Version
Copyright Information: CC BY 4.0 International - Creative Commons, Attribution.

Download (61MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Learning Sequential Skills for Robot Manipulation Tasks
Language: English
Referees: Peters, Prof. Dr. Jan ; Billard, Prof. Dr. Aude ; Kober, Dr.-Ing. Jens
Date: 2018
Place of Publication: Darmstadt
Date of oral examination: 19 December 2017

Most people's imagination about robots has been shaped by Hollywood movies or novels, resulting in the dream of having robots as assistants or household helpers in our homes. However, there is still a large gap between this dream and the actual capabilities of robots. One underlying reason is that every home is unique and largely unstructured, making it impossible to pre-program a robot for all the challenges it might face in such an environment. For instance, floor plans and furniture differ from home to home. Humans and pets walk around, potentially getting in the robot's way and making the environment non-static. Hence, a pre-programmed robot deployed in such an environment will undoubtedly face problems that it cannot solve with its existing knowledge. In order to cope with this issue, researchers started to equip robots with learning capabilities. Ideally, such capabilities allow a robot to adapt skills to new or changing situations or even to learn completely new tasks. Also humans learn new skills over time and are able to adapt them if needed. Therefore, such learning capabilities seem natural to us. If we are not able to master a specific task, we usually would ask another person to demonstrate it or to give instructions on how to perform it. In robotics research, the field of "Learning from Demonstration" tries to mimic this behavior by learning new skills from demonstrations of a task. By applying machine learning techniques, the data perceived from a single or multiple demonstrations are exploited to learn a mapping from perception to the action of a robot.

In this thesis, we concentrate on important Learning from Demonstration aspects that have not gotten so much attention in the research community so far. In particular, we focus on learning methods for robot manipulation tasks. These tasks have two important characteristics. First, they can be naturally decomposed into a set of subtasks and, therefore, can be mastered by performing the individual subtasks in the correct sequential order. Second, they involve physical contact between the robot and objects in its environment. One aim of this thesis is developing methods which allow for learning skills for robot manipulation tasks that generalize well to unknown situations. For instance, a learned skill should also be applicable if positions and orientations of objects differ from those seen in a demonstration.

In the first part of the thesis, we focus on the "sequential" aspect of manipulation tasks. Many approaches assume that subtasks are executed in a purely sequential manner or that the human always demonstrates the same sequence of subtasks. We propose an approach that does not have this assumption. Based on the demonstrations, a graph is generated which connects the subtasks with each other. Each subtask is associated with a movement primitive, a basic elementary movement necessary to perform the subtask. Depending on the environmental conditions, different sequences of movement primitives are executed, allowing the robot to perform tasks which for instance require an arbitrary number of repetitions (e.g., unscrewing a light bulb).

As we concentrate on the sequential aspects of a task in the first part of the thesis, we assume the demonstrations are labeled with the correct movement primitives over time. Additionally, the movement primitives are predefined. In the second part of the thesis, these two assumptions are relaxed. We first present an approach which decomposes the demonstrations into a set of meaningful movement primitives by inferring the underlying sequential structure of the task. The decomposition is based on a probability distribution we call Directional Normal Distribution. By utilizing the distribution, our method infers if a movement should be performed relative to an object in the scene and if a force should be applied in certain directions or not. Forces are especially important when interacting with the environment, for example if the robot has to manipulate objects. By defining movements relative to objects in the scene, the robot is likely to generalize better to new situations, for instance if the object positions differ from the demonstrations. Our task-decomposition method allows for inferring the most likely movement primitives over time and replaces the process of manually labeling the demonstrations. By combining the method with the sequencing concept presented in the first part of the thesis, complex skills can be learned from scratch without further human supervision. Such a learning scheme is an essential requirement for domestic robots, as not every human teacher might be able or willing to do the tedious labeling of the data.

In both the decomposition and the sequencing part of the thesis, we assume that the teacher performs point-to-point movements and stops between two successive movements. While these assumptions lead to an approach which can learn skills for fairly complex tasks, it also restricts the class of tasks for which the approach can be used. In the third part of the thesis, we therefore introduce the Mixture of Attractors movement primitive representation. Here, a movement is modulated by continuously changing the activations of a set of simple attractors over time. We present a learning algorithm for the representation which learns both the attractors and their activations. An important property of the representation is that the attractors can be defined in different coordinate frames. The continuous activations and the attractors defined in different coordinate frames allow the system to learn movements of arbitrary shape and to generalize them to different object positions. In addition, the transitions between successive movements are smooth. This property reflects an important behavior of humans who often tend to co-articulate between successive movements. In contrast to many existing approaches, movements are learned by solving a convex optimization problem that does not rely on a good initial estimate of parameters.

In summary, the contribution of this thesis to the state-of-the-art in Learning from Demonstration is two-fold. The first contribution is a framework which is able to learn sequential skills for robot manipulation tasks from a few demonstrations. In contrast to other approaches, our method incorporates object-relative movements and force information directly into the skill learning framework. The second contribution is the Mixture of Attractors movement primitive representation. The representation supports co-articulated movements represented in different coordinate frames and outperforms existing movement primitive representations in terms of accuracy and generalization capabilities. Both contributions are evaluated on a wide range of tasks in simulation and on a real single arm robot with seven degrees of freedom. Altogether, this thesis aims at bringing us closer to the dream of having autonomous robots in our homes.

Alternative Abstract:
Alternative AbstractLanguage

Die menschliche Vorstellung von Robotern wurde überwiegend von Hollywood-Filmen oder Büchern geprägt. Daraus entstand der Wunsch, Roboter als Assistenten oder Haushaltshelfer in unseren Wohnungen einzusetzen. Auch nach Jahren der Forschung besteht jedoch weiterhin eine Diskrepanz zwischen diesem Wunsch und den tatsächlichen Fähigkeiten von Robotern. Ein Grund für diese Diskrepanz ist, dass Wohnungen einzigartig und überwiegend unstrukturiert sind. So unterscheiden sich beispielsweise Grundrisse und Raumaufteilungen von Haus zu Haus. Des Weiteren bewegen sich Menschen und Haustiere frei innerhalb der Wohnung und erzeugen durch ihr Verhalten eine komplexe, dynamische Umgebung. Deshalb ist es quasi unmöglich Roboter so zu programmieren, dass sie allen Anforderungen in der realen Welt gewachsen sind. Es ist sehr wahrscheinlich, dass ein Roboter mit fest programmiertem Verhalten irgendwann auf ein Problem stoßen wird, welches er mit seinem vorhandenen Wissen nicht lösen kann. Aus diesem Grund versuchen Wissenschaftler seit geraumer Zeit, Roboter mit Lernfähigkeiten auszustatten. Im Idealfall ermöglichen solche Fähigkeiten das Anpassen eines Verhaltens an sich ändernde Anforderungen oder sogar das Erlernen von komplett neuen Aufgaben. Menschen besitzen ebenfalls ausgeprägte Lernfähigkeiten, weshalb es uns sehr natürlich erscheint, diese auch auf Roboter zu übertragen. Wenn ein Mensch eine ihm unbekannte Aufgabe nicht lösen kann, so fragt er oftmals eine andere, erfahrenere Person, ob sie ihm die Lösung zeigen kann. In der Robotikforschung beschäftigt sich das Feld „Learning from Demonstration“ damit, wie ein Roboter anhand von Demonstrationen eine Aufgabe erlernen kann.

In dieser Arbeit konzentrieren wir uns auf wichtige „Learning from Demonstration“-Aspekte, die bislang nicht so sehr im Fokus der Forschung standen. Insbesondere konzentrieren wir uns auf Lernmetho- den für sequentielle Roboter-Manipulationsaufgaben. Solche Aufgaben haben zwei Charakteristika, die in unserem Kontext relevant sind. Zunächst lassen sie sich üblicherweise in Teilaufgaben zerlegen, die in der richtigen Reihenfolge abgearbeitet werden müssen, um die Gesamtaufgabe erfolgreich zu erledigen. Des Weiteren erfordern Manipulationsaufgaben eine direkte Interaktion des Roboters mit den Objekten in seiner Umgebung. Ein Ziel der Arbeit ist es Methoden zu entwickeln, die es erlauben, generalisierbare Fähigkeiten für Roboter-Manipulationsaufgaben zu lernen, die beispielsweise auch anwendbar sind, wenn Position und/oder Orientierung von Objekten von den Demonstrationen abweichen.

Im ersten Teil der Arbeit konzentrieren wir uns auf den „sequentiellen“ Charakter vieler Aufgaben. Eine Grundannahme vieler Ansätze in diesem Bereich ist, dass Teilaufgaben immer in der gleichen Reihenfolge demonstriert werden, auch wenn diese für das Durchführen der Aufgabe nicht entscheidend ist. Unser Ansatz geht nicht von dieser Annahme aus. Anhand der Demonstrationen wird eine Graph-Repräsentation der Aufgabe erzeugt, die die Teilaufgaben miteinander in Verbindung bringt. Jede Teilaufgabe wird durch en Bewegungsprimitiv repräsentiert, eine simple, elementare Bewegung, von der wir annehmen, dass das Ausführen der Bewegung die Teilaufgabe löst. In Abhängigkeit des aktuellen Zustandes des Roboters und dessen Umgebung werden unterschiedliche Sequenzen von Bewegungsprimitiven ausgeführt, sodass Aufgaben gelöst werden können, die beispielsweise eine beliebige Anzahl von Wiederholungen benötigen, wie das Herausschrauben einer Glühbirne.

Da wir uns im ersten Teil der Arbeit auf das Sequenzieren von Bewegungen konzentrieren, nehmen wir an, dass die Demonstrationen durch den Benutzer vor dem Lernprozess vorverarbeitet werden müssen. So muss der Benutzer beispielsweise die Demonstrationen in logische Segmente unterteilen und jedem Segment ein dazugehöriges Bewegungsprimitiv zuweisen. Außerdem gehen wir davon aus, dass die einzelnen Bewegungsprimitive unserem System bereits bekannt sind. Im zweiten Teil der Arbeit präsentieren wir einen Ansatz, der diese Vorverarbeitungsschritte ersetzt. Unsere Methode erlaubt das automatische Extrahieren von einzelnen Bewegungsprimitiven aus den Demonstrationen und kann jedem Teil einer Demonstration das wahrscheinlichste Bewegungsprimitiv zuweisen. Basierend auf einer von uns „Directional Normal Distribution“ genannten Wahrscheinlichkeitsverteilung kann für jedes Bewegungsprimitiv entschieden werden, ob die Bewegung relativ zu einem Objekt ausgeführt werden soll und ob der Roboter eine Kraft aufbringen muss. Durch das Erlernen von objekt-relativen Bewegungen können die erlernten Fähigkeiten auf beliebige Positionen und Orientierungen von Objekten angewendet werden, auch wenn diese sich von den Demonstrationen unterschieden. Durch die Kombination dieser Methode mit dem Sequenzierungskonzept aus dem ersten Teil der Arbeit können komplexe Fähigkeiten anhand von Demonstrationen erlernt werden, ohne dass der Benutzer in den Lernprozess eingreifen muss.

In den ersten beiden Teilen der Arbeit nehmen wir an, dass eine Demonstration einer Aufgabe aus einer Sequenz von Punkt-zu-Punkt Bewegungen besteht und das zwischen zwei demonstrierten Bewegungen eine kurze Pause gemacht werden muss. Auch wenn mit den vorgestellten Methoden Fähigkeiten für komplexe Aufgaben erlernt werden können, so schränken diese Annahmen doch die Menge von Problemen ein, auf denen sie angewendet werden können. Im dritten Teil der Arbeit präsentieren wir daher eine neue Bewegungsprimitivbeschreibung, die wir „Mixture of Attractors“ nennen. Hierbei wird eine Bewegung erzeugt, indem kontinuierlich die Aktivierungen von mehreren simplen Attraktoren gemischt werden. Wir präsentieren einen Lernalgorithmus für die Primitivbeschreibung, die sowohl die Position der Attraktoren als auch deren Aktivierungen anhand von Demonstrationen lernt. Eine wichtige Eigenschaft der Beschreibung ist, dass die Attraktoren in verschiedenen Koordinatensystem definiert werden können. Durch das kontinuierliche Verändern der Aktivierungen solcher Attraktoren können komplexe Bewegungen in Relation zu Objekten in der Umgebung gelernt werden. Des Weiteren wird automatisch auch ein fließender Übergang zwischen zwei aufeinanderfolgenden Bewegungen gelernt. Solch ein fließender Übergang wird Koartikulation genannt und kann auch beim Menschen beobachtet werden. Im Gegensatz zu anderen Methoden ist der Lernvorgang als konvexes Optimierungsproblem formuliert, weshalb die Qualität der Lösung nicht von einem Schätzwert der Parameter abhängt.

Zusammenfassend sind die Hauptbeiträge dieser Arbeit zum Stand der Forschung im Gebiet „Learning from Demonstration“ folgende. Der erste Beitrag ist ein Framework welches es ermöglicht, komplexe sequentielle Fähigkeiten für Manipulationsaufgaben anhand weniger Demonstrationen zu erlernen. Im Gegensatz zu vielen bereits existierenden Methoden konzentrieren wir uns dabei auf die Unterscheidung von Positions- und Kraftkontrolle sowie die Entscheidung ob eine Bewegung relativ zu einem Objekt ausgeführt werden soll. Der zweite Beitrag ist die „Mixture of Attractors“ Bewegungsprimitivbeschreibung, die das Erlernen von komplexen, koartikulierten, objekt-relativen Bewegungen ermöglicht. Die in der Arbeit präsentierten Methoden werden anhand von Simulationsergebnissen und realen Roboterexperimenten mit einem Roboterarm mit sieben Freiheitsgraden evaluiert und validiert. Das Gesamtziel dieser Arbeit ist es, einen Betrag zu leisten, der uns einen Schritt näher an das Ziel bringt, lernfähige und vielseitig einsetzbare Roboter in unseren Alltag zu integrieren.

URN: urn:nbn:de:tuda-tuprints-71850
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 30 Jan 2018 11:32
Last Modified: 09 Jul 2020 02:00
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/7185
PPN: 425308650
Actions (login required)
View Item View Item