TU Darmstadt / ULB / TUprints

Real Time Probabilistic Models for Robot Trajectories

Gomez Gonzalez, Sebastian (2020)
Real Time Probabilistic Models for Robot Trajectories.
Technische Universität Darmstadt
doi: 10.25534/tuprints-00011492
Ph.D. Thesis, Primary publication

[img]
Preview
Text
thesis_sebastian_gomez_gonzalez.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (2MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Real Time Probabilistic Models for Robot Trajectories
Language: English
Referees: Peters, Prof. Dr. Jan ; Kormushev, Prof. Dr. Petar
Date: 2020
Place of Publication: Darmstadt
Date of oral examination: 16 December 2019
DOI: 10.25534/tuprints-00011492
Abstract:

Robot learning has the potential to give robotic systems the ability to perform multiple tasks and solve difficult tasks in dynamic environments. Probabilistic approaches to robot learning have several properties interesting for robotic applications such as providing uncertainty estimates and likelihood evaluations, useful for decision making and finding atypical environment states where acting might be dangerous for the robot. There are also some typical challenges that robot learning in general and specially probabilistic approaches face for robotics. Real time robot applications such as robot table tennis place strict latency requirements for prediction, likelihood evaluations or other important operators. The amount of data available for learning in robotic applications is also typically not very large, increasing the risks of overfitting specially for probabilistic approaches that usually have more parameters than deterministic methods for the same predictive accuracy. Finally, for certain applications with complex sensors such as computer vision systems it is important to have robot learning methods capable of operating with missing observations and outliers. In this thesis, we use robot table tennis as an example of a challenging application to propose or extend probabilistic learning approaches for trajectory representations. We place special focus on evaluating the latency of the real time critical operators, trying to ensure safety of the robot to unexpected environment states, operating with missing observations or outliers, and learning with relatively small training sets. Although table tennis is our inspiring application, we propose operators that can be used for other robot applications, trying to keep the table tennis specific heuristics to a minimum. First we discuss how to learn a robot policy from demonstrations using Probabilistic Movement Primitives. We propose a learning method to learn a movement primitive from a small set of demonstrations performed by a human expert. We compare the proposed learning method with a least squares based method, showing that the least squares method is a special case of the proposed learning algorithm. We also show experimentally that the proposed learning method does not suffer from the overfitting problems of the least squares method and the table tennis hitting and return rate is superior. We also propose adaptation operators in joint and task space for the learned movement primitives, necessary to react to changes in the robot environment such as different incoming ball trajectories or the location of objects like a grinder and brewing chamber for a coffee preparation task. We also present a vision system for real-time object tracking. We focus on reliability of the estimates produced by the vision system, reducing the number of outliers to a minimum, specially as the number of available cameras increases. We use the proposed vision system to track the table tennis ball for robot table tennis with a speed of 180 frames per second. Finally, we introduce a new method for forecasting the future value of a trajectory given its past observations based on variational auto-encoders. We use the proposed model to predict the trajectory of the ball from previous observations of the ball position. The proposed method has a better accuracy for long term predictions than traditional time series forecasting methods such as recurrent neural networks or using differential equations based of physical models, provided that the spin of the ball is not observed by the vision system.

Alternative Abstract:
Alternative AbstractLanguage

Roboterlernen hat das Potenzial, Robotik-Systemen die Fähigkeit zu verleihen, mehrere Aufgaben unterschiedlicher Schwierigkeit in dynamischen Umgebungen zu lösen. Probabilistische Ansätze für das Roboterlernen haben mehrere interessante Eigenschaften in Robotik-Anwendungen, wie zum Beispiel die Bereitstellung von Unsicherheitsabschätzungen und Wahrscheinlichkeiten, die nützlich für Entscheidungsprozesse sowie das Finden von atypischen Umgebungszuständen sind, in denen es für den Roboter gefährlich sein könnte, zu handeln. Weiterhin gibt es einige typische Herausforderungen im Roboterlernen im Allgemeinen und bei probabilistischen Ansätzen im Speziellen, denen die Robotik begegnen muss. Echtzeit-Robotikanwendungen wie Roboter-Tischtennis bringen strikte Anforderungen an die Latenz von Vorhersagen, der Auswertung von Wahrscheinlichkeiten und anderen wichtigen Operationen mit sich. Die Menge an Daten, die für das Lernen zur Verfügung stehen, ist in Robotik-Anwendungen außerdem für gewöhnlich nicht besonders groß, was die Gefahr von Overfitting erhöht, insbesondere für probabilistische Ansätze, die normalerweise bei gleicher Vorhersagegenauigkeit mehr Parameter aufweisen als deterministische Modelle. Darüber hinaus ist es für bestimmte Anwendungen mit komplexer Sensorik, wie zum Beispiel Computer-Vision-Systemen, wichtig, Lernmethoden einzusetzen, die mit fehlenden Daten sowie Ausreißern umgehen können. In dieser Arbeit verwenden wir Roboter-Tischntennis als Beispiel einer anspruchsvollen Anwendung, um neue probabilistische Lernansätze zur Repräsentation von Trajektorien vorzuschlagen oder bestehende zu erweitern. Besonderes Augenmerk legen wir dabei auf die Auswertung der Latenz von für den Echtzeit-Ablauf kritischen Operationen, auf die Gewährleistung der Sicherheit des Roboters gegenüber unerwarteten Umgebungszuständen, den Betrieb mit fehlenden Daten oder Ausreißern und auf das Lernen mit verhältnismäßig kleinen Trainingssets. Obwohl Tischtennis die inspirierende Anwendung ist, führen wir Operatoren ein, die auch in anderen Robotik-Projekten angewendet werden können, wobei die für Tischtennis spezifischien Heuristiken auf ein Minimum reduziert werden. Zunächst besprechen wir, wie eine Policy aus Demonstrationen mit Hilfe von Probabilistic Movement Primitives gelernt werden kann. Wir schlagen eine Lernmethode vor, die es erlaubt, ein Movement Primitive anhand von wenigen Demonstrationen eines menschlichen Experten zu lernen. Diese Lernmethode vergleichen wir mit einem Ansatz, der auf der Methode der kleinsten Quadrate basiert, wobei wir zeigen, dass der Kleinste-Quadrate-Ansatz ein Spezialfall der vorgeschlagenen Methode ist. Auf der Basis von experimentellen Daten wird gezeigt, dass die vorgeschlagene Lernmethode nicht anfällig für die Overfitting-Probleme der Kleinste-Quadrate-Methode ist und dass die Tischtennis-Treffer- und Rückspielraten höher sind. Wir führen außerdem Adaptations-Operatoren im Joint- und Task-Space für die gelernten Movement Primitives ein, welche notwendig für die Reaktion auf Veränderungen in der Umgebung des Roboters wie veränderte Balltrajektorien oder den veränderten Ort von Objekten wie einer Kaffeemühle und -maschine in einer Kaffeezubereitungsaufgabe sind. Darüber hinaus stellen wir ein Vision System für das Echtzeit-Tracking von Objekten vor. Der Schwerpunkt liegt dabei auf der Zuverlässigkeit der resultierenden Schätzwerte für die Objektposition, wobei die Anzahl an Ausreißern auf ein Minimum reduziert wird, insbesondere bei erhöhter Anzahl von Kameras. Wir verwenden das vorgeschlagene Vision System für das Tracking des Tischtennisballs für das Roboter-Tischtennis mit einer Geschwindigkeit von 180 Bildern pro Sekunde. Schließlich führen wir eine neue Methode für die Vorhersage des zukünftigen Werts einer Trajektorie auf Basis von vergangenen Beobachtungen basierend auf Variational Autoencodern ein. Wir wenden das vorgeschlagene Modell auf die Vorhersage der Balltrajektorie auf Grundlage von aufgezeichneten Ballpositionen an. Die vorgeschlagene Methode hat eine bessere Genauigkeit für Langzeitvorhersagen als gängige Methoden zur Vorhersage von Zeitreihen wie rekurrente neuronale Netze oder Physik-basierte Differenzialgleichungen, vorausgesetzt, dass der Spin des Balls nicht vom Vision System erfasst wird.

German
URN: urn:nbn:de:tuda-tuprints-114926
Classification DDC: 000 Generalities, computers, information > 004 Computer science
500 Science and mathematics > 510 Mathematics
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
20 Department of Computer Science > Artificial Intelligence and Machine Learning
Date Deposited: 11 Mar 2020 13:42
Last Modified: 09 Jul 2020 06:27
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/11492
PPN: 462145956
Export:
Actions (login required)
View Item View Item