TU Darmstadt / ULB / TUprints

Machine Learning through Exploration for Perception-Driven Robotics

van Hoof, Herke :
Machine Learning through Exploration for Perception-Driven Robotics.
Technische Universität Darmstadt, Darmstadt
[Ph.D. Thesis], (2016)

[img]
Preview
Text
thesis_front.pdf - Published Version
Available under CC-BY-NC-ND 4.0 International - Creative Commons Attribution Non-commercial No-derivatives 4.0.

Download (8MB) | Preview
Item Type: Ph.D. Thesis
Title: Machine Learning through Exploration for Perception-Driven Robotics
Language: English
Abstract:

The ability of robots to perform tasks in human environments has largely been limited to rather simple and specific tasks, such as lawn mowing and vacuum cleaning. As such, current robots are far away from the robot butlers, assistants, and housekeepers that are depicted in science fiction movies. Part of this gap can be explained by the fact that human environments are hugely varied, complex and unstructured. For example, the homes that a domestic robot might end up in are hugely varied. Since every home has a different layout with different objects and furniture, it is impossible for a human designer to anticipate all challenges a robot might face, and equip the robot a priori with all the necessary perceptual and manipulation skills.

Instead, robots could be programmed in a way that allows them to adapt to any environment that they are in. In that case, the robot designer would not need to precisely anticipate such environments. The ability to adapt can be provided by robot learning techniques, which can be applied to learn skills for perception and manipulation. Many of the current robot learning techniques, however, rely on human supervisors to provide annotations or demonstrations, and to fine-tuning the methods parameters and heuristics. As such, it can require a significant amount of human time investment to make a robot perform a task in a novel environment, even if statistical learning techniques are used.

In this thesis, I focus on another way of obtaining the data a robot needs to learn about the environment and how to successfully perform skills in it. By exploring the environment using its own sensors and actuators, rather than passively waiting for annotations or demonstrations, a robot can obtain this data by itself. I investigate multiple approaches that allow a robot to explore its environment autonomously, while trying to minimize the design effort required to deploy such algorithms in different situations.

First, I consider an unsupervised robot with minimal prior knowledge about its environment. It can only learn through observed sensory feedback obtained though interactive exploration of its environment. In a bottom-up, probabilistic approach, the robot tries to segment the objects in its environment through clustering with minimal prior knowledge. This clustering is based on static visual scene features and observed movement. Information theoretic principles are used to autonomously select actions that maximize the expected information gain, and thus learning speed. Our evaluations on a real robot system equipped with an on-board camera show that the proposed method handles noisy inputs better than previous methods, and that action selection according to the information gain criterion does increase the learning speed.

Often, however, the goal of a robot is not just to learn the structure of the environment, but to learn how to perform a task encoded by a reward signal. In addition to the weak feedback provided by reward signals, the robot has access to rich sensory data, that, even for simple tasks, is often non-linear and high-dimensional. Sensory data can be leveraged to learn a system model, but in high-dimensional sensory spaces this step often requires manually designing features. I propose a robot reinforcement learning algorithm with learned non-parametric models, value functions, and policies that can deal with high-dimensional state representations. As such, the proposed algorithm is well-suited to deal with high-dimensional signals such as camera images. To avoid that the robot converges prematurely to a sub-optimal solution, the information loss of policy updates is limited. This constraint makes sure the robot keeps exploring the effects of its behavior on the environment. The experiments show that the proposed non-parametric relative entropy policy search algorithm performs better than prior methods that either do not employ bounded updates, or that try to cover the state-space with general-purpose radial basis functions. Furthermore, the method is validated on a real-robot setup with high-dimensional camera image inputs.

One problem with typical exploration strategies is that the behavior is perturbed independently in each time step, for example through selecting a random action or random policy parameters. As such, the resulting exploration behavior might be incoherent. Incoherence causes inefficient random walk behavior, makes the system less robust, and causes wear and tear on the robot. A typical solution is to perturb the policy parameters directly, and use the same perturbation for an entire episode. However, this strategy tends to increase the number of episodes needed, since only a single perturbation can be evaluated per episode. I introduce a strategy that can make a more balanced trade-off between the advantages of these two approaches. The experiments show that intermediate trade-offs, rather than independent or episode-based exploration, is beneficial across different tasks and learning algorithms.

This thesis thus addresses how robots can learn autonomously by exploring the world through unsupervised learning and reinforcement learning. Throughout the thesis, new approaches and algorithms are introduced: a probabilistic interactive segmentation approach, the non-parametric relative entropy policy search algorithm, and a framework for generalized exploration. To allow the learning algorithms to be applied in different and unknown environments, the design effort and supervision required from human designers or users is minimized. These approaches and algorithms contribute towards the capability of robots to autonomously learn useful skills in human environments in a practical manner.

Alternative Abstract:
Alternative AbstractLanguage
Die Fähigkeit von Robotern Aufgaben in menschlichen Umgebungen zu erfüllen hat sich bisher weitgehend auf relativ einfache und spezifische Aufgaben, wie Rasenmähen und Staubsaugen, beschränkt. Als solche sind sie weit entfernt von den Robotern als Butlern, Assistenten, und Haushälter, die in Science-Fiction-Filmen dargestellt sind. Ein Teil dieser Differenz kann durch die Tatsache erklärt werden, dass die menschliche Umwelt enorm vielfältig und komplex ist. Diese Eigenschaften machen es sehr schwer für einen menschliche Entwickler alle Herausforderungen zu antizipieren, die einen Roboter konfrontieren können. Roboter könnten stattdessen auf einer Weise programmiert werden, die es ihnen ermöglicht sich durch lernen an ihre Umgebung anzupassen. Dies würde die Notwendigkeit für den Entwickler des Roboters Umgebungen genau zu antizipieren unnötig machen. Viele der aktuellen Techniken für lernende Roboter, sind jedoch auf menschliche Annotation, Demonstrationen und Feinabstimmung angewiesen. Dadurch ist der Vorteil dieser Lerntechniken beschränkt. In dieser Dissertation werde ich mich auf eine andere Art und Weise fokussieren die Daten zu erhalten, die ein Roboter zum lernen braucht. Durch die Exploration der Umgebung mittels der eigenen Sensoren und Aktoren, erhält ein Roboter Daten, die es ihm ermöglichen zu lernen erfolgreich in seiner Umgebung zu agieren. Ich werde mehrere Ansätze untersuchen, die es einem Roboter ermöglichen seine Umgebung autonom zu explorieren und gleichzeitig versuchen, den Entwicklungsaufwand für den Einsatz solcher Algorithmen in verschiedenen Situationen zu minimieren. Erstes betrachte ich einen unüberwachten Roboter mit minimalem Vorwissen über seine Umgebung. Der Roboter beobachtet das sensorische Feedback, das durch die interaktive Exploration der Umgebung ausgelöst wird. Nur dieses Feedback ermöglicht ihm das Lernen. In einem Bottom-up, probabilistischen Ansatz versucht der Roboter die Objekte in seiner Umgebung durch Cluster-analyse mit minimalem Vorwissen auf Basis von visueller Merkmale und den beobachtete Bewegungen zu segmentieren. Informationstheoretische Prinzipien werden verwendet, um eigenständig Aktionen auszuwählen, die den erwarteten Informationsgewinn, und damit die Lerngeschwindigkeit, maximieren. Die Auswertungen auf einem realen Robotersystem mit On-Board-Kamera zeigen, dass das vorgeschlagenen Verfahren verrauschte Daten besser verarbeitet als bisherige Verfahren, und dass die Auswahl der Aktionen nach dem Informationsgewinnkriterium die Lerngeschwindigkeit tatsächlich erhöht. Im Gegensatz zu diesem komplett unbeaufsichtigtem Setup, ist im Framework des verstärkenden Lernens eine schwache Form von Rückmeldung in Form von Belohnungssignalen vorhanden. Zusätzlich zu diesen schwachen Belohnungssignalen hat der Roboter Zugriff auf reichhaltige sensorische Daten, die selbst für einfache Aufgaben häufig nichtlinear und hochdimensional sind. Sensorische Daten können verwendet werden um ein Systemmodell zu lernen, aber in hochdimensionalen Datenräume erfordert dieser Schritt häufig manuell konstruierte Merkmale. Ich schlage einen Algorithmus zum verstärkenden Roboterlernen vor, der durch gelernte, nichtparametrische Modelle, Nutzenfunktionen und Strategien mit hochdimensionalen Darstellungen umgehen kann. Als solches ist der vorgeschlagene Algorithmus gut geeignet hochdimensionalen Signale wie Kamerabilder zu verarbeiten. Um zu vermeiden, dass der Roboter vorzeitig zu einer suboptimalen Lösung konvergiert, wird der Informationsverlust des Strategieoptimierungsschritts beschränkt. Diese Beschränkung stellt sicher, dass der Roboter die Auswirkungen seines Verhaltens auf die Umwelt weiterhin exploriert. Die Experimente zeigen, dass der vorgeschlagene `non-parametric relative Entropy Policy Search' Algorithmus zu besseren Ergebnissen führt als vorherige Methoden, die entweder unbeschränkte Optimierungsschritte verwenden, oder versuchen den Zustandsraum mit universalen radialen Basisfunktionen abzudecken. Darüber hinaus ist das Verfahren auf einem Robotersetup mit hochdimensionalen Kamerabildern validiert. Ein Problem bei typischen Explorationsverfahren ist, dass das Verhalten in jedem Zeitschritt unabhängig gestört wird, zum Beispeil durch die Auswahl von willkürlichen Aktionen oder Parametern. Als solches kann das entstehende Verhalten inkohärent sein, was zu ineffizienten Zufallsbewegungen, geringer Robustheit und Verschleiß am Roboter führt. Eine typische Lösung besteht darin, die gleiche Parameterstörung auf einer gesamten Episode zu verwenden, aber dies führt tendenziell zur einer Erhöhung der Anzahl benötigter Episoden. In dieser Dissertation wird eine Methode untersucht, die einen ausgewogeneren Kompromiss zwischen den Vorteilen beider Verfahren macht. Die Experimente zeigen, dass solche Kompromisse in verschiedenen Aufgaben und Lernalgorithmen von Vorteil sind. Diese Arbeit fokussiert sich also auf Roboter die durch Exploration der Umwelt autonom lernen. Zu diesem Ziel werden neue Ansätze und Algorithmen für unbeaufsichtigtes und verstärkendes Lernen eingeführt: ein probabilistischer interaktiver Segmentierungsansatz, der `non-parametric relative entropy policy search' Algorithmus und ein Framework für generalisierte Exploration. In diesen Ansätzen werden Entwicklungsaufwand und überwachung durch Menschen minimiert, um sie einfach in unterschiedlichen Umgebungen anwenden zu können. Die Beiträge dieser Arbeit liefern einen Schritt in Richtung praktischer Lernverfahren für nützliche Roboterfähigkeiten in menschlichen Umgebungen.German
Place of Publication: Darmstadt
Classification DDC: 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Divisions: 20 Department of Computer Science
20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 04 Nov 2016 13:57
Last Modified: 04 Nov 2016 13:57
URN: urn:nbn:de:tuda-tuprints-57497
Referees: Peters, Prof. Dr. Jan and Toussaint, Prof. Dr. Marc
Refereed: 1 November 2016
URI: http://tuprints.ulb.tu-darmstadt.de/id/eprint/5749
Export:
Actions (login required)
View Item View Item

Downloads

Downloads per month over past year