Interactive Machine Learning for Assistive Robots

Koert, Dorothea (2020)
Interactive Machine Learning for Assistive Robots.
Technische Universität Darmstadt
doi: 10.25534/tuprints-00014184
Ph.D. Thesis, Primary publication, Publisher's Version

Preview

Text
thesis_koert.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (11MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Interactive Machine Learning for Assistive Robots

Language:

English

Referees:

Peters, Prof. Dr. Jan ; Ben Amor, Prof. Dr. Heni

Date:

16 October 2020

Place of Publication:

Darmstadt

Date of oral examination:

11 February 2020

DOI:

10.25534/tuprints-00014184

Abstract:

Intelligent assistive robots can potentially support elderly persons and caregivers in their everyday lives and facilitate a closer man and machine collaboration as an essential part of the yet to come 5-th industrial revolution. In contrast to classical robotic applications where robots were mostly designed for repetitive tasks, assistive robots will face a variety of different tasks in close contact with everyday users. In particular, it is difficult to foresee the variety of applications beforehand since they depend on a person's individual needs and preferences. This renders preprogramming of all tasks for assistive robots difficult and gives need to explore methods of how robots can learn new tasks at hand during deployment time. Learning from and during direct interaction with humans provides hereby a potentially powerful tool for an assistive robot to acquire new skills and incorporate prior human knowledge during the exploration of novel tasks. Such an interactive learning process can not only help the robot to acquire new skills or profit from human prior knowledge but also facilitates the participation of inexperienced users or coworkers which can lead to a higher acceptance of the robot. However, while on the one hand human presence and assistance can be beneficial during the learning process, on the other hand, close contact with inexperienced users also imposes challenges. In shared workspaces or in close contact with everyday users a robot should be able to adapt learned skills to achieve as little disturbance of humans as possible. It becomes also important to evaluate human preferences about such adaptation strategies, their understanding of interactive learning processes and different ways for human input into learning. To come closer to the goal of intelligent assistive robots is therefore important to develop novel interactive learning methods and evaluate them in different robotic applications. This thesis focusses on three main challenges related to the development of assistive intelligent robots and their interaction with everyday users. The different parts of the thesis contribute not only novel theoretical methods but additionally also evaluations on different robotic tasks with users, that had zero or only little prior experience with robots. The first challenge is to enable robots to learn cooperative skills from a potentially open-ended stream of human demonstrations in an incremental fashion. While learning new skills from human demonstrations has already been exploited in the literature it remains challenging to learn skill libraries from incrementally incoming demonstrations and when the total number of skills is not known beforehand. Therefore, in the first part of the thesis, we introduce an approach for online and incremental learning of a library for collaborative skills. Here, we follow a Mixture of Experts based approach and incrementally learn a library of collaborative skills and a gating model from coupled human-robot trajectories. Once trained, the gating model can decide which skill to choose as an appropriate response to a human motion, based on prior demonstrations and activate the corresponding robot skill. In contrast to existing batch learning methods, our method does not require the total number of skills to be known a priori and can learn new skills as well as update existing skills from multiple human demonstrations. The cooperative skills are represented as Probabilistic Interaction Primitives which can capture variance and inherent correlations in the demonstrations. We evaluate our method with different human subjects in a task where a robot assists the subjects in making a salad. We also evaluate hereby how learned skills transfer between different subjects. Second, intelligent assistive robots should be able to adapt learned skills to humans when working in close contact or shared workspaces. For Probabilistic Movement Primitives (ProMPs), which were chosen as a skill representation in this thesis, such methods for online adaptation were missing in the literature so far. Hereby, it is in particular important to also evaluate the perceived level of safety and comfort of humans according to different adaptation strategies. To this end, we present two methods for online adaptation of learned skills in a shared workspace setting. Here, we introduce two novel online adaptation methods for ProMPs, namely spatial deformation and temporal scaling. Spatial deformation avoids collisions by dynamically changing the shape of the movement primitive, while at the same time staying close to the demonstrated motions. In temporal scaling, we adapt the ProMP's velocity profile to avoid time-dependent collisions. To achieve intention aware adaptation in shared workspaces we combine both methods with a goal-directed prediction model for human motions. This prediction model can also be learned online from human motions. We conducted experiments for both novel adaptation methods in comparison to non-adaptive behavior with inexperienced users and evaluated influences on task performance as well as subjective metrics such as comfort and perceived level of safety. The third challenge that we consider in this thesis is how a library of learned skills can be used in practice to solve sequential robotic tasks. While hereby reinforcement learning offers a powerful tool for reward-driven learning and self-improvement, in real robotic applications it often suffers from costly and time-consuming sample collection. Here, human input might be beneficial to speed up and guide the learning. Therefore, it is important to enable and compare different ways how human input can be incorporated in reinforcement learning algorithms. In this thesis, we present an approach, which incorporates multiple forms of human input into reinforcement learning for sequential tasks. Since depending on the task human input might not always be correct, we additionally introduce the concept of self-confidence for the robot, such that it becomes able to question human input. We evaluate which input channels humans prefer during interaction and how well they accept suggestions or rejections of the robot if the robot becomes confident in its own decisions. To summarize, the different parts of the thesis contribute to the development of intelligent assistive robots that can learn from imitating humans, adapt the learned skills dynamically to humans in shared workspaces and profit and learn from human input during self-driven learning of how to sequence skills into more complex tasks. The three main contributions to the state of the art are hereby: First, a novel approach to incrementally learn a library for collaborative skills when the total number of skills is not known a priori. Second, two novel methods for online adaptation of ProMPs and their combination with a goal-directed prediction model to enable intention aware online adaptation in shared workspaces. And third, an approach that combines multiple forms of human input with a reinforcement learning algorithm and a novel concept of self-confidence to learn and improve the sequencing of skills into more complex tasks.

Alternative Abstract:

Alternative Abstract

Language

Intelligente Assistenzroboter können potentiell ältere Menschen und Pflegepersonal in ihrem Alltag unterstützen sowie eine engere Zusammenarbeit von Mensch und Maschinen als wesentlicher Bestandteil der noch bevorstehenden 5. industriellen Revolution ermöglichen. Im Gegensatz zu klassischen Anwendungsbereichen, in denen Roboter meist für rein repetitive Aufgaben konzipiert wurden, werden Assistenzroboter eine Vielzahl von unterschiedlichen Aufgaben in engem Kontakt mit den alltäglichen Nutzern bewältigen müssen. Insbesondere ist es schwierig, die Vielfalt der Anwendungen im Voraus zu kennen, da sie von den individuellen Bedürfnissen und Vorlieben eines Menschen abhängen. Dies erschwert die Vorprogrammierung aller Aufgaben für Assistenzroboter und macht es notwendig, Methoden zu erforschen, wie Roboter während der Einsatzzeit neue Aufgaben erlernen können. Das Lernen von und während der direkten Interaktion mit Menschen stellt dabei ein potentiell mächtiges Werkzeug für einen Assistenzroboter dar, um neue Fähigkeiten zu erwerben und menschliches Vorwissen bei der Erforschung neuer Aufgaben einzubeziehen. Ein solcher interaktiver Lernprozess kann Robotern nicht nur helfen, sich neue Fähigkeiten anzueignen oder von menschlichem Vorwissen zu profitieren, sondern erleichtert auch die Inklusion unerfahrener Benutzer oder Mitarbeiter in den Lernprozess, was zu einer höheren Akzeptanz des Roboters führen kann. Doch während einerseits die menschliche Anwesenheit und Unterstützung während des Lernprozesses von Vorteil sein kann, stellt der enge Kontakt mit unerfahrenen Benutzern auch eine Herausforderung dar. In gemeinsamen Arbeitsbereichen oder in engem Kontakt mit alltäglichen Nutzern sollte ein Roboter in der Lage sein, gelernte Fähigkeiten so anzupassen, dass der Mensch möglichst wenig gestört wird. Es ist dabei wichtig, die Präferenzen von Menschen bezüglich solcher Anpassungsstrategien, ihr Verständnis interaktiver Lernprozesse und verschiedene Möglichkeiten für menschlichen Input zum Lernen zu evaluieren. Um dem Ziel intelligenter Assistenzroboter näher zu kommen, müssen daher, neuartige interaktive Lernmethoden entwickelt und in verschiedenen Roboteranwendungen getestet werden. Diese Arbeit konzentriert sich auf drei Hauptherausforderungen, die mit der Entwicklung von assistiven intelligenten Robotern und deren Interaktion mit alltäglichen Nutzern zusammenhängen. Die verschiedenen Teile der Arbeit tragen nicht nur neue theoretische Methoden bei, sondern zusätzlich auch Experimente zu verschiedenen Roboteraufgaben mit Nutzern, die keine oder nur wenig Erfahrung mit Robotern hatten. Die erste Herausforderung besteht darin, Roboter in die Lage zu versetzen, kooperative Fähigkeiten aus menschlichen Demonstrationen auf inkrementelle Weise zu erlernen. Während das Erlernen neuer Fähigkeiten aus menschlichen Demonstrationen in der Literatur bereits ausgenutzt wurde, bleibt es eine Herausforderung, Fähigkeitsbibliotheken aus inkrementell eingehenden Demonstrationen zu lernen, wenn die Gesamtzahl der Fähigkeiten vorher nicht bekannt ist. Daher stellen wir im ersten Teil dieser Thesis einen Ansatz für das online- und inkrementelle Lernen einer Bibliothek für kollaborative Fähigkeiten vor. Hier folgen wir einem Mixture-of-Experts basierten Ansatz und lernen inkrementell eine Bibliothek für kollaborative Fähigkeiten und ein Gating-Modell aus gekoppelten Mensch-Roboter-Trajektorien. Einmal trainiert, kann das Gating-Modell anhand vorheriger Demonstrationen entscheiden, welche Fähigkeit als angemessene Reaktion auf eine menschliche Bewegung gewählt werden soll und die entsprechende Roboterfähigkeit aktivieren. Im Gegensatz zu bestehenden Batch-Lernmethoden erfordert unsere Methode nicht, dass die Gesamtzahl der Fertigkeiten a priori bekannt ist und kann sowohl neue Fertigkeiten erlernen als auch bestehende Fertigkeiten aus mehreren menschlichen Demonstrationen aktualisieren. Die kooperativen Fähigkeiten werden als Probabilistische Interaktionsprimitive dargestellt, die Varianz und inhärente Zusammenhänge in den Demonstrationen erfassen können. Wir evaluieren unsere Methode mit verschiedenen menschlichen Probanden in einer Aufgabe, bei der ein Roboter den Probanden bei der Zubereitung eines Salats assistiert. Wir untersuchen hierbei auch, inwieweit die erlernten Fähigkeiten zwischen verschiedenen Menschen übertragen werden können. Zweitens, sollten intelligente Assistenzroboter in der Lage sein, gelernte Fähigkeiten an den Menschen anzupassen, wenn sie in engem Kontakt oder in gemeinsamen Arbeitsbereichen arbeiten. Für Probabilistische Bewegungsprimitive (Probabilistic Movement Primitives, ProMPs), die in dieser Arbeit als Fertigkeitsdarstellung gewählt wurden, fehlten solche Methoden zur Online-Anpassung bisher in der Literatur. Dabei ist es insbesondere wichtig, auch das wahrgenommene Sicherheits- und Komfortniveau des Menschen nach verschiedenen Anpassungsstrategien zu bewerten. Zu diesem Zweck stellen wir zwei Methoden zur Online-Adaption von gelernten Fähigkeiten in einem gemeinsamen Arbeitsumfeld vor. Hier stellen wir zwei neuartige Online-Anpassungsmethoden für ProMPs vor, nämlich die räumliche Deformation und die zeitliche Skalierung. Die räumliche Deformation vermeidet Kollisionen, indem sie die Form des Bewegungsprimitivs dynamisch verändert, während sie gleichzeitig nahe an den demonstrierten Bewegungen bleibt. Bei der zeitlichen Skalierung passen wir das Geschwindigkeitsprofil des ProMPs an, um zeitabhängige Kollisionen zu vermeiden. Um eine intentionale Anpassung in gemeinsamen Arbeitsräumen zu erreichen, kombinieren wir beide Methoden mit einem zielgerichteten Vorhersagemodell für menschliche Bewegungen. Dieses Vorhersagemodell kann auch online aus menschlichen Bewegungen gelernt werden. Wir führen dabei Experimente für beide neuartigen Adaptionsmethoden im Vergleich zu nicht-adaptivem Verhalten mit unerfahrenen Benutzern durch und evaluieren Einflüsse auf die Aufgabenausführung sowie subjektive Metriken wie Komfort und wahrgenommenes Sicherheitsniveau. Die dritte Herausforderung, die wir in dieser Arbeit betrachten, ist, wie eine Bibliothek gelernter Fähigkeiten in der Praxis zur Lösung sequentieller Roboteraufgaben eingesetzt werden kann. Während hierbei Reinforcement Learning ein mächtiges Werkzeug für belohnungsorientiertes Lernen und Selbstverbesserung bietet, leidet es in realen Roboteranwendungen oft unter einer kostspieligen und zeitaufwendigen Probensammlung. Hier kann menschlicher Input von Vorteil sein, um das Lernen zu beschleunigen und zu leiten. Daher ist es wichtig, verschiedene Möglichkeiten zu ermöglichen und zu vergleichen, wie menschliche Eingaben in Reinforcement Learning-Algorithmen integriert werden können. In dieser Arbeit stellen wir einen Ansatz vor, der verschiedene Formen des menschlichen Inputs in das Reinforcement Learning für sequentielle Aufgaben einbezieht. Da der menschliche Input je nach Aufgabenstellung nicht immer korrekt sein kann, führen wir zusätzlich das Konzept des Selbstvertrauens des Roboters ein, so dass er in der Lage ist, den menschlichen Input zu hinterfragen. Wir untersuchen, welche Eingabekanäle Menschen während der Interaktion bevorzugen und wie gut sie Vorschläge oder Ablehnungen des Roboters akzeptieren, wenn der Roboter selbstbewusst in seinen eigenen Entscheidungen wird. Zusammengefasst tragen die verschiedenen Teile der Arbeit zur Entwicklung intelligenter Assistenzroboter bei, die durch Nachahmung von Menschen lernen können, die gelernten Fähigkeiten in gemeinsamen Arbeitsbereichen dynamisch an den Menschen anpassen und beim selbstgesteuerten Lernen von der Abfolge der Fähigkeiten zu komplexeren Aufgaben und von menschlichem Input profitieren können. Die drei wichtigsten Beiträge zum Stand der Technik sind hiermit: Erstens, ein neuartiger Ansatz zum inkrementellen Lernen einer Bibliothek für kollaborative Fähigkeiten, wenn die Gesamtzahl der Fähigkeiten nicht a priori bekannt ist. Zweitens, zwei neue Methoden zur Online-Adaption von ProMPs und deren Kombination mit einem zielgerichteten Bewegungs Vorhersagemodell, um eine intentionsbasierte Online-Adaption in gemeinsamen Arbeitsbereichen zu ermöglichen. Und drittens, ein Ansatz, der mehrere Formen menschlichen Inputs mit einem Reinforcement Learning-Algorithmus und einem neuartigen Konzept von Selbstvertrauen des Roboters kombiniert, die Abfolge von Fähigkeiten in komplexeren Aufgaben zu erlernen und zu verbessern.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-141845

Classification DDC:

000 Generalities, computers, information > 004 Computer science
600 Technology, medicine, applied sciences > 600 Technology
600 Technology, medicine, applied sciences > 620 Engineering and machine engineering

Divisions:

20 Department of Computer Science > Intelligent Autonomous Systems

Date Deposited:

18 Dec 2020 13:55

Last Modified: