TU Darmstadt / ULB / TUprints

Intention Inference and Decision Making with Hierarchical Gaussian Process Dynamics Models

Wang, Zhikun (2013)
Intention Inference and Decision Making with Hierarchical Gaussian Process Dynamics Models.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text
thesis.pdf
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .

Download (6MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Intention Inference and Decision Making with Hierarchical Gaussian Process Dynamics Models
Language: English
Referees: Peters, Prof. Dr. Jan ; Schölkopf, Prof. Dr. Bernhard
Date: 2013
Place of Publication: Darmstadt
Date of oral examination: 17 September 2013
Abstract:

Anticipation is crucial for fluent human-robot interaction, which allows a robot to independently coordinate its actions with human beings in joint activities. An anticipatory robot relies on a predictive model of its human partners, and selects its own action according to the model's predictions. Intention inference and decision making are key elements towards such anticipatory robots. In this thesis, we present a machine-learning approach to intention inference and decision making, based on Hierarchical Gaussian Process Dynamics Models (H-GPDMs).

We first introduce the H-GPDM, a class of generic latent-variable dynamics models. The H-GPDM represents the generative process of complex human movements that are directed by exogenous driving factors. Incorporating the exogenous variables in the dynamics model, the H-GPDM achieves improved interpretation, analysis, and prediction of human movements. While exact inference of the exogenous variables and the latent states is intractable, we introduce an approximate method using variational Bayesian inference, and demonstrate the merits of the H-GPDM in three different applications of human movement analysis. The H-GPDM lays a foundation for the following studies on intention inference and decision making.

Intention inference is an essential step towards anticipatory robots. For this purpose, we consider a special case of the H-GPDM, the Intention-Driven Dynamics Model (IDDM), which considers the human partners' intention as exogenous driving factors. The IDDM is applicable to intention inference from observed movements using Bayes' theorem, where the latent state variables are marginalized out. As most robotics applications are subject to real-time constraints, we introduce an efficient online algorithm that allows for real-time intention inference. We show that the IDDM achieved state-of-the-art performance in intention inference using two human-robot interaction scenarios, i.e., target prediction for robot table tennis and action recognition for interactive robots.

Decision making based on a time series of predictions allows a robot to be proactive in its action selection, which involves a trade-off between the accuracy and confidence of the prediction and the time for executing a selected action. To address the problem of action selection and optimal timing for initiating the movement, we formulate the anticipatory action selection using Partially Observable Markov Decision Process, where the H-GPDM is adopted to update belief state and to estimate transition model. We present two approaches to policy learning and decision making, and show their effectiveness using human-robot table tennis.

In addition, we consider decision making solely based on the preference of the human partners, where observations are not sufficient for reliable intention inference. We formulate it as a repeated game and present a learning approach to safe strategies that exploit the humans' preferences. The learned strategy enables action selection when reliable intention inference is not available due to insufficient observation, e.g., for a robot to return served balls from a human table tennis player.

In this thesis, we use human-robot table tennis as a running example, where a key bottleneck is the limited amount of time for executing a hitting movement. Movement initiation usually requires an early decision on the type of action, such as a forehand or backhand hitting movement, at least 80ms before the opponent has hit the ball. The robot, therefore, needs to be anticipatory and proactive of the opponent's intended target. Using the proposed methods, the robot can predict the intended target of the opponent and initiate an appropriate hitting movement according to the prediction. Experimental results show that the proposed intention inference and decision making methods can substantially enhance the capability of the robot table tennis player, using both a physically realistic simulation and a real Barrett WAM robot arm with seven degrees of freedom.

Alternative Abstract:
Alternative AbstractLanguage

Antizipation ist wichtig für eine flüssige Mensch-Roboter Interaktion, da sie es dem Roboter ermöglicht, seine Aktionen mit dem menschlichen Partner zu koordinieren. Dazu wird ein Modell benötigt, welches das Verhalten des Menschen vorhersagt. Entsprechend dieser Vorhersagen kann der Roboter Aktionen auswählen und durchführen. Intentionsinferenz und Entscheidungsfindung sind Schlüsselelemente solcher antizipierender Roboter. In dieser Dissertation stellen wir einen Ansatz aus der Theorie des maschinellen Lernens zur Intentionsinferenz und Entscheidungsfindung vor, der auf Hierarchischen Gaußprocess Dynamik-Modellen (H-GPDMs) basiert.

Dafür stellen wir zuerst H-GPDMs, eine Klasse von latent-variable dynamics models, vor. Ein H-GPDM ist ein generativer Prozess, welcher zur Modellierung komplexer menschlicher Bewegungen verwendet wird, die von exogenen Faktoren beeinflusst werden. Durch die direkte Einbeziehung der exogenen Variablen in die Modellierung, liefert das H-GPDM eine verbesserte Interpretation, Analyse und Prädiktion menschlicher Bewegungen. Da eine exakte Inferenz der exogenen Variablen und unbekannten Zustände (latent states) nicht möglich ist, stellen wir eine Approximationsmethode vor, die auf variational Bayesian inference basiert. Wir stellen die Vorzüge des H-GPDMs in drei unterschiedlichen Anwendungen heraus. Das H-GPDM legt den Grundstein für die Studien über Intentionsinferenz und Entscheidungsfindung in dieser Arbeit.

Intentionsinferenz ist ein wichtiger Schritt für antizipatorische Roboter. Aus diesem Grund betrachten wir einen Sonderfall des H-GPDMs, nämlich Intention-Driven Dynamics Models (IDDMs), welche die Intention des menschlichen Partners als exogene Variable betrachten. Das IDDM erschließt die unbekannte Intention aus Beobachtungen unter Verwendung der Bayesschen Regel, wobei die unbekannten Größen ausintegriert werden. Da viele Roboteranwendungen Echtzeitanforderungen unterliegen, stellen wir einen effizienten Online-Algorithmus vor, der Intentionsinferenz in Echtzeit ermöglicht. Wir zeigen, dass die Leistungsfähigkeit des IDDM auf dem neuesten Stand der Technik in Intentionsinferenz ist. Um dies zu verifizieren betrachten wir zwei Szenarien der Mensch-Roboter Interaktion: Zielprädiktion für Robotertischtennis und Verhaltenserkennung für interaktive Roboter.

Entscheidungsprozesse basierend auf Prädiktionszeitreihe ermöglichen dem Roboter seine Aktionen proaktiv auswählen. In diesem Fall muss er zwischen Genauigkeit, Prädiktionssicherheit und Dauer der auszuführenden Aktion abwägen. Wir behandeln dieses Problem im Rahmen von Partially Observable Markov Decision Processes, wobei wir das H-GPDM anpassen, um die Belief States zu schätzen und die Transitionsfunktion zu lernen. Wir präsentieren Ansätze zum Lernen einer Policy und für die Entscheidungsfindung. Die Effektivität dieser Ansätze verifizieren wir im Kontext von Mensch-Roboter Tischtennis.

Desweiteren betrachten wir Entscheidungsfindungen, die ausschließlich auf der Präferenz des menschlichen Partners basieren, da die Beobachtungen nicht für eine zuverlässige Intentionsinferenz ausreichen. Wir formulieren dieses Problem als Spiel und stellen einen Lernalgorithmus vor, der sichere Strategien unter Ausnutzung der menschlichen Präferenz lernt. Die gelernte Strategie kann zur Auswahl von geeigneten Aktionen verwendet werden, wenn keine zuverlässige Intentionsinferenz möglich ist. Dies kann zum Beispiel im Tischtennis der Fall sein, wenn ein Roboter Bälle zu einem Menschen zurückspielen soll.

In dieser Dissertation verwenden wir das Szenario des Mensch-Roboter Tischtennisspiels als durchgehendes Beispiel. Mensch-Roboter Tischtennis is ein sehr anspruchsvolles Beispiel, da die für die Schlagbewegung erforderliche Zeit begrenzt ist. Der Roboter muss teilweise die Schlagbewegung initiieren, bevor der Gegner den Ball überhaupt gespielt hat. Aus diesem Grund muss der Roboter antizipatorisch und proaktiv die Intention des Gegners erkennen. Mit visuellem Feedback von der Bewegung des Gegners kann der Roboter den Aufprallpunkt des Balles vorhersagen und dementsprechend eine Schlagbewegung auswählen, z.B. einen Voroder Rückhandschlag. Unsere Experimente belegen, dass unser Ansatz zur Intentionsinferenz und Entscheidungsfindung die Leistung des Roboters signifikant verbessert, wobei wir sowohl physikalisch realistische Simulationen als auch einen realen BarrettWAM Roboterarm mit sieben Freiheitsgraden verwenden.

German
URN: urn:nbn:de:tuda-tuprints-36176
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 07 Oct 2013 10:35
Last Modified: 09 Jul 2020 00:32
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/3617
PPN: 332298493
Export:
Actions (login required)
View Item View Item