TU Darmstadt / ULB / TUprints

Learning Models of Behavior From Demonstration and Through Interaction

Šošić, Adrian (2018)
Learning Models of Behavior From Demonstration and Through Interaction.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text
2018-10-18_Sosic_Adrian.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (6MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Learning Models of Behavior From Demonstration and Through Interaction
Language: English
Referees: Zoubir, Prof. Dr. Abdelhak M. ; Koeppl, Prof. Dr. Heinz
Date: 2018
Place of Publication: Darmstadt
Date of oral examination: 21 August 2018
Abstract:

This dissertation is concerned with the autonomous learning of behavioral models for sequential decision-making. It addresses both the theoretical aspects of behavioral modeling — like the learning of appropriate task representations — and the practical difficulties regarding algorithmic implementation.

The first half of the dissertation deals with the problem of learning from demonstration, which consists in generalizing the behavior of an expert demonstrator based on observation data. Two alternative modeling paradigms are discussed. First, a nonparametric inference framework is developed to capture the behavior of the expert at the policy level. A key challenge in the design of the framework is the objective of making minimal assumptions about the observed behavior type while dealing with a potentially infinite number of system states. Due to the automatic adaptation of the model order to the complexity of the shown behavior, the proposed approach is able to pick up stochastic expert policies of arbitrary structure. Second, a nonparametric inverse reinforcement learning framework based on subgoal modeling is proposed, which allows to efficiently reconstruct the expert behavior at the intentional level. Other than most existing approaches, the proposed methodology naturally handles periodic tasks and situations where the intentions of the expert change over time. By adaptively decomposing the decision-making problem into a series of task-related subproblems, both inference frameworks are suitable for learning compact encodings of the expert behavior. For performance evaluation, the models are compared with existing frameworks on synthetic benchmark scenarios and real-world data recorded on a KUKA lightweight robotic arm.

In the second half of the work, the focus shifts to multi-agent modeling, with the aim of analyzing the decision-making process in large-scale homogeneous agent networks. To fill the gap of decentralized system models with explicit agent homogeneity, a new class of agent systems is introduced. For this system class, the problem of inverse reinforcement learning is discussed and a meta learning algorithm is devised that makes explicit use of the system symmetries. As part of the algorithm, a heterogeneous reinforcement learning scheme is proposed for optimizing the collective behavior of the system based on the local state observations made at the agent level. Finally, to scale the simulation of the network to large agent numbers, a continuum version of the model is derived. After discussing the system components and associated optimality criteria, numerical examples of collective tasks are given that demonstrate the capabilities of the continuum approach and show its advantages over large-scale agent-based modeling.

Alternative Abstract:
Alternative AbstractLanguage

Die vorliegende Dissertation befasst sich mit dem autonomen Erlernen von Verhaltensmodellen zur Beschreibung sequentieller Entscheidungsprozesse. Behandelt werden sowohl theoretische Aspekte der Verhaltensmodellierung — wie das Erlernen geeigneter Repräsentationen zur Abstraktion eines Entscheidungsprozesses — als auch praktische Schwierigkeiten bei der algorithmischen Umsetzung.

Die erste Hälfte der Dissertation beschäftigt sich mit dem Problem, eine gegebene Entscheidungsstrategie auf Basis von Beobachtungen zu generalisieren (engl.: learning from demonstration). Zur Lösung des Problems werden zwei unterschiedliche Modellierungsparadigmen vorgestellt: Zunächst wird ein nichtparametrischer Ansatz entwickelt, der es ermöglicht, zugrundeliegende Verhaltensmuster direkt auf Entscheidungsebene zu erfassen. Eine wesentliche Herausforderung in der Konzeption der Methodik besteht darin, auch im Fall einer unendlichen Anzahl von Systemzuständen möglichst wenige Annahmen über das beobachtete Systemverhalten zu treffen. Durch adaptive Anpassung der Modellordnung an die Komplexität der gezeigten Verhaltensmuster ist das vorgestellte Modell imstande, stochastische Entscheidungsstrategien jeglicher Art wiederzugeben. Als Nächstes wird ein nichtparametrischer Ansatz nach dem Prinzip des inverse reinforcement learning (IRL) konzipiert. Hierzu wird auf eine Form der Modellierung zurückgegriffen, bei welcher der Entscheidungsprozess in einzelne Teilprozesse untergliedert wird, um eine effiziente Rekonstruktion der Handlungsstrategie auf Intentionsebene zu ermöglichen. Im Gegensatz zu den meisten existierenden Methoden ist das Modell in der Lage, periodische Verhaltensmuster und Entscheidungsstrategien mit zeitabhängigen Zielen ohne zusätzliche Nachverarbeitungsschritte wiederzugeben. Aufgrund des modularen Aufbaus der Modelle bieten beide Paradigmen die Möglichkeit kompakte, an das Systemverhalten angepasste Darstellungen des Entscheidungsprozesses zu lernen. Die vorgestellten Modellierungsansätze werden anhand verschiedener Testszenarien evaluiert und mit existieren Methoden verglichen. Hierzu werden sowohl synthetische Fallbeispiele als auch diverse Echtdatensätze herangezogen, die mit Hilfe eines KUKA Leichtbau-Roboterarms aufgenommen wurden.

In der zweiten Hälfte der Arbeit verlagert sich der Schwerpunkt auf Multiagentensysteme. Ziel ist die effiziente Modellierung der Entscheidungsprozesse in großen Agentennetzwerken mit homogener Architektur. Zunächst wird eine neue Klasse von Agentensystemen eingeführt, um die mathematische Grundlage zur Beschreibung verteilter homogener Systeme zu schaffen. Für diese Systemklasse wird das IRL Problem diskutiert und ein Meta-Lernalgorithmus entwickelt, der zur Lösung explizit die Symmetrien des Systems nutzt. Im Zuge dessen wird ein heterogenes Lernschema vorgestellt, welches das kollektive Systemverhalten auf Basis lokaler Zustandsbeobachtungen optimiert. Im letzten Teil der Arbeit wird schließlich eine Kontinuum-Beschreibung des Modells hergeleitet, welche die Simulation des Netzwerks für große Agentenzahlen ermöglicht. Zu diesem Zweck werden die entsprechenden Kontinuum-Systemkomponenten und Optimalitätskriterien eingeführt. Um das Prinzip der Kontinuum-Modellierung zu veranschaulichen, werden abschließend mehrere Beispiele kollektiver Entscheidungsfindung aufgeführt, welche die Vorteile gegenüber einer agentenbasierten Verhaltensmodellierung aufzeigen.

German
URN: urn:nbn:de:tuda-tuprints-81079
Classification DDC: 000 Generalities, computers, information > 004 Computer science
500 Science and mathematics > 510 Mathematics
600 Technology, medicine, applied sciences > 620 Engineering and machine engineering
Divisions: 18 Department of Electrical Engineering and Information Technology > Institute for Telecommunications > Signal Processing
Date Deposited: 19 Oct 2018 14:59
Last Modified: 09 Jul 2020 02:22
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/8107
PPN: 437806308
Export:
Actions (login required)
View Item View Item