On Optimal Behavior Under Uncertainty in Humans and Robots

Belousov, Boris (2022)
On Optimal Behavior Under Uncertainty in Humans and Robots.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00022561
Ph.D. Thesis, Primary publication, Publisher's Version

Text
Belousov-PhDThesis-Signed.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (8MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

On Optimal Behavior Under Uncertainty in Humans and Robots

Language:

English

Referees:

Peters, Prof. Dr. Jan ; Toussaint, Prof. Dr. Marc

Date:

2022

Place of Publication:

Darmstadt

Collation:

xiii, 108 Seiten

Date of oral examination:

18 July 2022

DOI:

10.26083/tuprints-00022561

Abstract:

Despite significant progress in robotics and automation in the recent decades, there still remains a noticeable gap in performance compared to humans. Although the computation capabilities are growing every year, and are even projected to exceed the capacities of biological systems, the behaviors generated using current computational paradigms are arguably not catching up with the available resources. Why is that? It appears that we are still lacking some fundamental understanding of how living organisms are making decisions, and therefore we are unable to replicate intelligent behavior in artificial systems.

Therefore, in this thesis, we attempted to develop a framework for modeling human and robot behavior based on statistical decision theory. Different features of this approach, such as risk-sensitivity, exploration, learning, control, were investigated in a number of publications.

First, we considered the problem of learning new skills and developed a framework of entropic regularization of Markov decision processes (MDP). Utilizing a generalized concept of entropy, we were able to realize the trade-off between exploration and exploitation via a choice of a single scalar parameter determining the divergence function.

Second, building on the theory of partially observable Markov decision process (POMDP), we proposed and validated a model of human ball catching behavior. Crucially, information seeking behavior was identified as a key feature enabling the modeling of observed human catches. Thus, entropy reduction was seen to play an important role in skillful human behavior.

Third, having extracted the modeling principles from human behavior and having developed an information-theoretic framework for reinforcement learning, we studied the real-robot applications of the learning-based controllers in tactile-rich manipulation tasks. We investigated vision-based tactile sensors and the capability of learning algorithms to autonomously extract task-relevant features for manipulation tasks. The specific feature of tactile-based control that perception and action are tightly connected at the point of contact, enabled us to gather insights into the strengths and limitations of the statistical learning approach to real-time robotic manipulation.

In conclusion, this thesis presents a series of investigations into the applicability of the statistical decision theory paradigm to modeling the behavior of humans and for synthesizing the behavior of robots. We conclude that a number of important features related to information processing can be represented and utilized in artificial systems for generating more intelligent behaviors. Nevertheless, these are only the first steps and we acknowledge that the road towards artificial general intelligence and skillful robotic applications will require more innovations and potentially transcendence of the probabilistic modeling paradigm.

Alternative Abstract:

Alternative Abstract

Language

Trotz erheblicher Fortschritte in der Robotik und Automatisierung in den letzten Jahrzehnten besteht nach wie vor ein deutlicher Leistungsunterschied zum Menschen. Obwohl die Rechenkapazitäten von Jahr zu Jahr zunehmen und sogar die Kapazitäten biologischer Systeme übersteigen dürften, kann das mit den derzeitigen Rechenparadigmen erzeugte Verhalten wohl nicht mit den verfügbaren Ressourcen mithalten. Woran liegt das? Offenbar fehlt uns noch immer ein grundlegendes Verständnis dafür, wie lebende Organismen Entscheidungen treffen, und deshalb sind wir nicht in der Lage, intelligentes Verhalten in künstlichen Systemen nachzubilden.

Deshalb haben wir in dieser Arbeit versucht, einen Rahmen für die Modellierung des Verhaltens von Menschen und Robotern auf der Grundlage der statistischen Entscheidungstheorie zu entwickeln. Verschiedene Merkmale dieses Ansatzes, wie z. B. Risikosensitivität, Exploration, Lernen und Kontrolle, wurden in einer Reihe von Veröffentlichungen untersucht.

Zunächst haben wir das Problem des Erlernens neuer Fähigkeiten betrachtet und einen Rahmen für die entropische Regularisierung von Markov-Entscheidungsprozessen (MDP) entwickelt. Unter Verwendung eines verallgemeinerten Konzepts der Entropie konnten wir den Kompromiss zwischen Exploration und Ausnutzung durch die Wahl eines einzigen skalaren Parameters realisieren, der die Divergenzfunktion bestimmt.

Zweitens haben wir, aufbauend auf der Theorie der teilweise beobachtbaren Markov-Entscheidungsprozesse (POMDP), ein Modell des menschlichen Ballfangverhaltens vorgeschlagen und validiert. Entscheidend ist, dass das Verhalten der Informationssuche als Schlüsselmerkmal identifiziert wurde, das die Modellierung des beobachteten menschlichen Fangverhaltens ermöglicht. Es zeigte sich, dass die Entropiereduktion eine wichtige Rolle für das geschickte menschliche Verhalten spielt.

Drittens, nachdem wir die Modellierungsprinzipien aus dem menschlichen Verhalten extrahiert und einen informationstheoretischen Rahmen für das Verstärkungslernen entwickelt hatten, untersuchten wir die realen Roboteranwendungen der lernbasierten Steuerungen in taktil reichhaltigen Manipulationsaufgaben. Wir untersuchten bildverarbeitungsbasierte taktile Sensoren und die Fähigkeit von Lernalgorithmen, autonom aufgabenrelevante Merkmale für Manipulationsaufgaben zu extrahieren. Die Besonderheit der taktilen Steuerung, dass Wahrnehmung und Handlung am Kontaktpunkt eng miteinander verbunden sind, ermöglichte es uns, Einblicke in die Stärken und Grenzen des statistischen Lernansatzes für die Echtzeit-Robotermanipulation zu gewinnen.

Zusammenfassend lässt sich sagen, dass in dieser Arbeit eine Reihe von Untersuchungen zur Anwendbarkeit des Paradigmas der statistischen Entscheidungstheorie bei der Modellierung des menschlichen Verhaltens und bei der Synthese des Roboterverhaltens durchgeführt wurden. Wir kommen zu dem Schluss, dass eine Reihe wichtiger Merkmale im Zusammenhang mit der Informationsverarbeitung dargestellt und in künstlichen Systemen genutzt werden können, um intelligenteres Verhalten zu erzeugen. Dennoch sind dies nur die ersten Schritte, und wir erkennen an, dass der Weg zu künstlicher allgemeiner Intelligenz und geschickten Roboteranwendungen weitere Innovationen und möglicherweise eine Übersteigung des probabilistischen Modellierungsparadigmas erfordern wird.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-225612

Classification DDC:

000 Generalities, computers, information > 004 Computer science
100 Philosophy and psychology > 150 Psychology
600 Technology, medicine, applied sciences > 600 Technology

Divisions:

20 Department of Computer Science > Intelligent Autonomous Systems

Date Deposited:

31 Oct 2022 13:24

Last Modified: