Inverse Reinforcement Learning for Human Decision-Making Under Uncertainty
Inverse Reinforcement Learning for Human Decision-Making Under Uncertainty
Human decision-making in the real world is characterized by uncertainty, continuous learning, and adaptation. In the past, reinforcement learning and stochastic optimal control have been widely used as normative frameworks to model, reproduce, and predict human behavior. However, interpreting observed behavior requires inverse approaches to infer the underlying decision-making mechanisms. Existing inverse approaches, such as inverse reinforcement learning and inverse optimal control, commonly make assumptions, such as full knowledge of the environment and stationary policies, which often do not align with human behavior in real-world scenarios. This dissertation introduces novel inverse approaches for sequential decision-making that account for the adaptive and dynamic nature of human behavior arising from uncertainty. The contributions are organized into three main parts:
First, we address the problem of inferring local knowledge of human subjects in navigation tasks. Seemingly suboptimal routes taken by humans can be explained by incomplete knowledge of the environment, offering insights into their knowledge and beliefs. We describe a Bayesian inference method for systematically inferring a subject's knowledge of the environmental structure based on their navigation behavior. The approach combines approximate sampling methods with a navigation model based on shortest path reduction with an additional cost for uncertainty for efficient inference. We evaluate the approach using both simulated data and real human trajectories collected in an online experiment.
Second, we consider the problem of inferring time-varying preferences in the form of discount functions, which arise when individuals face uncertainty about risks. These varying preferences can be explained by individuals adapting their risk beliefs over time and manifest as preference inconsistencies and hyperbolic discounting. We derive a normative model of hyperbolic discounting for the discrete-time setting and discuss how beliefs about the risk can be inferred in a human discounting experiment. Additionally, we extend this analysis to continuous-time stochastic optimal control, for which we define a formulation with non-exponential discounting, and present an approach to infer the discount function based on observed decision data.
Finally, we address the problem of inferring latent quantities in sensorimotor control tasks, which can be formulated as partially observable stochastic optimal control problems. In these formulations, subjects receive only partial, noisy observations of their state and are uncertain about the future evolution of the stochastic environment. The inverse problem is particularly challenging, as the subjects' beliefs and control signals are usually latent in the observed trajectory data. For linear-quadratic-Gaussian (LQG) systems with multiplicative noise, we derive an approximate likelihood using an assumed density approach to find the most likely parameters given the observed data. Additionally, for general non-linear stochastic systems, we introduce a linearization-based approximation to enable efficient parameter inference. The methods are evaluated on a range of different simulated tasks and on animal reaching data.
Menschliche Entscheidungen in der realen Welt sind geprägt von Unsicherheit, kontinuierlichem Lernen und Anpassung. In der Vergangenheit wurden Verstärkungslernen und stochastische optimale Steuerung häufig als normative Modelle verwendet, um menschliches Verhalten zu modellieren, zu reproduzieren und vorherzusagen. Die Interpretation beobachteten Verhaltens erfordert jedoch inverse Methoden, um die zugrunde liegenden Entscheidungsmechanismen zu entschlüsseln. Bestehende inverse Ansätze, wie inverses Verstärkungslernen und inverse optimale Steuerung, treffen häufig Annahmen, wie vollständiges Wissen über die Umgebung und zeitlich gleichbleibende Verhaltensweisen, die oft nicht mit menschlichem Verhalten in der Realität übereinstimmen. Diese Dissertation stellt neue inverse Ansätze für sequentielle Entscheidungsprozesse vor, die die durch Unsicherheit bedingte adaptive und dynamische Natur menschlichen Verhaltens berücksichtigen. Die Beiträge gliedern sich in drei Hauptteile:
Zunächst widmen wir uns dem Problem, örtliches Wissen von Versuchspersonen in Navigationsaufgaben zu schlussfolgern. Scheinbar suboptimale Wege, die von Menschen genommen werden, können durch unvollständiges Wissen über die Umgebung erklärt werden und geben Einblicke in deren Wissen und Annahmen. Wir stellen eine bayessche Inferenzmethode vor, mit der systematisch das Wissen einer Versuchsperson über ihre Umgebung anhand ihres Navigationsverhaltens abgeleitet werden kann. Der Ansatz kombiniert approximative Sampling-Methoden mit einem Navigationsmodell, das auf einer kürzesten-Pfad-Differenz mit zusätzlichen Kosten für Unsicherheit basiert, um eine effiziente Inferenz zu ermöglichen. Wir evaluieren die Methode sowohl mit simulierten Daten als auch mit realen menschlichen Pfaden, die in einem Online-Experiment gesammelt wurden.
Zweitens betrachten wir das Problem, zeitlich variierende Präferenzen in Form von Diskontierungsfunktionen zu schätzen, die auftreten, wenn Menschen mit Unsicherheiten über Risiken konfrontiert sind. Diese variierenden Präferenzen können dadurch erklärt werden, dass Menschen ihre Risikoeinschätzungen im Laufe der Zeit anpassen, was sich als Präferenzinkonsistenzen und hyperbolisches Diskontieren manifestiert. Wir leiten ein normatives Modell für hyperbolisches Diskontieren in diskreter Zeit her und schauen uns an, wie Annahmen über Risiken in einem Experiment zur menschlichen Diskontierung abgeleitet werden können. Zusätzlich erweitern wir dieses Vorgehen auf die zeitkontinuierliche stochastische optimale Regelung, für die wir eine Formulierung mit nicht-exponentieller Diskontierung vorstellen, und betrachten einen Ansatz, mit dem die Diskontierungsfunktion basierend auf beobachteten Entscheidungsdaten geschätzt werden kann.
Abschließend widmen wir uns dem Problem, latente Parameter in sensomotorischen Regelungsaufgaben zu schätzen, die als unvollständig beobachtbare stochastische optimale Regelungsprobleme formuliert werden können. Unter diesem Modell erhalten Versuchspersonen nur unvollständige, verrauschte Beobachtungen ihres Zustands und sind unsicher über die zukünftige Entwicklung der stochastischen Umgebung. Das inverse Problem ist besonders herausfordernd, da die Annahmen und Regelungssignale der Versuchspersonen in den beobachteten Verhaltensdaten meist latent sind. Für lineare-quadratische-Gaußsche (LQG) Systeme mit multiplikativem Rauschen leiten wir eine approximative Likelihood her, die es mittels einer Dichteannahme ermöglicht, die am wahrscheinlichsten zugrunde liegenden Parameter aus den beobachteten Daten zu schätzen. Zusätzlich stellen wir für allgemeine nichtlineare stochastische Systeme eine auf Linearisierung basierende Näherung vor, die eine effiziente Parameterinferenz ermöglicht. Die Methoden werden in verschiedenen simulierten Experimenten und mittels Bewegungsdaten von Affen evaluiert.

