Logo des Repositoriums
  • English
  • Deutsch
Anmelden
Keine TU-ID? Klicken Sie hier für mehr Informationen.
  1. Startseite
  2. Publikationen
  3. Publikationen der Technischen Universität Darmstadt
  4. Zweitveröffentlichungen
  5. Reinforcement Learning with Non-Exponential Discounting
 
  • Details
2022
Zweitveröffentlichung
Konferenzveröffentlichung
Verlagsversion

Reinforcement Learning with Non-Exponential Discounting

File(s)
Download

NeurIPS-2022-reinforcement-learning-with-non-exponential-discounting-Paper-Conference.pdf
CC BY 4.0 International
Format: Adobe PDF
Size: 2.28 MB
Download

appendix.pdf
CC BY 4.0 International
Format: Adobe PDF
Size: 888.05 KB
TUDa URI
tuda/12915
URN
urn:nbn:de:tuda-tuprints-289347
DOI
10.26083/tuprints-00028934
Autor:innen
Schultheis, Matthias
Rothkopf, Constantin A. ORCID 0000-0002-5636-0801
Koeppl, Heinz ORCID 0000-0002-8305-9379
Kurzbeschreibung (Abstract)

Commonly in reinforcement learning (RL), rewards are discounted over time using an exponential function to model time preference, thereby bounding the expected long-term reward. In contrast, in economics and psychology, it has been shown that humans often adopt a hyperbolic discounting scheme, which is optimal when a specific task termination time distribution is assumed. In this work, we propose a theory for continuous-time model-based reinforcement learning generalized to arbitrary discount functions. This formulation covers the case in which there is a non-exponential random termination time. We derive a Hamilton–Jacobi–Bellman (HJB) equation characterizing the optimal policy and describe how it can be solved using a collocation method, which uses deep learning for function approximation. Further, we show how the inverse RL problem can be approached, in which one tries to recover properties of the discount function given decision data. We validate the applicability of our proposed approach on two simulated problems. Our approach opens the way for the analysis of human discounting in sequential decision-making tasks.

Sprache
Englisch
Herausgeber:innen
Koyejo, S.
Mohamed, S.
Agarwal, A.
Belgrave, D.
Cho, K.
Oh, A.
Fachbereich/-gebiet
18 Fachbereich Elektrotechnik und Informationstechnik > Institut für Nachrichtentechnik > Bioinspirierte Kommunikationssysteme
18 Fachbereich Elektrotechnik und Informationstechnik > Self-Organizing Systems Lab
Zentrale Einrichtungen > Centre for Cognitive Science (CCS)
DDC
500 Naturwissenschaften und Mathematik > 570 Biowissenschaften, Biologie
600 Technik, Medizin, angewandte Wissenschaften > 621.3 Elektrotechnik, Elektronik
Institution
Universitäts- und Landesbibliothek Darmstadt
Ort
Darmstadt
Veranstaltungstitel
The Thirty-Sixth Annual Conference on Neural Information Processing Systems
Veranstaltungsort
New Orleans ; Virtual Conference
Startdatum der Veranstaltung
28.11.2022
Enddatum der Veranstaltung
09.12.2022
Buchtitel
Advances in Neural Information Processing Systems 35 (NeurIPS 2022)
ISBN
9781713871088
Verlag
NeurIPS
Ort der Erstveröffentlichung
San Diego, CA
Publikationsjahr der Erstveröffentlichung
2022
PPN
525346538
Ergänzende Ressourcen (Supplement)
https://proceedings.neurips.cc/paper_files/paper/2022/hash/178b306c7ee66a66db2171646e17da36-Abstract-Conference.html

  • TUprints Leitlinien
  • Cookie-Einstellungen
  • Impressum
  • Datenschutzbestimmungen
  • Webseitenanalyse
Diese Webseite wird von der Universitäts- und Landesbibliothek Darmstadt (ULB) betrieben.