Logo des Repositoriums
  • English
  • Deutsch
Anmelden
Keine TU-ID? Klicken Sie hier für mehr Informationen.
  1. Startseite
  2. Publikationen
  3. Publikationen der Technischen Universität Darmstadt
  4. Erstveröffentlichungen
  5. Efficient Preference-based Reinforcement Learning
 
  • Details
2017
Erstveröffentlichung
Dissertation

Efficient Preference-based Reinforcement Learning

File(s)
Download
Hauptpublikation
ThesisColorMerged.pdf
CC BY-NC-ND 4.0 International
Format: Adobe PDF
Size: 3.71 MB
TUDa URI
tuda/3818
URN
urn:nbn:de:tuda-tuprints-69522
DOI
10.26083/tuprints-00006952
Autor:innen
Wirth, Christian
Kurzbeschreibung (Abstract)

Common reinforcement learning algorithms assume access to a numeric feedback signal. The numeric feedback contains a high amount of information and can be maximized efficiently. However, the definition of a numeric feedback signal can be difficult in practise due to several limitations and badly defined values may lead to an unintended outcome. For humans, it is usually easier to define qualitative feedback signals than quantitative. Hence, we want to solve reinforcement learning problems with a qualitative signal, potentially capable of overcoming several of the limitations of numeric feedback. Preferences have several advantages over other qualitative settings, like ordinal feedback or advice. Preferences are scale-free and do not require assumptions over the optimal outcome. However, preferences are difficult to use for solving sequential decision problems, because it is unknown which decisions are responsible for the observed preference. Hence, we analyze different approaches for learning from preferences and show the design principles that can be used, as well as the advantages and problems that occur. We also survey the field of preference-based reinforcement learning and categorize the algorithms according to the design principles. Efficiency is of special interest in this setting, as it is important to keep the amount of required preferences low, because they depend on human evaluation. Hence, our focus is on efficient use of the preferences. It can be stated that it is important to be able to generalize the obtained preferences, as this keeps the amount of required preferences low. Therefore, we consider methods that are able to generalize the obtained preferences to models not yet evaluated. However, this introduces uncertain feedback and the exploration/exploitation problem already known from classical reinforcement learning has to be considered with the preferences in mind. We show how to efficiently solve this dual exploration problem by interleaving both tasks, in an undirected manner. We use undirected exploration methods, because they scale better to high-dimensional spaces. Furthermore, human feedback has to be assumed to be error-prone and we analyze the problems that arise when using human evaluation. We show that noise is the most substantial problem when dealing with human preferences and present a solution to this problem.

Sprache
Englisch
Alternativtitel
Effizientes, verstärkendes Lernen mit Präferenzen
Alternatives Abstract

Klassische Algoritmen des verstärkenden Lernens nehmen an dass numerische Bewertungen existieren. Eine numerische Bewertung hat einen hohen Informationsgehalt und kann effizient maximiert werden. Die Definition solche eines numerischen Signals kann aber, auf Grund diverser Limitationen, in der Praxis schwierig sein. Zudem können schlecht definierte Werte zu unerwünschten Ergebnissen führen. Menschen können normalerweise einfacher qualitative als quantitative Bewertungen definieren. Daher wollen wir Probleme des verstärkenden Lernens mit qualitativen Bewertungen lösen um möglicherweise mehrere der Limitationen der numerischen Bewertungen zu überwinden. Präferenzen haben mehrere Vorteile über andere qualitative Bewertungen wie ordinale Signale oder Ratschläge. Präferenzen sind skalenfrei und benötigen keine Annahmen über das optimale Ergebnis. Präferenzen sind aber schwierig zu nutzen um sequentielle Entscheidungsprobleme zu lösen da unbekannt ist welche Entscheidungen zu einer bestimmen Präferenzen geführt haben. Daher analysieren wir verschieden Ansätze die das Lernen von Präferenzen ermöglichen und beschreiben die jeweiligen Design Entscheidungen sowie deren Vorteile und Nachteile. Zudem geben wir ein Überblick über das Forschungsfeld und Kategorisieren die entsprechenden Algorithmen anhand der getroffenen Design Entscheidungen. Effizienz ist in diesem Feld besonders wichtig um die Anzahl der nötigen Präferenzen zu reduzieren, da diese von Beurteilungen durch Menschen abhängen. Daher liegt unser Fokus auf der effizienten Nutzung von Präferenzen. Als besonders wichtig kann es angesehen werden vorhandene Präferenzen zu Generalisieren und Bewertungen zu erhalten, ohne das der Mensch explizit involviert werden muss. Diese Methoden erzeugen aber Unsicherheiten und das ''Exploration/Exploitation''-Problem des klassischen, verstärkenden Lernens muss unter dem Aspekt der Präferenzen berücksichtigt werden. Wir zeigen wie dieses duale Erkundungsproblem effizient gelöst werden kann, in dem man beide Aufgaben mit Hilfe von ungerichteten Methoden vereint. Wir verwenden ungerichtete Erkundungsverfahren da diese besser mit der Dimensionalität des Problems skalieren. Des Weiteren muss angenommen werden dass menschliche Bewertungen fehlerhaft sind und wir analysieren die dadurch entstehenden Probleme. Wir zeigen dass es am wichtigsten ist das Problem des Rauschens zu lösen und zeigen eine entsprechende Lösung.

Fachbereich/-gebiet
20 Fachbereich Informatik
20 Fachbereich Informatik > Knowledge Engineering
DDC
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Institution
Technische Universität Darmstadt
Ort
Darmstadt
Datum der mündlichen Prüfung
21.06.2017
Gutachter:innen
Fürnkranz, JohannesORCID 0000-0002-1207-0159
Neumann, Gerhard
Handelt es sich um eine kumulative Dissertation?
Nein
Name der Gradverleihenden Institution
Technische Universität Darmstadt
Ort der Gradverleihenden Institution
Darmstadt
PPN
423470485

  • TUprints Leitlinien
  • Cookie-Einstellungen
  • Impressum
  • Datenschutzbestimmungen
  • Webseitenanalyse
Diese Webseite wird von der Universitäts- und Landesbibliothek Darmstadt (ULB) betrieben.