TU Darmstadt / ULB / TUprints

Minimax and entropic proximal policy optimization

Song, Yunlong (2023)
Minimax and entropic proximal policy optimization.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00024754
Master Thesis, Primary publication, Publisher's Version

[img] Text
yunlong_thesis.pdf
Copyright Information: CC BY 4.0 International - Creative Commons, Attribution.

Download (3MB)
Item Type: Master Thesis
Type of entry: Primary publication
Title: Minimax and entropic proximal policy optimization
Language: English
Referees: Peters, Prof. Dr. Jan ; Koeppl, Prof. Dr. Heinz ; Belousov, Boris
Date: 26 October 2023
Place of Publication: Darmstadt
Collation: vi, 42 Seiten
DOI: 10.26083/tuprints-00024754
Abstract:

First-order gradient descent is to date the most commonly used optimization method for training deep neural networks, especially for networks with shared parameters, or recurrent neural networks (RNNs). Policy gradient methods provide several advantages over other reinforcement learning algorithms; for example, they can naturally handle continuous state and action spaces. In this thesis, we contribute two different policy gradient algorithms that are straightforward to implement and effective for solving challenging environments, both methods being compatible with large nonlinear function approximations and optimized using stochastic gradient descent. First, we propose a new family of policy gradient algorithms, which we call minimax entropic policy optimization (MMPO). The new method combines the trust region policy optimization and the idea of minimax training, in which stable policy improvement is achieved by formulating the KL-divergence constraint in the trust region policy optimization (TRPO) as a loss function with a ramp function transformation, and then, carrying out a minimax optimization between two stochastic gradient optimizers, one optimizing the "surrogate" objective and another maximizing the ramp-transformed KL-divergence loss function. Our experiments on several challenging continuous control tasks demonstrate that MMPO method achieves comparable performance as TRPO and proximal policy optimization (PPO), however, is much easier to implement compared to TRPO and guarantees that the KL-divergence bound to be satisfied. Second, we investigate the use of the f-divergence as a regularization to the policy improvement, where the f-divergence is a general class of functional measuring the divergence between two probability distributions with the KL-divergence being a special case. The f-divergence can be either treated as a hard constraint or added as a soft constraint to the objective. We propose to treat the f-divergence as a soft constraint by penalizing the policy update step via a penalty term on the f-divergence between successive policy distributions. We term such an unconstrained policy optimization method as f-divergence penalized policy optimization (f-PPO). We focus on a one-parameter family of α-divergences, a special case of f-divergences, and study influences of the choice of divergence functions on policy optimization. The empirical results on a series of MuJoCo environments show that f-PPO with a proper choice of α-divergence is effective for solving challenging continuous control tasks, where α-divergences act differently on the policy entropy, and hence, on the policy improvement.

Alternative Abstract:
Alternative AbstractLanguage

Gradientenabstieg erster Ordnung ist heutzutage die am meisten genutzte Methode, um Neuronale Netze mit mehreren Schichten trainieren. Vor allem Netze, die ihre Parameter teilen, oder Rekurrente Neuronale Netze (RNNs), werden mit dem Gradientenabstieg erster Ordnung trainiert. Policy-Gradient-Methoden haben im Vergleich zu anderen Reinforcement Learning Algorithmen viele Vorteile. Sie können z.B. mit kontinuierlichen Zustands- und Aktionsräumen umgehen. In dieser Thesis stellen wir zwei verschiedene Policy-Gradienten-Methoden vor, die unkompliziert zu implementieren sind und, die anspruchsvolle Probleme effektiv lösen. Beide Methoden sind mit nichtlinearen Funktionsapproximationen kompatibel und sie werden mit der Methode des stochastischen Gradientenabstiegs optimiert. Als Erstes stellen wir eine neue Famile der Policy-Gradient-Methoden vor, welche als minimax entropisch Policy- Optimierung (MMPO) Methode genannt wird. Die neue Methode kombiniert die Vertrauensbereich-Policy-Optimierung und die Idee des minimax Trainings. Beim minimax Training wird eine stabile Policy-Verbesserung durch das Formulieren der KL-Divergenz Nebenbedingung in TRPO als eine Kostenfunktion mit einer Rampenfunktion erreicht, was dann als eine minimax Optimierung zwischen zwei stochastischen Gradientenabstieg-Optimierern optimiert wird. Einer der Optimierer maximiert das Kostenfunktionssurrogat, während der andere Optimierer die Rampentransformierte KL-Divergenz Kostenfunktion minimiert. Unsere anspruchsvollen Experimente mit mehreren kontinuierlichen Regelproblemen zeigen, dass die MMPO Methode vergleichbare Performanz wie das TRPO und das PPO erreicht. Dennoch ist es im Vergleich zu TRPO viel einfacher zu implementieren und garantiert das Einhalten der KL-Divergenz Beschränkung. Als Zweites, untersuchen wir die f-Divergenz als eine Regularisierung für die Policy Verbesserung, wobei die f-Divergenz eine allgemeine Klasse zur Divergenzuntersuchung zwischen zwei Wahrscheinlichkeitsdichtefunktionen ist. Die KLDivergenz ist ein Sonderfall der f-Divergenz. Die f-Divergenz kann sowohl als harte Nebenbedingung, als auch eine weiche Nebenbedingung behandelt werden. Wir beabsichtigen, sie als eine weiche Nebenbedingung zu nutzen, in dem wir den Policy Update zwischen Policy Distributionen mit einem Bestrafungsterm der f-Divergenz sukzessive bestrafen. Wir nennen solch eine Policy-Optimierung ohne Nebenbedingungen als die f-Divergenz bestrafte Policy-Optimierung (f- PPO) Methode. Wir fokussieren uns hierbei auf eine Famile mit einem Parameter der α-Divergenzen, einem Sonderfall der f-Divergenzen und untersuchen den Einfluss der Wahl der Divergenzfunktionen auf die Policy-Optimierung. Die empirischen Ergebnisse auf eine Reihe von MuJoCo Umgebungen zeigen, dass die f-PPO mit einer passenden Wahl der α-Divergenz, anspruchsvolle kontinuierliche Regelungsaufgaben effektive löst, wobei die α-Divergenz unterschiedlich auf die Policy Entropie und somit auf die Policy-Verbesserung wirkt.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-247547
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
TU-Projects: EC/H2020|640554|SKILLS4ROBOTS
Date Deposited: 26 Oct 2023 13:43
Last Modified: 23 Jan 2024 09:20
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/24754
PPN: 512797285
Export:
Actions (login required)
View Item View Item