TU Darmstadt / ULB / TUprints

Pushing The Limits of Sample-Efficient Optimisation

Cowen-Rivers, Alexander (2023)
Pushing The Limits of Sample-Efficient Optimisation.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00024178
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
Pushing The Limits Of Sample-Efficent Optimisation.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (6MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Pushing The Limits of Sample-Efficient Optimisation
Language: English
Referees: Peters, Prof. Dr. Jan ; Kersting, Prof. Dr. Kristian
Date: 4 July 2023
Place of Publication: Darmstadt
Collation: xi, 138 Seiten
Date of oral examination: 13 December 2022
DOI: 10.26083/tuprints-00024178
Abstract:

Humans excel at confronting problems with little to no prior information about, and with few interactions reasoning over the problems to propose adequate solutions. In other terms, when a human encounters an unknown function, they are able to, with few samples, find a variable such that the evaluation of this variable in the unknown function produces a satisfactory result. However, as the unknown function becomes increasingly non-linear, as well as the design space x becomes increasingly abstract, it becomes harder for a human to utilise prior knowledge around this abstracted black-box function. Bayesian Optimisation, on the other hand, provides a principled approach to reasoning over the, typically expensive to evaluate, unknown function f and exploring regions of uncertainty in an efficient manner. Ubiquitous applications of Bayesian Optimisation range from hyper-parameter tuning, molecule design, sensor placement, antenna design and laser optimisation. Thus improvements in the performance of Bayesian Optimisation can have wide-ranging implications in many practical applications. Bayesian Optimisation also offers the great potential to enable systems to autonomously tune their hyper-parameters, as well as automatically design the machine learning architectures (AutoML).

In this thesis, we want to advance the success of Bayesian optimisation algorithms through revisiting and contributing to the first two stages in detail. In the first stage, the surrogate model is chosen and constructed typically based on certain assumptions of the unknown function, such as whether the function is deterministic or stochastic? and if it's believed to be stochastic is its noise process homoscedastic or heteroscedastic? Do we believe the unknown function to be stationary or non-stationary? To assess the effect of these assumptions, we look at a broad range of applications of tuning machine learning models in typically studied domains. We find that through revisiting these initial assumptions imposed at the start of applying Bayesian Optimisation, we can construct a novel algorithm HEBO that achieves state-of-the-art performance compared to existing methods. HEBO is verified externally also, by the submission of our algorithm into the NeurIPS 2020 Black-box Optimisation challenge, whereby our proposed method achieved 1st place when evaluated on a wide variety of held-out tasks. We then visit the second stage of the optimisation process, and we look at new ways to optimise the acquisition functions by framing them in a mathematically equivalent compositional format, which allows for the application of a new family of compositional optimisers. We show that on synthetic and real-world experiments, that these compositional methods perform favourably in the majority of applications. Lastly, we attempt to carry through a Bayesian optimisation perspective towards safe sequential decision making and propose new acquisition functions to determine the fitness value for safe reinforcement learning, and evaluate them on a variety of challenging benchmarks such as constrained robotic car, constrained point robot, constrained robotic arm control, constrained pendulum and constrained double pendulum. Whereby all robotic actuators are tasked with reading a goal state whilst avoiding an unsafe region defined within the state space. We find that the incorporation of an acquisition function helps guide exploration and leading to improved sample complexity in acquiring safe policies in training and evaluation.

To summarise, we have developed a new Bayesian optimisation algorithm that was successfully shown to be state-of-the-art internally against prior Black-box optimisation algorithms, as well as externally in the NeurIPS 2020 Black-box optimisation challenge. HEBO was shown to be two orders of magnitude more sample efficient than random search for certain black-box optimisation tasks. We also introduced novel formulations of popular acquisition functions in a mathematically equivalent compositional framework, allowing us to bridge the well-studied field of compositional optimisation together and show the success of doing so across commonly studied synthetic and real-world Bayesian optimisation benchmarks. Finally, we study the important problem of safe sequential decision making and construct novel acquisition functions that allow agents to safely explore their environments.

Alternative Abstract:
Alternative AbstractLanguage

Menschen zeichnen sich dadurch aus, dass sie sich Problemen mit wenig bis gar keinen Vorkenntnissen und wenigen Interaktionen stellen können, in denen sie über die Probleme nachdenken, um angemessene Lösungen vorzuschlagen. Mit anderen Worten: Wenn ein Mensch auf eine unbekannte Funktion trifft, ist er in der Lage, mit wenigen Stichproben eine Variable zu finden, sodass die Auswertung dieser Variablen in der unbekannten Funktion ein zufriedenstellendes Ergebnis liefert. Da jedoch die unbekannte Funktion zunehmend nichtlinear wird und der Designraum x zunehmend abstrakter wird, wird es für einen Menschen schwieriger, Vorwissen rund um diese abstrahierte Black-Box-Funktion zu nutzen. Die Bayes'sche Optimierung hingegen bietet einen prinzipiellen Ansatz zur Schlussfolgerung über die typischerweise kostspielig auszuwertende unbekannte Funktion f und zur effizienten Untersuchung von Unsicherheitsbereichen. Allgegenwärtige Anwendungen der Bayes'schen Optimierung reichen von Hyperparameter-Tuning, Moleküldesign, Sensorplatzierung, Antennendesign und Laseroptimierung. Daher können Verbesserungen der Leistung der Bayes'schen Optimierung weitreichende Auswirkungen auf viele praktische Anwendungen haben. Die Bayesianische Optimierung bietet auch das große Potenzial, es Systemen zu ermöglichen, ihre Hyperparameter autonom zu optimieren und die Architekturen für maschinelles Lernen (AutoML) automatisch zu entwerfen.

In dieser Arbeit wollen wir den Erfolg von Bayes'schen Optimierungsalgorithmen vorantreiben, indem wir die ersten beiden Stufen im Detail noch einmal aufgreifen und dazu beitragen. In der ersten Phase wird das Ersatzmodell ausgewählt und typischerweise auf der Grundlage bestimmter Annahmen der unbekannten Funktion erstellt, z. B. ob die Funktion deterministisch oder stochastisch ist. Und wenn angenommen wird, dass es stochastisch ist, ist sein Rauschprozess homoskedastisch oder heteroskedastisch? Glauben wir, dass die unbekannte Funktion stationär oder instationär ist? Um die Auswirkungen dieser Annahmen zu beurteilen, betrachten wir ein breites Anwendungsspektrum zur Optimierung von Modellen für maschinelles Lernen in typischerweise untersuchten Bereichen. Wir stellen fest, dass wir durch die Überprüfung dieser anfänglichen Annahmen, die zu Beginn der Anwendung der Bayes'schen Optimierung aufgestellt wurden, einen neuartigen Algorithmus HEBO konstruieren können, der im Vergleich zu bestehenden Methoden eine Leistung auf dem neuesten Stand der Technik erreicht. HEBO wird auch extern verifiziert, indem unser Algorithmus beim NeurIPS 2020 Black-Box Optimization Challenge eingereicht wurde, wobei unsere vorgeschlagene Methode bei der Bewertung einer Vielzahl von ausstehenden Aufgaben den 1. Platz erreichte. Anschließend besuchen wir die zweite Stufe des Optimierungsprozesses und suchen nach neuen Möglichkeiten zur Optimierung der Erfassungsfunktionen, indem wir sie in ein mathematisch äquivalentes Kompositionsformat umwandeln, das die Anwendung einer neuen Familie von Kompositionsoptimierern ermöglicht. Wir zeigen, dass diese Zusammensetzungsmethoden in synthetischen und realen Experimenten in den meisten Anwendungen eine gute Leistung erbringen. Schließlich versuchen wir, eine Bayes'sche Optimierungsperspektive für eine sichere sequentielle Entscheidungsfindung umzusetzen und neue Erfassungsfunktionen vorzuschlagen, um den Fitnesswert für sicheres Verstärkungslernen zu bestimmen, und bewerten sie anhand einer Vielzahl anspruchsvoller Benchmarks wie eingeschränktes Roboterauto, eingeschränkter Punktroboter, eingeschränkte Roboterarmsteuerung, eingeschränktes Pendel und eingeschränktes Doppelpendel. Dabei haben alle Roboteraktuatoren die Aufgabe, einen Zielzustand zu lesen und gleichzeitig einen im Zustandsraum definierten unsicheren Bereich zu meiden. Wir stellen fest, dass die Integration einer Erfassungsfunktion dabei hilft, die Exploration zu leiten und zu einer verbesserten Probenkomplexität bei der Erlangung sicherer Richtlinien in Schulung und Bewertung führt.

Zusammenfassend lässt sich sagen, dass wir einen neuen Bayes'schen Optimierungsalgorithmus entwickelt haben, der sich sowohl intern im Vergleich zu früheren Black-Box-Optimierungsalgorithmen als auch extern im NeurIPS 2020 Black-Box-Optimierungswettbewerb erfolgreich als State-of-the-Art erwiesen hat. Es wurde gezeigt, dass HEBO bei bestimmten Black-Box-Optimierungsaufgaben zwei Größenordnungen effizienter bei der Stichprobe ist als die Zufallssuche. Wir haben auch neuartige Formulierungen beliebter Erfassungsfunktionen in einem mathematisch äquivalenten Kompositionsrahmen eingeführt, was es uns ermöglicht, das gut untersuchte Gebiet der Kompositionsoptimierung miteinander zu verbinden und den Erfolg dieser Vorgehensweise bei häufig untersuchten synthetischen und realen Bayes'schen Optimierungsbenchmarks zu zeigen. Abschließend untersuchen wir das wichtige Problem der sicheren sequentiellen Entscheidungsfindung und konstruieren neuartige Erfassungsfunktionen, die es Agenten ermöglichen, ihre Umgebung sicher zu erkunden.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-241781
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 04 Jul 2023 12:59
Last Modified: 29 Sep 2023 14:10
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/24178
PPN: 509286674
Export:
Actions (login required)
View Item View Item