TU Darmstadt / ULB / TUprints

Statistical Machine Learning for Modeling and Control of Stochastic Structured Systems

Abdulsamad, Hany (2022):
Statistical Machine Learning for Modeling and Control of Stochastic Structured Systems. (Publisher's Version)
Darmstadt, Technische Universität Darmstadt,
DOI: 10.26083/tuprints-00022573,
[Ph.D. Thesis]

[img] Text
Copyright Information: CC-BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (5MB)
Item Type: Ph.D. Thesis
Status: Publisher's Version
Title: Statistical Machine Learning for Modeling and Control of Stochastic Structured Systems
Language: English

Machine learning and its various applications have driven innovation in robotics, synthetic perception, and data analytics. The last decade especially has experienced an explosion in interest in the research and development of artificial intelligence with successful adoption and deployment in some domains. A significant force behind these advances has been an abundance of data and the evolution of simple computational models and tools with a capacity to scale up to massive learning automata. Monolithic neural networks with billions of parameters that rely on automatic differentiation are a prime example of the significant role efficient computation has had on supercharging the ability of well-established representations to extract intelligent patterns from unstructured data.

Nonetheless, despite the strides taken in the digital domains of vision and natural language processing, applications of optimal control and robotics significantly trail behind and have not been able to capitalize as much on the latest trends of machine learning. This discrepancy can be explained by the limited transferability of learning concepts that rely on full differentiability to the heavily structured physical and human interaction environments, not to mention the substantial cost of data generation on real physical systems. Therefore, these factors severely limit the application scope of loosely-structured over-parameterized data-crunching machines in the mechanical realm of robot learning and control.

This thesis investigates modeling paradigms of hierarchical and switching systems to tackle some of the previously highlighted issues. This research direction is motivated by insights into universal function approximation via local cooperating units and the promise of inherently regularized representations through explicit structural design. Moreover, we explore ideas from robust optimization that address model mismatch issues in statistical models and outline how related methods may be used to improve the tractability of state filtering in stochastic hybrid systems.

In Chapter 2, we consider hierarchical modeling for general regression problems. The presented approach is a generative probabilistic interpretation of local regression techniques that approximate nonlinear functions through a set of local linear or polynomial units. The number of available units is crucial in such models, as it directly balances representational power with the parametric complexity. This ambiguity is addressed by using principles from Bayesian nonparametrics to formulate flexible models that adapt their complexity to the data and can potentially encompass an infinite number of components. To learn these representations, we present two efficient variational inference techniques that scale well with data and highlight the advantages of hierarchical infinite local regression models, such as dealing with non-smooth functions, mitigating catastrophic forgetting, and enabling parameter sharing and fast predictions. Finally, we validate this approach on a set of large inverse dynamics datasets and test the learned models in real-world control scenarios.

Chapter 3 addresses discrete-continuous hybrid modeling and control for stochastic dynamical systems, which implies dealing with time-series data. In this scenario, we develop an automatic system identification technique that decomposes nonlinear systems into hybrid automata and leverages the resulting structure to learn switching feedback control via hierarchical reinforcement learning. In the process, we rely on an augmented closed-loop hidden Markov model architecture that captures time correlations over long horizons and provides a principled Bayesian inference framework for learning hybrid representations and filtering the hidden discrete states to apply control accordingly. Finally, we embed this structure explicitly into a novel hybrid relative entropy policy search algorithm that optimizes a set of local polynomial feedback controllers and value functions. We validate the overall switching-system perspective by benchmarking the open-loop predictive performance against popular black-box representations. We also provide qualitative empirical results for hybrid reinforcement learning on common nonlinear control tasks.

In Chapter 4, we attend to a general and fundamental problem in learning for control, namely robustness in data-driven stochastic optimization. The question of sensitivity has a strong priority, given the rising popularity of embedding statistical models into stochastic control frameworks. However, data from dynamical, especially mechanical, systems is often scarce due to a high extraction cost and limited coverage of the state-action space. The result is usually poor models with narrow validity and brittle control laws, particularly in an ill-posed over-parameterized learning example. We propose to robustify stochastic control by finding the worst-case distribution over the dynamics and optimizing a corresponding robust policy that minimizes the probability of catastrophic failures. We achieve this goal by formulating a two-stage iterative minimax optimization problem that finds the most pessimistic adversary in a trust region around a nominal model and uses it to optimize a robust optimal controller. We test this approach on a set of linear and nonlinear stochastic systems and supply empirical evidence of its practicality. Finally, we provide an outlook on how similar multi-stage distributional optimization techniques can be applied in approximate filtering of stochastic switching systems in order to tackle the issue of exponential explosion in state mixture components.

In summation, the individual contributions of this thesis are a collection of interconnected principles for structured and robust learning for control. Although many challenges remain ahead, this research lays a foundation for reflecting on future structured learning questions that strive to combine optimal control and statistical machine learning perspectives for the automatic decomposition and optimization of hierarchical models.

Alternative Abstract:
Alternative AbstractLanguage

Maschinelles Lernen und seine verschiedenen Anwendungen haben Innovationen in der Robotik, der synthetischen Wahrnehmung und der Datenanalyse vorangetrieben. Vor allem in den letzten zehn Jahren ist das Interesse an der Erforschung und Entwicklung künstlicher Intelligenz explosionsartig gestiegen, und in einigen Bereichen wurden sie bereits erfolgreich eingeführt und eingesetzt. Eine wichtige Triebkraft hinter diesen Fortschritten war die Fülle an Daten und die Entwicklung einfacher Berechnungsmodelle und Werkzeuge, die bis zu massiven Lernautomaten skaliert werden können. Monolithische neuronale Netze mit Milliarden von Parametern, die auf automatischer Differenzierung beruhen, sind ein Paradebeispiel für die bedeutende Rolle, die effiziente Berechnungen bei der Verbesserung der Fähigkeit etablierter Darstellungen zur Extraktion intelligenter Muster aus unstrukturierten Daten gespielt haben.

Trotz der Fortschritte, die in den digitalen Bereichen der Bildverarbeitung und der Verarbeitung natürlicher Sprache gemacht wurden, hinken Anwendungen der optimalen Steuerung und der Robotik deutlich hinterher und waren nicht in der Lage, von den neuesten Trends des maschinellen Lernens in gleichem Maße zu profitieren. Diese Diskrepanz lässt sich durch die begrenzte Übertragbarkeit von Lernkonzepten, die auf vollständiger Differenzierbarkeit beruhen, auf stark strukturierte physische und menschliche Interaktionsumgebungen erklären, ganz zu schweigen von den erheblichen Kosten der Datengenerierung bei realen physikalischen Systemen. Diese Faktoren schränken daher den Anwendungsbereich von unstrukturierten, überparametrisierten Datenverarbeitungsmaschinen im mechanischen Bereich des Roboterlernens und der Robotersteuerung stark ein.

In dieser Arbeit werden Modellierungsparadigmen für hierarchische und schaltende Systeme untersucht, um einige der zuvor hervorgehobenen Probleme zu lösen. Diese Forschungsrichtung ist motiviert durch die Erkenntnisse der universellen Funktionsapproximation über lokal-kooperierende Einheiten und das Versprechen regularisierter Repräsentationen durch explizites Strukturdesign. Darüber hinaus erforschen wir Ideen aus der robusten Optimierung, die sich mit Problemen der Modellabweichung in statistischen Modellen befassen, und skizzieren, wie verwandte Methoden eingesetzt werden können, um die Traktabilität von Filterung in stochastischen Hybridsystemen zu verbessern.

In Kapitel 2 betrachten wir die hierarchische Modellierung für allgemeine Regressionsprobleme. Der vorgestellte Ansatz ist eine generative probabilistische Interpretation lokaler Regressionstechniken, die nichtlineare Funktionen durch einen Satz lokaler linearer oder polynomialer Einheiten approximieren. Die Anzahl der verfügbaren Einheiten ist bei solchen Modellen von entscheidender Bedeutung, da sie ein direktes Gleichgewicht zwischen der Repräsentationsfähigkeit und der parametrischen Komplexität herstellt. Diese Ambiguität wird durch die Anwendung von Prinzipien aus der Bayes'schen Nichtparametrik angegangen, um flexible Modelle zu formulieren, die ihre Komplexität an die Daten anpassen und potenziell eine unendliche Anzahl von Komponenten umfassen können. Um diese Repräsentationen zu erlernen, stellen wir zwei effiziente Variationsinferenztechniken vor, die gut mit den Daten skalieren und die Vorteile hierarchischer lokaler Regressionsmodelle hervorheben, wie z.B. den Umgang mit nicht-kontinuierlichen Funktionen, die Abschwächung katastrophalen Vergessens und die Ermöglichung von Paramaterteilung und schnellen Vorhersagen. Schließlich validieren wir diesen Ansatz auf große Datensätze der inversen Dynamik und testen die gelernten Modelle in realen Kontrollszenarien.

Kapitel 3 befasst sich mit der diskret-kontinuierlichen hybriden Modellierung und Steuerung stochastischer dynamischer Systeme, was den Umgang mit Zeitreihendaten voraussetzt. In diesem Szenario entwickeln wir eine automatische Systemidentifikationstechnik, die nichtlineare Systeme in hybride Automaten zerlegt, und nutzen die resultierende Struktur, um eine schaltende Rückkopplungssteuerung über hierarchisches Bestärkungslernen zu erlernen. Dabei stützen wir uns auf eine erweiterte Markov-Modell-Architektur für geschlossene Regelkreise, die Zeitkorrelationen über lange Horizonte erfasst und einen grundlegenden Bayes'schen Inferenzrahmen für das Lernen hybrider Repräsentationen und die Filterung der verborgenen diskreten Zustände bietet, um die Steuerung entsprechend anzuwenden. Schließlich betten wir diese Struktur in einen neuartigen hybriden Suchalgorithmus mit relativer Entropie ein, der eine Reihe von lokalen polynomialen Rückkopplungsreglern und Wertfunktionen optimiert. Wir validieren den Gesamtansatz des Schaltsystems, indem wir die Vorhersageleistung mit gängigen Black-Box-Darstellungen vergleichen. Wir liefern auch qualitative empirische Ergebnisse für hybrides Bestärkungslernen bei gängigen nichtlinearen Steuerungsaufgaben.

In Kapitel 4 widmen wir uns einem allgemeinen und grundlegenden Problem des Lernens für die Steuerung, nämlich der Robustheit bei datengesteuerter stochastischer Optimierung. Die Frage der Sensitivität hat angesichts der zunehmenden Popularität der Einbettung statistischer Modelle in stochastische Kontrollsysteme hohe Priorität. Allerdings sind die Daten dynamischer, insbesondere mechanischer Systeme aufgrund der hohen Erhebungskosten und der begrenzten Abdeckung des Zustands-Aktions-Raums oft knapp. Das Ergebnis sind in der Regel schlechte Modelle mit enger Gültigkeit und brüchigen Kontrollgesetzen, insbesondere in einem schlecht gestellten, überparametrisierten Lernbeispiel. Wir schlagen vor, die stochastische Steuerung zu robustifizieren, indem wir die schlimmstmögliche Verteilung über die Dynamik finden und eine entsprechende robuste Strategie optimieren, die die Wahrscheinlichkeit von katastrophalen Fehlern minimiert. Wir erreichen dieses Ziel durch die Formulierung eines zweistufigen iterativen Minimax-Optimierungsproblems, das den pessimistischsten Gegner in einer Trust-Region um ein nominales Modell findet und zur Optimierung eines robusten optimalen Reglers verwendet. Wir testen diesen Ansatz an einer Reihe von linearen und nichtlinearen stochastischen Systemen und liefern empirische Beweise für seine Praxistauglichkeit. Schließlich geben wir einen Ausblick darauf, wie ähnliche mehrstufige Optimierungstechniken bei der approximativen Filterung stochastischer Schaltsysteme angewendet werden können, um das Problem der exponentiellen Explosion von Zustandsmischungskomponenten zu lösen.

Zusammenfassend stellen die einzelnen Beiträge dieser Arbeit eine Sammlung von miteinander verbundenen Prinzipien für strukturiertes und robustes Lernen dar. Auch wenn noch viele Herausforderungen zu bewältigen sind, legt diese Arbeit den Grundstein, um über zukünftige Fragen des strukturierten Lernens nachzudenken, die darauf abzielen, die Perspektiven der optimalen Steuerung und des statistischen maschinellen Lernens für die automatische Dekomposition und Optimierung hierarchischer Modelle zu kombinieren.

Place of Publication: Darmstadt
Collation: XII, 153 Seiten
Classification DDC: 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 01 Nov 2022 12:34
Last Modified: 03 Nov 2022 10:25
DOI: 10.26083/tuprints-00022573
URN: urn:nbn:de:tuda-tuprints-225737
Referees: Peters, Prof. Jan ; Schön, Prof. Thomas
Date of oral examination: 4 November 2021
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/22573
PPN: 501038558
Actions (login required)
View Item View Item