Deterministic Approximations for Deep State-Space Models

Look, Andreas (2023)
Deterministic Approximations for Deep State-Space Models.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00026352
Ph.D. Thesis, Primary publication, Publisher's Version

Text
Thesis_Look_Andreas.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (4MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Deterministic Approximations for Deep State-Space Models

Language:

English

Referees:

Peters, Prof. Jan ; Duvenaud, Prof. David ; Kandemir, Prof. Melih

Date:

22 November 2023

Place of Publication:

Darmstadt

Collation:

x, 131 Seiten

Date of oral examination:

23 October 2023

DOI:

10.26083/tuprints-00026352

Abstract:

This thesis focuses on neural network based modeling of stochastic dynamical systems with applications in the context of autonomous driving. We define three goals for the model that must be achieved with low computational cost due to the use of low-compute and energy-constrained chips in autonomous vehicles. First, our model must accurately capture the data uncertainty, which is also referred to as the aleatoric uncertainty. The data uncertainty cannot be reduced by collecting more data since we only have partial information. In essence, we are unable to observe all states, such as the driver's intention. To illustrate this, consider a vehicle approaching a junction with the choice of turning left or right. If the driver does not use an indicator, we cannot determine which direction he will follow. Second, the model must account for interactions between different traffic participants, as traffic is highly interactive. Modeling interactions between traffic participants is vital for accurate traffic forecasting, as the actions of one traffic participant can impact the actions of other traffic participants. For example, imagine a scenario where one vehicle is merging into the lane of another vehicle. Both vehicles need to interact and adjust their speed to accommodate the lane merging. Lastly, as it is impossible to include all traffic scenarios in the training data set, the model needs to account for model uncertainty that arises from the lack of knowledge, which is also known as epistemic uncertainty. Model uncertainty is especially important for traffic scenarios that have not been observed during training. Without accounting for model uncertainty, the model is limited to modeling the intrinsic data uncertainty.

Throughout this thesis, we introduce several advancements to Deep State-Space Models (DSSMs) that address the challenges of capturing intrinsic data uncertainty, modeling interactions, and incorporating model uncertainty, all while ensuring low computational cost. DSSMs extend state-space models towards neural transition and emission models. A DSSM describes a partially observable system where each emission is generated by a corresponding latent state. The dynamics of the latent states follow a Markovian structure, where the state at each time point is dependent solely on the previous time point's state. Due to the use of nonlinear neural networks in the transition and emission models, DSSMs offer high modeling capacity. Moreover, the stochasticity in the transition and emission models allows DSSMs to effectively capture the inherent data uncertainty.

After an introduction and reviewing relevant background material, we focus in the first part of the thesis on fully observed dynamical systems before transitioning to partially observed systems in the subsequent parts. Classical frameworks for simulating stochastic dynamical systems heavily rely on Monte Carlo sampling. As we demonstrate in this thesis, accurate prediction necessitates many particles, which induces a prohibitively high computational cost. To address this issue, we propose an alternative method that is computationally efficient and avoids the need for extensive Monte Carlo sampling. Our method relies on an assumed density approach to approximate the predictive distribution of the model. Specifically, we approximate the model's predictive distribution as a Gaussian at each time step. We estimate its moments by progressive moment matching horizontally in the time direction and vertically through neural network layers. Our proposed method is computationally more efficient than existing numerical integration schemes, as it exploits the layered structure of neural networks. This unimodal approximation lays the foundation for more complex approximations in the later parts. To assess the efficacy of our approach, we explore the application of our method in different domains.

In the second part of this thesis, we focus on partially observable systems and extend our framework towards deterministic uncertainty modeling with interacting agents, where each agent represents a vehicle in an autonomous driving setting. As a graph can capture the relations between different agents, we use a DSSM with graph neural networks in the transition model. Moreover, we extend our deterministic moment matching scheme to accommodate the multimodal nature of traffic forecasting. We demonstrate the applicability of our proposed framework on different autonomous driving datasets.

Finally, we address the challenge of incorporating model uncertainty into DSSMs, which is the uncertainty arising from the lack of knowledge. We achieve this by introducing uncertainty over the neural network weights in the transition model. However, accounting for both data and model uncertainty during inference is computationally expensive, as it requires marginalization over both sources of uncertainty. To address this pain point, we extend our deterministic approximation framework towards uncertainty propagation rules that account for both sources of uncertainty. We provide benchmarks on different domains that demonstrate the applicability of our model as a general-purpose tool.

Alternative Abstract:

Alternative Abstract

Language

In dieser Dissertation liegt der Fokus auf der Modellierung dynamischer Systeme im Kontext des autonomen Fahrens mithilfe neuronaler Netze. Dabei legen wir drei Anforderungen an das Modell fest, die aufgrund der Verwendung von leistungsarmen und energiesparenden Chips in autonomen Fahrzeugen mit geringen Rechenkosten erfüllt werden müssen. Die erste Anforderung besteht darin, dass unser Modell die aleatorische Unsicherheit präzise erfassen muss. Diese Unsicherheit kann nicht durch das Sammeln zusätzlicher Daten reduziert werden. Sie entsteht, da wir nicht in der Lage sind, alle Zustände vollständig zu beobachten, wie zum Beispiel die Absicht des Fahrers. Um dies zu veranschaulichen, betrachten wir ein Fahrzeug, das sich einer Kreuzung nähert und die Wahl hat, nach links oder rechts abzubiegen. Wenn der Fahrer keinen Blinker verwendet, können wir nicht vorhersagen, in welche Richtung er abbiegen wird. Die zweite Anforderung besteht darin, dass das Modell die Interaktionen zwischen verschiedenen Verkehrsteilnehmern berücksichtigen muss. Die Modellierung dieser Interaktionen ist entscheidend für die Verkehrsvorhersage, da die Handlungen eines Verkehrsteilnehmers die Handlungen anderer Verkehrsteilnehmer beeinflussen können. Ein Beispiel hierfür ist eine Situation, in der ein Fahrzeug in die Spur eines anderen Fahrzeugs einfädelt. Beide Fahrzeuge müssen miteinander interagieren und ihre Geschwindigkeit anpassen, um das Einfädeln zu ermöglichen. Schließlich muss unser Modell die epistemische Unsicherheit berücksichtigen, die aus dem Mangel an Wissen resultiert, da unser Trainingsdatensatz nicht alle möglichen Verkehrsszenarien abdecken kann. Die Berücksichtigung der epistemischen Unsicherheit ist besonders wichtig für Verkehrsszenarien, die während des Trainings nicht beobachtet wurden. Ohne diese Unsicherheit einzubeziehen, ist das Modell auf die Modellierung der aleatorischen Unsicherheit beschränkt.

Um diese Herausforderungen zu bewältigen und gleichzeitig einen geringen Rechenaufwand zu gewährleisten, stellen wir verschiedene Erweiterungen für neuronale Zustandsraummodelle vor. Ein Zustandsraummodell beschreibt ein teilweise beobachtetes System, bei dem jede Emission von einem entsprechenden latenten Zustand erzeugt wird. Die Dynamik der latenten Zustände folgt einer Markov-Struktur, bei der der Zustand zu jedem Zeitpunkt ausschließlich vom Zustand des vorherigen Zeitpunkts abhängt. Die Stochastizität im Zustandsraummodel ermöglicht es uns, die aleatorische Unsicherheit zu modellieren.

Nach einer Einleitung und der Vorstellung relevanter Hintergrundinformationen konzentrieren wir uns im ersten Teil der Dissertation zunächst auf vollständig beobachtbare Systeme, bevor wir zu teilweise beobachtbaren Systemen übergehen. Klassische Methoden zur Simulation stochastischer dynamischer Systeme verwenden oft Monte-Carlo-Simulationen. In dieser Dissertation zeigen wir, dass eine genaue Vorhersage eine hohe Zahl von Partikeln erfordert, was zu hohen Rechenkosten führt. Um dieses Problem zu lösen, schlagen wir eine alternative Methode vor, die rechenintensive Monte-Carlo-Simulationen vermeidet. Unsere neue Methode verwendet eine Gauß-Verteilung zur Approximation der Vorhersageverteilung in jedem Zeitschritt. Die Momente der Gauß-Verteilung im nächsten Zeitschritt werden als eine Funktion der Momente im vorherigen Zeitschritt bestimmt. Dabei werden die Momente horizontal in Zeitrichtung und vertikal durch die Schichten der neuronalen Netze propagiert. Unsere vorgeschlagene Methode ist rechnerisch effizienter als bestehende numerische Integrationsverfahren, da sie die schichtweise Struktur neuronaler Netze ausnutzt. Um die Effektivität unseres Ansatzes zu bewerten, untersuchen wir die Anwendung unserer Methode in verschiedenen Domänen.

Im zweiten Teil der Dissertation konzentrieren wir uns auf teilweise beobachtbare Systeme und erweitern unsere Methode aus dem vorherigen Teil der Dissertation, um dynamische Systeme mit interagierenden Agenten zu modellieren. Hierbei repräsentiert jeder Agent ein Fahrzeug in einer autonomen Fahrumgebung. Da ein Graph Beziehungen zwischen Agenten modellieren kann, verwenden wir neuronale Netze, die auf die Modellierung von Graphen spezialisiert sind. Zusätzlich erweitern wir die unimodale Approximation, die im ersten Teil der Dissertation vorgestellt wurde, zu einer multimodalen Approximation. Wir zeigen die Anwendbarkeit unserer Erweiterungen anhand verschiedener Datensätze im Kontext der Verkehrsvorhersage.

Im letzten Teil der Dissertation führen wir Unsicherheiten in den Gewichten der neuronalen Netze ein, um die epistemische Unsicherheit zu modellieren. Ohne Berücksichtigung der epistemischen Unsicherheit ist die Modellierung auf aleatorische Unsicherheit beschränkt. Die Berücksichtigung sowohl der epistemischen als auch der aleatorischen Unsicherheit ist rechnerisch aufwendig, da über beide Unsicherheitsquellen während der Inferenz marginalisiert werden muss. Wir erweitern unsere Methode aus dem ersten Teil der Dissertation zur Schätzung der Vorhersageverteilung, um den Einsatz von neuronalen Netzen mit stochastischen Gewichten zu ermöglichen. Wir demonstrieren die Anwendbarkeit unserer Erweiterungen anhand von Experimenten in verschiedenen Domänen.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-263529

Classification DDC:

000 Generalities, computers, information > 004 Computer science
600 Technology, medicine, applied sciences > 600 Technology

Divisions:

20 Department of Computer Science > Intelligent Autonomous Systems

Date Deposited:

22 Nov 2023 13:03

Last Modified: