TU Darmstadt / ULB / TUprints

A Hybrid Approach to Automated Driving Unifying Prediction and Planning

Rosbach, Sascha (2024)
A Hybrid Approach to Automated Driving Unifying Prediction and Planning.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00028841
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
Rosbach_PhD_Thesis_Hybrid_Approach.pdf
Copyright Information: In Copyright.

Download (19MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: A Hybrid Approach to Automated Driving Unifying Prediction and Planning
Language: English
Referees: Roth, Prof. PhD Stefan ; Michalewski, Prof. PhD Henryk
Date: 17 December 2024
Place of Publication: Darmstadt
Collation: xvii, 126 Seiten
Date of oral examination: 22 March 2024
DOI: 10.26083/tuprints-00028841
Abstract:

Fully automated driving is nearing a stage of large-scale deployment, where the vehicles will interact with many traffic participants within urban traffic environments. The success of the deployments requires reliable decision-making that generalizes over a variety of situations. The conventional modular architecture, encompassing perception, prediction, planning, and control, has been pivotal for fully automated driving, allowing large teams to work simultaneously on the architecture. However, the generalization remains a challenge. This thesis proposes a hybrid approach to automated driving. It draws upon the interpretability intrinsic to traditional modular design and combines this with the generalization capabilities of deep learning.

The first part of this thesis examines the real-world applicability of the direct perception paradigm. The paradigm directly ties perception to control, striving to streamline modular architectures by focusing on essential features to implement the desired driving behaviors rather than explicitly modeling and evaluating the complete environment. The approach employs multi-task learning to predict affordances for driving that directly supply the inputs for lateral and longitudinal controllers. However, the system's operational domain is confined due to rule-based behavior planning, making it infeasible to address unexpected situations. To overcome these limitations, the subsequent work in this thesis builds upon the modular architecture by integrating deep learning. An environmental model and model predictive planner are utilized, leveraging high-resolution action sampling to generate a diverse set of driving policies. These policies have implicit behaviors ranging from lane-changing and emergency braking to merging into time gaps between vehicles, eliminating the need for explicit hierarchical behavior modeling.

The second part of this thesis is concerned with bringing the modular architecture into an offline training loop and aligning the behavior of the model predictive planner with the preferences of human drivers. The first proposed method automates the tedious reward function tuning process that domain experts usually perform manually. The sampled policies of the planner enable maximum entropy inverse reinforcement learning to be tractable within high-dimensional continuous action spaces, utilizing path integral features. The succeeding method uses deep learning to predict situation-dependent reward functions, enabling generalization across diverse driving situations. The network inputs all sampled driving policies to combine environment and vehicle dynamics features and predicts situation-dependent weights of the reward function. Later work proposes policy and temporal attention mechanisms for the network designed to produce consistent driving behaviors while adapting the reward function for consecutive planning cycles.

The third part of this thesis again focuses on streamlining the modular architecture after tackling the problem of reward function generation. The proposed approach is designed to leverage deep learning-based situation understanding. It focuses on making the explicit future motion prediction of surrounding objects optional. This is achieved by learning from an exhaustively sampling model predictive planner driving in real-world situations. The method unifies prediction and planning by predicting pixel state value sequences of the planning algorithm that implicitly encode driving comfort, reachability, safety, and object interaction.

This thesis provides an important step towards the scalability of automated driving by learning what is difficult to model by hand while preserving interpretability and the interfaces to incorporate explicit reasoning. This hybrid approach allows joint optimization of prediction and planning essential to implement humanlike, assertive, and safe driving in interactive driving environments.

Alternative Abstract:
Alternative AbstractLanguage

Das vollautomatisierte Fahren nähert sich einer Phase des großflächigen Einsatzes, in der die Fahrzeuge vor die Herausforderung gestellt werden, mit vielen Verkehrsteilnehmern im Stadtverkehr zu interagieren. Eine erfolgreiche Einführung des automatischen Fahrens erfordert ein zuverlässiges Entscheidungsfindungsmodul, das eine Vielzahl von Situationen unterstützt. Die konventionelle modulare Architektur teilt die Wirkkette in Wahrnehmung, Vorhersage, Planung und Regelung. Diese Architektur spielte bisher eine entscheidende Rolle für das automatische Fahren und ermöglichte es mit großen Teams parallel daran zu arbeiten. Die Bewältigung jeglicher Verkehrssituationen und die damit verbundenen Generalisierungsfähigkeiten des Systems bleiben eine Herausforderung. Diese Forschungsarbeit schlägt einen hybriden Ansatz für das automatisierte Fahren vor. Dieser Ansatz vereint die Interpretierbarkeit traditioneller modularer Architekturen für das automatisierte Fahren, und kombiniert diese mit der Generalisierungsfähigkeit tiefer neuronaler Netze.

Im ersten Teil dieser Dissertation wird die Anwendbarkeit des direkten Wahrnehmungsparadigmas in der Praxis untersucht. Dieses Paradigma verbindet die Wahrnehmung direkt mit der Regelung, mit dem Ziel, modulare Architekturen zu simplifizieren. Statt die gesamte Umgebung explizit zu modellieren und zu bewerten, konzentriert sich der Ansatz auf wesentliche Merkmale, die das gewünschte Fahrverhalten beeinflussen. Um Merkmale für das Fahren vorherzusagen, werden Multitask-Lernverfahren genutzt, die direkte Eingaben für Quer- und Längsregler liefern können. Der Einsatzbereich des Systems ist jedoch aufgrund der einfachen regelbasierten Verhaltensplanung begrenzt, was es diesem Ansatz schwer macht, unerwartete Situationen zu addressieren. Aus diesem Grund erweitert und integriert der nachfolgende Teil dieser Dissertation tiefe neuronale Netze in die modulare Architektur. Die hierzu verwendete modulare Architektur nutzt ein Umgebungsmodell und einen modelprädiktiven Planer, welcher durch hochauflösendes Abtasten von Aktionen eine Vielzahl von Fahrstrategien generieren kann. Diese Strategien haben implizite Verhaltensweisen, die von Spurwechseln und Notbremsungen bis hin zum Einfädeln in Zeitlücken zwischen Fahrzeugen reichen. Durch die implizite Verhaltensgenerierung entfällt die Notwendigkeit der expliziten hierarchischen Verhaltensmodellierung.

Der zweite Teil dieser Thesis beschäftigt sich damit, die modulare Architektur in ein Offline-Trainingsverfahren zu integrieren und das Verhalten des modellprädiktiven Planers auf die Präferenzen menschlicher Fahrer abzustimmen. Die erste vorgeschlagene Methode automatisiert den langwierigen Abstimmungsprozess der Belohnungsfunktion, der in der Regel manuell von Experten durchgeführt werden muss. Die generierten Fahrstrategien des modellprädiktiven Planers ermöglichen es „Maximum Entropy Inverse Reinforcement Learning“ unter der Verwendung von Pfadintegralenmerkmalen in hochdimensionalen kontinuierlichen Aktionsräumen anzuwenden. Die darauffolgende Methode verwendet ein tiefes Lernverfahren, um situationsabhängige Belohnungsfunktionen vorherzusagen, wodurch eine Generalisierung über eine Vielzahl von Fahrsituationen hinweg ermöglicht wird. Die generierten Fahrstrategien dienen bei dieser Methode als Eingabeinformationen für das Netzwerk, um Umgebungs- und Fahrdynamikmerkmale zu kombinieren und mit Hilfe dieser situationsabhängige Gewichte der Belohnungsfunktion vorherzusagen. In einer Erweiterung werden strategische und zeitliche Aufmerksamkeitsmechanismen für das Netzwerk vorgeschlagen, um ein konsistentes Fahrverhalten zu erzeugen, während die Belohnungsfunktion für aufeinanderfolgende Planungszyklen stetig angepasst wird.

Der dritte Teil dieser Dissertation konzentriert sich erneut auf die Optimierung und Vereinfachung der modularen Architektur, nachdem das Problem der Generierung der Belohnungsfunktion behandelt wurde. Der vorgeschlagene Ansatz ist darauf ausgelegt, das Situationsverständnis mit Hilfe eines tiefen neuronalen Netzes zu erlernen. Dabei konzentriert sich der Ansatz darauf, die expliziten Bewegungsvorhersagen von umgebenden Objekten zu optionalisieren. Dies wird erreicht, indem von einer annähernd vollständigen Suche eines modellprädiktiven Planers gelernt wird, der in realen Situationen fährt. Die Methode vereint Vorhersage und Planung durch das Vorhersagen von Pixelzuständen des Planungsalgorithmus, die implizit Fahrkomfort, Erreichbarkeit, Sicherheit und Objektinteraktion encodieren.

Diese Dissertation schlägt eine bedeutende Richtung auf dem Weg zu einer skalierbaren Fahrfunktion ein. Die vorgeschlagenen Ansätze lernen die Inhalte, die nur schwer von Hand zu modellieren sind, und gleichzeitig wird die Interpretierbarkeit und Anwendbarkeit von expliziter Logik aufrechterhalten. Dieser hybride Ansatz ermöglicht eine gemeinsame Optimierung von Vorhersage und Planung, eine entscheidende Kombination, um menschenähnliches, durchsetzungsfähiges und sicheres Fahren in interaktiven Verkehrssituationen umzusetzen.

German
Uncontrolled Keywords: Autonomous Driving, Self-Driving Cars, Prediction, Planning, Inverse Reinforcement Learning
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-288413
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Visual Inference
Date Deposited: 17 Dec 2024 10:21
Last Modified: 19 Dec 2024 07:24
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/28841
PPN: 524705356
Export:
Actions (login required)
View Item View Item