TU Darmstadt / ULB / TUprints

Formal Falsification Criteria as a Basis for Behavior Planning based on Reinforcement Learning Algorithms

Hülsmann, Robert Alexander (2022):
Formal Falsification Criteria as a Basis for Behavior Planning based on Reinforcement Learning Algorithms. (Publisher's Version)
Darmstadt, Technische Universität Darmstadt, DOI: 10.26083/tuprints-00019116,
[Master Thesis]

[img] Text
MaTh_Huelsmann_CC-BY.pdf
Available under: CC BY 4.0 International - Creative Commons, Attribution.

Download (3MB)
Item Type: Master Thesis
Status: Publisher's Version
Title: Formal Falsification Criteria as a Basis for Behavior Planning based on Reinforcement Learning Algorithms
Language: English
Abstract:

For the purpose of compliance with behavioral rules by Autonomous Vehicle (AV), especially in urban traffic, the Behavior-Semantic Scenery Description (BSSD) can be used to describe the limits of the legal behavioral space for each route segment of a road map. In order to test the applicability of BSSD to an online behavior planner, the task of this thesis was to convert selected route segments into the BSSD format, derive behavioral boundaries as formal falsification criteria from the specification of BSSD, and subsequently use them for the application of a Reinforcement Learning (RL) behavior planner. For this purpose, these criteria were first extracted from the specification, their logical form were identified and formalized. A training environment for the behavior planner including the simulation of other Traffic Participant (TP) and a visualization was created and the falsification criteria and the behavior planner were implemented to the extent as it was possible within the scope of this thesis. Finally, the behavior planner was trained and evaluated. The formalization and implementation of the falsification criteria highlighted strengths and weaknesses in the machine interpretability of BSSD. Two of the six extracted criteria could not be fully formalized and implemented. For the remaining criteria, however, it was possible to complete this task. The evaluation of the learned behavior model showed that in the training environment, a vehicle controlled by the simple behavior planner reacts to changes in the maximum permitted speeds and adjusts its speed promptly. Also, lane changes are avoided since they are prohibited or not possible in most places in the selected road section. For compliance with other falsification criteria, improvements must be made to the behavior planner and to the level of penalties for violating the behavior limits respectively rewards for error-free progress. Some suggestions for this have been given in this elaboration.

Alternative Abstract:
Alternative AbstractLanguage

Zum Zwecke der Einhaltbarkeit von Verhaltensregeln durch autonome Fahrzeuge besonders im urbanen Verkehr kann mit Hilfe der BSSD für jedes Streckensegment einer Straßenkarte beschrieben werden, welche Grenzen des legalen Verhaltensraums dort gelten. Um die Anwendbarkeit von BSSD auf einen Online-Verhaltensplaner zu prüfen, war es die Aufgabe dieser Thesis, ausgewählte Streckenabschnitte in das BSSD-Format zu konvertieren, Verhaltensgrenzen als formale Falsifikationskriterien aus der Spezifikation von BSSD abzuleiten und diese anschließend bei der Anwendung eines RL-Verhaltensplaner einzusetzen. Hierzu wurden diese Kriterien erst aus der Spezifikation extrahiert, ihre logische Form identifiziert und formalisiert. Eine Trainingsumgebung für den Verhaltensplaner inklusive der Simulation von anderen Verkehrsteilnehmern und einer Visualisierung wurde erstellt und die Falsifikationskriterien und der Verhaltensplaner in dem Maße umgesetzt, wie es im Rahmen dieser Thesis möglich war. Abschließend wurde der Verhaltensplaner trainiert und evaluiert. Bei der Formalisierung und der Implementierung der Falsifikationskriterien zeigten sich Stärken und Schwächen in der maschinellen Interpretierbarkeit von BSSD. Zwei der sechs extrahierten Kriterien konnten nicht vollständig formalisiert und implementiert werden. Für die restlichen Kriterien konnte diese Arbeit hingegen abgeschlossen werden. Die Evaluation des gelernten Verhaltensmodells zeigte, dass in der Trainingsumgebung ein Fahrzeug, welches von dem einfachen Verhaltensplaner gesteuert wird, auf Änderungen der zulässigen Höchstgeschwindigkeiten reagiert und seine Geschwindigkeit rechtzeitig anpasst. Auch werden Fahrstreifenwechsel vermieden, da diese im gewählten Streckenabschnitt an den meisten Stellen verboten oder nicht möglich sind. Für die Einhaltung weiterer Falsifikationskriterien müssen Verbesserungen am Verhaltensplaner und an der Höhe der Bestrafungen für die Überschreitungen der Verhaltensgrenzen bzw. der Belohnungen für fehlerfreies Vorankommen vorgenommen werden. In dieser Ausarbeitung wurden einige Vorschläge hierfür gegeben.

German
Place of Publication: Darmstadt
Collation: X, 76 Seiten
Classification DDC: 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
600 Technik, Medizin, angewandte Wissenschaften > 620 Ingenieurwissenschaften
Divisions: 16 Department of Mechanical Engineering > Institute of Automotive Engineering (FZD)
Date Deposited: 07 Jun 2022 12:03
Last Modified: 07 Jun 2022 12:04
DOI: 10.26083/tuprints-00019116
URN: urn:nbn:de:tuda-tuprints-191161
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/19116
PPN:
Export:
Actions (login required)
View Item View Item