TU Darmstadt / ULB / TUprints

Joint Motion, Semantic Segmentation, Occlusion, and Depth Estimation

Hur, Junhwa (2022):
Joint Motion, Semantic Segmentation, Occlusion, and Depth Estimation. (Publisher's Version)
Darmstadt, Technische Universität Darmstadt,
DOI: 10.26083/tuprints-00021624,
[Ph.D. Thesis]

[img] Text
junhwa_hur_phd_dissertation.pdf
Available under: CC-BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (32MB)
Item Type: Ph.D. Thesis
Status: Publisher's Version
Title: Joint Motion, Semantic Segmentation, Occlusion, and Depth Estimation
Language: English
Abstract:

Visual scene understanding is one of the most important components of autonomous navigation. It includes multiple computer vision tasks such as recognizing objects, perceiving their 3D structure, and analyzing their motion, all of which have gone through remarkable progress over the recent years. However, most of the earlier studies have explored these components individually, and thus potential benefits from exploiting the relationship between them have been overlooked. In this dissertation, we explore what kind of relationship the tasks can present, along with the potential benefits that could be discovered from jointly formulating multiple tasks. The joint formulation allows each task to exploit the other task as an additional input cue and eventually improves the accuracy of the joint tasks. We first present the joint estimation of semantic segmentation and optical flow. Though not directly related, the tasks provide an important cue to each other in the temporal domain. Semantic information can provide information on plausible physical motion of its associated pixels, and accurate pixel-level temporal correspondences enhance the temporal consistency of semantic segmentation. We demonstrate that the joint formulation improves the accuracy of both tasks. Second, we investigate the mutual relationship between optical flow and occlusion estimation. Unlike most previous methods considering occlusions as outliers, we highlight the importance of jointly reasoning the two tasks in the optimization. Specifically through utilizing forward-backward consistency and occlusion-disocclusion symmetry in the energy, we demonstrate that the joint formulation brings substantial performance benefits for both tasks on standard benchmarks. We further demonstrate that optical flow and occlusion can exploit their mutual relationship in Convolutional Neural Network as well. We propose to iteratively and residually refine the estimates using a single weight-shared network, which substantially improves the accuracy without adding network parameters or even reducing them depending on the backbone networks. Next, we propose a joint depth and 3D scene flow estimation from only two temporally consecutive monocular images. We solve this ill-posed problem by taking an inverse problem view. We design a single Convolutional Neural Network that simultaneously estimates depth and 3D motion from a classical optical flow cost volume. With self-supervised learning, we leverage unlabeled data for training, without concerns about the shortage of 3D annotation for direct supervision. Finally, we conclude by summarizing the contributions and discussing future perspectives that can resolve current challenges our approaches have.

Alternative Abstract:
Alternative AbstractLanguage

Das visuelle Szenenverständnis ist eine der wichtigsten Komponenten der autonomen Navigation. Es umfasst mehrere Computer-Vision-Aufgaben wie das Erkennen von Objekten, das Wahrnehmen ihrer 3D-Struktur und die Analyse ihrer Bewegung, die in den letzten Jahren alle bemerkenswerte Fortschritte gemacht haben. In den meisten früheren Studien wurden diese Aufgaben jedoch einzeln untersucht, und daher wurden potenzielle Vorteile aus der Nutzung der Beziehung zwischen ihnen übersehen. In dieser Dissertation untersuchen wir, welche Aufgaben miteinander in Verbindung stehen und welche potenziellen Vorteile sich aus der gemeinsamen Formulierung mehrerer Aufgaben ergeben könnten. Die gemeinsame Formulierung ermöglicht es jeder Aufgabe, die andere Aufgabe als zusätzlichen Eingabehinweis zu nutzen und verbessert schließlich die Genauigkeit der gemeinsamen Aufgaben.

Wir präsentieren zunächst die gemeinsame Schätzung von semantischer Segmentierung und optischem Fluss. Obwohl diese Probleme nicht direkt miteinander verbunden sind, geben die Aufgaben im zeitlichen Bereich einen wichtigen Hinweis aufeinander. Semantische Informationen können ihren zugeordneten Pixeln Informationen über eine plausible physikalische Bewegung bieten, und genaue zeitliche Korrespondenzen auf Pixelebene verbessern die zeitliche Konsistenz der semantischen Segmentierung. Wir zeigen, dass die gemeinsame Formulierung die Genauigkeit beider Aufgaben verbessert.

Zweitens untersuchen wir die gegenseitige Beziehung zwischen optischem Fluss und Okklusionsschätzung. Im Gegensatz zu den meisten früheren Methoden, die Okklusionen als Ausreißer betrachten, betonen wir die Wichtigkeit der gemeinsamen Schätzung der beiden Aufgaben bei der Optimierung. Insbesondere durch die Verwendung von Vorwärts-Rückwärts-Konsistenz und Okklusions-Disokklusions-Symmetrie in der Energie zeigen wir, dass die gemeinsame Formulierung erhebliche Leistungsvorteile für beide Aufgaben bei Standard-Benchmarks bringt.

Wir zeigen weiter, dass sich optischer Fluss und Okklusion auch in Convolutional Neural Networks gegenseitig ausnutzen können. Wir schlagen vor, die Schätzungen iterativ und schrittweise zu verfeinern, indem ein Netzwerk mit gemeinsamen Gewichtsparameter verwendet wird, was die Genauigkeit erheblich verbessert, ohne Netzwerkparameter hinzuzufügen oder diese sogar zu reduzieren, je nach Netzwerkarchitektur.

Dann schlagen wir eine gemeinsame Tiefen- und 3D-Szenenflussschätzung aus nur zwei zeitlich aufeinanderfolgenden monokularen Bildern vor. Wir lösen dieses unterbestimmte Problem durch eine inverse Problemsicht. Wir entwerfen ein einzelnes Convolutional Neural Network, das gleichzeitig Tiefe und 3D-Bewegung aus einem klassischen optischen Flusskostenvolumen schätzt. Beim selbstüberwachten Lernen nutzen wir Daten ohne Annotationen für das Training, ohne Bedenken hinsichtlich des Fehlens von 3D-Annotationen für die direkte Überwachung.

Abschließend fassen wir die Beiträge zusammen und diskutieren Zukunftsperspektiven, die aktuelle Herausforderungen unserer Methoden lösen können.

German
Place of Publication: Darmstadt
Collation: xviii, 154 Seiten
Classification DDC: 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Divisions: 20 Department of Computer Science > Visual Inference
Date Deposited: 21 Jul 2022 12:15
Last Modified: 21 Jul 2022 12:15
DOI: 10.26083/tuprints-00021624
URN: urn:nbn:de:tuda-tuprints-216242
Referees: Roth, Prof. Ph.D Stefan ; Ramanan, Prof. Ph.D Deva
Date of oral examination: 18 May 2022
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/21624
PPN:
Export:
Actions (login required)
View Item View Item