Visual Perception with Synthetic Data

Richter, Stephan Randolf (2020)
Visual Perception with Synthetic Data.
Technische Universität Darmstadt
doi: 10.25534/tuprints-00013245
Ph.D. Thesis, Primary publication

Preview

Text
Stephan_R_Richter_-_Visual_Perception_With_Synthetic_Data_-_2020.pdf
Copyright Information: CC BY-NC 4.0 International - Creative Commons, Attribution NonCommercial.
Download (107MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Visual Perception with Synthetic Data

Language:

English

Referees:

Roth, Prof. Ph.D Stefan ; Geiger, Prof. Dr. Andreas

Date:

2020

Place of Publication:

Darmstadt

Date of oral examination:

13 January 2020

DOI:

10.25534/tuprints-00013245

Abstract:

In recent years, learning-based methods have become the dominant approach to solving computer vision tasks. A major reason for this development is their automatic adaptation to the particularities of the task at hand by learning a model of the problem from (training) data. This approach assumes that the training data closely resemble the data encountered during testing. Successfully applying a learning-based algorithm in a wide range of real-world scenarios thus requires collecting a large set of training data, which models the complex phenomena encountered in the real world and covers rare, but critical edge cases. For many tasks in computer vision, however, the human effort required severely limits the scale and diversity of datasets. A promising approach to reducing the human effort involved is data synthesis, by which considerable parts of the collection and annotation process can be automated. Employing synthetic data, however, poses unique challenges: first, synthesis is only as useful as methods are able to capitalize on virtually infinite amounts of data and arbitrary precision. Second, synthetic data must be sufficiently realistic for being useful in real-world scenarios. However, modeling real world phenomena within the synthesis can be even more laborious than collection and annotation of real datasets in the first place. In this dissertation, we address these challenges in two ways: first, we propose to adapt data-driven methods to take advantage of the unique features of synthetic data. Specifically, we develop a method that reconstructs the surface of objects from a single view in uncalibrated illumination conditions. The method estimates illumination conditions and synthesizes suitable training data at test time, enabling reconstructions at unprecedented detail. Furthermore, we develop a memory-efficient approach for the reconstruction of complete 3D shapes from a single view. This way, we leverage the high precision available through 3D CAD models and obtain more accurate and detailed reconstructions than previous approaches. Second, we propose to tap into computer games for creating ground truth for a variety of visual perception tasks. Open world computer games mimic the real world and feature a large diversity paired with high realism. Since source code is not available for commercial games, we devise a technique to intercept the rendering pipeline during game play and use the rendering resources for identifying objects in rendered images. As there is only limited semantic information available at the level of interception and manual association of resources with semantic classes is still necessary, we develop a method to speed up the annotation dramatically by recognizing shared resources and automatically propagating annotations across the dataset. Leveraging the geometric information available through the rendering process, we further collect ground truth for optical flow, visual odometry, and 3D scene layout. The synthesis of data from computer games reduces the human annotation effort significantly and allows creating synthetic datasets that model the real world at unprecedented scale. The ground truth for multiple visual perception tasks enables deeper analysis of current methods and the development of novel approaches that reason about multiple tasks holistically. For both the adaptation of data-driven methods as well as the datasets derived from computer games, we demonstrate significant performance improvements through quantitative and qualitative evaluations.

Alternative Abstract:

Alternative Abstract

Language

In den vergangenen Jahren sind lernbasierte Methoden zum vorherrschenden Ansatz zur Lösung von Aufgaben im Bereich des maschinellen Sehens geworden. Ein wesentlicher Grund für diese Entwicklung ist ihre automatische Anpassungsfähigkeit an die Eigenheiten der jeweiligen Aufgabe durch Lernen eines Problemmodells aus (Trainings-)Daten. Dieser Ansatz setzt voraus, dass die Trainingsdaten den später auftretenden Testdaten ähneln. Um lernbasierte Algorithmen erfolgreich in einer Vielzahl von realen Szenarien anzuwenden, ist es erforderlich, große Mengen on Trainingsdaten zu sammeln, die komplexe Phänomene der realen Welt modellieren und seltene, jedoch kritische Grenzfälle abdecken. Ein vielversprechender Ansatz um den erforderlichen manuellen Aufwand zu reduzieren, ist die Datensynthese, durch die beträchtliche Teile des Erhebungs- und Annotationsprozesses automatisiert werden können. Die Verwendung synthetischer Daten bringt jedoch eigene Herausforderungen mit sich: Die Synthese theoretisch unendlich großer Datenmengen beliebiger Präzision stellt nur einen Vorteil dar, insofern Methoden in der Lage sind, diese auch gewinnbringend zu nutzen. Zudem bleiben Anforderungen bezüglich der realistischen Abbildung realer Testfälle auch für synthetische Daten bestehen. Die Modellierung reeller Phänomene innerhalb der Synthese ist jedoch möglicherweise aufwendiger als die ursprüngliche Erhebung reeller Daten. In dieser Dissertation werden die beschriebenen Herausforderungen auf zwei Arten adressiert: im ersten Teil schlagen wir vor, datengetriebene Methoden zu adaptieren, sodass sie die Besonderheiten synthetischer Daten bestmöglich nutzen. Dabei entwickeln wir eine Methode, die Objektoberflächen aus Einzelbildern ohne vorherige Kenntnis der Beleuchtungsbedingungen rekonstruiert. Die Methode schätzt die Beleuchtungsbedingungen und synthetisiert Trainingsdaten im Testfall, was Rekonstruktionen mit ungekanntem Detailreichtum ermöglicht. Des weiteren entwickeln wir einen speichereffizienten Ansatz zur Rekonstruktion vollständiger 3D-Modelle aus Einzelbildern. Dadurch nutzen wir die hohe verfügbare Präzision von 3D-CAD-Modellen und erhalten akkuratere und detailliertere Rekonstruktionen als bisherige Ansätze. Im zweiten Teil schlagen wir vor, Computerspielen für die Erzeugung von Ground Truth für eine Vielzahl von Aufgaben der maschinellen Wahrnehmung zu nutzen. Der Fokus liegt dabei auf Open-World-Computerspielen, da sie vielfältige Szenarien realistisch nachbilden. Aufgrund der Nichtverfügbarkeit von Quellcode kommerzieller Spiele entwickeln wir ein Verfahren, welches Funktionsaufrufe der Rendering-Pipeline aufzeichnet, verwendete Ressourcen erkennt und sie zur Identifizierung von auf dem Bildschirm dargestellten Objekten verwendet. Da die verwendeten Ressourcen nur bedingt semantische Informationen enthalten, ist zwar eine manuelle Annotation von Objekten weiterhin erforderlich. Jedoch entwickeln wir des weiteren eine Methode, die zu einer deutlichen Beschleunigung des Annotationsprozesses führt, indem Ressourcen bei wiederholter Verwendung im Spiel automatisch wiedererkannt werden und so Annotationen über mehrere Aufnahmen hinweg propagiert werden können. Geometrische Informationen, die im Renderingprozess Verwendung finden, werden genutzt, um Ground Truth für optischen Fluss, visuelle Odometrie und die Schätzung von dreidimensionalem Szenenlayout zu erzeugen. Die Synthese von Daten basierend auf Computerspielen ermöglicht es, den manuellen Aufwand bei der Erstellung von Datensätzen signifikant zu reduzieren und realistische Datensätze bislang ungekannter Größe zu erzeugen. Sie ermöglicht weiterhin, Ground Truth für mehrere Aufgaben der maschinellen Wahrnehmung zu erzeugen, was sowohl eine tiefgreifendere Analyse bestehender Methoden als auch die Entwicklung neuartiger Algorithmen erlaubt, die die Lösung mehrerer Aufgaben der maschinellen Wahrnehmung ganzheitlich integrieren. Sowohl für die Anpassung datengetriebener Methoden als auch für die aus Computerspielen abgeleiteten Datensätze demonstrieren quantitative und qualitative Evaluierungen deutliche Verbesserungen im Vergleich zu bisherigen Ansätzen.

German

URN:

urn:nbn:de:tuda-tuprints-132459

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Visual Inference

Date Deposited:

10 Aug 2020 07:14

Last Modified:

10 Aug 2020 13:35

URI: