In den vergangenen Jahren sind lernbasierte Methoden zum vorherrschenden Ansatz zur Lösung von Aufgaben im Bereich des maschinellen Sehens geworden. Ein wesentlicher Grund für diese Entwicklung ist ihre automatische Anpassungsfähigkeit an die Eigenheiten der jeweiligen Aufgabe durch Lernen eines Problemmodells aus (Trainings-)Daten. Dieser Ansatz setzt voraus, dass die Trainingsdaten den später auftretenden Testdaten ähneln. Um lernbasierte Algorithmen erfolgreich in einer Vielzahl von realen Szenarien anzuwenden, ist es erforderlich, große Mengen on Trainingsdaten zu sammeln, die komplexe Phänomene der realen Welt modellieren und seltene, jedoch kritische Grenzfälle abdecken. Ein vielversprechender Ansatz um den erforderlichen manuellen Aufwand zu reduzieren, ist die Datensynthese, durch die beträchtliche Teile des Erhebungs- und Annotationsprozesses automatisiert werden können. Die Verwendung synthetischer Daten bringt jedoch eigene Herausforderungen mit sich: Die Synthese theoretisch unendlich großer Datenmengen beliebiger Präzision stellt nur einen Vorteil dar, insofern Methoden in der Lage sind, diese auch gewinnbringend zu nutzen. Zudem bleiben Anforderungen bezüglich der realistischen Abbildung realer Testfälle auch für synthetische Daten bestehen. Die Modellierung reeller Phänomene innerhalb der Synthese ist jedoch möglicherweise aufwendiger als die ursprüngliche Erhebung reeller Daten.
In dieser Dissertation werden die beschriebenen Herausforderungen auf zwei Arten adressiert: im ersten Teil schlagen wir vor, datengetriebene Methoden zu adaptieren, sodass sie die Besonderheiten synthetischer Daten bestmöglich nutzen. Dabei entwickeln wir eine Methode, die Objektoberflächen aus Einzelbildern ohne vorherige Kenntnis der Beleuchtungsbedingungen rekonstruiert. Die Methode schätzt die Beleuchtungsbedingungen und synthetisiert Trainingsdaten im Testfall, was Rekonstruktionen mit ungekanntem Detailreichtum ermöglicht. Des weiteren entwickeln wir einen speichereffizienten Ansatz zur Rekonstruktion vollständiger 3D-Modelle aus Einzelbildern. Dadurch nutzen wir die hohe verfügbare Präzision von 3D-CAD-Modellen und erhalten akkuratere und detailliertere Rekonstruktionen als bisherige Ansätze.
Im zweiten Teil schlagen wir vor, Computerspielen für die Erzeugung von Ground Truth für eine Vielzahl von Aufgaben der maschinellen Wahrnehmung zu nutzen. Der Fokus liegt dabei auf Open-World-Computerspielen, da sie vielfältige Szenarien realistisch nachbilden. Aufgrund der Nichtverfügbarkeit von Quellcode kommerzieller Spiele entwickeln wir ein Verfahren, welches Funktionsaufrufe der Rendering-Pipeline aufzeichnet, verwendete Ressourcen erkennt und sie zur Identifizierung von auf dem Bildschirm dargestellten Objekten verwendet. Da die verwendeten Ressourcen nur bedingt semantische Informationen enthalten, ist zwar eine manuelle Annotation von Objekten weiterhin erforderlich. Jedoch entwickeln wir des weiteren eine Methode, die zu einer deutlichen Beschleunigung des Annotationsprozesses führt, indem Ressourcen bei wiederholter Verwendung im Spiel automatisch wiedererkannt werden und so Annotationen über mehrere Aufnahmen hinweg propagiert werden können. Geometrische Informationen, die im Renderingprozess Verwendung finden, werden genutzt, um Ground Truth für optischen Fluss, visuelle Odometrie und die Schätzung von dreidimensionalem Szenenlayout zu erzeugen. Die Synthese von Daten basierend auf Computerspielen ermöglicht es, den manuellen Aufwand bei der Erstellung von Datensätzen signifikant zu reduzieren und realistische Datensätze bislang ungekannter Größe zu erzeugen. Sie ermöglicht weiterhin, Ground Truth für mehrere Aufgaben der maschinellen Wahrnehmung zu erzeugen, was sowohl eine tiefgreifendere Analyse bestehender Methoden als auch die Entwicklung neuartiger Algorithmen erlaubt, die die Lösung mehrerer Aufgaben der maschinellen Wahrnehmung ganzheitlich integrieren. Sowohl für die Anpassung datengetriebener Methoden als auch für die aus Computerspielen abgeleiteten Datensätze demonstrieren quantitative und qualitative Evaluierungen deutliche Verbesserungen im Vergleich zu bisherigen Ansätzen. | German |