Elements of Unsupervised Scene Understanding: Objectives, Structures, and Modalities
Elements of Unsupervised Scene Understanding: Objectives, Structures, and Modalities
Enabling robust interactions between automated systems and the real world is a major goal of artificial intelligence. A key ingredient towards this goal is scene understanding: the ability to process visual imagery into a concise representation of the depicted scene, including the identity, position, and geometry of objects. While supervised deep learning approaches have proven effective at processing visual inputs, the cost of supplying human annotations for training quickly becomes infeasible as the diversity of the inputs and the required level of detail increases, putting full real-world scene understanding out of reach.
For this reason, this thesis investigates unsupervised methods to scene understanding. In particular, we utilize generative models with structured latent variables to facilitate the learning of object-based representations. We start our investigation in an autoencoding setting, where we highlight the capability of such systems to identify objects without human supervision, as well as the advantages of integrating tractable components within them. At the same time, we identify some limitations of this setting, which prevent success in more visually complex environments. Based on this, we then turn to video data, where we leverage the prediction of dynamics to both regularize the representation learning task and to enable applications to reinforcement learning. Finally, to take another step towards a real world setting, we investigate the learning of representations encoding 3D geometry. We discuss various methods to encode and learn about 3D scene structure, and present a model which simultaneously infers the geometry of a given scene, and segments it into objects.
We conclude by discussing future challenges and lessons learned. In particular, we touch on the challenge of modelling uncertainty when inferring 3D geometry, the tradeoffs between various data sources, and the cost of including model structure.
Das Ermöglichen von robusten Interaktionen zwischen autonomen Systemen und der Umgebung ist eines der Hauptziele der künstlichen Intelligenz. Eine Schlüsseltechnologie auf dem Weg zu diesem Ziel ist das Szenenverstehen: die Fähigkeit, Bilder in kompakte Repräsentationen der in ihnen dargestellten Szenen zu verarbeiten, einschließlich der Identität, Position und Geometrie der vorhandenen Objekte. Zwar hat sich überwachtes tiefes Lernen als effektives Mittel der Bildverarbeitung herausgestellt, die Kosten der hierzu nötigen menschlichen Annotationen werden jedoch schnell untragbar, wenn die Vielfältigkeit der Eingabebilder und der erwünschte Detailgrad der Ausgabe ansteigt. Ein vollständiges Szenenverständnis für Echtweltbilder ist somit bislang außer Reichweite geblieben.
Aus diesem Grund untersucht diese Dissertation unüberwachte Methoden des Szenenverstehens, genauer gesagt das Lernen von objektbasierten Repräsentationen mithilfe von generativen Modellen mit strukturierten latenten Variablen. Wir beginnen diese Untersuchung im Kontext von Autoencodern, wobei wir ihre Fähigkeit aufzeigen, Objekte ohne menschliche Überwachung zu erkennen, sowie die Vorteile der Integration von effizienten probabilistischen Komponenten diskutieren. Gleichzeitig identifizieren wir einige Grenzen dieser Systeme, welche ihren erfolgreichen Einsatz in visuell komplexeren Umgebungen verhindern. Ausgehend davon wenden wir uns Videodaten zu. Wir nutzen die Vorhersage von physikalischen Interaktionen, um sowohl die gelernten Repräsentationen zu regularisieren als auch die Anwendung von Reinforcement Learning zu ermöglichen. Schließlich nehmen wir einen weiteren Schritt in Richtung eines Echtweltszenarios, indem wir das Lernen von Repräsentationen für 3D Geometrie untersuchen. Wir diskutieren verschiedene Methoden, um die dreidimensionale Struktur einer Szene zu kodieren und zu lernen, und präsentieren ein Modell, das gleichzeitig die Geometrie einer Szene inferiert und diese in Objekte segmentiert.
Abschließend diskutieren wir Herausforderungen für die Zukunft sowie die Lehren, die aus den Ergebnissen gezogen werden können. Insbesondere gehen wir hierbei auf die Modellierung von Unsicherheit beim Vorhersagen von 3D Geometrie, die Vor- und Nachteile verschiedener Datenquellen, sowie die Kosten von festen Modellstrukturen ein.

