Deep Visual Parsing with Limited Supervision

Scene parsing entails interpretation of the visual world in terms of meaningful semantic concepts. Automatically performing such analysis with machine learning techniques is not a purely scientific endeavour. It holds transformative potential for emerging technologies, such as autonomous driving and robotics, where deploying a human expert can be economically unfeasible or hazardous. Recent methods based on deep learning have made substantial progress towards realising this potential. However, to achieve high accuracy on application-specific formulations of the scene parsing task, such as semantic segmentation, deep learning models require significant amounts of high-quality dense annotation. Obtaining such supervision with human labour is costly and time-consuming. Therefore, reducing the need for precise annotation without sacrificing model accuracy is essential when it comes to deploying these models at scale. In this dissertation, we advance towards this goal by progressively reducing the amount of required supervision in the context of semantic image segmentation. In this task, we aim to label every pixel in the image with its semantic category. We formulate and implement four novel deep learning techniques operating under varying levels of task supervision:

First, we develop a recurrent model for instance segmentation, which sequentially predicts one object mask at a time. Sequential models have provision for exploiting the temporal context: segmenting prominent instances first may disambiguate mask prediction for hard objects (e.g. due to occlusion) later on. However, such advantageous ordering of prediction is typically unavailable. Our proposed actor-critic framework discovers such orderings and provides empirical accuracy benefits compared to a baseline without such capacity.

Second, we consider weakly supervised semantic segmentation. This problem setting requires the model to produce object masks with only image-level labels available as the training supervision. In contrast to previous works, we approach this problem with a practical single-stage model. Despite its simple design, it produces highly accurate segmentation, competitive with, or even improving upon several multi-stage methods.

Reducing the amount of supervision further, we next study unsupervised domain adaptation. In this scenario, there are no labels available for real-world data. Instead, we may only use the labels of synthetically generated visual scenes. We propose a novel approach, which adapts the segmentation model trained on synthetic data to unlabelled real-world images using pseudo labels. Crucially, we construct these pseudo annotation by leveraging equivariance of the semantic segmentation task to similarity transformations. At the time of publication, our adaptation framework achieved state-of-the-art accuracy, in some benchmarks even substantially surpassing that of previous art.

Last, we present an unsupervised technique for representation learning. We define the desired representation to be useful for the task of video object segmentation, which requires establishing dense object-level correspondences in video sequences. Learning such features efficiently in a fully convolutional regime is prone to degenerate solutions. Yet our approach circumvents them with a simple and effective mechanism based on the already familiar model equivariance to similarity transformations. We empirically show that our framework attains new state-of-the-art video segmentation accuracy at a significantly reduced computational cost.

Sprache

Englisch

Alternativtitel

Tiefes visuelles Parsing mit begrenzter Überwachung

Alternatives Abstract

Szenenanalyse beinhaltet die Interpretation der visuellen Welt in Bezug auf aussagekräftige semantische Konzepte. Eine automatische Durchführung einer solchen Analyse mit Verfahren des maschinellen Lernens ist nicht nur aus einer rein wissenschaftlichen Sicht erstrebenswert. Sie birgt transformatives Potenzial für neu entstehenden Technologien, wie autonomes Fahren und Robotik, bei denen ein Einsatz eines menschlichen Experten in wirtschaftliche Hinsicht oder wegen Lebensgefahr unmöglich oder erschwert ist. Neuere Methoden, die auf Deep Learning basieren, haben bedeutenden Fortschritt in diese Richtung erzielt. Um jedoch eine hohe Genauigkeit bei anwendungsspezifischen Formulierungen der Szenenanalyse zu erreichen, wie z. B. der semantischen Segmentierung, erfordern Deep-Learning-Modelle erhebliche Mengen an qualitativ hochwertiger Annotation. Solche Trainingsdaten werden typischerweise durch eine kostspielige und zeitaufwändige manuelle Arbeit gesammelt. Daher sind dateneffiziente Ansätze, die trotz weniger annotierter Daten hohe Genauigkeit aufweisen, von großem Interesse, um einen Einsatz solcher Modelle in großem Maßstab zu ermöglichen. In dieser Dissertation nähern wir uns diesem Ziel, indem wir die Menge an erforderlicher Überwachung, die normalerweise für die semantische Bildsegmentierung notwendig ist, schrittweise reduzieren. Bei der semantischen Segmentierung zielen wir darauf ab, jedes Pixel im Bild mit seiner semantischen Kategorie zu kennzeichnen. Wir formulieren und implementieren vier neuartige Deep-Learning-Ansätze, die unter milderen Voraussetzungen an die benötigte Beispieldaten, eingesetzt werden können.

Zunächst entwickeln wir ein rekurrentes Modell für Objektsegmentierung, welches Objektmasken jeweils sequentiell berechnet. Hier haben sequentielle Modelle gegenüber gewöhnlichen, nichtsequenziellen Verfahren den Vorteil, dass sie über den zeitlichen Kontext verfügen. So wird beispielsweise die Maskenberechnung bei schwierigen Szenen mit Objektverdeckungen dadurch erleichtert, dass man Segmente für markante Objekte vor weniger markanten schätzt. Allerdings ist die Bestimmung der optimalen Berechnungssequenz nicht trivial. Deshalb erweitern wir unser Verfahren um ein sogenanntes Actor-Critic-Modell, welches in der Lage ist, günstige Berechnungssequenzen aus Daten zu erlernen. Wir zeigen empirisch, dass unser rekurrentes Verfahren basierend auf dem Actor-Critic-Modell die Genauigkeit der Segmentierung gegenüber einer Baseline ohne Actor-Critic Komponente verbessert.

Anschließend betrachten wir die schwach überwachte semantische Segmentierung. Eine schwache Überwachung bedeutet in diesem Kontext, dass unser Modell zum Trainingszeitpunkt zwar Lernbeispiele über das Vorhandensein oder Nichtvorhandensein von Objekten ausnutzen kann, jedoch keine weiteren Informationen zu deren Position und Lage bekommt. Im Gegensatz zu früheren Arbeiten gehen wir diese Problemstellung mit einem praktischen, einstufigen Modell an. Trotz seiner einfachen Bauart erzeugt dieses Modell eine hochgenaue Segmentierung, die mit mehrstufigen Methoden konkurriert und viele davon sogar übertrifft.

Um den Bedarf an Trainingsdaten gegenüber einer schwach überwachten semantischen Segmentierung weiter zu verringern, untersuchen wir ein weiteres Forschungsgebiet, die sogenannte unüberwachte Domänenanpassung. In diesem Szenario sind nun keine Labels für reale Daten verfügbar, jedoch ist es möglich, sich Labels aus synthetisch generierten visuellen Szenen zu Nutze zu machen. Hierfür schlagen wir einen neuartigen Ansatz vor, bei dem wir ein Segmentierungsmodell zunächst auf synthetischen Daten vortrainieren und anschließend an reale Bilder unter Verwendung von sogenannten "Pseudo-Labels" anpassen. Kennzeichnend für unseren neuen Ansatz ist die Konstruktionsweise der Pseudo-Labels basierend auf der Äquivarianz zwischen der zugrunde liegenden Segmentierungsaufgabe und Ähnlichkeitstransformationen. Diese neuartige Methodik der Domänenanpassung übertrifft die Genauigkeit der bisherigen Ansätze signifikant.

Zuletzt stellen wir einen unüberwachten Ansatz für das Repräsentationslernen vor. Wir formulieren die gewünschten Merkmale der Repräsentation für die Aufgabe der Objektsegmentierung in Videodaten, welche die Verfolgung eines Objekts auf Pixelebene in Videosequenzen erfordert. Ein effizientes Lernen solcher Merkmale mit einem "Fully-Convolutional" Netzwerk ist anfällig für degenerierte Lösungen. Unser Ansatz umgeht dies jedoch mit einer einfachen und wirksamen Vorrichtung, die auf der bereits erwähnten Äquivarianz des Modells zu Ähnlichkeitstransformationen basiert. Wir zeigen empirisch, dass unser Framework Spitzengenauigkeit in Videosegmentierung bei deutlich reduzierten Rechenkosten erreicht.

Fachbereich/-gebiet

20 Fachbereich Informatik > Visuelle Inferenz

DDC

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

Institution

Technische Universität Darmstadt

Ort

Darmstadt

Datum der mündlichen Prüfung

14.09.2022

Gutachter:innen

Roth, Stefan

Vedaldi, Andrea

Handelt es sich um eine kumulative Dissertation?

Nein

Name der Gradverleihenden Institution

Technische Universität Darmstadt

Ort der Gradverleihenden Institution

Darmstadt

PPN

500483175