Domain Adaptation in Context of Visual Factors

Schrom, Sebastian (2022)
Domain Adaptation in Context of Visual Factors.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00020375
Ph.D. Thesis, Primary publication, Publisher's Version

Text
2022-01-26_Schrom_Sebastian.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (53MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Domain Adaptation in Context of Visual Factors

Language:

English

Referees:

Adamy, Prof. Dr. Jürgen ; Wersing, Prof. Dr. Heiko

Date:

2022

Place of Publication:

Darmstadt

Collation:

xiii, 160 Seiten

Date of oral examination:

20 January 2022

DOI:

10.26083/tuprints-00020375

Abstract:

The number of application areas of deep neural networks for image classification is continuously growing. A general desired attribute of these networks is to generalize well to test data that visually differs from the training data, but still shows the relevant features of the classes to be discriminated. Reasons for such a difference in data could be related to a change in background, illumination, or camera properties. The research area of Domain Adaptation (DA) deals with the transferability of classification models between such datasets, called domains, with the target to maximize the transferability. Typically, the differences and similarities of domains are described by the notion of general data distributions. This method, however, does not allow to identify and describe sufficiently the actual cause of a reduced performance on a new domain. To tackle this, in this thesis a novel description of domains, based on a theory of visual factors that describes the characteristics of domains will be introduced. As it will be shown, it can also be used to explain the targets and effects of existing DA approaches more understandable, which ultimately can be used to improve those even further. When it comes to the application of classification models in context of domains, several generalization cases can occur. In literature the most relevant ones are the cases where the application domain is the same domain as the training domain or the application domain is a completely new domain. The case that the application domain was one of multiple training domains is usually neglected, but will be investigated in this thesis as well, since it has high relevance for the usage of pre-trained classification models on own image data. As it will be shown further, the awareness about the domains for all three generalization cases is important for a well performing classification model in the application domain. The novel investigations in this context will be introduced under the term Effects of Domain Awareness. Different cases of domain awareness are investigated in combination with different domain constellations within the training and test data using the simple DA method of RGB mean normalization. The results on a road segmentation task show the importance to treat a domain during training and test always in the same way, since otherwise a significantly reduced performance can be observed. A typical assumption in current DA research is that each training domain includes samples for all classes that should be discriminated. However, thinking of distributed camera systems with a shared classification model, where each system potentially represents a domain, this assumption is too restricted. The more realistic assumption here is that not all classes are covered by samples from each domain during training of the classifier. The aforementioned scenario, which is overlooked in literature, will be extensively investigated under the term Domain Mixture scenario in this thesis. The experiments on MNIST and real-world object classification data show that, given the Domain Mixture scenario, the application of an approach from DA is essential, since otherwise the classification model is not capable to perform well on domain-class combinations that were not represented by supervised samples during training. A common DA approach to obtain a classification model that performs invariant of a domain well, is to remove all factors from the internal class feature representation that allow a discrimination of domains. This, however, can be harmful if at the same time task-informative factors are removed. To prevent this negative effect, the novel approach of Factor-Preserving DA (FP-DA) will be introduced which allows to preserve a selected factor during training with an adversarial DA approach. The experiments in this context will first show on real-world data that this negative effect exists and afterwards how factors worth preserving can be identified and subsequently be preserved through FP-DA in a multi-domain setting. The results show that FP-DA is capable to achieve the highest average and minimum performance in such a setting compared to the used baseline method. In summary, this thesis introduces a novel description of domains and based on that, investigates multiple highly relevant constellations for DA and additionally proposes a novel DA approach.

Alternative Abstract:

Alternative Abstract

Language

Die Anzahl der Anwendungsgebiete von tiefen neuronalen Netzen für die Bildklassifikation wächst kontinuierlich. Eine grundsätzliche, gewünschte Eigenschaft solcher Netze ist es, auf Testdaten zu generalisieren die sich zwar optisch von den Trainingsdaten unterscheiden, aber dennoch die relevanten Merkmale der zu unterscheidenden Klassen aufweisen. Die Gründe für solch einen Unterschied in den Datensätzen können mit einer Änderung des Hintergrundes, der Beleuchtung oder der Kameraeigenschaften zusammenhängen. Das Forschungsgebiet der Domänen Adaptation (DA) beschäftigt sich mit der Übertragbarkeit von Klassifikationsmodellen zwischen solchen Datensätzen, genannt Domänen, mit dem Ziel die Übertragbarkeit zu maximieren. In der Regel werden die Unterschiede und Gemeinsamkeiten von Domänen anhand von allgemeinen Datenverteilungen beschrieben. Diese Methodik erlaubt es allerdings nicht den eigentlichen Grund für eine reduzierte Leistungsfähigkeit auf einer neuen Domäne zu identifizieren und ausreichend zu beschreiben. Um dieses Problem anzugehen, wird in dieser Thesis eine neue Beschreibung von Domänen eingeführt. Diese basiert auf einer Faktor Theorie, welche die Charakteristiken von Domänen beschreibt. Es wird gezeigt, dass diese auch dafür genutzt werden kann um die Erwartungen und Effekte bestehender DA Ansätze verständlicher darzulegen, was wiederum dafür genutzt werden kann um diese weiter zu verbessern. Bei der Anwendung von Klassifikationsmodellen im Kontext von Domänen können verschiedene Generalisierungsfälle auftreten. Die relevantesten Fälle in der Literatur sind die, bei welchen die Anwendungsdomäne die gleiche Domäne wie die Trainingsdomäne ist, oder die Anwendungsdomäne eine vollständig neue Domäne ist. Der Fall, dass die Anwendungsdomäne eine von mehreren Trainingsdomänen ist, wird üblicherweise nicht betrachtet. In dieser Thesis wird dieser jedoch untersucht, da er eine hohe Relevanz für die Benutzung von vor-trainierten Klassifikationsmodellen auf eigenen Bilddaten hat. Wie zudem gezeigt wird, ist für ein performantes Klassifikationsmodell in der Anwendungsdomäne das Bewusstsein über Domänen in allen drei Generalisierungsfällen wichtig. Die neuen Untersuchungen in diesem Zusammenhang werden unter dem Begriff Effekte des Domänen Bewusstseins vorgestellt. Unterschiedliche Fälle des Domänen Bewusstseins werden in Kombination mit verschiedenen Domänen Konstellation innerhalb der Trainings- und Testdaten unter Verwendung der einfachen DA Methode der RGB Mittelwert Normalisierung untersucht. Basierend auf einer Straßensegmentierungsaufgabe zeigen die Versuchsergebnisse die Bedeutsamkeit, eine Domäne während des Trainings und des Testens stets gleich zu behandeln, da andernfalls eine deutlich reduzierter Leistungsfähigkeit beobachtet werden kann. In der aktuellen DA Forschung wird typischerweise angenommen, dass jede Trainingsdomäne Beispiele für alle zu unterscheidenden Klassen enthält. Bei verteilten Kamerasystemen mit einem gemeinsamen Klassifikationsmodell, wobei jedes Kamerasystem eine Domäne darstellt, ist diese ursprüngliche Annahme aus der Literatur allerdings zu beschränkt. Die realistischere Annahme ist, dass während des Trainings des Klassifikators nicht alle Klassen durch Beispiele aus jeder Domäne abgedeckt sind. Dieses in der Literatur unberücksichtigte Szenario wird in dieser Thesis unter dem Begriff Domain Mixture ausführlich untersucht. Wie die Experimente auf MNIST Daten und realen Objektlassifikationsdaten zeigen, ist eine Anwendung von DA unerlässlich, wenn das Domain Mixture Szenario vorliegt, da andernfalls das Klassifikationsmodell nicht in der Lage ist auf Domänen-Klassen Kombinationen zu generalisieren, welche während des Trainings nicht mit gelabelten Daten repräsentiert waren. Ein gängiger DA Ansatz, um ein Klassifikationsmodell zu erhalten, das unabhängig von der Domäne gut funktioniert, besteht darin, alle Faktoren von der internen Klassenmerkmals-Repräsentation zu entfernen, welche eine Unterscheidung von Domänen erlauben. Dies kann allerdings nachteilig sein, wenn gleichzeitig aufgaben-relevante Faktoren entfernt werden. Um diesen negativen Effekt zu verhindern, wird der neue Factor-Preserving DA (FP-DA) Ansatz vorgestellt, welcher es ermöglicht einen ausgewählten Faktor während des Trainings mit einem Adversarial DA Ansatz zu erhalten. Die Experimente in diesem Zusammenhang werden zunächst anhand von realen Daten zeigen, dass dieser negative Effekt existiert und anschließend, wie erhaltenswerte Faktoren identifiziert und durch FP-DA in einem Multi-Domänen Setting erhalten werden können. Die Versuchsergebnisse zeigen, dass FP-DA in der Lage ist in solch einem Setting die höchste durchschnittliche und minimale Leistung im Vergleich zur verwendeten Baseline-Methode zu erzielen. Zusammenfassend führt diese Arbeit eine neuartige Beschreibung von Domänen ein, untersucht darauf aufbauend mehrere hochgradig relevante Konstellationen für DA und stellt zusätzlich einen neuen DA Ansatz vor.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-203758

Classification DDC:

600 Technology, medicine, applied sciences > 620 Engineering and machine engineering

Divisions:

18 Department of Electrical Engineering and Information Technology > Institut für Automatisierungstechnik und Mechatronik > Control Methods and Robotics (from 01.08.2022 renamed Control Methods and Intelligent Systems)

Date Deposited:

04 Feb 2022 14:26

Last Modified: