TU Darmstadt / ULB / TUprints

Multimodal Representation Learning for Diverse Synthesis with Deep Generative Models

Mahajan, Shweta (2022)
Multimodal Representation Learning for Diverse Synthesis with Deep Generative Models.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00021651
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
mahajan-phd.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (57MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Multimodal Representation Learning for Diverse Synthesis with Deep Generative Models
Language: English
Referees: Roth, Prof. Stefan ; Schwing, Prof. Dr. Alexander
Date: 2022
Place of Publication: Darmstadt
Collation: xxi, 191 Seiten
Date of oral examination: 13 June 2022
DOI: 10.26083/tuprints-00021651
Abstract:

One of the key factors driving the success of machine learning for scene understanding is the development of data-driven approaches that can extract information automatically from the vast expanse of data. Multimodal representation learning has emerged as one of the demanding areas to draw meaningful information from the input data and achieve human-like performance. The challenges in learning representations can be ascribed to the heterogeneity of the available datasets where the information comes from various modalities or domains such as visual signals in the form of images and videos or textual signals in form of sentences. Moreover, one encounters far more unlabeled data in the form of highly multimodal, complex image distributions. In this thesis, we advance the field of multimodal representation learning for diverse synthesis with applications in vision and language; and complex imagery. We take a probabilistic approach and leverage deep generative models to capture the multimodality of the underlying true data distribution offering a strong advantage of learning from unlabeled data.

To this end, in the first part, we focus on cross-domain data of images and text. We develop joint deep generative frameworks to encode the joint representations of the two distributions following distinct generative processes. The latent spaces are structured to encode semantic information available from the paired training data and even the domain-specific variations in the data. Furthermore, we introduce intricate data-dependent priors to capture the multimodality of the two distributions. The benefits of our presented frameworks are manifold. The semi-supervised techniques preserve the structural information of input representations in each modality with the potential to include any information that may be missing in other modalities, resulting in embeddings that generalize across datasets. The approaches consequently resolve the ambiguities of the joint distribution and allow for many-to-many mappings. In this thesis, we also introduce a novel factorization in the latent space that encodes contextual information independently of the object information and can leverage diverse contextual descriptions from the annotations of images that share similar contextual information leading to enriched multimodal latent space and thus increased diversity in the generated captions.

Perception plays a vital role in human understanding of the environment. As image data becomes abundant and complex, it is inevitable for AI systems to learn the underlying structure of these multimodal distributions for general scene understanding. Even though popular deep generative models like GANs and VAEs for image distributions have made advancements, there are still gaps in capturing the underlying true data distribution. GANs are not designed to provide density estimates and VAEs only approximate the underlying data generating distribution with intractable likelihoods, posing challenges in both training and inference. To resolve the limitations, in the second part of the thesis, we construct powerful normalizing flows and autoregressive approaches for image distributions. Normalizing flows and autoregressive generative methods belong to the class of exact inference models that optimize the exact log-likelihood of the data. Our first approach enhances the representational power of flow-based models which are constrained due to the invertibility of the flow layers by introducing channel-wise dependencies in their latent space through multi-scale autoregressive priors. The scrupulously designed prior can better capture dependencies in complex multimodal data and achieves state-of-the-art density estimation results and improved image generation quality. Our second method concentrates on autoregressive models with their highly flexible functional forms. The sequential ordering of the dimensions makes these models computationally expensive. To address this, we propose a block-autoregressive approach employing a lossless pyramid decomposition with scale-specific representations. The sparse dependency structure makes it easier to encode the joint distribution of image pixels. Our approach yields state-of-the-art results for density estimation on various image datasets, especially for high-resolution data, and exhibits sampling speeds superior even to easily parallelizable flow-based models.

Alternative Abstract:
Alternative AbstractLanguage

Einer der Schlüsselfaktoren für den Erfolg des maschinellen Lernens beim Verstehen von Szenen ist die Entwicklung von datengesteuerten Ansätzen, die automatisch Informationen aus den riesigen Datenmengen extrahieren können. Das Lernen multimodaler Repräsentationen hat sich als einer der anspruchsvollsten Bereiche herausgestellt, um sinnvolle Informationen aus den Eingabedaten zu gewinnen und eine dem Menschen ähnliche Leistung zu erzielen. Die Herausforderungen beim Erlernen von Repräsentationen lassen sich auf die Heterogenität der verfügbaren Datensätze zurückführen, bei denen die Informationen aus verschiedenen Modalitäten oder Bereichen stammen, z. B. visuelle Signale in Form von Bildern und Videos oder textuelle Signale in Form von Sätzen. Außerdem stößt man auf weitaus mehr unbeschriftete Daten in Form von hochgradig multimodalen, komplexen Bildverteilungen. In dieser Arbeit entwickeln wir das Feld des multimodalen Repräsentationslernens für die vielfältige Synthese mit Anwendungen im Bereich des Sehens, der Sprache und der komplexen Bilder weiter. Wir verfolgen einen probabilistischen Ansatz und nutzen tiefe generative Modelle, um die Multimodalität der zugrundeliegenden wahren Datenverteilung zu erfassen, was einen großen Vorteil beim Lernen aus unbeschrifteten Daten bietet.

Zu diesem Zweck konzentrieren wir uns im ersten Teil auf bereichsübergreifende Daten von Bildern und Text. Wir entwickeln gemeinsame tiefe generative Frameworks, um die gemeinsamen Repräsentationen der beiden Verteilungen zu kodieren, die unterschiedlichen generativen Prozessen folgen. Die latenten Räume sind so strukturiert, dass sie semantische Informationen aus den gepaarten Trainingsdaten und sogar die domänenspezifischen Variationen in den Daten kodieren. Darüber hinaus führen wir komplizierte datenabhängige Prioritäten ein, um die Multimodalität der beiden Verteilungen zu erfassen. Die Vorteile der von uns vorgestellten Verfahren sind vielfältig. Die halbüberwachten Techniken bewahren die strukturellen Informationen der Eingabedarstellungen in jeder Modalität mit dem Potenzial, jegliche Informationen einzubeziehen, die in anderen Modalitäten fehlen könnten, was zu Einbettungen führt, die über Datensätze hinweg verallgemeinert werden können. Die Ansätze lösen folglich die Mehrdeutigkeiten der gemeinsamen Verteilung auf und ermöglichen Many-to-Many-Mappings. In dieser Arbeit führen wir auch eine neuartige Faktorisierung im latenten Raum ein, die kontextuelle Informationen unabhängig von den Objektinformationen kodiert und verschiedene kontextuelle Beschreibungen aus den Annotationen von Bildern nutzen kann, die ähnliche kontextuelle Informationen teilen, was zu einem angereicherten multimodalen latenten Raum und somit zu einer größeren Vielfalt in den generierten Beschriftungen führt.

Die Wahrnehmung spielt eine entscheidende Rolle für das menschliche Verständnis der Umwelt. Da Bilddaten immer umfangreicher und komplexer werden, ist es für KI-Systeme unumgänglich, die zugrunde liegende Struktur dieser multimodalen Verteilungen zu erlernen, um ein allgemeines Verständnis der Szene zu ermöglichen. Obwohl gängige tiefe generative Modelle wie GANs und VAEs für Bildverteilungen Fortschritte gemacht haben, gibt es immer noch Lücken bei der Erfassung der zugrunde liegenden wahren Datenverteilung. GANs sind nicht darauf ausgelegt, Dichteschätzungen zu liefern, und VAEs nähern sich der zugrundeliegenden datenerzeugenden Verteilung nur mit unlösbaren Likelihoods an, was sowohl beim Training als auch bei der Inferenz eine Herausforderung darstellt. Um diese Einschränkungen zu beheben, konstruieren wir im zweiten Teil der Arbeit leistungsfähige normalisierende Flüsse und autoregressive Ansätze für Bildverteilungen. Normalisierende Flüsse und autoregressive generative Methoden gehören zu der Klasse der exakten Inferenzmodelle, die die exakte Log-Likelihood der Daten optimieren. Unser erster Ansatz verbessert die Darstellungsleistung von flussbasierten Modellen, die aufgrund der Invertierbarkeit der Flussschichten eingeschränkt sind, indem wir kanalweise Abhängigkeiten in ihren latenten Raum durch mehrskalige autoregressive Prioren einführen. Der sorgfältig entworfene Prior kann Abhängigkeiten in komplexen multimodalen Daten besser erfassen und führt zu hochmodernen Dichteschätzungsergebnissen und einer verbesserten Qualität der Bilderzeugung. Unsere zweite Methode konzentriert sich auf autoregressive Modelle mit ihren äußerst flexiblen Funktionsformen. Die sequentielle Anordnung der Dimensionen macht diese Modelle rechenintensiv. Um dieses Problem zu lösen, schlagen wir einen block-autoregressiven Ansatz vor, der eine verlustfreie Pyramidenzerlegung mit skalenspezifischen Darstellungen verwendet. Die spärliche Abhängigkeitsstruktur macht es einfacher, die gemeinsame Verteilung der Bildpixel zu kodieren. Unser Ansatz liefert Ergebnisse auf dem neuesten Stand der Technik für die Dichteschätzung auf verschiedenen Bilddatensätzen, insbesondere für hochauflösende Daten, und weist Abtastgeschwindigkeiten auf, die sogar leicht parallelisierbaren flussbasierten Modellen überlegen sind.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-216515
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Visual Inference
Date Deposited: 22 Jul 2022 12:35
Last Modified: 07 Dec 2022 10:36
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/21651
PPN: 497916320
Export:
Actions (login required)
View Item View Item