Instructing Generative Image Models - From Semantics to Society
Instructing Generative Image Models - From Semantics to Society
Generative image models are at the center of a rapid shift in the creative industry and the subject of an ever-growing number of research works. In this thesis, we demonstrate and address significant limitations these models suffer from despite their impressive capabilities. We highlight how naive text-to-image generation alone is insufficient for users to take charge of a model’s outputs. In particular,we showcase issues with semantic control over generated objects and scene composition and general problems like safety concerns and unintended biases. Our contributions in addressing these concerns are twofold. On the one hand, we propose new benchmarks and conduct thorough empirical studies to assess and quantify the ethical concerns in text-to-image models. Not only do our results shed light on the problematic behavior of many current models, but our methodology and insights can guide the improvement of future releases. On the other hand, we propose novel, efficient, and versatile algorithms to improve the semantic control over text-to-image models in general. Our approaches can be applied to achieve desired scene compositions or image aesthetics but also to counteract the uncovered ethical concerns. Specifically, Multifusion adds multimodal and multilingual capabilities to image generation models, SEGA allows for semantic steering of the generation process, and LEdits++ enables editing of real images. Lastly, Safe and Fair Diffusion allow users to flexibly mitigate the generation of unsafe and biased images, respectively. Importantly, our methods require comparatively little or no training and generalize to arbitrary neural network architectures.
Generative Bildmodelle stehen im Mittelpunkt eines rasanten Wandels in der Kreativbranche und sind Gegenstand einer ständig wachsenden Zahl von Forschungsarbeiten. In dieser Arbeit haben wir gezeigt, dass diese Modelle trotz ihrer beeindruckenden Fähigkeiten unter erheblichen Schwachstellen leiden. Naive text-to-image Schnittstellen allein reichen nicht aus, um die Ausgaben eines Modell zufriendenstellend zu kontrollieren. Insbesondere die semantische Kontrolle über die generierten Objekte und die Bildzusamensetzung, unsichere Ausgaben und Reproduktion von Vorurteilen sind häufige Probleme. Unsere Beiträge zur Lösung dieser Probleme sind zweifacher Natur. Einerseits schlagen wir neue Benchmarks vor und führen empirische Studien durch, um die ethischen Bedenken bei text-to-image Modellen zu bewerten und zu quantifizieren. Unsere Ergebnisse werfen nicht nur ein Licht auf das problematische Verhalten vieler aktueller Modelle, sondern unsere Methodik und unsere Erkenntnisse können auch zur Verbesserung künftiger Versionen beitragen. Darüber stellen wir neue, effiziente und vielseitige Algorithmen vor, um die semantische Kontrolle über text-to-image Generierung im Allgemeinen zu verbessern. Unsere Ansätze können angewandt werden, um gewünschte Szenenkompositionen oder Bildästhetik zu erreichen, aber auch um nicht addresierten ethischen Bedenken entgegenzuwirken. Multifusion erweitert die Bilderzeugungsmodelle um multimodale und mehrsprachige Fähigkeiten, SEGA ermöglicht die semantische Steuerung des Generierungsprozesses, und LEdits++ ermöglicht die Bearbeitung von echten Bildern. Mit Safe und Fair Diffusion schließlich können die Nutzer die Erzeugung unsicherer bzw. stereotypsicher Bilder flexibel unterdrücken. Die von uns vorgeschlagenen Methoden erfordern vergleichsweise wenig oder kein Training und lassen sich auf beliebige Architekturen anwenden.

