Logo des Repositoriums
  • English
  • Deutsch
Anmelden
Keine TU-ID? Klicken Sie hier für mehr Informationen.
  1. Startseite
  2. Publikationen
  3. Publikationen der Technischen Universität Darmstadt
  4. Erstveröffentlichungen
  5. Instructing Generative Image Models - From Semantics to Society
 
  • Details
2025
Erstveröffentlichung
Dissertation
Verlagsversion

Instructing Generative Image Models - From Semantics to Society

File(s)
Download
Hauptpublikation
dissertation_mb_final_2025.pdf
CC BY 4.0 International
Format: Adobe PDF
Size: 96.96 MB
TUDa URI
tuda/13681
URN
urn:nbn:de:tuda-tuprints-299125
DOI
10.26083/tuprints-00029912
Autor:innen
Brack, Manuel ORCID 0000-0003-0187-6090
Kurzbeschreibung (Abstract)

Generative image models are at the center of a rapid shift in the creative industry and the subject of an ever-growing number of research works. In this thesis, we demonstrate and address significant limitations these models suffer from despite their impressive capabilities. We highlight how naive text-to-image generation alone is insufficient for users to take charge of a model’s outputs. In particular,we showcase issues with semantic control over generated objects and scene composition and general problems like safety concerns and unintended biases. Our contributions in addressing these concerns are twofold. On the one hand, we propose new benchmarks and conduct thorough empirical studies to assess and quantify the ethical concerns in text-to-image models. Not only do our results shed light on the problematic behavior of many current models, but our methodology and insights can guide the improvement of future releases. On the other hand, we propose novel, efficient, and versatile algorithms to improve the semantic control over text-to-image models in general. Our approaches can be applied to achieve desired scene compositions or image aesthetics but also to counteract the uncovered ethical concerns. Specifically, Multifusion adds multimodal and multilingual capabilities to image generation models, SEGA allows for semantic steering of the generation process, and LEdits++ enables editing of real images. Lastly, Safe and Fair Diffusion allow users to flexibly mitigate the generation of unsafe and biased images, respectively. Importantly, our methods require comparatively little or no training and generalize to arbitrary neural network architectures.

Sprache
Englisch
Alternativtitel
Instruktion generativer Bildmodelle - Von Semantik zur Gesellschaft
Alternatives Abstract

Generative Bildmodelle stehen im Mittelpunkt eines rasanten Wandels in der Kreativbranche und sind Gegenstand einer ständig wachsenden Zahl von Forschungsarbeiten. In dieser Arbeit haben wir gezeigt, dass diese Modelle trotz ihrer beeindruckenden Fähigkeiten unter erheblichen Schwachstellen leiden. Naive text-to-image Schnittstellen allein reichen nicht aus, um die Ausgaben eines Modell zufriendenstellend zu kontrollieren. Insbesondere die semantische Kontrolle über die generierten Objekte und die Bildzusamensetzung, unsichere Ausgaben und Reproduktion von Vorurteilen sind häufige Probleme. Unsere Beiträge zur Lösung dieser Probleme sind zweifacher Natur. Einerseits schlagen wir neue Benchmarks vor und führen empirische Studien durch, um die ethischen Bedenken bei text-to-image Modellen zu bewerten und zu quantifizieren. Unsere Ergebnisse werfen nicht nur ein Licht auf das problematische Verhalten vieler aktueller Modelle, sondern unsere Methodik und unsere Erkenntnisse können auch zur Verbesserung künftiger Versionen beitragen. Darüber stellen wir neue, effiziente und vielseitige Algorithmen vor, um die semantische Kontrolle über text-to-image Generierung im Allgemeinen zu verbessern. Unsere Ansätze können angewandt werden, um gewünschte Szenenkompositionen oder Bildästhetik zu erreichen, aber auch um nicht addresierten ethischen Bedenken entgegenzuwirken. Multifusion erweitert die Bilderzeugungsmodelle um multimodale und mehrsprachige Fähigkeiten, SEGA ermöglicht die semantische Steuerung des Generierungsprozesses, und LEdits++ ermöglicht die Bearbeitung von echten Bildern. Mit Safe und Fair Diffusion schließlich können die Nutzer die Erzeugung unsicherer bzw. stereotypsicher Bilder flexibel unterdrücken. Die von uns vorgeschlagenen Methoden erfordern vergleichsweise wenig oder kein Training und lassen sich auf beliebige Architekturen anwenden.

Fachbereich/-gebiet
20 Fachbereich Informatik > Künstliche Intelligenz und Maschinelles Lernen
DDC
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Institution
Technische Universität Darmstadt
Ort
Darmstadt
Datum der mündlichen Prüfung
07.04.2025
Gutachter:innen
Kersting, Kristian
Ommer, Björn
Handelt es sich um eine kumulative Dissertation?
Nein
Name der Gradverleihenden Institution
Technische Universität Darmstadt
Ort der Gradverleihenden Institution
Darmstadt

  • TUprints Leitlinien
  • Cookie-Einstellungen
  • Impressum
  • Datenschutzbestimmungen
  • Webseitenanalyse
Diese Webseite wird von der Universitäts- und Landesbibliothek Darmstadt (ULB) betrieben.