Logo des Repositoriums
  • English
  • Deutsch
Anmelden
Keine TU-ID? Klicken Sie hier für mehr Informationen.
  1. Startseite
  2. Publikationen
  3. Publikationen der Technischen Universität Darmstadt
  4. Erstveröffentlichungen
  5. Advancing Machine Ethics: A Multi-Stage Approach to Revising AI Models
 
  • Details
2025
Erstveröffentlichung
Dissertation
Verlagsversion

Advancing Machine Ethics: A Multi-Stage Approach to Revising AI Models

File(s)
Download
Hauptpublikation
Friedrich_Dissertation.pdf
CC BY 4.0 International
Format: Adobe PDF
Size: 24.81 MB
TUDa URI
tuda/14270
URN
urn:nbn:de:tuda-tuprints-310036
DOI
10.26083/tuprints-00031003
Autor:innen
Friedrich, Felix ORCID 0000-0001-8387-793X
Kurzbeschreibung (Abstract)

Advances in large-scale pretrained AI ("foundation") models such as GPT, CLIP, and Stable Diffusion have significantly transformed our technological landscape. Significant breakthroughs, for instance, in creative expression and commonsense reasoning, result primarily from these models' self-supervised training on vast, uncurated datasets. However, this powerful approach to learning inevitably captures not only human knowledge but also captures and intensifies inherent human biases, leading models to propagate harmful stereotypes and associations. Consequently, the promise of foundation models is accompanied by profound ethical and societal challenges, raising questions about whose values these systems reflect, what risks they entail, and how they can be responsibly governed.

Addressing these challenges, this thesis develops and systematically explores strategies for integrating machine ethics throughout the AI model pipeline, with interventions at three critical stages—data curation, model training, and inference-time adaptation.

First, at the data level, we present methods such as LlavaGuard, a vision-language framework designed to automatically audit visual datasets for unsafe, harmful, or stereotypical content, facilitating dataset filtering before training. Additionally, we explore synthetic data augmentation guided by vision-language models to diversify and debias dataset representations, highlighting its potential and limitations in mitigating biases and gender stereotypes.

Next, at the training stage, we introduce a typology for Explanatory Interactive Learning (XIL). This approach leverages human-provided explanations or automated explanatory feedback to prevent harmful shortcut learning and spurious correlations in AI model training. We demonstrate that even limited targeted interventions during training can significantly reduce shortcut learning and improve robustness and interpretability, thereby aligning model behavior more closely with human feedback.

Finally, recognizing that biases cannot always be fully mitigated earlier, we propose dynamic inference-time strategies including Revision Transformers (RiT), which enable post-training alignment of language models to ethical norms via retrieval-based, targeted human feedback, and FairDiffusion, allowing real-time steering of text-to-image models to ensure more equitable outcomes and mitigate inappropriate portrayals.

Together, these findings emphasize the necessity of a coordinated, holistic, multi-stage approach to machine ethics. We further highlight key practical, methodological, and ethical challenges, including resource constraints, limitations of synthetic augmentation techniques, oversimplified fairness assessments, and questions concerning value alignment. We outline promising avenues for future research, such as enhancing human oversight, context-sensitive interventions, and frameworks supporting more inclusive and representative machine ethics.

Sprache
Englisch
Alternativtitel
Weiterentwicklung der Maschinenethik:
Ein mehrstufiger Ansatz zur Überarbeitung von KI-Modellen
Alternatives Abstract

Fortschritte bei großskaligen, vortrainierten KI-Modellen („Foundation Models“) wie GPT, CLIP und Stable Diffusion haben unsere technologische Landschaft grundlegend verändert. Bahnbrechende Erfolge, beispielsweise im Bereich kreativer Ausdrucksformen und beim Erwerb von Alltagswissen, resultieren maßgeblich aus dem selbstüberwachten Training dieser Modelle auf großen, ungefilterten Datensätzen. Dieser Ansatz erfasst allerdings neben wert-vollem menschlichen Wissen zwangsläufig auch menschliche Vorurteile, die dadurch sogar verstärkt werden können. Dies führt dazu, dass Modelle schädliche Stereotype und problematische Assoziationen verbreiten. Das große Potenzial von Foundation-Modellen geht daher mit tiefgreifenden ethischen und gesellschaftlichen Herausforderungen einher: Es stellt sich die dringende Frage, welche Werte diese Systeme repräsentieren, welche Risiken von ihnen ausgehen und wie wir sie verantwortungsvoll gestalten und kontrollieren können.

Um diese Herausforderungen anzugehen, untersucht diese Dissertation systematisch, wie Maschinenethik über den KI-Entwicklungsprozess hinweg integriert werden kann; konkret durch Maßnahmen in den drei Phasen Datenkuration, Modelltraining und Inferenz.

Auf der Ebene der Daten stellen wir Methoden wie LlavaGuard vor, ein auf Vision-Language Modellen basierendes Framework zur automatisierten Analyse visueller Datensätze. Dieses Framework ermöglicht, problematische oder stereotype Inhalte frühzeitig zu erkennen und vor dem Modelltraining herauszufiltern. Zusätzlich untersuchen wir synthetische Datenaugmentation, um die Diversität in Trainingsdatensätzen gezielt zu erhöhen und problematische Verzerrungen—wie etwa geschlechtsspezifische Stereotype—abzumildern. Dabei verdeutlichen wir gleichzeitig die Potenziale und Grenzen solcher Verfahren.

Auf der Trainingsebene führen wir eine Typologie für erklärungsbasiertes interaktives Lernen („Explanatory Interactive Learning“, XIL) ein. Diese nutzt menschliche oder automatisch erzeugte Erklärungen, um das Erlernen problematischer Abkürzungen („Shortcuts“) sowie irreführender Korrelationen in KI-Systemen zu verhindern. Unsere Ergebnisse zeigen, dass bereits wenige gezielte Interventionen während des Trainings deutlich das Auftreten irreführender Abkürzungen reduzieren sowie Robustheit und Interpretierbarkeit der Modelle verbessern, wodurch ihr Verhalten an menschlichem Feedback ausgerichtet werden kann.

Schließlich präsentieren wir dynamische, inferenzbasierte Strategien, um verbleibende Verzerrungen unter Kontrolle zu halten, die in früheren Phasen nicht ausreichend adressiert werden konnten. Mithilfe sogenannter Revision Transformers (RiT) erreichen wir durch abrufbasiertes, gezieltes menschliches Feedback eine flexible nachträgliche Anpassung von Sprachmodellen an ethische Normen. Darüber hinaus entwickeln wir mit FairDiffusion eine Methode zur Echtzeitsteuerung von Text-zu-Bild-Modellen. FairDiffusion erlaubt es, Modelle interaktiv so zu steuern, dass ihre Resultate gerechter und weniger anfällig für unangemessene Darstellungen sind.

Insgesamt bekräftigen die in dieser Dissertation vorgestellten Erkenntnisse die Notwendigkeit eines koordinierten, ganzheitlichen und mehrstufigen Ansatzes zur nachhaltigen Etablierung einer Maschinenethik in KI-Systemen. Zusätzlich beleuchten wir zentrale praktische, methodische und ethische Herausforderungen—darunter Ressourceneinschränkungen, Grenzen synthetischer Datenaugmentation, vereinfachte Fairnessbewertungen sowie komplexe Fragen zur Werteausrichtung. Abschließend skizzieren wir vielversprechende zukünftige Forschungsrichtungen, wie eine vertiefte Einbindung beeinflusster Menschen, kontextsensitive Interventionen sowie inklusive und partizipative Ansätze zur Wertefestlegung, um Maschinenethik in der Praxis gesellschaftlich verantwortlich und nachhaltig zu gestalten.

Fachbereich/-gebiet
20 Fachbereich Informatik > Künstliche Intelligenz und Maschinelles Lernen
DDC
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Institution
Technische Universität Darmstadt
Ort
Darmstadt
Datum der mündlichen Prüfung
22.07.2025
Gutachter:innen
Kersting, Kristian
Romero Soriano, Adriana
Handelt es sich um eine kumulative Dissertation?
Nein
Name der Gradverleihenden Institution
Technische Universität Darmstadt
Ort der Gradverleihenden Institution
Darmstadt
PPN
53222437X

  • TUprints Leitlinien
  • Cookie-Einstellungen
  • Impressum
  • Datenschutzbestimmungen
  • Webseitenanalyse
Diese Webseite wird von der Universitäts- und Landesbibliothek Darmstadt (ULB) betrieben.