Self-Supervised Learning of Machine Ethics

Schramowski, Patrick (2023)
Self-Supervised Learning of Machine Ethics.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00023090
Ph.D. Thesis, Primary publication, Publisher's Version

Text
dissertation_schramowski.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (24MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Self-Supervised Learning of Machine Ethics

Language:

English

Referees:

Kersting, Prof. Dr. Kristian ; Fraser, Prof. Dr. Alexander M.

Date:

2023

Place of Publication:

Darmstadt

Collation:

xxi, 208 Seiten

Date of oral examination:

20 March 2023

DOI:

10.26083/tuprints-00023090

Abstract:

In recent years Artificial Intelligence (AI), especially deep learning, has proven to be a technology driver in industry. However, while advancing existing and creating novel technologies, automatizing processes, and assisting humans in essential areas such as drug discovery, they raise many concerns, like other groundbreaking novel technologies before. In this case, these concerns include, for instance, models producing stereotypical and derogatory content as well as gender and racial biases. Since AI technologies will permeate more of our lives in the coming years, these concerns need to be addressed. This thesis examines recent data-driven approaches, which often suffer from degenerated and biased behavior through their self-supervised training on large-scale noisy web data, containing potential inappropriate data. While this is well-established, we will investigate and demonstrate the promises of deep models’ acquired knowledge and capabilities through the provision of this very particular potentially inappropriate data. Importantly, we present the first approaches for learning ethics from data. Our findings suggest that if we build an AI system that learns an improved representation of data and that is able to better understand and produce it, in the process, it will also acquire more accurate societal knowledge, in this case, historical cultural associations to make human-like "right" and "wrong" choices. Furthermore, based on these findings, we consequently ask the arguably "circular" question of whether a machine can help us mitigate their associated concerns. Importantly, we demonstrate the importance of their ability to distinguish between "right" and "wrong" and how utilizing them can mitigate associated risks surrounding large-scale models themselves. However, we also highlight the role of human-machine interaction to explore and reinforce AI systems’ properties, including their flaws and merits, and present how human feedback on explanations can align deep learning based models with our precepts. We present these algorithms and corresponding findings, providing important insights for the goal of putting human values into AI systems, which, summarized, may not be insurmountable in the long run.

Alternative Abstract:

Alternative Abstract

Language

In den letzten Jahren hat sich Künstliche Intelligenz (KI), insbesondere Deep Learning, als Technologietreiber in der Industrie erwiesen. Während sie jedoch bestehende und neuartige Technologien vorantreibt, Prozesse automatisiert und Menschen in wichtigen Bereichen wie der Arzneimittelforschung unterstützt, wirft sie, wie andere neue bahnbrechende Technologien zuvor, viele Bedenken auf. In diesem Fall beispielsweise KI Modelle, die stereotypische und abwertende Inhalte sowie geschlechts- und rassistische Vorurteile produzieren. Da KI-Technologien in den kommenden Jahren mehr und mehr in unser Leben eindringen werden, müssen diese Bedenken ausgeräumt werden. In dieser Arbeit werden aktuelle datengesteuerte Ansätze untersucht, die oft durch ihr selbstüberwachtes Training auf großen, verrauschten Webdaten anschließlich anstößiger Daten, unter degeneriertem und voreingenommenem Verhalten leiden. Während dies bereits bekannt ist, werden wir Versprechungen beziehungsweise Vorteile von tiefen Modellen untersuchen, welche durch die Bereitstellung dieser spezifischen, potenziell ungeeigneten Daten erworben werden. Dabei stellen wir die ersten Ansätze zum Lernen von Ethik aus Daten vor. Unsere Ergebnisse deuten darauf hin, dass ein KI-System, das eine verbesserte Repräsentation von Daten erlernt und in der Lage ist, diese besser zu verstehen und zu produzieren, in diesem Prozess auch genaueres gesellschaftliches Wissen erwirbt, in diesem Fall historische kulturelle Assoziationen, um menschenähnliche "richtige" und "falsche" Entscheidungen zu treffen. Darüber hinaus stellen wir auf der Grundlage dieser Erkenntnisse die wohl "zirkuläre" Frage, ob eine Maschine uns dabei helfen kann, die damit verbundenen Bedenken zu mindern. Vor allem zeigen wir, wie wichtig ihre Fähigkeit ist, zwischen "richtig" und "falsch" zu unterscheiden, und wie dessen Einsatz die verbundenen Risiken im Zusammenhang mit groß angelegten KI Modellen selbst mindern kann. Wir heben jedoch auch die Rolle der Mensch-Maschine-Interaktion hervor, um die Eigenschaften von KI-Systemen zu erforschen und zu verbessern, einschließlich ihrer Fehler und Vorzüge. Außerdem zeigen wir wie menschliches Feedback basierend auf Erklärungen Deep-Learning-basierte Modelle mit unseren Grundsätzen in Einklang bringen kann. Wir stellen diese Algorithmen und die dazugehörigen Ergebnisse vor und liefern damit wichtige Erkenntnisse für das Ziel, menschliche Werte in KI-Systeme einzubringen, welches, zusammenfassend, auf lange Sicht nicht unüberwindbar sein dürfte.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-230900

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Artificial Intelligence and Machine Learning

Date Deposited:

24 May 2023 12:11

Last Modified: