TU Darmstadt / ULB / TUprints

Explaining and Interactively Debugging Deep Models

Shao, Xiaoting (2022):
Explaining and Interactively Debugging Deep Models. (Publisher's Version)
Darmstadt, Technische Universität Darmstadt,
DOI: 10.26083/tuprints-00021868,
[Ph.D. Thesis]

[img] Text
Dissertation_signed.pdf
Copyright Information: CC-BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (30MB)
Item Type: Ph.D. Thesis
Status: Publisher's Version
Title: Explaining and Interactively Debugging Deep Models
Language: English
Abstract:

Artificial Intelligence (AI) has made a huge impact on our everyday lives. As a dominant branch of AI since the 1990s, Machine Learning (ML) has been applied to a wide range of scenarios, including image recognition, speech recognition, fraud detection, recommendation systems, time series prediction and self-driving cars. Deep learning, backed up by Deep Neural Networks (DNNs), is a major subfield of machine learning. DNNs are good at approximating smooth functions, i.e., learning a mapping from inputs to outputs, which is also known as the predictive or supervised learning approach. Sometimes, one is not interested in a specific predictive task, but rather in finding interesting patterns in the data. In this case, a descriptive or unsupervised learning approach is needed, and the task can be formalized as density estimation. Deep probabilistic models have gained popularity for density estimation because they maintain a good balance between expressivity and tractability, whereas classical probabilistic models face an inherent trade-off.

Deep neural networks and deep probabilistic models are both deep models in the sense that they are composed of multiple layers of computation units. They are essentially computation graphs and consequently, it is hard for humans to understand the underlying decision logic behind their behavior. Despite the representational and predictive power deep models have demonstrated in many complex problems, their opaqueness is a common reason for concern. In this thesis, we provide insights into deep models using high-level interpretations and explanations of why particular decisions are made.

Explanations that contradict our intuitions or prior knowledge on the underlying domain can expose a potential concern, which may imply some desiderata of ML systems are not met. For example, a deep model may obtain high predictive accuracy by exploiting a spurious correlation in the dataset, which can lead to a lack of robustness, or unfairness if the spurious correlation is linked to a protected attribute. Built on the framework of Explanatory Interactive Machine Learning (XIL), we propose to interactively improve deep models based on the explanations we get. This way, we put users in the training loop and take user feedback on explanations as additional training signals. As an effect, the model can learn the rules that align with our intuitions or prior knowledge.

Alternative Abstract:
Alternative AbstractLanguage

Künstliche Intelligenz (KI) hat unser tägliches Leben stark beeinflusst. Als ein dominierender Zweig der KI seit den 1990er Jahren wurde das maschinelle Lernen (ML) auf eine Vielzahl von Szenarien angewandt, darunter Bilderkennung, Spracherkennung, Betrugserkennung, Empfehlungssysteme, Zeitreihenvorhersage und selbstfahrende Autos. Tiefes Lernen, welches weitgehend auf tiefen neuronalen Netzwerken (TNNs) basiert, ist ein wichtiger Teilbereich des maschinellen Lernens. TNNs sind gut darin, glatte Funktionen zu approximieren, d. h. eine Abbildung von Eingaben auf Ausgaben zu lernen, was auch als prädiktiver oder überwachter Lernansatz bekannt ist. Manchmal ist man nicht an einer spezifischen Prädiktionsaufgabe interessiert, sondern eher daran, interessante Muster in den Daten zu finden. In diesem Fall ist ein deskriptiver oder unüberwachter Lernansatz erforderlich, und die Aufgabe kann als Dichteschätzung formalisiert werden. Tiefe probabilistische Modelle haben für die Dichteschätzung an Popularität gewonnen, weil sie ein gutes Gleichgewicht zwischen Aussagekraft und Nachvollziehbarkeit bieten, während bei klassischen probabilistischen Modellen ein inhärenter Kompromiss besteht.

Tiefe neuronale Netze und tiefe probabilistische Modelle sind beides tiefe Modelle in dem Sinne, dass sie aus mehreren Schichten von Berechnungseinheiten bestehen. Sie sind im Wesentlichen Berechnungsgraphen, und folglich ist es für Menschen schwer, die ihrem Verhalten zugrunde liegende Entscheidungslogik zu verstehen. Trotz der Darstellungs- und Vorhersagekraft, die tiefe Modelle bei zahlreichen komplexen Problemen bewiesen haben, ist ihre Undurchsichtigkeit ein häufiger Anlass zur Besorgnis. In dieser Arbeit liefern wir Einblicke in tiefe Modelle, indem wir durch die Verwendung von Interpretationen und Erklärungen auf hoher Ebene aufzeigen, warum bestimmte Entscheidungen getroffen werden.

German
Place of Publication: Darmstadt
Collation: xix, 174 Seiten
Classification DDC: 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Divisions: 20 Department of Computer Science > Artificial Intelligence and Machine Learning
Date Deposited: 19 Aug 2022 09:44
Last Modified: 22 Sep 2022 06:09
DOI: 10.26083/tuprints-00021868
URN: urn:nbn:de:tuda-tuprints-218689
Referees: Kersting, Prof. Dr. Kristian ; Teso, Prof. Dr. Stefano
Date of oral examination: 20 July 2022
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/21868
PPN: 499076680
Export:
Actions (login required)
View Item View Item