TU Darmstadt / ULB / TUprints

Deep Networks That Know When They Don't Know

Molina Ramirez, Alejandro (2021):
Deep Networks That Know When They Don't Know. (Publisher's Version)
Darmstadt, Technische Universität,
DOI: 10.26083/tuprints-00018525,
[Ph.D. Thesis]

[img]
Preview
Text
20210430ThesisAMolina.pdf
Available under CC-BY-NC-SA 4.0 International - Creative Commons, Attribution Non-commercial, Share-alike.

Download (32MB) | Preview
Item Type: Ph.D. Thesis
Status: Publisher's Version
Title: Deep Networks That Know When They Don't Know
Language: English
Abstract:

Machine Learning (ML) and Artificial Intelligence (AI) are more present than ever in our society's collective discourse. CEOs, politicians, and fellow citizens all put incredibly high hopes and expectations into AI's future capabilities. In many applications, ranging from the medical field to autonomous robots such as self-driving cars, we are starting to entrust human lives to decisions made by algorithms and machines. With credit scoring algorithms and hiring practices now adopting these new technologies, machine learning can have a profound impact on people’s lives. The expectation of inherent fairness, accuracy, and consistency we have of these algorithms goes beyond even what we expect from fellow humans. Indeed, these expectations are driven by the desire to improve everyone’s quality of life.

Many current machine learning models focus on providing the highest possible accuracy. However, these models are often black boxes that are hard to examine. They are mostly discriminative models that focus on modeling decisions based on the training data, but do not create a model for the data itself. This is important, as we are interested in questioning the training data to detect systematic biases. Furthermore, we are also highly interested in asking the model whether the current data it is processing fits the training data. In other words, is it qualified to make decisions and "knows what it is talking about", or whether it simply "does not know". Therefore, we require a generative model that can answer these, and other, questions. In this thesis, we focus on deep generative models based on probabilistic circuits; a family of statistical models that allows us to answer a wide range of normalized probability queries with guarantees on computational time. We can then ask these generative models about biases, including how confident they are about a particular answer, as they "know when they do not know".

We develop models for count data, extend them to non-parametric models, and models based on dictionaries of distributions. They cover a large variety of use-cases. We then make connections to Deep Neural Networks and show how to build generative models from them with inference guarantees. All these models cover a wide range of use cases, including hybrid domains. Moreover, we present a model that learns from the data making most decisions automatically so that non-experts can also benefit from these powerful tools. This will contribute to the democratization of machine learning.

Alternative Abstract:
Alternative AbstractLanguage

Maschinelles Lernen (ML) und Künstliche Intelligenz (KI) sind in der öffentlichen Diskussion präsenter als jemals zuvor. Geschäftsführer*innen, Politiker*innen und Bürger*innen setzen große Hoffnungen in die Möglichkeiten von Künstlicher Intelligenz und daran knüpfen sich große Erwartungen. In vielen Anwendungen, vom medizinischen Bereich bis hin zu autonomen Robotern, wie selbstfahrenden Autos, wird menschliches Leben zunehmend den Entscheidungen von Algorithmen und Maschinen anvertraut. Auch Algorithmen zur Kreditwürdigkeitsprüfung oder in Einstellungstests können einen großen Einfluss auf das Leben von Personen haben. Die Erwartungen bezüglich Fairness, Genauigkeit und Verlässlichkeit, die wir an diese Algorithmen haben, übersteigen sogar jene, die wir an unsere Mitmenschen haben. Diese Erwartungen entstehen aus dem Wunsch, die Lebensqualität für alle zu verbessern.

Viele aktuelle Modelle des Maschinellen Lernens konzentrieren sich darauf, die größtmögliche Genauigkeit zu bieten. Allerdings sind diese Modelle meist Blackboxen, die schwer zu untersuchen sind. Sie sind meist diskriminative Modelle, die Ergebnisse anhand von Trainingsdaten erzielen, aber kein eigenes Modell für diese Daten entwickeln. Das ist wichtig, da wir daran interessiert sind, die Traininingsdaten selbst zu hinterfragen, um mögliche systematische Bias zu entdecken. Des Weiteren sind wir sehr daran interessiert, das Modell zu fragen, ob sich die aktuellen Daten, die es verarbeitet, mit den Trainingsdaten decken. Mit anderen Worten: Ist es qualifiziert genug Entscheidungen zu treffen und "weiß es, wovon es redet" oder ob es dies einfach "nicht weiß". Aus diesem Grund brauchen wir ein generatives Modell, das diese und weitere Fragen beantworten kann. Diese Dissertation konzentriert sich auf tiefe generative Modelle, die auf probabilistischen Schaltkreisen basieren; einer Gruppe von statistischen Modellen, die es uns erlauben, eine breite Spanne von normalisierten Wahrscheinlichkeitsanfragen in einer garantierten Rechenzeit zu beantworten. Diese generativen Modelle können dann auf Bias überprüft werden, einschließlich der Frage, wie sicher sie sich einer bestimmten Antwort sind, weil sie "wissen, wenn sie es nicht wissen'".

Wir entwickeln probabilistische Modelle für Zähldaten, die weiterentwickelt werden zu nicht-parametrischen Modellen und schließlich zu Modellen, die auf Gruppen von Verteilungen basieren. Sie decken eine große Menge an Anwendungsmöglichkeiten ab. Dann stellen wir Verbindungen zu tiefen neuronalen Netzen her und zeigen, wie daraus generative Modelle mit Inferenzgarantien erzeugt werden können. Alle diese vorgestellten Modelle decken eine breite Spanne von Anwendungsmöglichkeiten ab, einschließlich hybrider Domänen. Darüber hinaus stellen wir ein Modell vor, das aus den Daten lernt und die meisten Entscheidungen automatisch trifft, sodass auch Laien von diesen leistungsstarken Werkzeugen profitieren können. Dies wird zur Demokratisierung des maschinellen Lernens beitragen.

German
Place of Publication: Darmstadt
Collation: xxv, 202 Seiten
Classification DDC: 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Divisions: 20 Department of Computer Science > Artificial Intelligence and Machine Learning
Date Deposited: 11 May 2021 10:15
Last Modified: 11 May 2021 10:15
DOI: 10.26083/tuprints-00018525
URN: urn:nbn:de:tuda-tuprints-185251
Referees: Kersting, Prof. Dr. Kristian and Natarajan, Prof. Dr. Sriraam
Refereed: 23 April 2021
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/18525
Export:
Actions (login required)
View Item View Item