Bridging Probabilistic Circuits and Deep Neural Networks

Deep neural networks (DNNs) have achieved remarkable success in learning complex functions from data, yet they often lack the principled probabilistic reasoning and tractability of models like probabilistic circuits (PCs). This creates a fundamental dichotomy in modern machine learning, putting the expressiveness and scalability of DNNs against the inference felxibility and probabilistic benefits of PCs. This dissertation aims to bridge this divide through a two-sided research agenda: first, by advancing the capabilities of PCs through the integration of deep learning principles, and second, by leveraging probabilistic models as components within the broader deep learning ecosystem to create more robust and capable hybrid systems.

To address the limitations of PCs, we first introduce einsum networks, a tensorized framework that reformulates circuit computations to enable scalable, hardware-accelerated training, yielding orders-of-magnitude speedups. We then develop a differentiable sampling procedure that enables the use of arbitrary, sample-based training objectives, moving PCs beyond traditional maximum likelihood estimation. Finally, we propose tractable dropout inference (TDI), a novel, closed-form method to quantify epistemic uncertainty in a single forward pass, enabling PCs to reliably detect out-of-distribution data.

Building on these advancements, we shift focus from enhancing PCs to leveraging them in collaboration with DNNs. We introduce autoencoding probabilistic circuits (APCs), a hybrid architecture that pairs a tractable PC encoder with a neural decoder. By modeling the joint data-embedding distribution, APCs achieve principled representation learning and are uniquely robust to missing data through exact marginalization. Extending this approach beyond hybrid architectures, we reframe knowledge distillation from a probabilistic viewpoint, leading to contrastive abductive knowledge extraction (CAKE), a fully data-free and model-agnostic procedure for deep classifier mimicry.

Collectively, these contributions demonstrate that PCs and DNNs are not mutually exclusive paradigms but rather complementary approaches that can be combined to create more capable and robust models. This work provides a computational and conceptual contribution for developing hybrid systems that unite the representational power of deep learning with the rigorous, tractable inference of probabilistic models, paving the way for more robust, flexible, and reliable artificial intelligence.

Freie Schlagworte

machine learning

probabilistic circuit...

sum-product networks

deep neural networks

tractable probabilist...

probabilistic inferen...

uncertainty estimatio...

representation learni...

hybrid models

density estimation

generative models

artificial intelligen...

Sprache

Englisch

Alternativtitel

Die Verbindung von probabilistischen Schaltkreisen und tiefen neuronalen Netzen

Alternatives Abstract

Deep neural networks (DNNs) erzielen beeindruckende Erfolge beim Lernen komplexer Funktionen aus Daten, jedoch fehlt ihnen oft die fundierte probabilistische Inferenz und Effizienz von Modellen wie Probabilistic Circuits (PCs). Dies führt zu einer grundlegenden Dichotomie im modernen maschinellen Lernen, die die Expressivität und Skalierbarkeit von DNNs der Flexibilität bei der Inferenz und den probabilistischen Vorteilen von PCs gegenüberstellt. Diese Dissertation zielt darauf ab, die Differenzen durch eine zweigeteilte Forschungsagenda zu verbinden: erstens durch die Weiterentwicklung von PCs mittels der Integration von Prinzipien des Deep Learning und zweitens durch den Einsatz dieser probabilistischer Modelle als Komponenten im breiteren System des Deep Learning, um robustere und leistungsfähigere Hybridsysteme zu schaffen.

Um die bisherigen Einschränkungen von PCs zu überwinden, stellen wir zunächst Einsum Networks vor, ein tensorisiertes System, das PC Berechnungen neu formuliert, um ein skalierbares, hardwarebeschleunigtes Training zu ermöglichen, was zu einer Effizienzsteigerung um mehrere Größenordnungen führt. Anschließend entwickeln wir ein differenzierbares Sampling-Verfahren, das den Einsatz beliebiger, stichprobenbasierter Trainingsziele ermöglicht und PCs über die traditionelle Maximum-Likelihood-Schätzung hinaus erweitert. Schließlich stellen wir Tractable Dropout Inference (TDI) vor, ein neues Verfahren um in geschlossener Form epistemische Unsicherheit in einer einzigen Modellevaluation zu quantifizieren, was PCs die zuverlässige Erkennung von Daten ermöglicht, welche nicht der originalen Verteilung angehören.

Aufbauend auf diesen Fortschritten verlagern wir den Fokus von der Weiterentwicklung von PCs hin zu ihrem kollaborativen Einsatz mit DNNs. Wir führen Autoencoding Probabilistic Circuits (APCs) ein, eine Hybridarchitektur, die einen PC-Enkodierer mit einem neuronalen Dekodierer kombiniert. Durch die Modellierung der gemeinsamen Verteilung von Daten und Enkodierungen ermöglichen APCs ein fundiertes lernen von Repräsentationen und weisen durch exakte Marginalisierung eine einzigartige Robustheit gegenüber fehlenden Daten auf. Wir erweitern diesen Ansatz über hybride Architekturen hinaus, indem wir Wissensdestillation aus einer probabilistischen Perspektive neu formulieren, was zur Contrastive Abductive Knowledge Extraction (CAKE) führt, einem vollständig datenfreien und modellunabhängigen Verfahren zur Nachahmung tiefer Klassifikatoren.

Zusammengefasst zeigen diese Beiträge, dass PCs und DNNs keine sich gegenseitig ausschließenden Paradigmen sind, sondern vielmehr komplementäre Ansätze, die kombiniert werden können, um leistungsfähigere und robustere Modelle zu schaffen. Diese Arbeit leistet einen Beitrag zur Entwicklung von Hybridsystemen, die die Repräsentationskraft des Deep Learning mit der rigorosen, effizienten Inferenz probabilistischer Modelle vereinen, und ebnet so den Weg für eine robustere, flexiblere und zuverlässigere künstliche Intelligenz.

Fachbereich/-gebiet

20 Fachbereich Informatik > Künstliche Intelligenz und Maschinelles Lernen

DDC

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

Institution

Universitäts- und Landesbibliothek Darmstadt

Ort

Darmstadt

Datum der mündlichen Prüfung

03.02.2026

Gutachter:innen

Kersting, Kristian

Mundt, Martin

Rothkopf, Constantin A.

Schneider, Thomas

Handelt es sich um eine kumulative Dissertation?

Ja

Name der Gradverleihenden Institution

Technische Universität Darmstadt

Ort der Gradverleihenden Institution

Darmstadt

PPN

542242567