Probabilistic Circuits: Going Bayesian and Spectral with Densities and Time Series
Probabilistic Circuits: Going Bayesian and Spectral with Densities and Time Series
When using a machine learning model for a specific task, users typically want to understand the reliability of the output from the model. Therefore, estimating the uncertainty of the output is a crucial task. A key approach to capturing uncertainty is probabilistic modeling. Traditional probabilistic models have evolved significantly over time: with the current increase in the amount of data, the complexity of data types, and diverse inference demands, new probabilistic models are constantly being proposed to address more complex scenarios. However, despite these advances, probabilistic modeling still faces challenges when dealing with data types such as time series or mixed tabular data. They often struggle to efficiently encode time dependencies or fail to provide a unified view for discrete and continuous random variables. In addition, they do not naturally integrate with deep neural networks limiting their application to more challenging tasks. In this thesis, we investigate modeling challenging data types, including time series and mixed tabular data with probabilistic circuits, which allow for efficient and flexible probabilistic inference and can also be vectorized to work jointly with deep neural networks. First, we model the time series into the leaf nodes of a probabilistic circuit by utilizing Gaussian processes, and use product nodes to sequentially encode both the output dimensions and the covariate space, resulting in multi-output mixture of Gaussian processes (MOMoGPs). This results in the Bayesian case, enabling efficient computation for multi-input, multi-output regression tasks, and we then show its application in a real-world energy production use case. Secondly, to model the joint distribution of the entire time series, we leverage the Whittle assumption and model the time series in the spectral domain with its Fourier coefficients, resulting in Whittle sum-product networks (WSPNs), one of our spectral cases. This method not only preserves the time series dependencies but also enables efficient and flexible inference for, e.g., anomaly detection via density estimation and forecasting via conditional sampling. It is further extended to work jointly with other deep neural networks to provide useful uncertainty estimates in autoencoding and time series prediction. Lastly, we go one step further in the spectral domain by leveraging the structure of probabilistic circuits to model the characteristic function of probability distributions, resulting in characteristic circuits (CCs). By modeling densities in the spectral domain, characteristic circuits provide a unified view for discrete and continuous random variables, and can represent distributions that do not have closed-form probability density functions. We also show that characteristic circuits can be easily adapted and extended for causal inference in hybrid domains. We validate the proposed MOMoGPs, WSPNs, and CCs with both synthetic and real-world data sets. At the end of the thesis, we highlight interesting directions for future research on probabilistic models for challenging data types.
Bei der Verwendung eines Modells für maschinelles Lernen für eine bestimmte Aufgabe möchten die Benutzer in der Regel die Zuverlässigkeit der Ergebnisse des Modells verstehen. Daher ist die Abschätzung der Unsicherheit des Outputs eine entscheidende Aufgabe. Ein wichtiger Ansatz zur Erfassung der Unsicherheit ist die probabilistische Modellierung. Traditionelle probabilistische Modelle haben sich im Laufe der Zeit erheblich weiterentwickelt: Angesichts der wachsenden Datenmenge, der Komplexität der Datentypen und der vielfältigen Anforderungen an die Schlussfolgerungen werden ständig neue probabilistische Modelle vorgeschlagen, um komplexere Szenarien zu bewältigen. Trotz dieser Fortschritte steht die probabilistische Modellierung immer noch vor Herausforderungen, wenn es um Datentypen wie Zeitreihen oder heterogene tabellarische Daten geht. Sie haben oft Schwierigkeiten, zeitliche Abhängigkeiten effizient zu kodieren oder eine einheitliche Sichtweise für diskrete und kontinuierliche Zufallsvariablen zu bieten. Darüber hinaus lassen sie sich nicht auf natürliche Weise mit tiefen neuronalen Netzen integrieren, was ihre Anwendung auf anspruchsvollere Aufgaben beschränkt. In dieser Arbeit untersuchen wir die Modellierung anspruchsvoller Datentypen, einschließlich Zeitreihen und heterogener Tabellendaten mit Probabilistic Circuits, die eine effiziente und flexible probabilistische Inferenz ermöglichen und auch vektorisiert werden können, um mit tiefen neuronalen Netzen zusammenzuarbeiten. Zunächst modellieren wir die Zeitreihen in die Blattknoten eines Probabilistic Circuits, indem wir Gauß'sche Prozesse verwenden, und verwenden Produktknoten, um sowohl die Ausgabedimensionen als auch den Kovariatenraum sequentiell zu kodieren, was zu Multi-Output Mixture of Gaussian Processes (MOMoGPs) führt. Dies ergibt den Bayes'schen Fall, der eine effiziente Berechnung für Multi-Input, Multi-Output Regressionsaufgaben ermöglicht, und wir zeigen dann seine Anwendung in einem realen Anwendungsfall der Energieproduktion. Zweitens: Um die gemeinsame Verteilung der gesamten Zeitreihe zu modellieren, nutzen wir die Whittle-Annahme und modellieren die Zeitreihe im Spektralbereich mit ihren Fourier-Koeffizienten, was zu Whittle-Sum-Product Networks (WSPNs) führt. Diese Methode bewahrt nicht nur die Abhängigkeiten der Zeitreihen, sondern ermöglicht auch effiziente und flexible Schlussfolgerungen, z. B. für die Erkennung von Anomalien durch Dichteschätzung und Vorhersagen durch bedingtes Sampling. Sie wird weiter ausgebaut, um gemeinsam mit anderen tiefen neuronalen Netzen nützliche Unsicherheitsschätzungen bei der automatischen Kodierung und der Vorhersage von Zeitreihen zu liefern. Schließlich gehen wir im spektralen Bereich noch einen Schritt weiter, indem wir die Struktur Probabilistic Circuits nutzen, um die charakteristische Funktion von Wahrscheinlichkeitsverteilungen zu modellieren, was zu Characteristic Circuits (CCs) führt. Durch die Modellierung von Wahrscheinlichkeitsdichten im spektralen Bereich bieten Characteristic Circuits eine einheitliche Sichtweise für diskrete und kontinuierliche Zufallsvariablen und können Verteilungen darstellen, die keine geschlossenen Wahrscheinlichkeitsdichtefunktionen haben. Wir zeigen auch, dass Probabilistic Circuits leicht für kausale Inferenz in hybriden Domänen angepasst und erweitert werden können. Wir validieren die vorgeschlagenen MOMoGPs, WSPNs und CCs sowohl mit synthetischen als auch mit realen Datensätzen. Am Ende der Arbeit zeigen wir interessante Richtungen für die zukünftige Forschung zu probabilistischen Modellen für anspruchsvolle Datentypen auf.

