TU Darmstadt / ULB / TUprints

Non-parametric Bayesian Latent Factor Models for Network Reconstruction

Yang, Sikun (2020):
Non-parametric Bayesian Latent Factor Models for Network Reconstruction.
Darmstadt, Technische Universität, DOI: 10.25534/tuprints-00009695,
[Ph.D. Thesis]

[img]
Preview
Text
2019-12-11_YANG_SIKUN.pdf
Available under CC-BY-SA 4.0 International - Creative Commons, Attribution Share-alike.

Download (2MB) | Preview
Item Type: Ph.D. Thesis
Title: Non-parametric Bayesian Latent Factor Models for Network Reconstruction
Language: English
Abstract:

This thesis is concerned with the statistical learning of probabilistic models for graph-structured data. It addresses both the theoretical aspects of network modelling--like the learning of appropriate representations for networks--and the practical difficulties in developing the algorithms to perform inference for the proposed models.

The first part of the thesis addresses the problem of discrete-time dynamic network modeling. The objective is to learn the common structure and the underlying interaction dynamics among the entities involved in the observed temporal network. Two probabilistic modeling frameworks are developed. First, a Bayesian nonparametric framework is proposed to capture the static latent community structure and the evolving node-community memberships over time. More specifically, the hierarchical gamma process is utilized to capture the underlying intra-community and inter-community interactions. The appropriate number of latent communities can be automatically estimated via the inherent shrinkage mechanism of the hierarchical gamma process prior. The gamma Markov process are constructed to capture the evolving node-community relations. As the Bernoulli-Poisson link function is used to map the binary edges to the latent parameter space, the proposed method scales with the number of non-zero edges. Hence, the proposed method is particularly well-fitted to model large sparse networks. Moreover, a time-dependent hierarchical gamma process dynamic network model is proposed to capture the birth and death dynamics of the underlying communities. For performance evaluation, the proposed methods are compared with state-of-the-art statistical network models on both synthetic and real-world data.

In the second part of the thesis, the main objective is to analyze continuous-time event-based dynamic networks. A fundamental problem in modeling such continuously-generated temporal interaction events data is to capture the reciprocal nature of the interactions among entities--the actions performed by one individual toward another increase the probability that an action of the same type to be returned. Hence, the mutually-exciting Hawkes process is utilized to capture the reciprocity between each pair of individuals involved in the observed dynamic network. In particular, the base rate of the Hawkes process is built upon the latent parameters inferred using the hierarchical gamma process edge partition model, to capture the underlying community structure. Moreover, each interaction event between two individuals is augmented with a pair of latent variables, which will be referred to as latent patterns, to indicate which of their involved communities lead to the occurring of that interaction. Accordingly, the proposed model allows the excitatory effects of each interaction on its opposite direction are determined by its latent patterns. Efficient Gibbs sampling and Expectation Maximization algorithms are developed to perform inference. Finally, the evaluations performed on the real-world data demonstrate the interpretability and competitive performance of the model compared with state-of-the-art methods.

In the third part of this thesis, the objective is to analyze the common structure of multiple related data sources under the generative framework. First, a Bayesian nonparametric group factor analysis method is developed to factorize multiple related groups of data into the common latent factor space. The hierarchical beta Bernoulli process is exploited to induce sparsity over the group-specific factor loadings to strengthen the model interpretability. A collapsed variational inference scheme is proposed to perform efficient inference for large-scale data analysis in real-world applications. Moreover, a Poisson gamma memberships framework is investigated for joint modelling of network and related node features.

Alternative Abstract:
Alternative AbstractLanguage
Die Dissertation beschäftigt sich mit dem statistischen Lernen von Wahrscheinlichkeitsmodellen für graphisch strukturierte Daten. Es befasst sich sowohl mit den theoretischen Aspekten der Netzwerkmodellierung - wie dem Erlernen geeigneter Darstellungen für Netzwerke - als auch mit den praktischen Schwierigkeiten bei der Entwicklung der Algorithmen zur Durchführung von Inferenzen für die vorgeschlagenen Modelle. Der erste Teil die Dissertation befasst sich mit dem Problem der zeitdiskreten dynamischen Netzwerkmodellierung. Ziel ist es, die gemeinsame Struktur und die zugrunde liegende Dynamik der am beobachteten zeitlichen Netzwerk beteiligten Entitäten zu lernen. Es werden zwei probabilistische Modellierungsrahmen entwickelt. Zunächst wird ein Bayes’sches nichtparametrisches Framework vorgeschlagen, um die statische latente Community-Struktur und die sich im Laufe der Zeit entwickelnden Node-Community-Mitgliedschaften zu erfassen. Insbesondere wird der hierarchische Gamma-Prozess verwendet, um die zugrunde liegenden innergemeinschaftlichen und zwischengemeinschaftlichen Interaktionen zu erfassen. Die geeignete Anzahl latenter Gemeinschaften kann über den inhärenten Schrumpfungsmechanismus des hierarchischen Gamma-Prozesses vor geschätzt werden. Der Gamma-Markov-Prozess ist so aufgebaut, dass er die sich entwickelnden Knoten-Community-Beziehungen erfasst. Da die Bernoulli-Poisson-Beziehung verwendet wird, um die binären Kanten in den latenten Parameterraum abzubilden, skaliert die vorgeschlagene Methodik mit der Anzahl der Kanten. Daher ist die vorgeschlagene Methodik gut geeignet, um große dünnbesetz Netzwerke zu modellieren. Darüber hinaus wird ein zeitabhängiges dynamisches Netzwerkmodell für hierarchische Gamma-Prozesse vorgeschlagen, um die Geburts- und Todesdynamik der zugrunde liegenden Gemeinschaften zu erfassen. Zur Leistungsbewertung werden die vorgeschlagenen Methoden mit den neuesten statistischen Netzwerkmodellen für synthetische und reale Daten verglichen. Im zweiten Teil die Dissertation geht es vor allem darum, zeitkontinuierliche ereignisbasierte dynamische Netzwerke zu analysieren. Ein grundlegendes Problem bei der Modellierung solcher kontinuierlich erzeugten zeitlichen Interaktionsereignisse besteht darin, die reziproke Art der Wechselwirkung Interaktionen zwischen Entitäten zu erfassen. Der sich gegenseitig erregende Hawkes- Prozess wird verwendet, um die Reziprozität zwischen jedem Paar von Personen in dem beobachteten dynamischen Netzwerk zu erfassen. Insbesondere basiert der Hawkes-Prozess auf den latenten Parametern, die unter Verwendung des hierarchischen Gamma-Prozess-Kantenpartitionsmodells abgeleitet wurden, um die zugrunde liegende Community-Struktur zu erfassen. Darüber hinaus wird jedes Ereignis zwischen zwei Individuen mit einem Paar aus latenten Variablen versehen, welche als latente Muster zu verstehen sind. Das vorgeschlagene Modell ermöglicht, dass die anregenden Effekte jedes Ereignisses durch seine latenten Muster bestimmt werden. Effiziente Gibbs-Abtast- und Erwartungswert-Maximierungs-Algorithmen werden entwickelt, um Inferenzen durchzuführen. Schließlich belegen die Auswertungen der realen Daten die hohe Wettbewerbsfähigkeit und eine Leistung auf dem neuesten Stand der Technik. Der dritte Teil die Dissertation stellt sich das Ziel, die gemeinsame Struktur von multiplen verwandtden Datenquellen unter einem generativen Rahmen zu analysieren. Zunächst wird ein Bayes’sches Verfahren zur Analyse nichtparametrischer Gruppenfaktoren entwickelt, um mehrere verwandte Datengruppen in den gemeinsamen Latenzfaktorraum zu zerlegen. Der hierarchische Beta-Bernoulli-Prozess wird ausgenutzt, um die Dünnbesetztheit gegenüber dem gruppenspezifischen Faktor zu induzieren. Es wird ein reduziertes Variations Inferenz-Schema vorgeschlagen, um eine effiziente Inferenz für eine Datenanalyse in großem Maßstab in realen Anwendungen durchzuführen. Darüber hinaus untersuchen wir ein Poisson-Gamma-Mitgliedschafts-Framework für die gemeinsame Modellierung von Netzwerk und verwandten Knotenmerkmalen.German
Place of Publication: Darmstadt
Classification DDC: 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
500 Naturwissenschaften und Mathematik > 510 Mathematik
600 Technik, Medizin, angewandte Wissenschaften > 620 Ingenieurwissenschaften
Divisions: 18 Department of Electrical Engineering and Information Technology > Institute for Telecommunications > Bioinspired Communication Systems
Date Deposited: 30 Jan 2020 10:39
Last Modified: 09 Jul 2020 02:59
DOI: 10.25534/tuprints-00009695
URN: urn:nbn:de:tuda-tuprints-96957
Referees: Köppl, Prof. Dr. Heinz and Kersting, Prof. Dr. Kristian
Refereed: 11 December 2019
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/9695
Export:
Actions (login required)
View Item View Item