TU Darmstadt / ULB / TUprints

Bayesian inference and learning in switching biological systems

Köhs, Lukas (2023)
Bayesian inference and learning in switching biological systems.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00023022
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
2023-01-13_Koehs_Lukas.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (6MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Bayesian inference and learning in switching biological systems
Language: English
Referees: Koeppl, Prof. Dr. Heinz ; Opper, Prof. Dr. Manfred
Date: 2023
Place of Publication: Darmstadt
Collation: xvi, 163 Seiten
Date of oral examination: 15 December 2022
DOI: 10.26083/tuprints-00023022
Abstract:

This thesis is concerned with the stochastic modeling of and inference for switching biological systems. Motivated by the great variety of data obtainable from such systems by wet-lab experiments or computer simulations, continuous-time as well as discrete-time frameworks are devised. Similarly, different latent state-space configurations - both hybrid continuous-discrete and purely discrete state spaces - are considered. These models enable Bayesian inferences about the temporal system dynamics as well as the respective parameters. Starting with the exact model formulations, principled approximations are derived using sampling and variational techniques, enabling computationally tractable algorithms. The resulting frameworks are evaluated under the modeling assumption and subsequently applied to common benchmark problems and real-world biological data. These developments are divided into three scientific contributions:

First, a Markov chain Monte Carlo method for continuous-time and continuous-discrete state-space hybrid processes is derived. These hybrid processes are formulated as Markov-switching stochastic differential equations, for which the exact evolution equation is also presented. A Gibbs sampling scheme is then derived which enables tractable inference both for the system dynamics and the system parameters. This approach is validated under the modeling assumption as well as applied to data from a wet-lab gene-switching experiment.

Second, a variational approach to the same problem is taken to speed up the inference procedure. To this end, a mixture of Gaussian processes serves as the variational measure. The method is derived starting from the Kullback-Leibler divergence between two true switching stochastic differential equations, and it is shown in which regime the Gaussian mixture approximation is valid. It is then benchmarked on the same ground-truth data as the Gibbs sampler and applied to model systems from computational structural biology.

Third, a nonparametric inference framework is laid out for conformational molecule switching. Here, a purely discrete latent state space is assumed, where each latent state corresponds to one molecular structure. Utilizing variational techniques again, a method is presented to identify the number of conformations present in the data. This method generalizes the framework of Markov state models, which is well-established in the field of computational structural biology. An observation likelihood model tailored to structural molecule data is introduced, along with a suitable approximation enabling tractable inference. This framework, too, is first evaluated on data generated under the model assumption and then applied to common problems in the field.

Alternative Abstract:
Alternative AbstractLanguage

Diese Dissertation befasst sich mit der stochastischen Modellierung schaltender biologischer Systeme und der Entwicklung entsprechender Inferenzalgorithmen. Ausgehend von der großen Vielfalt der Mess- und Simulationsmethoden, die zur Analyse solcher Systeme zur Anwendung kommen, werden sowohl zeitkontinuierliche als auch zeitdiskrete Modellierungsansätze verfolgt. Weiterhin werden einerseits hybride, kontinuierlich-diskrete, andererseits rein diskrete latente Zustandsräume betrachtet. Für die Zeitdynamik der betrachteten Systeme sowie für ihre Parameter werden Bayes'sche Inferenzmethoden entwickelt: Ausgehend von der exakten Modellformulierung werden jeweils Approximationen abgeleitet, die zu rechnerisch handhabbaren Algorithmen führen. Diese Approximationen basieren entweder auf Sampling- oder auf Variationsprinzipien. Die so formulierten Algorithmen werden dann sowohl unter der jeweiligen Modellannahme getestet wie auch nachfolgend auf bekannte Benchmarkprobleme und experimentalbiologische Daten angewandt. Die Arbeit gliedert sich dabei in drei wissenschaftliche Beiträge:

Erstens wird eine Markov chain Monte Carlo-Methode für zeitkontinuierliche Prozesse mit hybridem Zustandsraum vorstellt. Diese Hybridprozesse werden als Markov-schaltende stochastische Differentialgleichungen formuliert, für die eine exakte Evolutionsgleichung hergeleitet werden kann. Um daraus eine rechnerisch handhabbare Inferenzmethode zu entwickeln, wird ein Gibbs sampling-Ansatz verwendet, der es erlaubt, sowohl die Zustandsdynamik wie auch die Systemparameter abzuschätzen. Dieser Ansatz wird dann unter der Modellannahme validiert und auf biologische Echtdaten eines genetischen Schaltexperimentes angewendet.

Zweitens wird ein Variationsansatz für das gleiche Problem hergeleitet, um die für die Inferenz nötigen Rechenlaufzeiten zu verkürzen. Dazu wird zunächst die Kullback-Leibler-Divergenz zwischen zwei echten schaltenden stochastischen Differentialgleichungen hergeleitet. Das Variationsmaß wird dann als Mischverteilung von Gaußprozessen formuliert, die eine schaltende stochastische Differentialgleichung approximiert, und es wird gezeigt, in welchem Regime diese Näherung Gültigkeit hat. Schließlich wird der Variationsansatz auf den gleichen synthetischen Daten wie die Samplingmethode getestet und auf Modellsysteme aus der rechnergestützten Strukturbiologie angewandt.

Drittens wird ein nichtparametrischer Inferenzalgorithmus für den Konformationswechsel von Molekülen vorgestellt. Hier wird ein rein diskretwertiger latenter Zustandsraum zugrunde gelegt, wobei jeder latente Zustand einer Molekülstruktur entspricht. Unter der erneuten Verwendung von Variationsprinzipien wird eine Approximation vorgestellt, um die Anzahl latenter Konformationen aus Daten zu schätzen. Diese Methode verallgemeinert den Ansatz des Markov state modeling, der seit geraumer Zeit in der rechnergestützten Strukturbiologie etabliert ist. Dazu wird ein Observationsmodell eingeführt, das für strukturelle Moleküldaten besonders gut geeignet ist. Um den Inferenzalgorithmus praktisch berechenbar zu machen, wird an dieser Stelle eine zweite Approximation vorgenommen. Schließlich wird auch dieser Ansatz sowohl unter der Modellannahme validiert als auch für bekannte Probleme aus der Strukturbiologie verwendet.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-230220
Classification DDC: 500 Science and mathematics > 510 Mathematics
500 Science and mathematics > 570 Life sciences, biology
600 Technology, medicine, applied sciences > 620 Engineering and machine engineering
Divisions: 18 Department of Electrical Engineering and Information Technology > Self-Organizing Systems Lab
TU-Projects: EC/H2020|773196|CONSYN
Date Deposited: 17 Jan 2023 13:33
Last Modified: 19 Jan 2023 12:29
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/23022
PPN: 503870625
Export:
Actions (login required)
View Item View Item