TU Darmstadt

ULB

TUprints

Development of Computer-aided Concepts for the Optimization of Single-Molecules and their Integration for High-Throughput Screenings

Jager, Sven (2019)
Development of Computer-aided Concepts for the Optimization of Single-Molecules and their Integration for High-Throughput Screenings.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

Text
SJ_v0010.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (43MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Development of Computer-aided Concepts for the Optimization of Single-Molecules and their Integration for High-Throughput Screenings

Language:

English

Referees:

Hamacher, Prof.Dr. Kay ; Süß, Prof.Dr. Beatrix ; Johannes, Prof.Dr. Kabisch ; Strufe, Prof.Dr. Thorsten

Date:

19 June 2019

Place of Publication:

Darmstadt

Date of oral examination:

13 March 2018

Abstract:

In the field of synthetic biology, highly interdisciplinary approaches for the design and modelling of functional molecules using computer-assisted methods have become established in recent decades. These computer-assisted methods are mainly used when experimental approaches reach their limits, as computer models are able to e.g., elucidate the temporal behaviour of nucleic acid polymers or proteins by single-molecule simulations, as well as to illustrate the functional relationship of amino acid residues or nucleotides to each other. The knowledge raised by computer modelling can be used continuously to influence the further experimental process (screening), and also shape or function (rational design) of the considered molecule. Such an optimization of the biomolecules carried out by humans is often necessary, since the observed substrates for the biocatalysts and enzymes are usually synthetic (``man-made materials'', such as PET) and the evolution had no time to provide efficient biocatalysts.

With regard to the computer-aided design of single-molecules, two fundamental paradigms share the supremacy in the field of synthetic biology. On the one hand, probabilistic experimental methods (e.g., evolutionary design processes such as directed evolution) are used in combination with High-Throughput Screening (HTS), on the other hand, rational, computer-aided single-molecule design methods are applied. For both topics, computer models/concepts were developed, evaluated and published.

The first contribution in this thesis describes a computer-aided design approach of the Fusarium Solanie Cutinase (FsC). The activity loss of the enzyme during a longer incubation period was investigated in detail (molecular) with PET. For this purpose, Molecular Dynamics (MD) simulations of the spatial structure of FsC and a water-soluble degradation product of the synthetic substrate PET (ethylene glycol) were computed. The existing model was extended by combining it with Reduced Models. This simulation study has identified certain areas of FsC which interact very strongly with PET (ethylene glycol) and thus have a significant influence on the flexibility and structure of the enzyme.

The subsequent original publication establishes a new method for the selection of High-Throughput assays for the use in protein chemistry. The selection is made via a meta-optimization of the assays to be analyzed. For this purpose, control reactions are carried out for the respective assay. The distance of the control distributions is evaluated using classical static methods such as the Kolmogorov-Smirnov test. A performance is then assigned to each assay. The described control experiments are performed before the actual experiment (screening), and the assay with the highest performance is used for further screening. By applying this generic method, high success rates can be achieved. We were able to demonstrate this experimentally using lipases and esterases as an example.

In the area of green chemistry, the above-mentioned processes can be useful for finding enzymes for the degradation of synthetic materials more quickly or modifying enzymes that occur naturally in such a way that these enzymes can efficiently convert synthetic substrates after successful optimization. For this purpose, the experimental effort (consumption of materials) is kept to a minimum during the practical implementation. Especially for large-scale screenings, a prior consideration or restriction of the possible sequence-space can contribute significantly to maximizing the success rate of screenings and minimizing the total time they require.

In addition to classical methods such as MD simulations in combination with reduced models, new graph-based methods for the presentation and analysis of MD simulations have been developed. For this purpose, simulations were converted into distance-dependent dynamic graphs. Based on this reduced representation, efficient algorithms for analysis were developed and tested. In particular, network motifs were investigated to determine whether this type of semantics is more suitable for describing molecular structures and interactions within MD simulations than spatial coordinates. This concept was evaluated for various MD simulations of molecules, such as water, synthetic pores, proteins, peptides and RNA structures. It has been shown that this novel form of semantics is an excellent way to describe (bio)molecular structures and their dynamics. Furthermore, an algorithm (StreAM-Tg) has been developed for the creation of motif-based Markov models, especially for the analysis of single molecule simulations of nucleic acids. This algorithm is used for the design of RNAs. The insights obtained from the analysis with StreAM-Tg (Markov models) can provide useful design recommendations for the (re)design of functional RNA.

In this context, a new method was developed to quantify the environment (i.e. water; solvent context) and its influence on biomolecules in MD simulations. For this purpose, three vertex motifs were used to describe the structure of the individual water molecules. This new method offers many advantages. With this method, the structure and dynamics of water can be accurately described. For example, we were able to reproduce the thermodynamic entropy of water in the liquid and vapor phase along the vapor-liquid equilibrium curve from the triple point to the critical point.

Another major field covered in this thesis is the development of new computer-aided approaches for HTS for the design of functional RNA. For the production of functional RNA (e.g., aptamers and riboswitches), an experimental, round-based HTS (like SELEX) is typically used. By using Next Generation Sequencing (NGS) in combination with the SELEX process, this design process can be studied at the nucleotide and secondary structure levels for the first time. The special feature of small RNA molecules compared to proteins is that the secondary structure (topology), with a minimum free energy, can be determined directly from the nucleotide sequence, with a high degree of certainty.

Using the combination of M. Zuker's algorithm, NGS and the SELEX method, it was possible to quantify the structural diversity of individual RNA molecules under consideration of the genetic context. This combination of methods allowed the prediction of rounds in which the first ciprofloxacin-riboswitch emerged.

In this example, only a simple structural comparison was made for the quantification (Levenshtein distance) of the diversity of each round. To improve this, a new representation of the RNA structure as a directed graph was modeled, which was then compared with a probabilistic subgraph isomorphism.

Finally, the NGS dataset (ciprofloxacin-riboswitch) was modeled as a dynamic graph and analyzed after the occurrence of defined seven-vertex motifs. For this purpose, motif-based semantics were integrated into HTS for RNA molecules for the first time. The identified motifs could be assigned to secondary structural elements that were identified experimentally in the ciprofloxacin aptamer R10k6.

Finally, all the algorithms presented were integrated into an R library, published and made available to scientists from all over the world.

Alternative Abstract:

Alternative Abstract

Language

Im Fachgebiet der synthetischen Biologie haben sich in den letzten Jahrzehnten interdisziplinäre Herangehensweisen für das Design und die Modellierung funktioneller Moleküle durch computergestützte Methoden etabliert. Diese computergestützten Methoden finden vor allem Anwendung, wenn Experimentelle-Ansätze an ihre Grenzen stoßen, da Computermodelle in der Lage sind beispielsweise durch Einzelmolekül-Simulationen das zeitliche Verhalten von Nukleinsäurepolymeren oder Proteinen aufzuklären, sowie die funktionelle Beziehung der Aminosäurereste oder Nukleotide zueinander darzustellen. Das mittels Computermodellierung erhobene Wissen kann fortführend genutzt werden, um den weiteren experimentellen Verlauf (z.B. Screening), sowie die Gestalt beziehungsweise die Funktion (Rational Design) des betrachteten Moleküls zu beeinflussen.

Eine solche vom Menschen durchgeführte Optimierung der Biomoleküle ist oftmals notwendig, da die betrachteten Substrate für die Biokatalysatoren, beziehungsweise die Enzyme meist synthetisch sind („man-made materials“ wie z.B. PET) und die Evolution noch keine Zeit hatte, effiziente Biokatalysatoren dafür bereit zu stellen.

In Bezug auf das computerbasierte Design von Molekülen, teilen sich zwei fundamentale Paradigmen die Vorherrschaft im Fachgebiet der synthetischen Biologie. Die in dieser Arbeit gewonnenen wissenschaftlichen Erkenntnisse lassen sich dementsprechend in diese zwei Bereiche unterteilen. Auf der einen Seite finden probabilistische experimentelle Methoden (z.B. evolutionäre Designprozesse wie z.B. die gelenkte Evolution) in Kombination mit Hochdurchsatz-Screenings Anwendung, auf der anderen Seite werden meistens rationale, computergestützte Einzelmolekül-Designmethoden verwendet.

Für beide Themenbereiche wurden Computermodelle/Verfahren entwickelt, evaluiert und veröffentlicht.

Der erste Beitrag in dieser Arbeit beschreibt einen computergestützten Designansatz der Fusarium Solanie Cutinase (FsC). Hier wurde im Detail (molekular) der Aktivitätsverlust des Enzyms bei längerer Inkubationszeit mit PET untersucht. Dafür wurden Molekular Dynamik (MD) Simulationen von der räumlichen Struktur der FsC und einem wasserlöslichen Abbauprodukt des synthetischen Substrates PET (Ethylenglycol) berechnet. Das bestehende Modell wurde zusätzlich durch die Kombination mit Reduzierten-Modellen erweitert. Durch diese Simulations-Studie konnten bestimmte Bereiche der FsC identifiziert werden, welche sehr stark mit PET (Ethylenglycol) wechselwirken, und dadurch einen signifikanten Einfluss auf die Flexibilität sowie Struktur des Enzyms nehmen.

Die darauffolgende Originalpublikation etabliert ein neues Verfahren zur Auswahl von Hochdurchsatz-Assays für den Einsatz in der Proteinchemie. Die Auswahl geschieht über eine Meta-Optimierung, der zu analysierenden Assays. Hierfür werden Kontrollreaktionen für den jeweiligen Assay durchgeführt. Die Distanz der Kontrollverteilungen wird unter zu Hilfenahme von klassischen statistischen Methoden wie z.B. dem Kolmogorov-Smirnov-Test evaluiert. Anschließend wird jedem Assay eine Performance zugewiesen. Die beschriebenen Kontroll-Experimente werden vor dem eigentlichen Experiment (Screening) durchgeführt und der Assay mit der höchsten Performance wird für das weitere Screening genutzt. Durch Anwendung dieses generischen Verfahrens können hohe Erfolgsraten bei einem solchen Screenings erzielt werden. Dies konnten wir experimentell am Beispiel von Lipasen und Esterasen zeigen.

Im Rahmen der grünen Chemie helfen die oben genannten verfahren, Enzyme für den Abbau von z.B. synthetischen Materialien schneller zu finden oder natürlich vorkommende Enzyme dahingehend zu verändern, sodass diese Enzyme nach erfolgreicher Optimierung synthetische Substrate effizient umsetzten können. Hierfür wird bei der praktischen Durchführung der experimentelle Aufwand (Verbrauch an Materialien) möglichst geringgehalten. Insbesondere bei groß angelegten Screening kann eine vorherige Betrachtung oder Einschränkung des möglichen Lösungsraum (i.e. Sequenzraums) einen entscheidenden Beitrag liefern, die Erfolgsquote zu maximieren, sowie den gesamten Zeitaufwand des Screenings zu minimieren.

Neben der Durchführung klassischer Methoden wie MD Simulationen in Kombination mit Reduzierten-Modellen wurden auch neue Graphen-basierte Methoden für die Darstellung sowie Analyse von MD-Simulationen entwickelt. Hierfür wurden Simulationen in distanzabhängige dynamische Graphen konvertiert. Ausgehend von dieser reduzierten Darstellung wurden effiziente Algorithmen zur Analyse entwickelt und getestet. Dabei wurden insbesondere Netzwerk-Motive untersucht, um festzustellen, ob diese spezielle Art der Semantik geeignet ist molekulare Strukturen und Wechselwirkungen, innerhalb von MD Simulationen, besser zu beschreiben als räumliche Koordinaten. Dieses Konzept wurde für die verschiedensten MD Simulationen von Molekülen wie zum Beispiel Wasser, synthetische Poren, Proteine, Peptide sowie RNA Strukturen evaluiert. Es konnte gezeigt werden, dass sich diese neuartige Form der Semantik ausgezeichnet eignet, (bio)molekulare Strukturen sowie deren Dynamik zu beschreiben. Des Weiteren wurde ein Algorithmus (StreAM-$T_g$) für das Erstellen von Motiv basierten Markov-Modellen, speziell für die Analyse von Einzelmolekül-Simulationen von Nukleinsäuren, entwickelt. Dieser Algorithmus findet seinen Einsatz im RNA-Design. Die aus der Analyse mit StreAM-$T_g$ gewonnenen Erkenntnisse (Markov-Modelle) können hilfreiche Vorschläge für das (Re)Design von funktioneller RNA liefern.

In diesem Zusammenhang wurde eine neue Methode entwickelt, um die Umgebung (i.e. Wasser; Lösungsmittel-kontext) und deren Einfluss auf verschiedene Moleküle in MD Simulationen zu quantifizieren. Hierfür wurden drei-Vertex-Motive verwendet, um die Struktur der einzelnen Wassermoleküle zu beschreiben. Diese neue Methode bietet viele Vorteile. Mittels dieser Methode kann die Struktur sowie die Dynamik von Wasser akkurat beschrieben werden. Beispielsweise konnten wir die thermodynamische Entropie von Wasser in der Flüssig- und Dampfphase entlang der Dampf-Flüssig-Gleichgewichtskurve vom Tripelpunkt bis zum kritischen Punkt reproduzieren.

Ein weiteres großes Themengebiet, welches im Rahmen dieser Arbeit behandelt wurde, ist die Entwicklung von neuen computergestützten Ansätzen für ein Hochdurchsatzverfahren für das Design von funktioneller RNA. Für die Herstellung von funktioneller RNA wird in der Regel ein experimentelles, runden-basiertes Hochdurchsatzverfahren (SELEX) verwendet. Durch Anwendung von Next Generation Sequencing (NGS) in der Kombination mit dem SELEX-Verfahren kann dieser Designprozess erstmals auf Nukleotidebene sowie auf Sekundärstrukturebene verstanden werden. Die Besonderheit bei kleinen RNA-Molekülen im Vergleich zu Proteinen ist, dass die Sekundärstruktur (Topologie), welche die minimale freie Energie aufweist, direkt aus der Nukleotidsequenz, mit hoher Sicherheit, ermittelt werden kann.

Somit gelang es mittels der Kombination von M. Zukers und P. Stieglers Algorithmus, NGS und dem SELEX-Verfahren die strukturelle Diversität einzelner RNA-Moleküle unter Berücksichtigung des genetischen Kontextes zu quantifizieren. Diese Kombination der Methoden, erlaubten die Rundenvorhersagen, in denen unteranderem der erste Ciprofloxacin-Riboswitch hervorging.

In diesem Beispiel wurde lediglich ein einfacher, struktureller Abgleich für die Quantifizierung (Levenshtein-Distanz; LD) der Diversität jeder einzelnen Runde vorgenommen. Um dies zu verbessern wurde eine neue Darstellung der RNA-Struktur als gerichteter Graph modelliert, welche anschließend mit einem probabilistischen Subgraph-Isomorphismus verglichen wurde.

Zuletzt wurde der NGS-Datensatz (Ciprofloxacin-Riboswitch) als dynamischer Graph modelliert und nach dem Auftreten definierter Sieben-Vertex-Motiven analysiert. Es wurde die motiv-basierte Semantik erstmals für die Anwendung in Hochdurchsatz-Screenings für RNA Moleküle integriert. Die dadurch identifizierten Motive konnten Sekundärstrukturelementen (RNA), die in R10k6 (Ciprofloxacin-Aptamer) experimentell bestimmt wurden, zugeordnet werden.

Abschließend wurden alle vorgestellten Algorithmen in einer R Bibliothek integriert, veröffentlicht und WissenschaftlerInnen aus der ganzen Welt zur Verfügung gestellt.

German

URN:

urn:nbn:de:tuda-tuprints-87215

Classification DDC:

500 Science and mathematics > 570 Life sciences, biology

Divisions:

10 Department of Biology > Computational Biology and Simulation

Date Deposited:

19 Jun 2019 13:40

Last Modified:

07 Dec 2023 10:52

URI: