TU Darmstadt / ULB / TUprints

Optimierung und Analyse von synthetischen Tetrazyklin-Tandem-Riboswitchen durch machine learning

Groher, Ann-Christin (2021)
Optimierung und Analyse von synthetischen Tetrazyklin-Tandem-Riboswitchen durch machine learning.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00017891
Ph.D. Thesis, Primary publication, Publisher's Version

[img]
Preview
Text
Dissertation Ann-Christin Groher.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (32MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Optimierung und Analyse von synthetischen Tetrazyklin-Tandem-Riboswitchen durch machine learning
Language: German
Referees: Süß, Prof. Dr. Beatrix ; Kabisch, Prof. Dr. Johannes
Date: 2021
Place of Publication: Darmstadt
Collation: IV, 142 Seiten
Date of oral examination: 31 March 2021
DOI: 10.26083/tuprints-00017891
Abstract:

Die RNA erfüllt in der Zelle eine Vielzahl an verschiedenen Aufgaben, die zum Teil eng mit der Genregulation verknüpft sind. Bekannte Beispiele sind unter anderem Riboswitche, die sowohl natürlich vorkommen als auch synthetisch hergestellt werden können. Riboswitche können im 5´untranslatierten Bereich (UTR) von Genen die Translation beeinflussen und so als effektive Werkzeuge zur Kontrolle der Genexpression wirken. Jedoch ist die Effizienz synthetisch hergestellter Riboswitche zur Genregulation meist begrenzt und bedarf eines langen Optimierungsprozesses. Eine Perspektive bieten automatisierte Verfahren, welche auch in der Synthetischen Biologie einen immer höheren Stellenwert bekommen. Diese Arbeit beschäftigt sich mit der Entwicklung eines machine learning-Programms zur Optimierung synthetischer Riboswitche, welche in den Zellen der Bäckerhefe ihre Anwendung finden, sowie der Analyse der generierten Daten im Hinblick auf ihre biophysikalischen Parameter und Sequenzmotive. Das Tetrazyklin (TC)-Dimer LG3, welches aus zwei TC-Aptameren besteht, die sich nur in ihrem Endstamm P1 unterscheiden, diente hier als Vorlage des Optimierungsprozesses. Durch die Veränderung der Sequenz des P1-Stammes, lässt sich die Basalexpression und der Schaltfaktor dieses Riboswitches beeinflussen. Das machine learning-Programm wurde mit Daten trainiert, die sich aus der Sequenz berechnen lassen: Länge des P1-Stamms, dessen GC-Gehalt, die minimale freie Energie (MFE oder ΔG), die Entropie (Shannon) von P1 sowie der Wasserstoffbrückenbindung der beteiligte Basenpaare (H-Bindung), die Schmelztemperatur von P1 (Tm P1) sowie die Schmelztemperatur des kompletten Aptamers (Tm). Es wurden insgesamt drei machine learning-Runden durchgeführt, wobei in der 3. Runde erstmals eine signifikante Verbesserung des mittleren Schaltfaktors der Riboswitche beobachtet werden konnte. Nach der 3. Runde wurde das Programm um ein deep learning-Programm erweitert und so zusätzlich ein Trainieren auf Sequenzdaten des Stammes ermöglicht. Mit der Kombination der beiden Programme wurde ein außergewöhnlich guter Riboswitch gefunden (R4-G8), der einen Schaltfaktor von 40-fach und die Stammsequenz 5´AGGTGACC3´ aufweist. Nachfolgende Analysen der Daten ergaben, dass ein bestimmter Bereich biophysikalischer Parameter und bestimmte Sequenzmotive innerhalb des P1-Stamms das Vorkommen gut schaltender Riboswitche begünstigt und sich R4-G8 mit seinen biophysikalischen Parametern und seiner Sequenz sehr wahrscheinlich an seinem individuellen Optimum befindet, da jede weitere Veränderung der Sequenz zu einer Verschlechterung des Schaltfaktors führte. Im letzten Abschnitt dieser Arbeit wurden drei verschiedene TC-Aptamere mit P1-Stämmen aus den vorrangegangenen machine learning-Runden mit einem Tobramycin-Aptamer zu einem funktionalen NOR-Gate fusioniert. Dabei wurde ein TC-Tobramycin-Hybrid erzeugt, bei welchem das Tobramycin-Aptamer auf den P2-Stamm des TC-Aptamers gesetzt wurde. Beide Aptamere können sowohl unabhängig voneinander als auch gemeinsam ihren Liganden binden und die Translation inhibieren.

Alternative Abstract:
Alternative AbstractLanguage

RNA performs a variety of different tasks in the cell, many of them closely linked to gene regulation. Well-known examples include riboswitches, which are both naturally occurring and synthetically produced. Riboswitches can affect translation in the 5'untranslated region (UTR) of genes and thus act as effective tools to control gene expression. However, the efficiency of synthetically produced riboswitches for gene regulation is usually limited and requires a long optimization process. Automated methods, which are also of increasing importance in synthetic biology, offer one perspective. This work focuses on the development of a machine learning program for the optimization of synthetic riboswitches, which find their use in the cells of baker's yeast, and the analysis of the generated data with respect to their biophysical parameters and sequence motifs. The tetracycline (TC) dimer LG3, which consists of two TC aptamers differing only in their terminal stem P1, was used here as a template of the optimization process. By changing the sequence of the P1 stem, the basal expression and switching factor of this riboswitch can be influenced. The machine learning program was trained with data that can be calculated from the sequence: Length of the P1 stem, its GC content, the minimum free energy (MFE or ΔG), the entropy (Shannon) of P1 as well as the hydrogen bonding of the involved base pairs (H-bonding), the melting temperature of P1 (Tm P1) as well as the melting temperature of the complete aptamer (Tm). Three machine learning rounds were conducted in total, with a significant improvement in the mean switching factor of the riboswitches being observed for the first time in the 3rd round. After the 3rd round, a deep learning program was added to the program, allowing additional training on sequence data of the stem. With the combination of the two programs, an extremely good riboswitch was found (R4-G8), with a switching factor of 40-fold and the stem sequence 5'AGGTGACC3'. Subsequent analyses of the data revealed that a specific range of biophysical parameters and certain sequence motifs within the P1 stem favored the occurrence of good switching riboswitches, and that R4-G8's biophysical parameters and sequence were most likely at its individual optimum, since any further change in sequence resulted in a decrease of switching factor. In the last section of this work, three different TC aptamers with P1 stems from the previous machine learning rounds were fused with a tobramycin aptamer to form a functional NOR gate. This generated a TC-tobramycin hybrid in which the tobramycin aptamer was placed on the P2 stem of the TC aptamer. Both aptamers can bind their ligand and inhibit translation both independently and together.

English
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-178913
Classification DDC: 500 Science and mathematics > 570 Life sciences, biology
Divisions: 10 Department of Biology > Synthetic RNA biology
LOEWE > LOEWE-Schwerpunkte > CompuGene – Computer-assisted design methods for complex Genetic circuits
Date Deposited: 04 May 2021 09:06
Last Modified: 26 Jul 2023 06:01
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/17891
PPN: 478794622
Export:
Actions (login required)
View Item View Item