Development of a programming library for general bioinformatics
Development of a programming library for general bioinformatics
Bioinformatics progresses at an unprecedented pace. At the same time the software implementing the essential algorithms is often incompatible with each other in terms of data input and output. In consequence it can require substantial effort to establish a workflow that combines different programs. Furthermore, the flexibility of such software is usually limited to a relatively small number of options. These circumstances hamper the adaption of these programs to new problems. An alternative approach to command line programs are programming libraries, that enable the user to apply already implemented algorithms and at the same time to harness the full feature spectrum of a programming language.
In this thesis the Python bioinformatics package Biotite is presented. It unifies popular algorithms from sequence and structure analysis into a flexible library, which is applicable to a wide range of biological questions. Furthermore, new algorithms are presented, enhancing the bioinformatician’s toolkit with a novel sequence alignment visualization approach and universally applicable hydrogen prediction method. Finally, via the application of Biotite this thesis provides new insights into the molecular mechanism of cation channels and novel evaluation methods for sequencing data from SELEX experiments.
Die Bioinformatik verzeichnet Fortschritte in einem noch nie dagewesenen Tempo. Gleichzeitig sind die Programme, die die zentralen Algorithmen implementieren, häufig in der Dateneingabe und -ausgabe miteinander inkompatibel. Infolgedessen kann es einen erheblichen Mehraufwand erfordern, einen Workflow zu etablieren, der verschiedene Programme kombiniert. Zudem ist die Flexibilität von Kommandozeilenprogrammen in der Regel auf eine übersichtliche Anzahl von Optionen beschränkt. Diese Umstände erschweren die Anpassung dieser Programme an neue Probleme. Eine Alternative zu Kommandozeilenprogrammen sind Programmbibliotheken, die es dem Benutzer ermöglichen, bereits implementierte Algorithmen anzuwenden und dabei gleichzeitig den vollen Funktionsumfang einer Programmiersprache bieten.
In dieser Dissertation wird das Python-Bioinformatik-Paket Biotite vorgestellt. Es vereint populäre Algorithmen aus der Sequenz- und Strukturanalyse in einer flexiblen Programmbibliothek, die sich auf eine Vielzahl von biologischen Fragestellungen anwenden lässt. Darüber hinaus werden neue Algorithmen vorgestellt, die das Instrumentarium des Bioinformatikers um einen neuartigen Ansatz zur Sequenzalignment-Visualisierung und um eine universelle Methode zur Wasserstoffvorhersage erweitert. Abschließend bietet diese Arbeit durch die Anwendung von Biotite neue Einblicke in den molekularen Mechanismus von Kationenkanälen und neue Ansätze zur Auswertung von Sequenzdaten aus SELEX-Experimenten.

