TU Darmstadt / ULB / TUprints

Protein Sequence and Structure Comparison based on vectorial Representations

Teichert, Florian (2009)
Protein Sequence and Structure Comparison based on vectorial Representations.
Technische Universität
Ph.D. Thesis, Primary publication

[img]
Preview
PDF
dissProtAlign_pub_LQ.pdf
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .

Download (6MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Protein Sequence and Structure Comparison based on vectorial Representations
Language: English
Referees: Porto, Prof. Dr. Markus ; Drossel, Prof. Dr. Barbara
Date: 17 March 2009
Place of Publication: Darmstadt
Date of oral examination: 16 February 2009
Abstract:

Proteins are very complex physical objects consisting of thousands of atoms and hundreds of amino acids with complicated local and global interactions on length scales ranging from the microscopic neighbourhood of atoms to the macroscopic size of organisms. The spatial configuration, in spite of that, is encoded into one single character per amino acid using a twenty character alphabet, an apparent contradiction that is not fully understood to date. This thesis is concerned with problems of protein structure and the relationship of protein sequence and structure. It is tried to integrate the different approaches typically carried out by physicists in the field that investigate very simplified model systems, e.g. single helices, with the bioinformatics approach to build powerful analysis tools. The first approach often leads to oversimplified systems that do not describe native proteins as a whole, while the second can be too heuristic and too involved to answer fundamental questions. We start from defining vectorial descriptions of protein structure, similar in form to sequence descriptions, to firstly compare protein structures, i.e. to perform structure alignments, and discuss several measures for structural similarity. From these we derive a statistical structural similarity score for pairs of protein structure based on their spatial superimposition. Then we utilize a previously known ansatz to exploit the sequence to structure correlation in order to predict vectorial structure descriptions from protein sequence. These predicted profiles are then used within the same alignment framework to align protein sequences. For these alignments a basic evolutionary similarity measure between protein sequences is derived. Large part of this thesis is dedicated to the objective assessment of alignment methods including the new method presented and a number of establish programs. A commonly used measure of structural similarity, the Percentage of Structural Identity (PSI), is discussed and generalized to cover an internal degree of freedom in structure that was ignored formerly. The improvement is achieved by very simple but powerful reasoning. The resulting scheme is also applicable to detect hinges in protein structures. Concluding, we state that protein structure, despite its complexity, is indeed to a large extent one-dimensional. The unification of structure and sequence alignments under a single formalism gives some insight into the relation of sequence and structure in proteins.

Alternative Abstract:
Alternative AbstractLanguage

Proteine sind äußerst komplexe physikalische Objekte die aus tausenden von Atomen und hunderten von Aminosäuren zusammengesetzt sind, mit komplizierten lokalen und globalen Wechselwirkungen über alle Längenskalen. Diese reichen von der mikroskopischen Ebene einzelner Atome bis zur makroskopischen Ebene ganzer Organismen. Im Gegensatz dazu kann ihre räumliche Konfiguration in der Sequenz, in nur einem einzigen Buchstaben pro Aminosäure kodiert werden. Dieser scheinbare Widerspruch ist bis heute nicht völlig verstanden. Diese Arbeit beschäftigt sich mit Fragestellungen aus den Bereichen Proteinstruktur und Protein Struktur/Sequenz Beziehung und unternimmt dabei den Versuch verschiedene Ansätze zu vereinen. Physiker, die in diesem Feld arbeiten, tendieren dazu sehr reduzierte Modellsysteme, wie etwa nur einzelne Helices, zu beschreiben, während Bioinformatiker leistungsstarke Analysewerkzeuge entwickeln. Erstere be-schrei-ben häufig so stark vereinfachte Systeme, daß die Ergebnisse nur wenig über reale Proteine aussagen, während letztere oft zu so komplizierten und heuristischen Lösungen kommen, daß keine fundamentalen Fragen mehr beantwortet werden. Zu Anfang definieren wir vektorielle Proteinstruktur-Darstellungen, in ihrer Form ähnlich zu Sequenzdarstellungen, um in einem ersten Schritt Proteinstrukturen zu vergleichen, d.h. Alignments durchzuführen, wobei auch einige Strukturähnlichkeitsmaße diskutiert werden. Von diesen leiten wir statistische Signifikanzmaße ab, die auf der räumlichen Superposition von Strukturpaaren beruhen. Im folgenden verwenden wir einen bekannten Ansatz, um aus der Sequenz die vorher definierten Strukturprofile vorherzusagen, die dann mit Hilfe des zuvor für Strukturalignments definierten Algorithmus für Sequenzalignments verwendet werden können. Von diesen Sequenzalignments leiten wir ein Maß für den evolutionären Abstand der betreffenden Sequenzen ab. Viel Aufmerksamkeit wird der objektiven Beurteilung von Alignment Methoden geschenkt, die Analyse umfaßt dabei den hier vorgestellten Algorithmus und einige bereits etablierte Programme zum Vergleich. Ein weit verbreitetes Maß für strukturelle ähnlichkeit, der Prozentsatz struktureller ähnlichkeit (PSI), wird diskutiert und verallgemeinert um das Auftreten innerer Freiheitsgrade in den Strukturen zu erfassen, die vorher keine Beachtung fanden. Die Verbesserung wird dabei durch einfache aber mächtige Argumentation erreicht. Das resultierende Schema kann auch zur Bestimmung flexibler Drehachsen in Proteinen, sogenannter Hinges, verwendet werden. Zusammenfassend stellen wir fest, daß Proteinstruktur trotz ihrer Komplexität im Grunde weitgehend eindimensionalen Charakter hat. Die vereinheitlichte Sicht auf Struktur- und Sequenzalignments erlaubt einen Einblick in die Beziehung zwischen Sequenz und Struktur in Proteinen.

German
URN: urn:nbn:de:tuda-tuprints-13474
Classification DDC: 500 Science and mathematics > 500 Science
500 Science and mathematics > 530 Physics
500 Science and mathematics > 570 Life sciences, biology
Divisions: 05 Department of Physics > Institute for condensed matter physics (2021 merged in Institute for Condensed Matter Physics)
Date Deposited: 20 Mar 2009 10:42
Last Modified: 07 Dec 2012 11:55
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/1347
PPN: 21040955X
Export:
Actions (login required)
View Item View Item