TUD Technische Universität Darmstadt
Universitäts- und Landesbibliothek
ULB Darmstadt

EPDA - Elektronische Publikationen Darmstadt


Autor: Dehnert, Manuel
Titel:Ordnende Prinzipien statistischer Korrelationen in eukaryotischen Genomen
Dissertation:TU Darmstadt, Fachbereich Biologie, 2006

Die Dokumente in PDF 1.3 (mit Adobe Acrobat Reader 4.0 zu lesen):

DissManuelDehnert.pdf (4919673 Byte)

Abstract auf Deutsch:


Auf einer genomweiten Skala besitzen eukaryotische DNA-Sequenzen eine mosaikhafte Struktur, eine komplexe Abfolge aus Genen, nicht-codierenden Wiederholungen von Genen (Pseudo-Genen) und repetitiven Sequenzen, die durch scheinbar zufällige Segmente verbunden sind. Die unterschiedliche Struktur dieser Elemente führt zu Symbolkorrelationen, also statistischen „Abhängigkeiten“ zwischen den Basen. In der vorliegenden Arbeit wird gezeigt, dass solche Korrelationen ein unerwartet starkes, innerhalb der Chromosomen einer Spezies hoch synchronisiertes Signal darstellen. Alle Chromosomen einer Spezies zeigen das gleiche charakteristische Muster, welches sich signifikant von denen anderer Spezies unterscheidet. Dabei wird nachgewiesen, dass dieses Korrelationsmuster nicht ausschließlich von Dinukleotiden induziert wird, da sich bei der Betrachtung größerer Symbolabstände eine deutliche Zunahme der artspezifischen Information ergibt. Die gemessene Korrelationsstruktur weist auf der Ebene ganzer Chromosomen über die hohe Synchronisation innerhalb einer Spezies hinaus außerdem ein weiteres Ordnungsprinzip auf: Auf Basis der kurzreichweitigen Korrelationen gewonnene Clusterbäume zeigen eine Übereinstimmung mit der Phylogenie der beteiligten Spezies. In eukaryotischen Genomen wird ein großer Teil der DNA repetitiven Elementen zugeordnet. Die Maskierung dieser Elemente als mögliche Träger von speziesspezifischer Information führt zu einer Änderung der beobachteten Genom-Signaturen. Dennoch bleibt nach der Maskierung aller repetitiven Elemente eine artspezifische Speziessignatur erhalten. Für Korrelationen im Genom von H. sapiens, M. musculus und R. norvegicus kann zudem eine quantitative Verbindung zwischen diesen statistischen Eigenschaften und biologischen Kenngrößen der Sequenz hergestellt werden. Die systematische Maskierung verschiedener Klassen repetitiver Elemente wirkt sich dabei unterschiedlich auf die Korrelationsstruktur aus. So zeigt sich etwa, dass Mikrosatelliten bei M. musculus und R. norvegicus den größten Beitrag liefern, während bei H. sapiens short interspersed elements (SINEs) die Korrelationsstruktur stark beeinflussen.


Abstract auf Englisch:

On a genome-wide scale eukaryotic DNA sequences possess a mosaic-like structure, a complex mixture of genes, non-coding copies of genes (pseudo genes) and repetitive sequences, which are connected by seemingly random sequence segments. The different internal structures of these elements leads to correlations, i.e. statistical "dependencies" between nucleotides. Here it is shown that such correlations exhibit an unexpectedly strong signal, which is highly synchronised within the chromosomes of a species. All chromosomes of one species show the same characteristic pattern, which differs significantly from those of other species. It is shown that this correlation pattern is not only induced by dinucleotide abundancies, because the consideration of larger symbol distances leads to a clear increase of species-specific information. Besides the high synchronisation within a species, the measured correlation structure exhibits an additional organising principle: Cluster trees obtained on the basis of these short-range correlations display a high agreement with the phylogeny of the investigated species. In eukaryotic genomes a large fraction of the DNA consists of repetitive sequence elements. Masking these elements as a possible carrier of species-specific information leads to a modification of the observed genome signatures. However, after masking all repetitive elements a typical specific species signature remains. For correlations in the genome of H. sapiens, M. musculus and R. norvegicus a quantitative relation between statistical features and biological sequence characteristics is established. The systematic masking of different classes of repetitive elements influences the correlation structure in different ways. For example in the genome of M. musculus and R. norvegicus microsatellites contribute the largest portion, whereas in the genome of H. sapiens short interspersed elements (SINEs) influence the correlation structure most clearly.

Dokument aufgenommen :2006-08-30
URL:http://elib.tu-darmstadt.de/diss/000725