TU Darmstadt / ULB / TUprints

Ordnende Prinzipien statistischer Korrelationen in eukaryotischen Genomen

Dehnert, Manuel (2006)
Ordnende Prinzipien statistischer Korrelationen in eukaryotischen Genomen.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
PDF
DissManuelDehnert.pdf
Copyright Information: In Copyright.

Download (4MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Ordnende Prinzipien statistischer Korrelationen in eukaryotischen Genomen
Language: German
Referees: Pfeifer, Prof. Dr. Felicitas ; Helm, Prof. Dr. Werner E.
Advisors: Hütt, Prof. Dr. Marc-Thorsten
Date: 30 August 2006
Place of Publication: Darmstadt
Date of oral examination: 30 June 2006
Abstract:

Auf einer genomweiten Skala besitzen eukaryotische DNA-Sequenzen eine mosaikhafte Struktur, eine komplexe Abfolge aus Genen, nicht-codierenden Wiederholungen von Genen (Pseudo-Genen) und repetitiven Sequenzen, die durch scheinbar zufällige Segmente verbunden sind. Die unterschiedliche Struktur dieser Elemente führt zu Symbolkorrelationen, also statistischen „Abhängigkeiten“ zwischen den Basen. In der vorliegenden Arbeit wird gezeigt, dass solche Korrelationen ein unerwartet starkes, innerhalb der Chromosomen einer Spezies hoch synchronisiertes Signal darstellen. Alle Chromosomen einer Spezies zeigen das gleiche charakteristische Muster, welches sich signifikant von denen anderer Spezies unterscheidet. Dabei wird nachgewiesen, dass dieses Korrelationsmuster nicht ausschließlich von Dinukleotiden induziert wird, da sich bei der Betrachtung größerer Symbolabstände eine deutliche Zunahme der artspezifischen Information ergibt. Die gemessene Korrelationsstruktur weist auf der Ebene ganzer Chromosomen über die hohe Synchronisation innerhalb einer Spezies hinaus außerdem ein weiteres Ordnungsprinzip auf: Auf Basis der kurzreichweitigen Korrelationen gewonnene Clusterbäume zeigen eine Übereinstimmung mit der Phylogenie der beteiligten Spezies. In eukaryotischen Genomen wird ein großer Teil der DNA repetitiven Elementen zugeordnet. Die Maskierung dieser Elemente als mögliche Träger von speziesspezifischer Information führt zu einer Änderung der beobachteten Genom-Signaturen. Dennoch bleibt nach der Maskierung aller repetitiven Elemente eine artspezifische Speziessignatur erhalten. Für Korrelationen im Genom von H. sapiens, M. musculus und R. norvegicus kann zudem eine quantitative Verbindung zwischen diesen statistischen Eigenschaften und biologischen Kenngrößen der Sequenz hergestellt werden. Die systematische Maskierung verschiedener Klassen repetitiver Elemente wirkt sich dabei unterschiedlich auf die Korrelationsstruktur aus. So zeigt sich etwa, dass Mikrosatelliten bei M. musculus und R. norvegicus den größten Beitrag liefern, während bei H. sapiens short interspersed elements (SINEs) die Korrelationsstruktur stark beeinflussen.

Alternative Abstract:
Alternative AbstractLanguage

On a genome-wide scale eukaryotic DNA sequences possess a mosaic-like structure, a complex mixture of genes, non-coding copies of genes (pseudo genes) and repetitive sequences, which are connected by seemingly random sequence segments. The different internal structures of these elements leads to correlations, i.e. statistical "dependencies" between nucleotides. Here it is shown that such correlations exhibit an unexpectedly strong signal, which is highly synchronised within the chromosomes of a species. All chromosomes of one species show the same characteristic pattern, which differs significantly from those of other species. It is shown that this correlation pattern is not only induced by dinucleotide abundancies, because the consideration of larger symbol distances leads to a clear increase of species-specific information. Besides the high synchronisation within a species, the measured correlation structure exhibits an additional organising principle: Cluster trees obtained on the basis of these short-range correlations display a high agreement with the phylogeny of the investigated species. In eukaryotic genomes a large fraction of the DNA consists of repetitive sequence elements. Masking these elements as a possible carrier of species-specific information leads to a modification of the observed genome signatures. However, after masking all repetitive elements a typical specific species signature remains. For correlations in the genome of H. sapiens, M. musculus and R. norvegicus a quantitative relation between statistical features and biological sequence characteristics is established. The systematic masking of different classes of repetitive elements influences the correlation structure in different ways. For example in the genome of M. musculus and R. norvegicus microsatellites contribute the largest portion, whereas in the genome of H. sapiens short interspersed elements (SINEs) influence the correlation structure most clearly.

English
Uncontrolled Keywords: DNA-Analyse, Genomsignatur, Transinformation, Markov-Prozess, Markov-Prozesse höherer Ordnung, Diskreter autoregressiver Prozess, Cluster-Baum
Alternative keywords:
Alternative keywordsLanguage
DNA-Analyse, Genomsignatur, Transinformation, Markov-Prozess, Markov-Prozesse höherer Ordnung, Diskreter autoregressiver Prozess, Cluster-BaumGerman
DNA analysis, Genome signature, Mutual information, Markov process, Markov process of higher order, Discrete autoregressive process, Clustering treeEnglish
URN: urn:nbn:de:tuda-tuprints-7258
Classification DDC: 500 Science and mathematics > 500 Science
Divisions: 10 Department of Biology
Date Deposited: 17 Oct 2008 09:22
Last Modified: 07 Dec 2012 11:52
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/725
PPN:
Export:
Actions (login required)
View Item View Item