TU Darmstadt / ULB / TUprints

Abschätzung der Leistungssteigerung durch 3D-DRAM und Evaluation einer lokalitätsbasierten Architektur

Schönberger, Alex :
Abschätzung der Leistungssteigerung durch 3D-DRAM und Evaluation einer lokalitätsbasierten Architektur.
Technische Universität Darmstadt, Darmstadt
[Ph.D. Thesis], (2016)

[img]
Preview
Text
Dissertation_Schoenberger.pdf
Available under CC-BY-ND 4.0 International - Creative Commons Attribution No-derivatives 4.0.

Download (7MB) | Preview
Item Type: Ph.D. Thesis
Title: Abschätzung der Leistungssteigerung durch 3D-DRAM und Evaluation einer lokalitätsbasierten Architektur
Language: German
Abstract:

Das Speichersystem moderner Rechner ist in den meisten Fällen aus mehreren heterogenen Komponenten aufgebaut. Dabei bilden diese Komponenten eine Hierarchie, deren Ebenen sich durch wachsende Speicherkapazität und gleichzeitig zunehmende Zugriffszeit unterscheiden. Eine dieser Ebenen ist DRAM. Dieser Speicher ist in der Lage mehrere Gigabytes an Informationen aufzunehmen, wobei seine Leistungsfähigkeit gegenüber der CPU um bis zu vier Größenordnungen geringer ist. Diese Differenz in der Leistungsfähigkeit wird als "memory wall" bezeichnet und erfordert zusätzliche Maßnahmen im Gesamtsystem. Ein weiterer Zweig der Technologie der integrierten Schaltungen stellt die Stapeltechnik dar. Dabei können mehrere Halbleiterschichten übereinander gestapelt werden. Fortschritte in dieser Technologie, die es erlauben, Zwischenverbindungen innerhalb der Schichten in großer Zahl und an beliebiger Stelle zu platzieren, könnten eine Alternative für diese Maßnahmen bilden und so die Leistungsfähigkeit des Gesamtsystems steigern. Inwiefern es möglich ist und wie stark die Verbesserungen sein könnten, ist Gegenstand der Untersuchungen dieser Arbeit.

Die entscheidende Größe für die Leistungsfähigkeit eines Systems ist die Ausführungszeit einer Applikation. Dabei benötigt diese Ausführung eine bestimmte Anzahl von Taktzyklen. Wenn jeder Speicherzugriff innerhalb eines Taktes ausgeführt werden kann, dann liegt ein idealer Speicher vor und die benötigte Ausführungszeit stellt eine Obergrenze für mögliche Verbesserungen am Speichersystem dar. Innerhalb der Speicherhierarchie bildet die oberste Ebene mit der geringsten Kapazität das Verhalten eines idealen Speichers ab. An diesen Verhältnissen hat sich seit Beginn der Zunahme der Integrationsdichte von digitalen Schaltungen nichts Grundlegendes verändert. Der Schlüssel für den Erfolg dieser Lösung liegt in einer Eigenschaft, wie die CPU den Speicher während der Ausführung nutzt. Manche Instruktionen und Daten werden im Vergleich zu anderen sehr viel häufiger gebraucht. Diesen Zusammenhang, besser bekannt als Lokalitätsprinzip, hatte Denning bereits 1968 beschrieben und damit den Weg für den erfolgreichen Einsatz vom Pufferspeicher geebnet.

Der physikalische Aufbau eines DRAM bietet durchaus Ansätze, um die Leistungsfähigkeit zu steigern, es sind vielmehr wirtschaftliche Aspekte, die dieser Entwicklung im Weg stehen. Zudem führt das Lokalitätsprinzip dazu, dass diese Steigerungen nur im geringen Maße das Gesamtsystem beeinflussen. Der untersuchte Lösungsansatz dieser Arbeit kombiniert diese beiden Erkenntnisse. Die Stapeltechnik erlaubt es die DRAM-Architektur um eine Schicht zu ergänzen, die einerseits auf Latenz optimiert ist und andererseits häufig genutzte Daten enthält. Die Platzierung erfolgt per Software.

Für die Untersuchungen wird ein allgemeines, auf keine speziellen Aufgaben zugeschnittenes System verwendet. Es werden sowohl Einkern- als auch Mehrkernarchitekturen betrachtet. Als Testapplikationen werden Implementierungen von unterschiedlichen Kompressionsalgorithmen verwendet. Für die Ausführung werden sowohl die Eingabedaten als auch ihre Menge variiert, um unter anderem den Einfluss des Pufferspeichers zu erkennen und aus der Untersuchung möglichst herauszunehmen. Darüber hinaus wird das Potential der Leistungssteigerung durch Stapeltechnik mittels künstlicher Manipulation der Lokalität geschätzt. Als ein Gegenbeweis wird zudem der volumenbasierte Ansatz ausgewertet.

Die Untersuchungen zeigen, dass die Stapeltechnik durchaus in der Lage ist, die Leistungsfähigkeit des Systems zu steigern. Die Vorteile dieser Technik liegen aber nicht primär in höherer Leistung, da die "memory wall" für das Gesamtsystem nur eine geringe Rolle spielt. Der vorgeschlagene Ansatz zeigt bessere Resultate als Vergleichsmessungen, der Grad der Verbesserung ist aber stark applikationsabhängig und dessen Auswirkungen auf das Gesamtsystem hängen von der Taktfrequenz ab.

Alternative Abstract:
Alternative AbstractLanguage
Das Speichersystem moderner Rechner ist in den meisten Fällen aus mehreren heterogenen Komponenten aufgebaut. Dabei bilden diese Komponenten eine Hierarchie, deren Ebenen sich durch wachsende Speicherkapazität und gleichzeitig zunehmende Zugriffszeit unterscheiden. Eine dieser Ebenen ist DRAM. Dieser Speicher ist in der Lage mehrere Gigabytes an Informationen aufzunehmen, wobei seine Leistungsfähigkeit gegenüber der CPU um bis zu vier Größenordnungen geringer ist. Diese Differenz in der Leistungsfähigkeit wird als "memory wall" bezeichnet und erfordert zusätzliche Maßnahmen im Gesamtsystem. Ein weiterer Zweig der Technologie der integrierten Schaltungen stellt die Stapeltechnik dar. Dabei können mehrere Halbleiterschichten übereinander gestapelt werden. Fortschritte in dieser Technologie, die es erlauben, Zwischenverbindungen innerhalb der Schichten in großer Zahl und an beliebiger Stelle zu platzieren, könnten eine Alternative für diese Maßnahmen bilden und so die Leistungsfähigkeit des Gesamtsystems steigern. Inwiefern es möglich ist und wie stark die Verbesserungen sein könnten, ist Gegenstand der Untersuchungen dieser Arbeit. Die entscheidende Größe für die Leistungsfähigkeit eines Systems ist die Ausführungszeit einer Applikation. Dabei benötigt diese Ausführung eine bestimmte Anzahl von Taktzyklen. Wenn jeder Speicherzugriff innerhalb eines Taktes ausgeführt werden kann, dann liegt ein idealer Speicher vor und die benötigte Ausführungszeit stellt eine Obergrenze für mögliche Verbesserungen am Speichersystem dar. Innerhalb der Speicherhierarchie bildet die oberste Ebene mit der geringsten Kapazität das Verhalten eines idealen Speichers ab. An diesen Verhältnissen hat sich seit Beginn der Zunahme der Integrationsdichte von digitalen Schaltungen nichts Grundlegendes verändert. Der Schlüssel für den Erfolg dieser Lösung liegt in einer Eigenschaft, wie die CPU den Speicher während der Ausführung nutzt. Manche Instruktionen und Daten werden im Vergleich zu anderen sehr viel häufiger gebraucht. Diesen Zusammenhang, besser bekannt als Lokalitätsprinzip, hatte Denning bereits 1968 beschrieben und damit den Weg für den erfolgreichen Einsatz vom Pufferspeicher geebnet. Der physikalische Aufbau eines DRAM bietet durchaus Ansätze, um die Leistungsfähigkeit zu steigern, es sind vielmehr wirtschaftliche Aspekte, die dieser Entwicklung im Weg stehen. Zudem führt das Lokalitätsprinzip dazu, dass diese Steigerungen nur im geringen Maße das Gesamtsystem beeinflussen. Der untersuchte Lösungsansatz dieser Arbeit kombiniert diese beiden Erkenntnisse. Die Stapeltechnik erlaubt es die DRAM-Architektur um eine Schicht zu ergänzen, die einerseits auf Latenz optimiert ist und andererseits häufig genutzte Daten enthält. Die Platzierung erfolgt per Software. Für die Untersuchungen wird ein allgemeines, auf keine speziellen Aufgaben zugeschnittenes System verwendet. Es werden sowohl Einkern- als auch Mehrkernarchitekturen betrachtet. Als Testapplikationen werden Implementierungen von unterschiedlichen Kompressionsalgorithmen verwendet. Für die Ausführung werden sowohl die Eingabedaten als auch ihre Menge variiert, um unter anderem den Einfluss des Pufferspeichers zu erkennen und aus der Untersuchung möglichst herauszunehmen. Darüber hinaus wird das Potential der Leistungssteigerung durch Stapeltechnik mittels künstlicher Manipulation der Lokalität geschätzt. Als ein Gegenbeweis wird zudem der volumenbasierte Ansatz ausgewertet. Die Untersuchungen zeigen, dass die Stapeltechnik durchaus in der Lage ist, die Leistungsfähigkeit des Systems zu steigern. Die Vorteile dieser Technik liegen aber nicht primär in höherer Leistung, da die "memory wall" für das Gesamtsystem nur eine geringe Rolle spielt. Der vorgeschlagene Ansatz zeigt bessere Resultate als Vergleichsmessungen, der Grad der Verbesserung ist aber stark applikationsabhängig und dessen Auswirkungen auf das Gesamtsystem hängen von der Taktfrequenz ab.German
Place of Publication: Darmstadt
Uncontrolled Keywords: 3D-DRAM, cache
Classification DDC: 600 Technik, Medizin, angewandte Wissenschaften > 620 Ingenieurwissenschaften
Divisions: 18 Department of Electrical Engineering and Information Technology
18 Department of Electrical Engineering and Information Technology > Institute for Computational Electromagnetics > Integrated Electronic Systems
Date Deposited: 11 Jul 2016 08:54
Last Modified: 03 Aug 2016 07:52
URN: urn:nbn:de:tuda-tuprints-55516
Referees: Hofmann, Prof. Klaus and Becker, Prof. Jürgen
Refereed: 10 June 2016
URI: http://tuprints.ulb.tu-darmstadt.de/id/eprint/5551
Export:
Actions (login required)
View Item View Item

Downloads

Downloads per month over past year