TU Darmstadt / ULB / TUprints

Measuring, Understanding, and Improving Content Distribution Technologies

Salah, Hani (2016)
Measuring, Understanding, and Improving Content Distribution Technologies.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text
PhD.pdf
Copyright Information: In Copyright.

Download (3MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Measuring, Understanding, and Improving Content Distribution Technologies
Language: English
Referees: Strufe, Prof. Dr. Thorsten ; Mühlhäuser, Prof. Dr. Max
Date: 4 January 2016
Place of Publication: Darmstadt
Date of oral examination: 12 November 2015
Abstract:

The Internet plays a focal role in our social life, work, education, and entertainment. The current Internet has been designed, over 50 years ago, for reliable host-to-host communications. Today, however, the Internet is mainly used for content distribution and retrieval.

To cope with this shift in the Internet usage, three technologies for efficient content distribution were developed in the past years: Peer-to-Peer (P2P) systems, Content Delivery Networks (CDNs), and Information-Centric Networking (ICN). P2P systems and CDNs are widely used today, both constructing overlays atop the current Internet. ICN, in contrast, is a promising research direction proposing to redesign the Internet from scratch as a content-centric network.

We focus on P2P systems and ICN. Despite the wide deployment of P2P systems and the promising features of ICN, several research problems in these technologies are still awaiting for effective solutions. We address in this dissertation three of them.

We first deal with Kademlia, the most popular P2P system. Improving and giving guarantees on Kademlia's performance and robustness is needed to achieve a reliable and high quality service. This requires accurate understanding of system-wide topological properties such as the degree distribution and graph resilience, as well as properties of routing information. In spite of the importance of these properties, they were analysed so far only through partial measurements or oversimplified simulations. Instead, accurate results can be derived only from graph snapshots of real systems. However, capturing such snapshots is challenging since it requires to collect large amount of highly dynamic information, almost instantly, which was not provided by previous measurements. Results of such graph snapshots also can be used to develop accurate simulation models.

We address this challenge by KadSpider, a crawler that we develop to capture highly representative graph snapshots of KAD (a popular implementation of Kademlia). Exploiting KAD design, KadSpider downloads the target information several times faster than prior Kademlia crawlers with lower signalling overhead.

Analysing the captured snapshots and comparing them to synthetic graphs generated by simulations, we provide important information about KAD. We also show that, for certain properties, simulative results can significantly deviate from the results of the real system. Most interestingly, the complete graph in the real system, due to a greatly increased ratio of stale routing information, is much more vulnerable to targeted attacks than in simulations. This observation holds even when we simulate with a widely accepted churn model.

Using the captured graph snapshots, we analyse the diversity of node's neighbours over the corresponding identifier space sections. We also show that the average routing hop count can be reduced when this diversity is maximized. Consequently, we apply this strategy in a modified neighbour selection scheme. The scheme is backward compatible with Kademlia and its derivatives, and incurs only negligible computational overhead. We demonstrate the utility of the scheme via theoretical model derivations, simulations of three notable Kademlia-type systems, and measurements on KAD nodes.

After that, we shift our attention to Named-Data Networking (NDN), widely considered a promising ICN architecture for the future Internet. In particular, we address two salient problems in NDN: (i) cache management and (ii) defending against an NDN-tailored DDoS attack called the Interest Flooding Attack (IFA).

We argue that both problems should be addressed in a coordinated way based on timely and network-wide content access information and other system states, which was not achieved in the past. The distributed nature of the Internet, in addition to the huge volumes and high dynamics of coordination information, however, make realizing such coordination challenging.

We address this challenge by CoMon, a novel framework for Coordination in NDN that is based on (i) lightweight Monitoring of content access and resource usage and (ii) bounded advertisement of relevant information. CoMon assigns monitoring tasks to a small number of monitoring nodes selected such that the entire network traffic passes, or is enforced to pass, through them at an early stage. The monitoring nodes, in cooperation with a centralized controller, are also responsible for re-routing user requests towards in-network caches as well as for defending against IFAs. Our evaluations, based on extensive simulations, show that CoMon incurs negligible signalling overhead. They also show that CoMon enables to achieve both a remarkable caching efficiency improvement and high robustness against IFAs, in comparison both to the original system as well as to the state of the art.

Alternative Abstract:
Alternative AbstractLanguage

Das Internet spielt eine wichtige Rolle im Leben seiner Nutzer. Man verwendet es für gesellschaftliche Zwecke ebenso wie für Arbeit, Bildung und Unterhaltung. Das derzeitige Internet wurde bereits vor 50 Jahren entworfen um verlässliche Verbindungen zwischen Rechnern zu schaffen. Die heutige Verwendung beinhaltet jedoch hauptsächlich das Verteilen von medialen Inhalten.

Um dieser Veränderung der Nutzung des Internet Rechnung zu tragen wurden in den letzten Jahren drei verschiedene Technologien entwickelt: Peer-to-Peer (P2P) Systeme, Content Delivery Networks (CDNs) und Information-Centric-Networking (ICN). P2P und CDN Technologien werden heutzutage intensiv genutzt. ICN Technologie ist demgegenüber ein vielverspechendes Forschungsfeld, mit dem Ziel das Internet von Grund auf neu zu entwerfen.

Der Fokus dieser Dissertation liegt auf P2P und ICN Systemen. Trotz der großflächigen Nutzung von P2P und den vielversprechenden Eigenschaften von ICN Systemen müssen noch immer diverse Forschungsfragen effizient gelöst werden. Ziel ist daher die Verbesserung von P2P Systemen und das Erbringen von Beiträgen zur Realisierung von ICNs.

Zuerst wird dazu das am weitesten verbreitete P2P System, KAD (eine populäre Implementierung von Kademlia), hinsichtlich der Eigenschaften von Topologie und Routing-Tabellen untersucht. Im Gegensatz zu vorhandenen Arbeiten werden Momentaufnahmen von Graphen realer Systeme verwendet. Das Erstellen dieser Momentaufnahmen erfordert jedoch eine neue Methode, da existierende Verfahren nicht in der Lage sind große Mengen sich schnell veräandernerd Information nahezu verzögerungsfrei zu speichern. Zu diesem Zweck wurde der KadSpider entwickelt. Dieser nutzt das Protokolldesign von KAD um repräsentative Momentaufnahmen um ein Vielfaches schneller und mit weniger Kommunikationsaufwand als bekannte Crawlers zu erstellen.

Die Analyse der Momentaufnahmen liefert wichtige Informationen über KAD. Insbesondere wird in dieser Arbeit gezeigt, dass Simulationen, welche die Basis der bisherigen Forschung bilden, von realen Systemen in bestimmten Eigenschaften abweichen. Am interessantesten ist hierbei, dass reale Graphen sehr viel verwundbarer gegenüber gezielten Angriffen sind als es Simulationen vermuten lassen. Dies gilt ebenso für solche Simulationen, die mit einem weithin in der Forschung akzeptierten Churn-Modell durchgeführt wurden.

Des Weiteren werden die Momentaufnahmen in dieser Arbeit dazu verwendet die Diversität der Nachbarn in den entsprechenden Teilen der Routing-Tabelle der Knoten zu untersuchen. Außerdem wird gezeigt, dass die mittlere Entfernung (hop count) zwischen Knoten reduziert werden kann, wenn die Diversität maximiert wird. Aufgrund dieser neuen Erkenntnis wurde ein Schema für die Nachbarschaftswahl in KAD entwickelt. Dieses ist abwärtskompatibel mit Kademlia und dessen Derivaten und erzeugt nur vernachlässigbaren Rechenaufwand. Die Nützlichkeit des neuen Schemas wird durch theoretische Überlegungen, Simulationen in drei Kademlia-ähnlichen Systemen und durch Messungen auf KAD Knoten nachgewiesen.

Im Anschluß daran werden in dieser Arbeit zwei wichtige Probleme der NDN Architektur, einer vielversprechenden ICN Architektur, betrachtet. Das ist zum einen das (i) Zwischenspeicher-Management und zum anderen (ii) die Verteidigung gegen Interest Flooding Attacks (IFA), welche die Eigenheiten der NDN Architektur ausnutzen. Im Rahmen dieser Arbeit wird gezeigt, wie beide Probleme mithilfe netzwerkweiter Zugriffs- und Systemstatusinformationen gelöst werden können. Die dezentrale Architektur des Internets, die große Dynamik und das hohe Volumen an Statusinformationen stellen eine große Herausforderung in Hinblick auf die Implementierung dar.

Um dieser Herausforderung zu begegnen ist CoMon, ein neuartiges Framework, entwickelt worden. Es bietet (i) die Überwachung von Zugriffen auf Inhalte und Ressourcen und (ii) eine begrenzte Verbreitung von relevanten Statusinformationen. CoMon verteilt dafür Überwachungsaufträge an eine kleine Anzahl an Knoten, die so selektiert werden, dass an ihnen der gesamte Netzwerkverkehr anliegt. Diese Netzwerkknoten sind, in Verbindung mit einem zentralen Controller, für das Weiterleiten von Anfragen an netzwerkinterne Zwischenspeicher und die Verteidigung gegen IFAs verantwortlich. Die Evaluationen, basierend auf Simulationen, zeigen, dass CoMon vernachlässigbaren Kommunikationsaufwand erzeugt. Sie zeigen außerdem, dass CoMon verglichen mit der originalen Variante und dem Stand der Technik sowohl eine Steigerung der Effizienz der Zwischenspeicher, als auch eine erhöhte Robustheit gegenüber IFAs erzielt.

German
URN: urn:nbn:de:tuda-tuprints-52133
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science
20 Department of Computer Science > Peer-to-Peer Netzwerke
Date Deposited: 04 Jan 2016 10:01
Last Modified: 25 Jan 2024 10:55
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/5213
PPN: 386821178
Export:
Actions (login required)
View Item View Item