Logo des Repositoriums
  • English
  • Deutsch
Anmelden
Keine TU-ID? Klicken Sie hier für mehr Informationen.
  1. Startseite
  2. Publikationen
  3. Publikationen der Technischen Universität Darmstadt
  4. Erstveröffentlichungen
  5. Accurate Performance Modeling for Distributed Stream Processing: Methods for Performance Benchmarking and Zero-shot Parallelism Tuning in Distributed and Heterogeneous Environments
 
  • Details
2024
Erstveröffentlichung
Dissertation
Verlagsversion

Accurate Performance Modeling for Distributed Stream Processing: Methods for Performance Benchmarking and Zero-shot Parallelism Tuning in Distributed and Heterogeneous Environments

File(s)
Download
Hauptpublikation
2024-10-10_Agnihotri_Pratyush.pdf
CC BY 4.0 International
Format: Adobe PDF
Size: 7.35 MB
TUDa URI
tuda/12270
URN
urn:nbn:de:tuda-tuprints-281444
DOI
10.26083/tuprints-00028144
Autor:innen
Agnihotri, Pratyush ORCID 0000-0001-9944-926X
Kurzbeschreibung (Abstract)

Distributed Stream Processing (DSP) systems have emerged as a pivotal paradigm, enabling real-time data analysis using distributed cloud resources. Major Internet companies like Amazon and Google, build on DSP systems for their real-time data workloads. For instance, Amazon provides Apache Flink as a service for implementing DSP workloads. Parallelism is often a desired property of DSP workloads to meet the timeliness and scaling requirements of current applications, necessitating the use of distributed and multi-core cloud resources. However, cloud resources are heterogeneous in nature, which makes understanding the performance of DSP workloads very difficult, as it depends on highly varying resources, i.e., compute, storage, and network. Therefore, (i) understanding the performance and (ii) predicting it for distinct DSP workloads on such heterogeneous cloud environments are both very challenging problems. This thesis solves these two fundamental research challenges by contributing methods for accurate performance modeling of DSP workloads in heterogeneous cloud environments.

First, this thesis contributes to methods for performance understanding by proposing PDSP-BENCH, a novel benchmarking system. It tackles three primary challenges of existing work: lack of expressiveness in benchmarking parallel DSP workloads, the need for heterogeneous hardware support, and the need for integration of learned DSP models. Unlike existing systems, PDSP-BENCH enables the evaluation of parallel DSP applications and workloads using both synthetic and real-world applications, offering an expressive and scalable solution. Further, it facilitates the systematic training and evaluation of learned DSP models on diverse streaming workloads, which is crucial for optimizing performance. The extensive evaluation of PDSP-BENCH demonstrates its benchmarking capabilities and highlights the impact of varying query complexities, hardware configurations, and workload parameters on system performance. The key observations of our experiments show the non-linearity and paradoxical effects of parallelism on performance.

Second, this thesis contributes to methods on performance prediction and optimization by proposing ZEROTUNE, a novel learned cost model for DSP workloads and an optimizer for parallelism tuning. It provides highly accurate cost predictions while generalizing to (unseen) heterogeneous hardware resources of the cloud. The generalizability of the model is based on transfer learning, the same technique that is used in Large Language Models like ChatGPT. The main idea is to learn from so-called transferable features and parallel graph representation that together enable the model to generalize to unseen DSP workloads and hardware. Our extensive evaluation demonstrates ZEROTUNE’s robustness and accuracy across workloads, various parallelism degrees, unseen operator parameters, and training data efficiency. The evaluations show significant speed-ups with parallelism tuning compared to existing methods. Most notably, our approach has been adopted by Amazon Redshift for query execution time prediction.

Sprache
Englisch
Alternativtitel
Akkurate Leistungsmodellierung für Distributed-Stream-Processing: Methoden zur Leistungsbewertung und Zero-Shot-Parallelitätstuning in verteilten und heterogenen Umgebungen
Alternatives Abstract

Distributed-Stream-Processing (DSP) Systeme haben sich als zentrales Paradigma herauskristallisiert, das die Echtzeit-Datenanalyse mit verteilten Cloud-Ressourcen ermöglicht. Groûe Internetunternehmen wie Amazon und Google bauen auf DSP-Systeme für ihre Echtzeitdaten-Workloads. So bietet Amazon beispielsweise Apache Flink als Service für die Implementierung von DSP-Workloads an. Parallelität ist oft ein gewünschtes Merkmal von DSPWorkloads, um die Anforderungen an Aktualität und Skalierbarkeit heutiger Anwendungen zu erfüllen, was den Einsatz verteilter und Multi-Core-CloudRessourcen erforderlich macht. Cloud-Ressourcen sind jedoch von Natur aus heterogen, was das Verständnis der Leistung von DSP-Workloads sehr erschwert, da sie von stark variierenden Ressourcen, d.h., Rechen-, Speicherund Netzwerkressourcen, abhängen. Daher sind sowohl (i) das Verständnis der Leistung und (ii) die Vorhersage der Leistung für verschiedene DSPWorkloads in solchen heterogenen Cloud-Umgebungen sehr anspruchsvolle Probleme. Diese Arbeit löst diese beiden grundlegenden Forschungsherausforderungen, indem sie Methoden für eine genaue Leistungsmodellierung von DSP-Workloads in heterogenen Cloud-Umgebungen bereitstellt.

Erstens trägt diese Arbeit zu Methoden für das Verständnis der Leistung bei, indem sie PDSP-BENCH vorschlägt, ein neuartiges BenchmarkingSystem. Es nimmt drei primäre Herausforderungen bestehender Arbeiten in Angriff: mangelnde Ausdruckskraft beim Benchmarking paralleler DSPWorkloads, die Notwendigkeit heterogener Hardwareunterstützung und die Notwendigkeit der Integration gelernter DSP-Modelle. Im Gegensatz zu bestehenden Systemen ermöglicht PDSP-BENCH die Evaluierung von parallelen DSP-Anwendungen und -Workloads sowohl mit synthetischen als auch mit realen Anwendungen und ist eine ausdrucksstarke und skalierbare Lösung. Darüber hinaus erleichtert es das systematische Training und die Evaluierung von gelernten DSP-Modellen auf verschiedenen StreamingWorkloads, was für die eistungsoptimierung entscheidend ist. Die umfassende Evaluierung von PDSP-BENCH demonstriert seine BenchmarkingFähigkeiten und zeigt die Auswirkungen unterschiedlicher Abfragekomplexitäten, Hardware-Konfigurationen und Workload-Parameter auf die Systemleistung. Die wichtigsten Beobachtungen unserer Experimente zeigen die Nichtlinearität und die paradoxen Auswirkungen der Parallelität auf die Leistung.

Zweitens leistet diese Arbeit einen Beitrag zu Methoden der Leistungsvorhersage und -optimierung, indem sie ZEROTUNE vorschlägt, ein neuartiges Learned-Cost Modell für DSP-Workloads und einen Optimierer für die Parallelitätsabstimmung. Es liefert hochpräzise Kostenvorhersagen und lässt sich gleichzeitig auf (unbekannte) heterogene Hardware-Ressourcen in der Cloud verallgemeinern. Die Verallgemeinerbarkeit des Modells basiert auf TransferLernen, der gleichen Technik, die in Large Language Models wie Chat-GPT verwendet wird. Die Hauptidee besteht darin, von sogenannten übertragbaviiren Merkmalen und einer parallelen Graphdarstellung zu lernen, die es dem Modell ermöglichen, sich auf unbekannte DSP-Workloads und Hardware zu verallgemeinern. Eine umfangreiche Evaluierung zeigt die Robustheit und Genauigkeit von ZEROTUNE bei verschiedenen Workloads, verschiedenen Parallelitätsgraden, unbekannten Operatorparametern und Trainingsdateneffizienz. Die Auswertungen zeigen signifikante Geschwindigkeitssteigerungen durch Parallelitätstuning im Vergleich zu bestehenden Methoden. Darüber hinaus wurde unser Ansatz von Amazon Redshift für die Vorhersage der Abfrageausführungszeit übernommen

Fachbereich/-gebiet
18 Fachbereich Elektrotechnik und Informationstechnik > Institut für Datentechnik > Multimedia Kommunikation
DDC
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Institution
Technische Universität Darmstadt
Ort
Darmstadt
Datum der mündlichen Prüfung
13.09.2024
Gutachter:innen
Steinmetz, RalfORCID 0000-0002-6839-9359
Koldehofe, BorisORCID 0000-0002-1588-2056
Handelt es sich um eine kumulative Dissertation?
Nein
Name der Gradverleihenden Institution
Technische Universität Darmstadt
Ort der Gradverleihenden Institution
Darmstadt
PPN
522518834
Zusätzliche Infomationen
This work has been co-funded by the German Research Foundation (DFG) as part of project C2 within the Collaborative Research Center (CRC) 1053 – MAKI.

  • TUprints Leitlinien
  • Cookie-Einstellungen
  • Impressum
  • Datenschutzbestimmungen
  • Webseitenanalyse
Diese Webseite wird von der Universitäts- und Landesbibliothek Darmstadt (ULB) betrieben.