Accurate Performance Modeling for Distributed Stream Processing: Methods for Performance Benchmarking and Zero-shot Parallelism Tuning in Distributed and Heterogeneous Environments

Distributed Stream Processing (DSP) systems have emerged as a pivotal paradigm, enabling real-time data analysis using distributed cloud resources. Major Internet companies like Amazon and Google, build on DSP systems for their real-time data workloads. For instance, Amazon provides Apache Flink as a service for implementing DSP workloads. Parallelism is often a desired property of DSP workloads to meet the timeliness and scaling requirements of current applications, necessitating the use of distributed and multi-core cloud resources. However, cloud resources are heterogeneous in nature, which makes understanding the performance of DSP workloads very difficult, as it depends on highly varying resources, i.e., compute, storage, and network. Therefore, (i) understanding the performance and (ii) predicting it for distinct DSP workloads on such heterogeneous cloud environments are both very challenging problems. This thesis solves these two fundamental research challenges by contributing methods for accurate performance modeling of DSP workloads in heterogeneous cloud environments.

First, this thesis contributes to methods for performance understanding by proposing PDSP-BENCH, a novel benchmarking system. It tackles three primary challenges of existing work: lack of expressiveness in benchmarking parallel DSP workloads, the need for heterogeneous hardware support, and the need for integration of learned DSP models. Unlike existing systems, PDSP-BENCH enables the evaluation of parallel DSP applications and workloads using both synthetic and real-world applications, offering an expressive and scalable solution. Further, it facilitates the systematic training and evaluation of learned DSP models on diverse streaming workloads, which is crucial for optimizing performance. The extensive evaluation of PDSP-BENCH demonstrates its benchmarking capabilities and highlights the impact of varying query complexities, hardware configurations, and workload parameters on system performance. The key observations of our experiments show the non-linearity and paradoxical effects of parallelism on performance.

Second, this thesis contributes to methods on performance prediction and optimization by proposing ZEROTUNE, a novel learned cost model for DSP workloads and an optimizer for parallelism tuning. It provides highly accurate cost predictions while generalizing to (unseen) heterogeneous hardware resources of the cloud. The generalizability of the model is based on transfer learning, the same technique that is used in Large Language Models like ChatGPT. The main idea is to learn from so-called transferable features and parallel graph representation that together enable the model to generalize to unseen DSP workloads and hardware. Our extensive evaluation demonstrates ZEROTUNE’s robustness and accuracy across workloads, various parallelism degrees, unseen operator parameters, and training data efficiency. The evaluations show significant speed-ups with parallelism tuning compared to existing methods. Most notably, our approach has been adopted by Amazon Redshift for query execution time prediction.

Sprache

Englisch

Alternativtitel

Akkurate Leistungsmodellierung für Distributed-Stream-Processing: Methoden zur Leistungsbewertung und Zero-Shot-Parallelitätstuning in verteilten und heterogenen Umgebungen

Alternatives Abstract

Distributed-Stream-Processing (DSP) Systeme haben sich als zentrales Paradigma herauskristallisiert, das die Echtzeit-Datenanalyse mit verteilten Cloud-Ressourcen ermöglicht. Groûe Internetunternehmen wie Amazon und Google bauen auf DSP-Systeme für ihre Echtzeitdaten-Workloads. So bietet Amazon beispielsweise Apache Flink als Service für die Implementierung von DSP-Workloads an. Parallelität ist oft ein gewünschtes Merkmal von DSPWorkloads, um die Anforderungen an Aktualität und Skalierbarkeit heutiger Anwendungen zu erfüllen, was den Einsatz verteilter und Multi-Core-CloudRessourcen erforderlich macht. Cloud-Ressourcen sind jedoch von Natur aus heterogen, was das Verständnis der Leistung von DSP-Workloads sehr erschwert, da sie von stark variierenden Ressourcen, d.h., Rechen-, Speicherund Netzwerkressourcen, abhängen. Daher sind sowohl (i) das Verständnis der Leistung und (ii) die Vorhersage der Leistung für verschiedene DSPWorkloads in solchen heterogenen Cloud-Umgebungen sehr anspruchsvolle Probleme. Diese Arbeit löst diese beiden grundlegenden Forschungsherausforderungen, indem sie Methoden für eine genaue Leistungsmodellierung von DSP-Workloads in heterogenen Cloud-Umgebungen bereitstellt.

Erstens trägt diese Arbeit zu Methoden für das Verständnis der Leistung bei, indem sie PDSP-BENCH vorschlägt, ein neuartiges BenchmarkingSystem. Es nimmt drei primäre Herausforderungen bestehender Arbeiten in Angriff: mangelnde Ausdruckskraft beim Benchmarking paralleler DSPWorkloads, die Notwendigkeit heterogener Hardwareunterstützung und die Notwendigkeit der Integration gelernter DSP-Modelle. Im Gegensatz zu bestehenden Systemen ermöglicht PDSP-BENCH die Evaluierung von parallelen DSP-Anwendungen und -Workloads sowohl mit synthetischen als auch mit realen Anwendungen und ist eine ausdrucksstarke und skalierbare Lösung. Darüber hinaus erleichtert es das systematische Training und die Evaluierung von gelernten DSP-Modellen auf verschiedenen StreamingWorkloads, was für die eistungsoptimierung entscheidend ist. Die umfassende Evaluierung von PDSP-BENCH demonstriert seine BenchmarkingFähigkeiten und zeigt die Auswirkungen unterschiedlicher Abfragekomplexitäten, Hardware-Konfigurationen und Workload-Parameter auf die Systemleistung. Die wichtigsten Beobachtungen unserer Experimente zeigen die Nichtlinearität und die paradoxen Auswirkungen der Parallelität auf die Leistung.

Zweitens leistet diese Arbeit einen Beitrag zu Methoden der Leistungsvorhersage und -optimierung, indem sie ZEROTUNE vorschlägt, ein neuartiges Learned-Cost Modell für DSP-Workloads und einen Optimierer für die Parallelitätsabstimmung. Es liefert hochpräzise Kostenvorhersagen und lässt sich gleichzeitig auf (unbekannte) heterogene Hardware-Ressourcen in der Cloud verallgemeinern. Die Verallgemeinerbarkeit des Modells basiert auf TransferLernen, der gleichen Technik, die in Large Language Models wie Chat-GPT verwendet wird. Die Hauptidee besteht darin, von sogenannten übertragbaviiren Merkmalen und einer parallelen Graphdarstellung zu lernen, die es dem Modell ermöglichen, sich auf unbekannte DSP-Workloads und Hardware zu verallgemeinern. Eine umfangreiche Evaluierung zeigt die Robustheit und Genauigkeit von ZEROTUNE bei verschiedenen Workloads, verschiedenen Parallelitätsgraden, unbekannten Operatorparametern und Trainingsdateneffizienz. Die Auswertungen zeigen signifikante Geschwindigkeitssteigerungen durch Parallelitätstuning im Vergleich zu bestehenden Methoden. Darüber hinaus wurde unser Ansatz von Amazon Redshift für die Vorhersage der Abfrageausführungszeit übernommen

Fachbereich/-gebiet

18 Fachbereich Elektrotechnik und Informationstechnik > Institut für Datentechnik > Multimedia Kommunikation

DDC

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

Institution

Technische Universität Darmstadt

Ort

Darmstadt

Datum der mündlichen Prüfung

13.09.2024

Gutachter:innen

Steinmetz, Ralf

Koldehofe, Boris

Handelt es sich um eine kumulative Dissertation?

Nein

Name der Gradverleihenden Institution

Technische Universität Darmstadt

Ort der Gradverleihenden Institution

Darmstadt

PPN

522518834

Zusätzliche Infomationen

This work has been co-funded by the German Research Foundation (DFG) as part of project C2 within the Collaborative Research Center (CRC) 1053 – MAKI.