Scalable Planning in Large Multi-Agent Queuing Systems

Tahir, Anam (2024)
Scalable Planning in Large Multi-Agent Queuing Systems.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00027525
Ph.D. Thesis, Primary publication, Publisher's Version

Text
Scalable Planning in Large Multi-Agent Queuing Systems.pdf
Copyright Information: CC BY 4.0 International - Creative Commons, Attribution.
Download (4MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Scalable Planning in Large Multi-Agent Queuing Systems

Language:

English

Referees:

Koeppl, Prof. Dr. Heinz ; Steinmetz, Prof. Dr. Ralf ; Rizk, Prof. Dr. Amr

Date:

19 June 2024

Place of Publication:

Darmstadt

Collation:

xvi, 127 Seiten

Date of oral examination:

23 May 2024

DOI:

10.26083/tuprints-00027525

Abstract:

This dissertation presents methods for modelling large queuing systems which are integral to our daily lives, impacting processes and systems significantly. Load balancing, is a vital component of queuing systems, which involves distributing incoming jobs among available resources to achieve specific objectives like minimizing waiting times or job drops. Despite existing static load balancing algorithms, the growing complexity of computational systems necessitates dynamic approaches, as argued in this thesis. Large queuing systems face challenges like partial observability and network delays, emphasizing the need for scalable policies, which is the primary focus of this thesis.

The thesis starts with a partially observable single-agent system with large number of queues which is modelled as a partially observable Markov decision process and then solved using Monte Carlo tree search algorithm. The queuing system and the proposed load balancing is analyzed using various inter-arrival and service time distributions as well different reward functions. Network traffic data from Kaggle was also used to infer the underlying distributions for the arrival and service processes for a real system, and then analyzed the performance of our proposed policy on it.

Next, this single-agent model was extended to the multi-agent queuing system, where the challenges of scalability and non-stationary were tackled by modelling this large queuing system as a mean-field control problem with arbitrary synchronization delays. The load balancing policy for the resulting single-agent Markov decision process was learned using the proximal policy optimization algorithm from reinforcement learning. This contribution highlights the need for learning a policy for when the synchronization delays is not too low, when join-the-shortest-queue is optimal, or not too high, when random allocation is the best load balancing policy. It also provides theoretical guarantees and empirically proves that the policy learned in the mean-field system performs well in large finite queuing systems as well.

The successful framework of mean-field control for modelling a large queuing system was then further extended to include the locality of interactions between agents, instead of assuming a fully connected network where every agent can have access to every other queue. To model these decentralized interactions, the recently developed sparse mean-field theory was used and extended to obtain a mean-field control framework. The proximal policy optimization algorithm was then used on the resulting sparse mean-field control Markov decision process to learn a scalable and decentralized load balancing policy. In all the above-mentioned contributions, our proposed learned load balancing policies were able to perform well when compared to the existing state-of-the-art work, thus motivating future works in this direction.

Alternative Abstract:

Alternative Abstract

Language

Diese Dissertation präsentiert Rahmenbedingungen zur Modellierungsmethoden großer Warteschlangensysteme, die integraler Bestandteil unseres täglichen Lebens sind und oftmals Verwendung in realen Prozessen und Systemen haben. Die Lastverteilung, ein wesentlicher Bestandteil von Warteschlangensystemen, umfasst die Verteilung eingehender Aufgaben auf verfügbare Ressourcen, um bestimmte Ziele wie die Minimierung von Wartezeiten oder das Vermeiden von Aufgabenverlusten zu erreichen. Trotz bestehender statischer Lastenausgleichsalgorithmen erfordert die wachsende Komplexität von Rechensystemen dynamische Ansätze, wie in dieser Arbeit argumentiert wird.

Große Warteschlangensysteme stehen vor Herausforderungen wie partieller Beobachtbarkeit und Netzwerkverzögerungen, was die Notwendigkeit skalierbarer Strategien betont, die im Fokus dieser Arbeit stehen.

Die Arbeit beginnt mit einem teilweise beobachtbaren Einzelagentensystem mit einer großen Anzahl von Warteschlangen, das als teilweise beobachtbarer Markov-Entscheidungsprozess modelliert und anschließend mithilfe des Monte Carlo Tree Search Algorithmus gelöst wird. Das Warteschlangensystem und der vorgeschlagene Lastenausgleich werden unter Verwendung verschiedener Verteilungen von Ankunfts- und Bedienzeiten sowie verschiedener Belohnungsfunktionen analysiert. Kaggle-Netzwerkverkehrsdaten wurden ebenfalls verwendet, um die zugrundeliegenden Verteilungen für Ankunfts- und Bedienprozesse für reale Systeme zu modellieren, und anschließend wurde die Leistung der vorgeschlagenen Strategien darauf analysiert.

Als Nächstes wurde dieses Einzelagentenmodell auf das Multi-Agenten Warteschlangensystem erweitert, wobei die Herausforderungen der Skalierbarkeit und Nichtstationarität durch die Modellierung dieses großen Warteschlangensystems als ein Mean-Field-Control- Problem mit beliebigen Synchronisationsverzögerungen bewältigt wurden. Die Lastaus- gleichsstrategie für den resultierenden Einzelagenten-Markov-Entscheidungsprozess wurde mithilfe des Proximal Policy Optimization Algorithmus aus dem Bereich des Reinforce- ment Learning erlernt. Dieser Beitrag betont die Notwendigkeit, eine Strategien für den Fall zu erlernen, wenn eine Synchronisationsverzögerungen weder niedrig sind (sodass Join-the-Shortest-Queue optimal ist) noch hoch (sodass die zufällige Zuweisung die beste Lastausgleichsstrategie ist). Der Beitrag bietet auch theoretische Garantien und weist empirisch nach, dass die im Mean-Field-System erlernten Strategien in großen endlichen Warteschlangensystemen gut funktionieren.

Der erfolgreiche Rahmen des Mean-Field-Control zur Modellierung eines großen Warteschlangensystems wurde dann weiterentwickelt, um die Lokalität der Interaktionen zwischen Agenten zu berücksichtigen, anstatt von einem vollständig verbunden Netzwerk auszugehen, in dem jeder Agent Zugriff auf jede andere Warteschlange haben kann. Um diese dezentralen Interaktionen zu modellieren, wurde die kürzlich entwickelte Sparse Mean-Field-Theorie verwendet und erweitert, um ein Sparse Mean-Field-Control-Rahmen werk zu erhalten. Der Proximal Policy Optimization Algorithmus wurde dann auf den resultierenden Mean-Field-Control-Markov-Entscheidungsprozess angewendet, um eine skalierbare und dezentrale Lastausgleichsstrategie zu erlernen. In allen vorgenannten Beiträgen haben unsere vorgeschlagenen, gelernten Lastausgleichsstrategien eine gute Leistung im Vergleich zu bestehenden Arbeiten auf dem neuesten Stand der Technik erzielt, was zukünftige Arbeiten in diese Richtung motiviert.

German

Uncontrolled Keywords:

CRC 1053: DFG MAKI – Multi-Mechanisms Adaptation for the Future Internet; LOEWE emergenCITY

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-275251

Classification DDC:

600 Technology, medicine, applied sciences > 621.3 Electrical engineering, electronics

Divisions:

18 Department of Electrical Engineering and Information Technology > Self-Organizing Systems Lab

Date Deposited: