Robust and Distributed Cluster Enumeration and Object Labeling

Teklehaymanot, Freweyni Kidane (2019)
Robust and Distributed Cluster Enumeration and Object Labeling.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

Text
2019-03-04_Teklehaymanot_Freweyni_Kidane.pdf - Published Version
Copyright Information: CC BY-NC-SA 4.0 International - Creative Commons, Attribution NonCommercial, ShareAlike.
Download (8MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Robust and Distributed Cluster Enumeration and Object Labeling

Language:

English

Referees:

Muma, Dr.-Ing Michael ; Zoubir, Prof. Dr. Abdelhak M. ; Djurić, Prof. Ph.D Petar M.

Date:

11 March 2019

Place of Publication:

Darmstadt

Date of oral examination:

4 March 2019

Abstract:

This dissertation contributes to the area of cluster analysis by providing principled methods to determine the number of data clusters and cluster memberships, even in the presence of outliers. The main theoretical contributions are summarized in two theorems on Bayesian cluster enumeration based on modeling the data as a family of Gaussian and t distributions. Real-world applicability is demonstrated by considering advanced signal processing applications, such as distributed camera networks and radar-based person identification.

In particular, a new cluster enumeration criterion, which is applicable to a broad class of data distributions, is derived by utilizing Bayes' theorem and asymptotic approximations. This serves as a starting point when deriving cluster enumeration criteria for specific data distributions. Along this line, a Bayesian cluster enumeration criterion is derived by modeling the data as a family of multivariate Gaussian distributions. In real-world applications, the observed data is often subject to heavy tailed noise and outliers which obscure the true underlying structure of the data. Consequently, estimating the number of data clusters becomes challenging. To this end, a robust cluster enumeration criterion is derived by modeling the data as a family of multivariate t distributions. The family of t distributions is flexible by variation of its degree of freedom parameter (ν) and it contains, as special cases, the heavy tailed Cauchy for ν = 1, and the Gaussian distribution for ν → ∞. Given that ν is sufficiently small, the robust criterion accounts for outliers by giving them less weight in the objective function. A further contribution of this dissertation lies in refining the penalty terms of both the robust and Gaussian criterion for the finite sample regime. The derived cluster enumeration criteria require a clustering algorithm that partitions the data according to the number of clusters specified by each candidate model and provides an estimate of cluster parameters. Hence, a model-based unsupervised learning method is applied to partition the data prior to the calculation of an enumeration criterion, resulting in a two-step algorithm. The proposed algorithm provides a unified framework for the estimation of the number of clusters and cluster memberships.

The developed algorithms are applied to two advanced signal processing use cases. Specifically, the cluster enumeration criteria are extended to a distributed sensor network setting by proposing two distributed and adaptive Bayesian cluster enumeration algorithms. The proposed algorithms are applied to a camera network use case, where the task is to estimate the number of pedestrians based on streaming-in data collected by multiple cameras filming a non-stationary scene from different viewpoints. A further research focus of this dissertation is the cluster membership assignment of individual data points and their associated cluster labels given that the number of clusters is either prespecified by the user or estimated by one of the methods described earlier. Solving this task is required in a broad range of applications, such as distributed sensor networks and radar-based person identification. For this purpose, an adaptive joint object labeling and tracking algorithm is proposed and applied to a real data use case of pedestrian labeling in a calibration-free multi-object multi-camera setup with low video resolution and frequent object occlusions. The proposed algorithm is well suited for ad hoc networks, as it requires neither registration of camera views nor a fusion center. Finally, a joint cluster enumeration and labeling algorithm is proposed to deal with the combined problem of estimating the number of clusters and cluster memberships at the same time. The proposed algorithm is applied to person labeling in a real data application of radar-based person identification without prior information on the number of individuals. It achieves comparable performance to a supervised approach that requires knowledge of the number of persons and a considerable amount of training data with known cluster labels. The proposed unsupervised method is advantageous in the considered application of smart assisted living, as it extracts the missing information from the data. Based on these examples, and, also considering the comparably low computational cost, we conjuncture that the proposed methods provide a useful set of robust cluster analysis tools for data science with many potential application areas, not only in the area of engineering.

Alternative Abstract:

Alternative Abstract

Language

Diese Dissertation leistet einen Beitrag zum Bereich der Cluster-Analyse durch die Bereitstellung grundsätzlicher Methoden zur Bestimmung der Cluster-Anzahl und -Zugehörigkeiten, die auch in Anwesenheit von Ausreißern zuverlässig funktionieren. Die wichtigsten theoretischen Beiträge sind in zwei Theoremen über die Bayes'sche Cluster-Enumeration zusammengefasst, die auf der Modellierung der Daten als Familie von Gauß- und t-Verteilungen basieren. Die praktische Relevanz wird durch die Anwendung auf fortgeschrittene Probleme der Signalverarbeitung, wie beispielsweise verteilte Kameranetze und radarbasierte Personenidentifikation, demonstriert.

Insbesondere wird ein neues Kriterium zur Cluster-Enumeration, das auf eine breite Klasse von Datenverteilungen anwendbar ist, unter Verwendung des Bayes-Theorems sowie asymptotischer Approximationen hergeleitet. Dies dient als Ausgangspunkt für die Formulierung von Kriterien zur Cluster-Enumeration bei spezifischen Datenverteilungen. In diesem Zusammenhang wird ein Bayes'sches Kriterium zur Cluster-Enumeration hergeleitet, indem die Daten als eine Familie multivariater Gauß-Verteilungen modelliert werden. In der Praxis sind die beobachteten Daten oft starkem Rauschen und Ausreißern ausgesetzt, wodurch die eigentliche Struktur der Daten nur schwer erkennbar ist. Daher ist es schwierig, die Anzahl der Cluster robust zu schätzen. In dieser Arbeit wird ein robustes Kriterium zur Cluster-Enumeration entwickelt, das auf Modellierung der Daten als Familie multivariater t-Verteilungen beruht. Die Familie der t-Verteilungen ist, durch Variation ihres Freiheitsgrads (ν), flexibel und enthält als Sonderfälle die Cauchy-Verteilung mit schweren Rändern für ν = 1 sowie die Gauß-Verteilung für ν → ∞. Unter der Annahme, dass ν hinreichend klein ist, berücksichtigt das robuste Kriterium Ausreißer, indem es ihnen weniger Gewicht in der Zielfunktion gibt. Ein weiterer Beitrag dieser Dissertation liegt in der Weiterentwicklung der Strafterme sowohl des robusten als auch des Gauß'schen Kriteriums für eine endliche Stichprobengröße. Die hergeleiteten Kriterien zur Cluster-Enumeration erfordern einen Clustering-Algorithmus, der die Daten entsprechend der Anzahl der durch jedes potentielle Modell spezifizierten Cluster aufteilt und eine Schätzung der Cluster-Parameter liefert. Hierbei wird eine modellbasierte, unüberwachte Lernmethode angewendet, um die Daten vor der Berechnung eines Enumerationskriteriums zu partitionieren, was zu einem zweistufigen Algorithmus führt. Der vorgeschlagene Algorithmus stellt ein vereinheitlichtes methodisches Rahmenwerk zur Schätzung der Cluster-Anzahl und -Zugehörigkeiten bereit.

Die entwickelten Algorithmen werden auf zwei anspruchsvolle Probleme der Signalverarbeitung angewendet. Im Speziellen werden die Kriterien zur Cluster-Enumeration für die Anwendung in einem verteilten Sensornetz um zwei verteilte und adaptive Bayes'sche Algorithmen zur Cluster-Enumeration erweitert. Die vorgestellten Algorithmen werden auf ein Kameranetz-Szenario angewendet, bei dem die Aufgabe darin besteht, die Anzahl der Fußgänger basierend auf eingehenden Datenströmen zu schätzen. Die Datenströme werden von mehreren Kameras, die eine nicht-stationäre Szene aus verschiedenen Blickwinkeln filmen, aufgenommen. Ein weiterer Forschungsschwerpunkt dieser Dissertation ist die Zuordnung einzelner Datenpunkte zu Clustern und der zugehörigen Cluster-Bezeichnungen unter der Voraussetzung, dass die Anzahl der Cluster entweder vom Anwender vorab festgelegt oder durch eines der zuvor beschriebenen Verfahren geschätzt wird. Die Lösung dieser Aufgabe ist bei einer Vielzahl von Anwendungen, wie z.B. verteilten Sensornetzen und radarbasierter Personenidentifikation erforderlich. Zu diesem Zweck wird ein adaptiver Algorithmus zur gemeinsamen Objektkennzeichnung und -verfolgung vorgeschlagen und auf einen realen Datensatz zur Fußgängerkennzeichnung in einer unkalibierten Mehrobjekt-Mehrkamera-Anordnung mit geringer Videoauflösung und häufigen Objektverdeckungen angewendet. Der vorgeschlagene Algorithmus eignet sich gut für Ad-hoc-Netze, da er weder eine Registrierung der Kameraansichten noch ein Fusionszentrum erfordert. Schließlich wird ein Algorithmus zur gemeinsamen Cluster-Enumeration und -Bezeichnung vorgeschlagen, um das kombinierte Problem der gleichzeitigen Schätzung von Cluster-Anzahl und -Zugehörigkeiten zu lösen. In einer Echtdatenanwendung wird der vorgestellte Algorithmus auf die Personenkennzeichnung anhand von Radar-Daten angewendet, ohne vorherige Informationen über die Anzahl der Personen. Er erreicht eine vergleichbare Leistung wie ein überwachter Ansatz, der Kenntnis über die Anzahl der Personen sowie eine beträchtliche Menge an Trainingsdaten mit bekannten Cluster-Bezeichnungen erfordert. Die vorgeschlagene unüberwachte Methode ist bei der betrachteten Anwendung eines intelligenten, betreuten Wohnens von Vorteil, da sie die fehlenden Informationen aus den Daten extrahiert. Basierend auf diesen Beispielen und unter Berücksichtigung der vergleichsweise niedrigen Rechenkosten kann davon ausgegangen werden, dass die vorgeschlagenen Methoden nützliche Werkzeuge für die robuste Cluster-Analyse mit vielen potenziellen Anwendungsbereichen -- auch außerhalb des Ingenieurwesens -- darstellen.

German

URN:

urn:nbn:de:tuda-tuprints-85393

Classification DDC:

600 Technology, medicine, applied sciences > 620 Engineering and machine engineering

Divisions:

18 Department of Electrical Engineering and Information Technology
18 Department of Electrical Engineering and Information Technology > Institute for Telecommunications
18 Department of Electrical Engineering and Information Technology > Institute for Telecommunications > Signal Processing
Exzellenzinitiative > Graduate Schools > Graduate School of Computational Engineering (CE)

Date Deposited:

19 Mar 2019 10:22

Last Modified:

09 Jul 2020 02:32

URI: