Clustering, classifying and matching patterns with ensemble techniques

Sukhanov, Sergey (2021)
Clustering, classifying and matching patterns with ensemble techniques.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00019897
Ph.D. Thesis, Primary publication, Publisher's Version

Preview

Text
2021-10-25_sukhanov_sergey.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (6MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Clustering, classifying and matching patterns with ensemble techniques

Language:

English

Referees:

Zoubir, Prof. Dr. Abdelhak M. ; Muma, Dr.-Ing. Michael

Date:

2021

Place of Publication:

Darmstadt

Collation:

XI, 128 Seiten

Date of oral examination:

31 May 2021

DOI:

10.26083/tuprints-00019897

Abstract:

This thesis addresses three important general machine learning and signal processing problems: clustering, classification, and pattern matching which arise in many scientific and practical challenges. Despite many solutions proposed throughout the last decade, these problems are still imposing particular difficulties when addressing them: many approaches fail when it comes to the multidimensional nature of signals; some methods are able to operate only with a moderate amount of data due to their intrinsic complexity limitations; the majority of frameworks require hard decisions to be provided with assumptions that might not hold in reality. By leveraging group learning or wisdom of the crowds concepts, this thesis brings in an ensemble learning paradigm in order to solve these fundamental challenges.

The first part of the dissertation addresses the problem of identifying similar groups of objects also known as clustering. While being widely used in many domains, clustering carries several fundamental intrinsic challenges (subjectivity, large parameter set, own assumptions on resulting clusters, etc.) that often hinder satisfactory results. To address these challenges, a novel consensus clustering framework is proposed. Operating on multiple clustering outcomes it provides two scalable ways of approaching the problem. First, by accounting for the drawbacks of the Hamming distance in co-occurrence-based consensus clustering methods the proposed approach offers construction of an expressive distance measure operating with data structures called data fragments. As the result, a novel consensus function is built around this measure based on a hierarchical clustering method demonstrating stable and accurate results. Second, by formulating a consensus clustering problem as a binary matrix factorization problem it allows to efficiently solve it by means of a recursive rank-one binary matrix approximation. This brings descriptive results interpretation suiting large-scale datasets and a high amount of ensemble members.

The second part of the dissertation deals with the classification task that is about deciding for one out of several predefined categories that an object belongs to. We solve high-dimensional remote sensing data fusion problems by formulating them as a classification task and proposing a dynamic classifier and ensemble selection framework. Relying on the multiple classifier systems concept the proposed framework selects and combines competent classifiers from an established ensemble in order to provide reliable and accurate classification. To enable that, a competence estimation and selection methodology is developed.

In the third part of the dissertation, we address the problem of similarity search in data streams that is about finding similar objects (or events) in a real-time stream of data. Due to outliers, noise, and potential distortions in amplitude and time dimensions, it is often challenging to correctly retrieve required patterns from the stream in presence of distortions and outliers. To enable this, we propose a dynamic normalization mechanism that allows bringing streaming signal subsequences to the scale of the query template. Additionally, we extend it for the case when multiple examples of a query template are available allowing for leveraging the wisdom of the crowds concepts in pattern matching settings. This significantly improves pattern retrieval capabilities, especially when sampling variance or time distortions are present.

The proposed contributions for clustering, classification, and pattern matching are studied and validated on artificially generated datasets as well as on the real-world measurement data obtained from open sources or recorded in the laboratory of AGT Group (R&D) GmbH, Darmstadt, Germany. Multiple experiments are conducted to confirm and verify the performance consistency of the proposed methods as well as partly integrated into real-world solutions.

Alternative Abstract:

Alternative Abstract

Language

Diese Arbeit befasst sich mit drei wichtigen allgemeinen Problemen des maschinellen Lernens und der Signalverarbeitung: Clustering, Klassifizierung und Mustervergleich, die bei vielen wissenschaftlichen und praktischen Herausforderungen auftreten. Trotz vieler Lösungen, die im letzten Jahrzehnt vorgeschlagen wurden, sind diese Probleme immer noch mit besonderen Schwierigkeiten verbunden: Viele Ansätze scheitern, wenn es um die Mehrdimensionalität von Signalen geht; Einige Methoden können aufgrund ihrer intrinsischen Komplexitätsbeschränkungen nur mit einer moderaten Datenmenge arbeiten. Bei den meisten Frameworks müssen schwierige Entscheidungen mit Annahmen getroffen werden, die in der Realität möglicherweise nicht zutreffen. Durch die Nutzung des Gruppenlernens oder der Weisheit der Massenkonzepte wird in dieser Arbeit ein Ensemble-Lernparadigma eingeführt, um diese grundlegenden Herausforderungen zu lösen.

Der erste Teil der Dissertation befasst sich mit dem Problem der Identifizierung ähnlicher Objektgruppen, die auch als Clustering bezeichnet werden. Obwohl Clustering in vielen Bereichen weit verbreitet ist, birgt es einige grundlegende intrinsische Herausforderungen (Subjektivität, großer Parametersatz, eigene Annahmen zu resultierenden Clustern usw.), die häufig zufriedenstellende Ergebnisse behindern. Um diesen Herausforderungen zu begegnen, wird ein neuartiges Rahmenwerk für Konsenscluster vorgeschlagen. Es arbeitet mit mehreren Clustering-Ergebnissen und bietet zwei skalierbare Möglichkeiten, um das Problem anzugehen. Erstens bietet der vorgeschlagene Ansatz unter Berücksichtigung der Nachteile der Hamming-Distanz bei auf Koexistenz basierenden Konsensclustering-Methoden die Konstruktion eines aussagekräftigen Distanzmaßes, das mit Datenstrukturen arbeitet, die als Datenfragmente bezeichnet werden. Infolgedessen wird eine neuartige Konsensfunktion um diese Maßnahme herum aufgebaut, die auf einer hierarchischen Clustering-Methode basiert, die stabile und genaue Ergebnisse zeigt. Zweitens ermöglicht es die Formulierung eines Konsens-Clustering-Problems als ein Faktorisierungsproblem der binären Matrix, es effizient mittels einer rekursiven binären Matrix des ersten Ranges zu lösen. Dies bringt eine deskriptive Interpretation der Ergebnisse mit sich, die für große Datensätze und eine große Anzahl von Ensemblemitgliedern geeignet ist.

Der zweite Teil der Dissertation befasst sich mit der Klassifizierungsaufgabe, bei der es darum geht, eine von mehreren vordefinierten Kategorien zu bestimmen, zu denen ein Objekt gehört. Wir lösen hochdimensionale Fernerkundungsdatenfusionsprobleme, indem wir sie als Klassifizierungsaufgabe formulieren und einen dynamischen Klassifikator und ein Ensemble-Auswahlrahmen vorschlagen. Das vorgeschlagene Framework stützt sich auf das Konzept mehrerer Klassifikatorsysteme und wählt kompetente Klassifikatoren aus einem etablierten Ensemble aus und kombiniert sie, um eine zuverlässige und genaue Klassifizierung zu gewährleisten. Um dies zu ermöglichen, wird eine Kompetenzschätzungs- und Auswahlmethode entwickelt.

Im dritten Teil der Dissertation befassen wir uns mit dem Problem der Ähnlichkeitssuche in Datenströmen, bei dem es darum geht, ähnliche Objekte (oder Ereignisse) in einem Echtzeitdatenstrom zu finden. Aufgrund von Ausreißern, Rauschen und möglichen Verzerrungen in Amplituden- und Zeitdimensionen ist es oft schwierig, die erforderlichen Muster korrekt aus dem Stream abzurufen. Um dies zu ermöglichen, schlagen wir einen dynamischen Normalisierungsmechanismus vor, der es ermöglicht, Streaming-Signal-Teilsequenzen auf die Skala der Abfragevorlage zu bringen. Darüber hinaus erweitern wir es für den Fall, dass mehrere Beispiele für eine Abfragevorlage verfügbar sind, mit denen Sie die Weisheit der Crowd-Konzepte in den Einstellungen für den Mustervergleich nutzen können. Dies verbessert die Musterabruffähigkeiten erheblich, insbesondere wenn Stichprobenvarianz oder Zeitverzerrungen vorliegen.

Die vorgeschlagenen Beiträge zur Clusterbildung, Klassifizierung und Mustererkennung werden an künstlich erzeugten Datensätzen sowie anhand realer Messdaten untersucht und validiert, die aus offenen Quellen stammen oder im Labor der AGT Group (R&D) GmbH, Darmstadt, Deutschland, aufgezeichnet wurden. Es werden mehrere Experimente durchgeführt, um die Leistungskonsistenz der vorgeschlagenen Methoden zu bestätigen und zu verifizieren sowie teilweise in reale Lösungen integriert.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-198976

Classification DDC:

600 Technology, medicine, applied sciences > 620 Engineering and machine engineering

Divisions:

18 Department of Electrical Engineering and Information Technology > Institute for Telecommunications > Signal Processing

Date Deposited:

18 Nov 2021 10:34

Last Modified: