Die Regelung von Daten: Eine Idee zur Clusteranalyse von vernetzten Datenbeständen
Die Regelung von Daten: Eine Idee zur Clusteranalyse von vernetzten Datenbeständen
Der Beitrag befasst sich mit der Frage, wie die Clusteranalyse von dezentral abgelegten vernetzten Datenbeständen sowohl im Bezug auf die Konvergenzgeschwindigkeit als auch auf die zu erreichende Güte der Datenzerlegung verbessert werden kann. Dazu wird die Idee der Regelung von Daten über einen Datenregler vorgestellt. Für das K-means Clusteringverfahren wird ein beweisbar konvergenter Datenregler entworfen und anhand eines umfangreichen Benchmarks evaluiert. Des Weiteren wird eine Matrix zur Beschreibung von Zugehörigkeitsübergängen von Clusterdynamiken eingeführt und die Verwandtschaft des Datenreglers zu Kernelmethoden aufgezeigt. Außerdem wird die Beziehung zwischen dem Datenregler und Consensusdynamiken für Multi-AgentenSysteme hergestellt. Damit ist das vorgestellte Verfahren verteilt implementierbar und auf große dezentral abgelegte Datenmengen anwendbar.
This paper deals with the question how clustering of decentrally stored and networked data can be improved in matters of convergence speed and the clustering performance via the influence of data points using a new data controller. For the K-means clustering algorithm a provably convergent data controller is designed and evaluated on a comprehensive benchmark. Further on, a matrix to describe assignment changes along the clustering iterations is introduced and the affinity of controlling data and kernel methods is shown. In addition, the relation between the designed data controller and the consensus protocol for multi-agent-systems is presented. This shows, that the proposed method can be implemented distributively and be applied to decentrally stored big data.
