Multi-Person Pose Tracking Using Dynamically Gated Similarities
Multi-Person Pose Tracking Using Dynamically Gated Similarities
Human pose tracking is a crucial task for many applications, such as human-robot interaction or video surveillance. Most current methods use a tracking-by-detection approach, which has shown to be very successful. These methods either use the location and movement of the detected humans or their visual appearance to track them. In recent years, some models started using heuristic approaches to combine both the pose and the appearance information. Even these newer models are still using fixed weights for these combinations. Therefore, the weights are dataset-dependent and need to be tuned for each dataset. In this thesis, we propose a new model that uses dynamically learned weights to combine the pose, appearance, and or other information. The so-called Dynamically-Gated Similarities (DGS) model is highly modular and customizable. Weights can be used and trained mostly dataset independent. Additionally, the weights are computed individually for every detection, allowing the model to adapt more freely to the current situation. The DGS model is evaluated on the PoseTrack21 and the DanceTrack datasets. The proposed algorithm does not outperform current state-of-the-art models due to the simplicity of the used parts, but it is shown that dynamically learned weights can increase the tracking performance of the basic modules slightly. The implementation and results will be made publicly available at: https://github.com/bmmtstb/dynamically-gated-similarities. The modules are structured in a way that they can be easily replaced by more complex models, which should increase the overall performance of the dynamically gated similarities model. Thus, this thesis only provides a proof of concept and baseline models for the dynamically gated similarities algorithm.
Das Verfolgen von Menschen und deren Körperhaltung ist eine wichtige Aufgabe für viele Anwendungen. Beispiele dafür sind die Mensch-Roboter-Interaktion oder die Videoüberwachung. Viele aktuellen Methoden verwenden den Ansatz erst, in einem separaten Schritt, alle zu verfolgenden Objekte zu erkennen. Dieser Ansatz hat sich als sehr erfolgreich erwiesen. Diese Methoden verwenden zur Verfolgung entweder die Körperhaltung inklusive der Bewegung von erkannten Personen oder ihr visuelles Erscheinungsbild. In den letzten Jahren haben einige Modelle damit begonnen, heuristische Ansätze zu verwenden, um die Informationen über die Körperhaltung mit weiteren Informationen über das Aussehen in einem Modell zu kombinieren. Diese Algorithmen verwendeten bisher meist feste Gewichte für die Kombination. Diese Gewichte sind datensatzabhängig und müssen deshalbmanuell angepasst werden. In dieser Arbeit schlagen wir ein neues Modell vor, das dynamisch gelernte Gewichte verwendet, um die Körperhaltung, das Aussehen und andere Informationen zu kombinieren. Das sogenannte Modell mit dynamisch gesteuerten Ähnlichkeiten (DGS) ist hochgradig modular konzipiert und kann vom Nutzer fast beliebig angepasst werden. Diese Gewichte können weitgehend datensatzunabhängig trainiert und verwendet werden. Da die Gewichte individuell für jede Erkennung berechnet werden, kann sich das Modell dynamisch an die aktuelle Situation anzupassen. Das DGS-Modell wird auf den Datensätzen PoseTrack21und DanceTrack evaluiert. Der vorgeschlagene Algorithmus übertrifft die aktuell besten Modelle, aufgrund der Einfachheit der verwendeten Teile, nicht. Es kann aber gezeigt werden, dass dynamisch gelernte Gewichte die Gesamtleistung der Basismodule leichterhöhen können. Die Implementierung und die Ergebnisse werden unter folgendem Link veröffentlicht: https://github.com/bmmtstb/dynamically-gated-similarities.Die Module sind so aufgebaut, dass sie leicht durch komplexere Modelle ersetzt werden können, was die Gesamtleistung der Modelle erhöhen dürfte. Diese Arbeit liefert daher nur einen Konzeptnachweis und Basismodelle für das DGS-Modell.

