TU Darmstadt / ULB / TUprints

Detection, Tracking and Pose Estimation of People in Challenging Real-World Scenes

Andriluka, Mykhaylo (2011)
Detection, Tracking and Pose Estimation of People in Challenging Real-World Scenes.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
PDF
dis_andriluka_tuprints_v1.pdf
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .

Download (11MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Detection, Tracking and Pose Estimation of People in Challenging Real-World Scenes
Language: English
Referees: Roth, Prof. Stefan ; Huttenlocher, Prof. Daniel ; Schiele, Prof. Bernt
Date: 19 October 2011
Place of Publication: Darmstadt
Date of oral examination: 22 October 2010
Abstract:

In this thesis, we consider three challenging and longstanding problems in computer vision: people detection, people tracking and articulated pose estimation. Generic solutions to these problems are essential building blocks for understanding images containing people, an exciting and challenging task with numerous applications in automotive safety, robotic navigation, human-computer interaction, and automatic image indexing and retrieval. Indeed, human actions, intentions and emotions can often be inferred from accurate estimates of human body poses and their movement over time. However, untill recently, accurate estimation of body poses has been possible only in controlled laboratory conditions, typically requiring multiple cameras and specialized motion capture equipment. In order to address this shortcoming, we propose algorithms capable of automatically finding people in uncontrolled outdoor environments, tracking them over time and estimating their body configurations. In the process, we also tackle several important technical challenges, including the large appearance variability of humans, the full and partial occlusions that frequently occur in typical street scenes, and ambiguities in 2D to 3D lifting and data association.

Humans appear in images wearing a large variety of clothing, in a large number of possible body poses and visible from various viewpoints. Jointly, these factors create very complex appearance patterns that are hard to model and detect well. In order to deal with the large appearance variability, we propose an approach based on the pictorial structures paradigm in which we represent the human body as a flexible configuration of rigid body parts and model the appearance of each body part using local image descriptors and discriminative classifiers. We demonstrate the generality of our approach by successfully applying it to various human detection and pose estimation problems.

One of the goals of this work is to demonstrate the advantages of a tight coupling of people detection, pose estimation and tracking. Tracking of people in uncontrolled conditions is difficult not only due to appearance variability, but also to frequent full and partial occlusions, which often happen when multiple people are present in the scene. Presence of multiple people also severely complicates data association between frames of the sequence. In order to address this challenge, we propose a tracking-by-detection framework that combines evidence from single-frame detections over several subsequent frames using a dynamical model of body articulations. We demonstrate the effectiveness of our tracking-by-detection approach by applying it to the problem of monocular 3D pose estimation of people in uncontrolled street environments.

Alternative Abstract:
Alternative AbstractLanguage

In dieser Dissertation untersuchen wir drei komplexe und zusammenhängende Fragestellungen aus dem Bereich des maschinellen Sehens: Menschenerkennung, Menschen-Tracking, und Posenschätzung. Generische Lösungen für diese Aufgaben sind wichtige Bausteine für das automatische Bildverstehen und haben viele Anwendungen in der Automobilindustrie, Roboter Navigation, Mensch-Maschiene Interaktion, Bild Indizierung und Retrieval. In der tat, ist es in vielen Fällen möglich die Posen und Bewegungen von Menschen zu verwenden um auf die Aktivitäten, Intentionen und Emotionen von Menschen Rückschlüsse zu ziehen. Allerdings war das präzise Schätzen von menschlichen Posen bisher nur unter kontrollierten Labor-Bedingungen möglich, und erforderte den Einsatz mehrerer Kameras und spezieller Ausrüstung. Um diesen Mangel zu beheben, schlagen wir in dieser Arbeit Algorithmen vor, die es erlauben die Menschen unter unkontrollierten Bedingungen zu erkennen, über die Zeit zu verfolgen und ihre Posen zu schätzen. Dabei befassen wir uns mit solchen wichtigen technischen Herausforderungen wie grosse Variabilität im Aussehen von Menschen, volle und partielle Verdeckungen und Mehrdeutigkeiten in der Daten-Assoziierung und 3D Rekonstruktion.

Menschen erscheinen in Bildern in unterschiedlicher Bekleidung, nehmen unterschiedliche Posen an, und können aus unterschiedlichen Bildwinkeln dargestellt werden. Gemeinsam tragen diese Faktoren dazu bei, dass daraus resultierende Muster schwer zu repräsentieren und zu erkennen sind. Um mit solche grosser Variabilität umgehen zu können, schlagen wir den Ansatz, der auf dem ``pictorial structures'' Modell basiert und in dem der menschliche Körper durch eine flexible Konfiguration aus den starren Körperteilen repräsentiert wird vor. Dabei modellieren wir das Aussehen jedes Körperteils mit Hilfe von lokalen Discriptoren und diskriminiativen Klassifikatoren. Wir demonstrieren die Allgemeinheit unseres Ansatzes, indem wir ihn erfolgreich auf unterschiedliche Aufgaben in der Menschenerkennung und Posenschätzung anwenden.

Eines der wichtigen Ziele dieser Arbeit ist, die Vorteile von enger Kopplung zwischen Menschenerkennung, Tracking und Posenschätzung zu demonstrieren. Tracking von Menschen unter unkontrollierten Bedingungen ist nicht nur wegen der komplexen visuellen Muster schwer, sondern auch wegen häufiger voller und partieller Verdeckungen. Die Präsenz von mehreren Leuten in einer Szene macht es auch schwierig die Hypothesen zwischen einzelnen Bildern zu assoziieren. Um dieser Herausforderung zu begegnen, schlagen wir den ``tracking-by-detection'' Ansatz vor, in dem die Beobachtungen über mehrere einzelne Bilder anhand des dynamischen Körpermodells kombiniert und verfeinert werden. Um die Effektivität unseres ``tracking-by-detection'' Ansatzes zu demonstrieren wenden wir Ihn auf das Problem der monokularer 3D Posenschätzung von mehreren Menschen in unkontrollierten Strassenbedingungen an.

German
Uncontrolled Keywords: Bildverarbeitung, Menschenerkennung, Haltungsschätzung
Alternative keywords:
Alternative keywordsLanguage
computer vision, people detection, articulated pose estimationEnglish
URN: urn:nbn:de:tuda-tuprints-27636
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science
Date Deposited: 19 Oct 2011 14:58
Last Modified: 25 Jan 2024 12:44
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/2763
PPN: 386245363
Export:
Actions (login required)
View Item View Item