Spotting Human Activities and Gestures in Continuous Data Streams

Zinnen, Andreas (2009)
Spotting Human Activities and Gestures in Continuous Data Streams.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

PDF
dissFinal.pdf
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .
Download (7MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Spotting Human Activities and Gestures in Continuous Data Streams

Language:

English

Referees:

Schiele, Prof. Dr. Bernt ; Lukowicz, Prof. Dr. Paul

Date:

3 December 2009

Place of Publication:

Darmstadt

Date of oral examination:

7 July 2009

Abstract:

In this thesis we use algorithms on data from body-worn sensors to detect physical gestures and activities. While gesture recognition is a promising and upcoming alternative to explicitly interact with computers in a mobile setting, the user’s activity is considered an important part of his/her context which can help computer applications adapt automatically to the user’s situation. Numerous context-aware applications can be found ranging from industrial to medical to educational domains. A particular emphasis of this thesis is the recognition of short activities or quick actions, which often occur amid large quantities of irrelevant data. Embedded in different application scenarios, we focus on four challenges in gesture and activity recognition: multiple types and diversity of activities, high variance in performance and user independence, continuous data stream with large background and finally activity recognition on different levels. We make several contributions to overcome these challenges. We start with a method for activity recognition using short fixed positions of the wrist to extract activities from a continuous data stream. Postures are used to recognize short activities in continuous recordings. In order to evaluate the distinctiveness of gestures in continuous recordings of gestures in daily life, we present a new approach for the important and challenging problem of user-independent gesture recognition. Beyond the recognition aspects, we pay particular attention to the social acceptability of the evaluated gestures. We performed user interviews in order to find adequate control gestures for five scenarios. Activity recognition is typically challenged by spotting a large number of activities amid irrelevant data in a user-independent manner. We present a model-based approach using joint boosting to enable the automatic discovery of important high-level primitives that are derived from the human body-model. Subsequently, we systematically analyze the benefit of body-model derived primitives in different sensor settings for multi activity recognition. Furthermore, we propose a new body-model based approach using accelerometer sensors thereby reducing the sensor requirements significantly. The proposed methods to recognize ‘atomic’ activities such as drilling, handshaking, or walking do not scale well for high-level tasks composed of multiple activities. A prohibitive amount of training would be required to cover the high variability and the large number of possibilities to execute high-level tasks. To this end, an approach considering temporal constraints encoded in UML diagrams enables a reliable recognition of composed activities or high-level tasks without requiring large amounts of training data. We show the validity of the approach by introducing a realistic and challenging data set.

Alternative Abstract:

Alternative Abstract

Language

In dieser Arbeit verwenden wir Algorithmen, um in den Daten tragbarer Sensoren physische Gesten und Aktivitäten zu erkennen. Während Gestenerkennung eine viel versprechende Alternative zur expliziten Interaktion mit dem Computer in mobilen Szenarien ist, kann die Aktivität eines Benutzers als wichtiger Teil seines Kontextes berücksichtigt werden, um Computer-Anwendungen automatisch an die Situation des Benutzers anzupassen. Für die automatische Erkennung von Kontext existieren eine Vielzahl von Einsatzfeldern, beispielsweise im industriellen, medizinischen oder pädagogischen Bereich. Diese Arbeit setzt den Schwerpunkt auf die Erkennung von kurzen und schnellen Aktivitäten, die nicht selten inmitten großer Mengen irrelevanter Daten auftreten. Eingebettet in unterschiedliche Anwendungsszenarien konzentrieren wir uns auf vier Herausforderungen bei der Erkennung von Gesten und Aktivitäten: Erstens eine Vielzahl unterschiedlicher Aktivitäten; zweitens eine hohe Varianz in der Ausführung sowie die Unabhängigkeit vom Benutzer; drittens eine Erkennung im kontinuierlichen Datenstrom inmitten von Hintergrunddaten; und schließlich das Erkennen von Aktivitäten auf verschiedenen Ebenen. Um sich den Herausforderungen zu stellen, leistet diese Arbeit mehrere Beiträge: Wir beginnen mit einer Methode, die kurze feste Positionen des Handgelenks berücksichtigt, um Aktivitäten in einem kontinuierlichen Datenstrom zu segmentieren. Zur Beurteilung, in wieweit sich explizite Gesten von alltäglichen Gesten unterscheiden, präsentieren wir einen neuen Ansatz, der das wichtige und schwierige Problem der Benutzer-unabhängigen Gestenerkennung addressiert. Neben technischen Aspekten der Erkennung legen wir besonderen Wert auf die soziale Akzeptanz der bewerteten Gesten. Dazu haben wir Interviews durchgeführt, um Benutzer über passende explizite Gesten in fünf unterschiedliche Szenarien zu befragen. Typischerweise sind vielfältige Aktivitäten inmitten irrelevanter Daten sowie eine Unabhängigkeit vom Benutzer große Herausforderungen bei der Erkennung von Aktivitäten. Wir stellen einen Modell-basierten Ansatz vor, bei dem Joint Boosting automatisch aus einem Körper-Modell abgeleitete Bewegungs-Primitive erkennt. Anschließend analysieren wir systematisch den Nutzen unseres Ansatzes für eine Erkennung von Aktivitäten unter Berücksichtigung verschiedener Sensor-Konfigurationen. Außerdem schlagen wir ein neues Körper-Modell vor, das ausschließlich auf Daten von Beschleunigungssensoren basiert und somit die Anforderungen an die Sensoren deutlich verringert. Die vorgeschlagenen Methoden zur Erkennung von atomaren Aktivitäten wie Bohren, Hände Schütteln oder Gehen eignen sich schlecht für die Erkennung von höherwertigen Aufgaben, die aus mehreren Aktivitäten zusammengesetzt sein können. Viele Trainingsdaten wären notwendig, um die hohe Variabilität sowie die große Zahl der Möglichkeiten bei der Ausführung von höherwertigen Aufgaben abzudecken. Zu diesem Zweck stellen wir einen Ansatz vor, der zeitliche Einschränkungen in UML-Diagrammen berücksichtigt und damit eine zuverlässige Erkennung von höherwertigen Aufgaben mit weniger Trainingsdaten ermöglicht. Wir zeigen die Stärken unseres Ansatzes auf einem neuen Datensatz mit realistischen und anspruchsvollen Daten.

German

Uncontrolled Keywords:

Gesture and Activity Recognition, Machine Learning, Joint Boosting, Ubiquitous Computing

Alternative keywords: