Pose Estimation and Loop Closing from Video Data

Konrad, Stepan (2014)
Pose Estimation and Loop Closing from Video Data.
Technische Universität Darmstadt
Bachelor Thesis, Primary publication

Preview

Text
thesis.pdf - Accepted Version
Copyright Information: CC BY 3.0 Unported - Creative Commons, Attribution.
Download (8MB) | Preview

Item Type:

Bachelor Thesis

Type of entry:

Primary publication

Title:

Pose Estimation and Loop Closing from Video Data

Language:

English

Referees:

Goesele, Prof. Michael ; Fuhrmann, Dr.-Ing. Simon

Date:

November 2014

Place of Publication:

Darmstadt

Date of oral examination:

23 January 2015

Abstract:

In robotics the simultaneous localisation and mapping (SLAM) algorithms are a well studied approach to estimate the position of a robot vehicle while creating a map of the surrounding. The majority of these algorithms use odometry or GPS sensors to cope with large outdoor trajectories. From a similar point of view the computer vision community uses structure from motion (SfM) algorithms to estimate accurate camera poses of an unconstrained image data set. In the past few years the video resolution of consumer cameras has reached a level where it becomes attractive for research purposes as input to these algorithms.

The goal of this thesis is to adapt an SfM approach to use this video data. However there are two main problems: The approach has to handle a large number of input frames efficiently while still detecting similar previously seen locations (loops) of the input data without performing an exhaustive matching of all image pairs. This thesis presents an approach using a vocabulary tree guided matching scheme which solves this problem. Performance is compared to exhaustive matching on different input scenes.

However, this is still not sufficient to reconstruct large datasets that contain loop closures in the camera path. Due to the incremental manner of the majority of SfM algorithms, drifts occur during the estimation of camera poses. In this thesis different solutions to this problems are discussed. One specific solution using a global bundle adjustment with additional loop closing constraints is demonstrated on a large outdoor scene containing multiple loops.

Alternative Abstract:

Alternative Abstract

Language

Simultaneous Localisation and Mapping (SLAM) ist ein gründlich untersuchtes Forschungsfeld der Robotik um gleichzeitig die Position eines Roboters zu bestimmen und die Umgebung zu kartographieren. Die Mehrheit dieser Algorithmen nutzt zusätzlich GPS oder Odometriedaten um längere Außenaufnahmen verarbeiten zu können. Von einem ähnlichen Standpunkt aus wird in der Computer Vision Gemeinschaft ein Algorithmus namens Structure from Motion (SfM) benutzt, um akkurate Kamerapositionen von einem beliebigen Bilddatensatz zu estimieren. In den letzten Jahren wurde die Videoauflösung von handelsüblichen Kameras so gut, dass diese Videodaten als Eingabe für diese Algorithmen genutzt werden konnten.

Das Ziel dieser Arbeit ist es, ein SfM Verfahren so anzupassen, dass es diese Videodaten verarbeiten kann. Dabei entstehen zwei Probleme: Der Ansatz muss eine große Anzahl von Eingabebildern effizient verarbeiten können und trotzdem ähnliche, bereits gesehene Orte in den Eingabedaten erkennen können. Dies muss möglich sein, ohne ein vollständiges Vergleichen (Exhaustive Matching) aller Bildpaare durchzuführen. Diese Arbeit prästentiert einen Ansatz, der das Matching mit einem sog. Vocabulary Tree beschleunigt. Die Geschwindigkeitsvorteil gegenüber dem Exhaustive Matching wird an verschiedenen Szenen präsentiert.

Dies allein reicht jedoch nicht aus, um große Datensätze, die Schleifen in dem Kamerapfad enthalten, rekonstruieren zu können. Da die Mehrheit der SfM Algorithmen inkrementell arbeitet, treten Drifts während der Rekonstruktion der Kamerapositionen auf. In dieser Arbeit werden verschiedene Lösungsansätze vorgestellt. Eine Lösung, die eine Bündelblockausgleichung mit zusätzlichen Nebenbedingungen zum Schließen von Schleifen nutzt, wird an einem großen außen aufgenommenen Datensatz mit mehreren Schleifen demonstriert.

German

Uncontrolled Keywords:

Pose estimation, Structure from Motion, SfM, 3D Scene reconstruction, Optimization, Loop Closing

URN:

urn:nbn:de:tuda-tuprints-53940

Divisions:

20 Department of Computer Science > Graphics, Capture and Massively Parallel Computing

Date Deposited:

10 Jun 2016 12:27

Last Modified:

23 Jun 2017 08:51

URI: