TU Darmstadt / ULB / TUprints

Automation for camera-only 6D object detection

Rojtberg, Pavel (2021)
Automation for camera-only 6D object detection.
Technische Universität
doi: 10.26083/tuprints-00017606
Ph.D. Thesis, Primary publication, Publisher's Version

[img]
Preview
Text
TUDthesis.pdf
Copyright Information: CC BY-NC-ND 4.0 International - Creative Commons, Attribution NonCommercial, NoDerivs.

Download (23MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Automation for camera-only 6D object detection
Language: English
Referees: Kuijper, Prof. Dr. Arjan ; Fellner, Prof. Dr. Dieter W. ; Stricker, Prof. Dr. Didier
Date: 2021
Place of Publication: Darmstadt
Collation: iv, 116 Seiten
Date of oral examination: 21 April 2021
DOI: 10.26083/tuprints-00017606
Abstract:

Today a widespread deployment of Augmented Reality (AR) systems is only possible by means of computer vision frameworks like ARKit and ARCore, which abstract from specific devices, yet restrict the set of devices to the respective vendor. This thesis therefore investigates how to allow deploying AR systems to any device with an attached camera.

One crucial part of an AR system is the detection of arbitrary objects in the camera frame and naturally accompanying the estimation of their 6D-pose. This increases the degree of scene understanding that AR applications require for placing augmentations in the real world. Currently, this is limited by a coarse segmentation of the scene into planes as provided by the aforementioned frameworks. Being able to reliably detect individual objects, allows attaching specific augmentations as required by e.g. AR maintenance applications. For this, we employ convolutional neural networks (CNNs) to estimate the 6D-pose of all visible objects from a single RGB image. Here, the addressed challenge is the automated training of the respective CNN models, given only the CAD geometry of the target object. First, we look at reconstructing the missing surface data in real-time before we turn to the more general problem of bridging the domain gap between the non-photorealistic representation and the real world appearance. To this end, we build upon generative adversarial network (GAN) models to formulate the domain gap as an unsupervised learning problem. Our evaluation shows an improvement in model performance, while providing a simplified handling compared to alternative solutions.

Furthermore, the calibration data of the used camera must be known for precise pose estimation. This data, again, is only available for the restricted set of devices, that the proprietary frameworks support. To lift this restriction, we propose a web-based camera calibration service that not only aggregates calibration data, but also guides users in the calibration of new cameras. Here, we first present a novel calibration-pose selection framework that reduces the number of required calibration images by 30% compared to existing solutions, while ensuring a repeatable and reliable calibration outcome. Then, we present an evaluation of different user-guidance strategies, which allows choosing a setting suitable for most users. This enables even novice users to perform a precise camera calibration in about 2 minutes. Finally, we propose an efficient client-server architecture to deploy the aforementioned guidance on the web, making it available to the widest possible range of devices. This service is not restricted to AR systems, but allows the general deployment of computer vision algorithms on the web that rely on camera calibration data, which was previously not possible.

These elements combined, allow a semi-automatic deployment of AR systems with any camera to detect any object.

Alternative Abstract:
Alternative AbstractLanguage

Heutzutage ist eine allgemeine Bereitstellung von Augmented Reality (AR) Systemen nur mithilfe Computer Vision Frameworks wie ARKit und ARCore möglich, welche von spezifischen Endgeräten abstrahieren, allerdings gleichzeitig die Auswahl auf den jeweiligen Hersteller einschränken. In dieser Arbeit wird daher untersucht, wie die Bereitstellung von AR-Systemen auf jedem Gerät mit angeschlossener Kamera ermöglicht werden kann.

Ein entscheidender Teil eines AR-Systems ist die Detektion von beliebigen Objekten im Kamerabild und damit einhergehend die Schätzung ihrer 6D-Pose. Dies ist notwendig, um das Verständnis der Szene zu verbessern, welches AR-Anwendungen erfordern, um Augmentierungen in der realen Welt zu platzieren. Derzeit ist dies durch eine grobe Segmentierung der Szene in Ebenen begrenzt, welche durch die oben genannten Frameworks bereitgestellt wird. Einzelne Objekte zuverlässig erkennen zu können, ermöglicht es spezifische Augmentierungen anzubringen, was z.B. bei AR-Wartungsanwendungen notwendig ist. Hierzu verwenden wir Convolutional Neural Networks (CNNs), um die 6D-Pose aller sichtbaren Objekte aus einem einzigen RGB-Bild abzuleiten. Hierbei behandeln wir das Problem des automatisierten Trainings der jeweiligen CNN-Modelle, nur ausgehend von der CAD-Geometrie des Zielobjekts. Zunächst betrachten wir die Rekonstruktion der fehlenden Oberflächendaten in Echtzeit, bevor wir uns dem allgemeineren Problem der Überbrückung der „Domänen-Diskrepanz“ zwischen der nicht fotorealistischen Darstellung und dem Erscheinungsbild in der realen Welt zuwenden. Zu diesem Zweck bauen wir auf generativen CNN-Modellen (Generative Adversarial Network) auf, um die „Domänen-Diskrepanz“ als unbeaufsichtigtes Lernproblem zu formulieren. Unsere Auswertung zeigt eine Verbesserung der Modellleistung bei vereinfachter Handhabung gegenüber vergleichbaren Lösungen.

Weiterhin müssen die Kalibrierungsdaten der verwendeten Kamera bekannt sein, um eine genaue Posenschätzung zu erzielen. Diese Daten sind aber wiederum nur für die firmeneigenen Geräten der jeweiligen Frameworks verfügbar. Um diese Einschränkung aufzuheben, schlagen wir einen webbasierten Kamerakalibrierungsdienst vor, welcher nicht nur Kalibrierungsdaten aggregiert, sondern auch Benutzer bei der Kalibrierung neuer Kameras unterstützt. Hierfür stellen wir zunächst ein neuartiges Framework für die Auswahl von Kalibrierungsposen vor, welches die Anzahl der erforderlichen Kalibrierungsbilder im Vergleich zu vorhandenen Lösungen um 30% reduziert und gleichzeitig ein wiederholbares und zuverlässiges Kalibrierungsergebnis gewährleistet. Anschließend präsentieren wir eine Auswertung verschiedener Benutzerführungsstrategien, anhand derer eine für die meisten Benutzer geeignete Einstellung ausgewählt werden kann. Auf diese Weise können auch unerfahrene Benutzer in ca. 2 Minuten eine präzise Kamerakalibrierung durchführen. Schließlich schlagen wir eine effiziente Client-Server-Architektur vor, um die oben genannten Benutzerführung im Web bereitzustellen und sie einer möglichst breiten Palette von Geräten zur Verfügung zu stellen. Dieser Dienst ist nicht auf AR-Systeme beschränkt, sondern ermöglicht die allgemeine Bereitstellung von Computer-Vision-Algorithmen im Web, welche Kamerakalibrierungsdaten benötigen, was bisher nicht möglich war.

Diese Elemente zusammen ermöglichen eine halbautomatische Bereitstellung von AR-Systemen welche auf beliebigen Kameras, beliebige Objekte erkennen können.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-176062
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Interactive Graphics Systems
20 Department of Computer Science > Fraunhofer IGD
Date Deposited: 01 Jun 2021 07:37
Last Modified: 01 Jun 2021 07:37
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/17606
PPN: 480307725
Export:
Actions (login required)
View Item View Item