TU Darmstadt / ULB / TUprints

Multi-Scale Surface Reconstruction from Images

Klowsky, Ronny (2014)
Multi-Scale Surface Reconstruction from Images.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text
main.pdf
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .

Download (38MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Multi-Scale Surface Reconstruction from Images
Language: English
Referees: Goesele, Prof. Michael ; Kobbelt, Prof. Leif
Date: 2014
Place of Publication: Darmstadt
Date of oral examination: 30 September 2013
Abstract:

Many surface reconstruction algorithms have been developed to process point data originating from laser scans. Because laser scanning is a very expensive technique and not available to everyone, 3D reconstruction from images (using, e.g., multi-view stereo) is a promising alternative. In recent years a lot of progress has been made in the computer vision domain and nowadays algorithms are capable of reconstructing large 3D scenes from consumer photographs. Whereas laser scans are very controlled and typically only a few scans are taken, images may be subject to more uncontrolled variations. Standard multi-view stereo algorithms give rise to multi-scale data points due to different camera resolutions, focal lengths, or various distances to the object. When reconstructing a surface from this data, the multi-scale property has to be taken into account because the assumption that the points are samples from the true surface might be violated. This thesis presents two surface reconstruction algorithms that take resolution and scale differences into account. In the first approach we model the uncertainty of each sample point according to its footprint, the surface area that was taken into account during multi-view stereo. With an adaptive volumetric resolution, also steered by the footprints of the sample points, we achieve detailed reconstructions even for large-scale scenes. Then, a general wavelet-based surface reconstruction framework is presented. The multi-scale sample points are characterized by a convolution kernel and the points are fused in frequency space while preserving locality. We suggest a specific implementation for 2.5D surfaces that incorporates our theoretic findings about sample points originating from multi-view stereo and shows promising results on real-world data sets. The other part of the thesis analyzes the scale characteristics of patch-based depth reconstruction as used in many (multi-view) stereo techniques. It is driven by the question how the reconstruction preserves surface details or high frequencies. We introduce an intuitive model for the reconstruction process, prove that it yields a linear system and determine the modulation transfer function. This allows us to predict the amplitude loss of high frequencies in connection with the used patch-size and the internal and external camera parameters. Experiments on synthetic and real-world data demonstrate the accuracy of our model but also show the limitations. Finally, we propose a generalization of the model allowing for weighted patch fitting. The reconstructed points can then be described by a convolution of the original surface and we show how weighting the pixels during photo-consistency optimization affects the smoothing kernel. In this way we are able to connect a standard notion of smoothing to multi-view stereo reconstruction. In summary, this thesis provides a profound analysis of patch-based (multi-view) stereo reconstruction and introduces new concepts for surface reconstruction from the resulting multi-scale sample points.

Alternative Abstract:
Alternative AbstractLanguage

Viele Oberflächenrekonstruktions-Algorithmen wurden für Punktdaten entwickelt, die bei der Verwendung von Laserscannern entstehen. Da die Technik des Laserscannings sehr teuer und nicht für jedermann verfügbar ist, erscheint die 3D-Rekonstruktion aus Bildern als eine vielversprechende Alternative. In den letzten Jahren konnten auf dem Gebiet der Computer Vision viele Fortschritte erzielt werden und heutige Algorithmen sind in der Lage, große Szenen aus Fotos von Normalverbrauchern zu rekonstruieren. Während Laserscans sehr gezielt durchgeführt werden und typischerweise nur wenige Aufnahmen notwendig sind, können Bilder sehr viel unterschiedlicher sein. Verschiedene Bildauflösungen, Brennweiten oder Entfernungen zum Objekt führen mit üblichen Multi-view Stereo Methoden zu Punkten mit multiplen Skalen. Ein Algorithmus zur Oberflächenrekonstruktion aus diesen Daten sollte die verschiedenen Skalen berücksichtigen, denn die übliche Annahme, dass die Punkte von der unbekannten Oberfläche gesampelt sind, könnte verletzt sein. In dieser Arbeit werden zwei neue Algorithmen zur Oberflächenrekonstruktion vorgestellt, die Unterschiede in der Auflösung und verschiedene Skalen mit einbeziehen. Der erste Ansatz modelliert die Ungenauigkeit der Punkte in Abhängigkeit von ihrem Footprint, das ist der Teil der Oberfläche der zur Rekonstruktion dieses Punktes durch Multi-view Stereo in Betracht gezogen wurde. Durch eine adaptive räumliche Auflösung, die ebenfalls durch den Footprint gesteuert wird, erzielen wir auch für große Szenen detaillierte Rekonstruktionen. Als Zweites wird ein Wavelet-basiertes Framework zur Oberflächenrekonstruktion vorgestellt. Die Punkte auf multiplen Skalen werden durch Faltungskernel charakterisiert und im Frequenzraum vereinigt, wobei die Lokalität beachtet wird. Wir stellen eine konkrete Implementierung für 2,5D Oberflächen vor, die unsere theoretischen Erkenntnisse über Multi-view Stereo Punkte einbezieht und vielversprechende Ergebnisse auf realen Daten erzielt. Der andere Teil dieser Dissertation analysiert die Skalen-Charakteristik von Patch-basierter Tiefenrekonstruktion, wie sie von Multi-view Stereo Verfahren verwendet wird. Wir gehen dabei der Frage nach, inwieweit Oberflächendetails oder hohe Frequenzen durch die Multi-view Stereo Rekonstruktion erhalten bleiben. Wir verwenden dazu ein intuitives Modell, das den Rekonstruktionsprozess abbildet, weisen nach, dass es sich um ein lineares System handelt und bestimmen die Modulationsübertragungsfunktion. Diese erlaubt uns vorherzusagen, wie sich die Amplitude von hohen Frequenzen in Abhängigkeit von der verwendeten Patchgröße und den externen und internen Kameraparametern verringert. Experimente auf synthetischen und realen Daten demonstrieren die Genauigkeit unseres Modells, zeigen aber auch die Grenzen auf. Wir erweitern anschließend das Modell, um auch gewichtetes Patch Fitting abbilden zu können. Die rekonstruierten Punkte können mithilfe einer Faltung der ursprünglichen Oberfläche beschrieben werden und wir zeigen den Zusammenhang zwischen der gewichteten Photokonsistenz-Optimierung und dem Filterkern. Damit verknüpfen wir die Multi-Skalen Rekonstruktion mit der üblichen Vorstellung einer Glättung. Die vorgelegte Arbeit enthält damit eine fundierte Analyse von Patch-basierten (Multi-View) Stereo Rekonstruktionsverfahren und offeriert neue Konzepte zur Oberflächenrekonstruktion aus den resultierenden Multi-Skalen Punktdaten.

German
URN: urn:nbn:de:tuda-tuprints-37732
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Graphics, Capture and Massively Parallel Computing
20 Department of Computer Science > Interactive Graphics Systems
Date Deposited: 08 Apr 2014 09:02
Last Modified: 26 May 2023 07:31
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/3773
PPN: 338811346
Export:
Actions (login required)
View Item View Item