TU Darmstadt / ULB / TUprints

Foundations, Inference, and Deconvolution in Image Restoration

Schelten, Kevin (2018)
Foundations, Inference, and Deconvolution in Image Restoration.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text
thesis.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (36MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Foundations, Inference, and Deconvolution in Image Restoration
Language: English
Referees: Roth, Prof. Dr. Stefan ; Nowozin, Dr. Sebastian
Date: 2018
Place of Publication: Darmstadt
Date of oral examination: 22 August 2017
Abstract:

Image restoration is a critical preprocessing step in computer vision, producing images with reduced noise, blur, and pixel defects. This enables precise higher-level reasoning as to the scene content in later stages of the vision pipeline (e.g., object segmentation, detection, recognition, and tracking). Restoration techniques have found extensive usage in a broad range of applications from industry, medicine, astronomy, biology, and photography. The recovery of high-grade results requires models of the image degradation process, giving rise to a class of often heavily underconstrained, inverse problems. A further challenge specific to the problem of blur removal is noise amplification, which may cause strong distortion by ringing artifacts. This dissertation presents new insights and problem solving procedures for three areas of image restoration, namely (1) model foundations, (2) Bayesian inference for high-order Markov random fields (MRFs), and (3) blind image deblurring (deconvolution).

As basic research on model foundations, we contribute to reconciling the perceived differences between probabilistic MRFs on the one hand, and deterministic variational models on the other. To do so, we restrict the variational functional to locally supported finite elements (FE) and integrate over the domain. This yields a sum of terms depending locally on FE basis coefficients, and by identifying the latter with pixels, the terms resolve to MRF potential functions. In contrast with previous literature, we place special emphasis on robust regularizers used commonly in contemporary computer vision. Moreover, we draw samples from the derived models to further demonstrate the probabilistic connection.

Another focal issue is a class of high-order Field of Experts MRFs which are learned generatively from natural image data and yield best quantitative results under Bayesian estimation. This involves minimizing an integral expression, which has no closed form solution in general. However, the MRF class under study has Gaussian mixture potentials, permitting expansion by indicator variables as a technical measure. As approximate inference method, we study Gibbs sampling in the context of non-blind deblurring and obtain excellent results, yet at the cost of high computing effort. In reaction to this, we turn to the mean field algorithm, and show that it scales quadratically in the clique size for a standard restoration setting with linear degradation model. An empirical study of mean field over several restoration scenarios confirms advantageous properties with regard to both image quality and computational runtime.

This dissertation further examines the problem of blind deconvolution, beginning with localized blur from fast moving objects in the scene, or from camera defocus. Forgoing dedicated hardware or user labels, we rely only on the image as input and introduce a latent variable model to explain the non-uniform blur. The inference procedure estimates freely varying kernels and we demonstrate its generality by extensive experiments.

We further present a discriminative method for blind removal of camera shake. In particular, we interleave discriminative non-blind deconvolution steps with kernel estimation and leverage the error cancellation effects of the Regression Tree Field model to attain a deblurring process with tightly linked sequential stages.

Alternative Abstract:
Alternative AbstractLanguage

Bildwiederherstellung ist ein entscheidender Vorverarbeitungsschritt im maschinellen Sehen (Computer Vision), welcher Bilder mit weniger Rauschen, Unschärfe und Pixelfehlern erzeugt. Dies ermöglicht es, präzise Folgerungen über den Bildinhalt auf einer höheren Abstraktionsebene in den späteren Stadien der Vision-Bearbeitungskette zu ziehen (z. B. Objektsegmentierung, -detektion, -erkennung und -verfolgung). Bildwiederherstellungstechniken haben umfangreiche Verwendung in einer breiten Auswahl von Anwendungen aus Industrie, Medizin, Astronomie, Biologie und Fotografie gefunden. Die Berechnung von hochwertigen Ergebnissen erfordert Modelle des Bildverschlechterungsprozesses, die zu einer Klasse von oft stark unterbestimmten, inversen Problemen führen. Eine weitere, für die Entfernung von Unschärfe spezifische Herausforderung, ist die Verstärkung des Rauschens, welche eine schwere Verzerrung durch Wellenartefakte verursachen kann. Die vorliegende Dissertation präsentiert neue Erkenntnisse und Problemlösungsverfahren für drei Bereiche der Bildwiederherstellung, nämlich (1) Modellgrundlagen, (2) Bayessche Inferenz für Markov Random Fields (MRFs) mit hoher Cliquengröße und (3) blinde Bildschärfung (Dekonvolution).

Als Basisforschung zu Modellgrundlagen tragen wir dazu bei, die Unterschiede in der Wahrnehmung von probabilistischen MRFs einerseits und deterministischen Variationsmodellen andererseits auszugleichen. Dazu beschränken wir das Variationsfunktional auf Finite Elemente (FE) mit lokalem Träger und integrieren über den Definitionsbereich. Dies ergibt eine Summe von Termen, die lokal von FE-Basiskoeffizienten abhängen, und indem wir die letzteren mit Pixeln gleichsetzen, lösen sich die Terme zu MRF-Potentialfunktionen auf. Im Gegensatz zur bisherigen Literatur legen wir eine besondere Betonung auf robuste Regularisierungsfunktionen, die in der zeitgenössischen Computer Vision üblich sind. Außerdem erzeugen wir Zufallsstichproben aus den abgeleiteten Modellen, um die probabilistische Verbindung weiter zu belegen.

Ein weiteres Schwerpunktthema ist eine Klasse von Field of Experts MRFs mit hoher Cliquengröße, welche generativ aus natürlichen Bilddaten gelernt sind und quantitativ beste Ergebnisse unter Bayes-Schätzung liefern. Dies beinhaltet die Minimierung eines Integralausdrucks, wozu i.A. keine geschlossene Lösung existiert. Allerdings hat die betrachtete Klasse von MRFs Gaussian Mixture Potentiale, welche eine Erweiterung durch Indikatorvariablen als technische Maßnahme zulassen. Als approximative Inferenzmethode untersuchen wir Gibbs-Sampling im Kontext nicht-blinder Dekonvolution und erhalten exzellente Resultate, jedoch auf Kosten eines hohen Rechenaufwands. Als Reaktion darauf wenden wir uns dem Mean Field Algorithmus zu und zeigen, dass dieser quadratisch in der Cliquengröße skaliert, falls eine in der Bildwiederherstellung übliche Formulierung mit linearem Verschlechterungsmodell zu Grunde liegt. Eine empirische Studie der Mean Field Methode über mehrere Wiederherstellungsszenarien bestätigt die vorteilhaften Eigenschaften in Bezug auf sowohl Bildqualität als auch Rechenzeit.

In dieser Dissertation wird zudem das Problem der blinden Dekonvolution untersucht, beginnend mit lokaler Unschärfe, die durch schnell bewegte Objekte in der Szene, oder durch begrenzte Schärfentiefe verursacht wird. Dabei verzichten wir auf dedizierte Hardware oder Markierungen des Anwenders, verwenden nur das Bild als Eingabe und führen ein mit latenten Variablen versehenes Modell ein, um die nicht einheitliche Unschärfe zu erklären. Der Inferenzprozess schätzt frei variierende Faltungskerne, und wir belegen dessen allgemeine Anwendbarkeit durch umfangreiche Experimente.

Außerdem präsentieren wir eine diskriminative Methode zur blinden Entfernung von Verwacklungsunschärfe. Insbesondere verzahnen wir diskriminative, nicht-blinde Dekonvolutionsschritte mit Faltungskernschätzung und setzen die Fehler ausgleichende Wirkung des Regression Tree Field Modells ein, um einen Dekonvolutionsprozess mit eng verknüpften, sequentiellen Stufen zu gewinnen.

German
URN: urn:nbn:de:tuda-tuprints-74048
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Visual Inference
Date Deposited: 18 May 2018 08:03
Last Modified: 09 Jul 2020 02:06
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/7404
PPN: 431530971
Export:
Actions (login required)
View Item View Item