TU Darmstadt / ULB / TUprints

Half-quadratic Inference and Learning for Natural Images

Schmidt, Uwe (2017)
Half-quadratic Inference and Learning for Natural Images.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text
schmidt-phd.pdf
Copyright Information: CC BY-NC-ND 4.0 International - Creative Commons, Attribution NonCommercial, NoDerivs.

Download (14MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Half-quadratic Inference and Learning for Natural Images
Language: English
Referees: Roth, Prof. Dr. Stefan ; Favaro, Prof. Dr. Paolo
Date: 2017
Place of Publication: Darmstadt
Date of oral examination: 16 December 2016
Abstract:

Many problems in computer vision are ill-posed in the sense that there is no unique solution without imposing additional regularization or prior knowledge about the desired result. In this dissertation, we are particularly interested in the restoration of natural images, which aims at recovering a clean image from a corrupted observation, such as an image afflicted by noise or blur.

In a generative approach, it is common to separate modeling of the image prior (regularization term) and the likelihood (data term), where the latter describes the mathematical relationship between the true image and its corrupted observation. By using Bayes' rule, prior and likelihood give rise to the posterior distribution of the restored image, which can then be used to infer the restored image. Alternatively, since prior and likelihood themselves are not actually needed to infer the restored image, the posterior can also be directly modeled in a discriminative approach.

The problem of inference is then to predict a restored image based on the posterior, where it is most common to seek the image with highest posterior probability. Inference typically involves solving an optimization problem of some kind, which can be difficult or slow, especially for non-convex optimization problems which often arise when trying to accurately model image restoration problems. To alleviate this issue, a particular optimization strategy known as half-quadratic (HQ) inference by Geman et al. has proven to be very useful, where the model is first augmented with auxiliary variables. Inference then alternates between updating the restored image and the auxiliary variables, where both of these steps are relatively simple. Half-quadratic inference is a key component for all of the contributions put forward in this dissertation. Therefore, the first contribution is to provide a comprehensive review of HQ inference.

Our second contribution pertains to the issue that the likelihood often hinges on a few parameters (e.g., the strength of assumed image noise), which are specific to the images at hand in a given application. Since these parameters are important but mostly unknown in practice, we address this (often ignored) issue by proposing a sampling-based inference method that allows to estimate such parameters besides the restored image. Half-quadratic inference plays an important role to make our approach practical.

Devising good image priors is often difficult, especially because natural images (and related scene types) have a complex structure. We address this throughout this thesis by using flexible images models based on Markov random fields (MRFs) and (parameter) learning based on example data. However, instead of hoping to learn a model that (approximately) adheres to some known regularities of the data, sometimes it is desirable to explicitly incorporate domain knowledge into the model. As our third contribution, we address this issue by enforcing invariance to linear transformations in a commonly-used class of models. With a focus on rotations, we propose transformation-aware feature learning and demonstrate our learned models in two applications. First, we learn an image prior that enables translation- and rotation-equivariant image denoising. Second, we devise rotation-equi-/invariant image descriptors based on learned rotation-aware features that perform well for rotation-invariant object recognition and detection.

In the following, we revisit and analyze HQ inference and propose an effective discriminative generalization based on a cascade of Gaussian conditional random fields (CRFs). By learning the model and its associated inference algorithm in a single unit, we show that using only few cascade stages yields excellent results in image denoising and deblurring. In particular, we propose the first discriminative non-blind deblurring approach that works for arbitrary images and blurs.

Finally, we address the issue that many low-level vision algorithms cannot be applied to megapixel-sized images. Based on our discriminative generalization of HQ inference, our final contribution is to learn a particularly efficient model and inference combination that can be applied to large images in a very reasonable amount of time, without compromising on the quality of the restored images.

Alternative Abstract:
Alternative AbstractLanguage

Viele Probleme in Computer Vision sind im mathematischen Sinne schlecht gestellt, d.h. es gibt keine eindeutige Lösung ohne das Problem zusätzlich zu regularisieren oder Vorwissen über die gewünschte Lösung einzubringen. Diese Dissertation beschäftigt sich hauptsächlich mit der Restauration von natürlichen Bildern, welche zum Ziel hat, ein fehlerloses Bild von einer fehlerhaften Beobachtung zu gewinnen, zum Beispiel von einem Bild das von Rauschen oder Unschärfe behaftet ist.

In einem generativen Ansatz ist es üblich, die Modellierung der A-priori-Wahrscheinlichkeit des Bildes (Regularisierungs-Term) und der Likelihood (Daten-Term) zu trennen, wobei die letztere den mathematischen Zusammenhang zwischen dem korrekten Bild und seiner fehlerhaften Beobachtung beschreibt. Aufgrund von A-priori-Wahrscheinlichkeit and Likelihood kann mit Hilfe des Satzes von Bayes die A-posteriori-Wahrscheinlichkeit gewonnen werden, aus welcher anschließend das restaurierte Bild geschätzt werden kann. Da A-priori-Wahrscheinlichkeit and Likelihood eigentlich nicht direkt zur Gewinnung des restaurierten Bildes benötigt werden, kann alternativ bei einem diskriminativen Ansatz die A-posteriori-Wahrscheinlichkeit auch direkt modelliert werden.

Das Problem der Inferenz ist nun ein restauriertes Bild mittels der A-posteriori-Wahrscheinlichkeit zu schätzen, wobei es meist üblich ist, das Bild mit der höchsten A-posteriori-Wahrscheinlichkeit zu ermitteln. Inferenz ist typischerweise mit dem Lösen eines Optimierungsproblems verbunden, was sich als schwierig oder langsam herausstellen kann, vor allem für nicht-konvexe Optimierungsprobleme, welche oft bei der sorgfältigen Modellierung von Bildrestaurierungsproblemen auftreten. Um dieses Problem zu mindern hat sich eine gewisse Optimierungsstrategie von Geman et al., bekannt als halb-quadratische (HQ) Inferenz, als besonders nützlich herausgestellt, wobei das Modell zu Beginn mit zusätzlichen Hilfsvariablen ausgestattet wird. Inferenz wird nun durch das alternierende Anpassen des Bildes und der Hilfsvariablen durchgeführt, wobei jeder dieser beiden Schritte relativ einfach durchzuführen ist. Halb-quadratische Inferenz ist eine Kernkomponente für alle in dieser Dissertation vorgestellten wissenschaftlichen Beiträge. Daher ist der erste Beitrag eine umfassende Übersicht zur HQ Inferenz.

Unser zweiter Beitrag betrifft die Tatsache dass die Likelihood oft von einigen Parametern abhängt, welche jedoch spezifisch für die konkreten Bilder in einer gegebenen Anwendung sind. Da diese Parameter wichtig, aber praktisch meist unbekannt sind, adressieren wir dieses (oft ignorierte) Problem durch eine Stichproben-basierte Inferenz-Methode, die es erlaubt, solche Parameter neben dem restaurierten Bild zu schätzen. Halb-quadratische Inferenz spielt dabei eine wichtige Rolle, um unseren Ansatz zweckmäßig zu machen.

Gute A-priori-Wahrscheinlichkeiten für Bilder zu entwickeln ist oft nicht einfach, insbesondere da natürliche Bilder (und ähnliche Arten von Szenen) eine komplexe Struktur besitzen. Wir befassen uns in dieser Arbeit durchgehend mit dieser Problematik, indem wir flexible Bild-Modelle basierend auf Markov random fields (MRFs) und das Lernen von Parametern mittels Beispiel-Daten, verwenden. Anstatt jedoch zu hoffen, dass ein gelerntes Modell gewisse Regularitäten der Daten (approximativ) festhält, ist es manchmal wünschenswert, Domänenwissen explizit in das Modell einfließen zu lassen. Als unseren dritten Beitrag behandeln wir diese Thematik, indem wir Invarianz bezüglich linearen Transformationen in einer oft verwendeten Klasse von Modellen erzwingen. Mit einem Schwerpunkt auf Rotationen, schlagen wir transformations-bewusstes Lernen von Merkmalen vor und demonstrieren unsere gelernten Modelle in zwei Anwendungen. Zuerst lernen wir eine A-priori-Wahrscheinlichkeit von Bildern, welche translations- und rotations-equivariantes Bildentrauschen ermöglicht. Als zweites entwickeln wir rotations-equi-/invariante Bilddeskriptoren basierend auf rotations-bewusst gelernten Merkmalen, welche gute Ergebnisse für rotations-invariante Objekterkennung und -detektion liefern.

Anschließend greifen wir HQ Inferenz wieder auf, durch dessen Analyse wir zu einer effektiven diskriminativen Generalisierung gelangen, die durch eine Kaskade von Gaussian conditional random fields (CRFs) realisiert wird. Indem wir das Modell und den zugehörigen Inferenz-Algorithmus vereinen und gemeinsam lernen, zeigen wir dass nur wenige Stufen einer Kaskade ausreichen, um exzellente Ergebnisse im Entfernen von Bildrauschen und -unschärfe zu erzielen. Konkret entwerfen wir den ersten diskriminativen Ansatz für das nicht-blinde Entfernen von Bildunschärfe, welcher für beliebige Bilder und Unschärfen geeignet ist.

Letztlich widmen wir uns dem Thema, dass viele Algorithmen in "low-level" Computer Vision nicht auf Bilder in Megapixel-Größe anwendbar sind. Basierend auf unserer diskriminativen Generalisierung von HQ Inferenz, ist unserer letzter Beitrag das Lernen einer besonders effizienten Kombination aus Modell und Inferenz, welche auf große Bilder in sehr annehmbarer Zeit angewendet werden kann, ohne dabei die Qualität der restaurierten Bilder zu beeinträchtigen.

German
URN: urn:nbn:de:tuda-tuprints-60448
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Visual Inference
Date Deposited: 17 Mar 2017 14:35
Last Modified: 17 Mar 2017 14:35
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/6044
PPN: 400699486
Export:
Actions (login required)
View Item View Item