TU Darmstadt / ULB / TUprints

Probabilistic Optical Flow and its Image-Adaptive Refinement

Wannenwetsch, Anne Sabine (2021)
Probabilistic Optical Flow and its Image-Adaptive Refinement.
Technische Universität
doi: 10.26083/tuprints-00019455
Ph.D. Thesis, Primary publication, Publisher's Version

[img]
Preview
Text
Wannenwetsch_PhD_thesis.pdf
Copyright Information: CC BY-NC-SA 4.0 International - Creative Commons, Attribution NonCommercial, ShareAlike.

Download (32MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Probabilistic Optical Flow and its Image-Adaptive Refinement
Language: English
Referees: Roth, Prof. Ph.D Stefan ; Brox, Prof. Dr. Thomas
Date: 2021
Place of Publication: Darmstadt
Collation: xi, 127 Seiten
Date of oral examination: 29 January 2021
DOI: 10.26083/tuprints-00019455
Abstract:

Optical flow estimation, i.e. the prediction of motion in an image sequence, is an essential problem in low-level computer vision. Optical flow serves particularly as an input for many other tasks such as navigation, object tracking, or image registration. In the estimation of flow fields, certain image regions are particularly challenging due to task-inherent difficulties such as illumination changes and occlusions as well as common prediction mistakes, e.g. for large displacements or near motion boundaries. Therefore, the reliability of optical flow estimates varies heavily across the image domain.

The first part of this thesis thus focuses on probabilistic optical flow methods, which predict a posterior distribution over the flow field conditioned on the input images. The first proposed method obtains probabilistic estimates by using variational inference to approximate a posterior derived from energy-based optical flow formulations. With ProbFlow, a fully probabilistic optical flow approach shows for the first time competitive results on popular benchmark datasets. The model-inherent confidence measure performs superior in comparison to previous work and the uncertainties are beneficially applied to improve optical flow estimates and a subsequent motion segmentation.

In a follow-up work, SVIGL is developed to combine stochastic approaches for variational inference with gradient linearization - a frequently used procedure in optical flow energy methods due to its good optimization properties. SVIGL shows faster convergence and higher robustness than standard approaches for stochastic variational inference of complex posteriors. Moreover, it provides probabilistic optical flow without the tedious derivation of update equations required in ProbFlow while maintaining comparable performance.

Although confidence measures detect unreliable regions, they do not directly improve the estimated flow fields. The second part of this thesis thus targets the refinement of optical flow in the context of neural networks. Here, the input images guide the post-processing as they provide valuable information about the structure of correct predictions. The first approach builds on an existing method for image-adaptive convolutions in a high-dimensional space. This space is spanned by feature dimensions that are now learned from data to improve the concept of pixel similarity used in the filtering operation. When applying the so-called semantic lattice to replace the bilinear upsampling step of state-of-the-art deep networks, one sees a clear improvement of the predictions, in particular at motion boundaries.

In the last contribution, the two goals of this thesis are combined and per-pixel confidence estimates are leveraged for the image-adaptive refinement of deep optical flow predictions. As such, the proposed probabilistic pixel-adaptive convolutions (PPACs) do not only weigh pixels in a neighborhood according to learned similarity characteristics but also based on their individual reliability. The proposed PPAC refinement networks lead to substantial improvements in comparison to the underlying optical flow estimates. The obtained results are state-of-the-art on several benchmarks and show smooth flow fields with crisp boundaries as well as improved results in unreliable regions.

Alternative Abstract:
Alternative AbstractLanguage

Die Schätzung des optischen Flusses, also die Vorhersage der Bewegung in einer Bildsequenz, ist ein grundlegendes Problem im Bereich der Computer Vision. Die Information über den optischen Fluss wird insbesondere als Grundlage für verschiedene weitere Aufgaben verwendet, wie etwa Navigation, Objektverfolgung oder Bildregistrierung. Bei der Schätzung von Flussfeldern sind einige Bildregionen besonders herausfordernd - entweder wegen aufgabenspezifischer Schwierigkeiten wie Beleuchtungsänderungen und Verdeckungen oder aufgrund häufiger Schätzfehler, beispielsweise bei großen Verschiebungen und nahe am Übergang zwischen unterschiedlichen Bewegungen. Über das Bild betrachtet kann die Verlässlichkeit einer Schätzung des optischen Flusses somit stark variieren.

Der erste Teil dieser Arbeit konzentriert sich daher auf probabilistische Methoden für optischen Fluss, welche eine A-Posteriori Verteilung über das Flussfeld bedingt auf den Eingabebildern vorhersagen. Die erste Methode nutzt Variationsinferenz, um eine A-Posteriori Verteilung zu approximieren, welche von energiebasierten Flussmodellen abgeleitet ist. Mit ProbFlow zeigt dabei ein vollständig probabilistischer Ansatz zum ersten Mal kompetitive Ergebnisse auf populären Benchmark Datensätzen. Das modell-inhärente Konfidenzmaß zeigt sich überlegen gegenüber früheren Arbeiten und die Unsicherheiten können gewinnbringend zur Verbesserung des optischen Flusses sowie einer nachfolgenden Bewegungssegmentierung eingesetzt werden.

In einer Folgearbeit wird SVIGL entwickelt, um stochastische Ansätze für Variationsinferenz mit Gradientenlinearisierung zu kombinieren - ein Verfahren, welches aufgrund seiner guten Optimierungseigenschaften häufig bei Energiemethoden für optischen Fluss eingesetzt wird. SVIGL zeigt eine schnellere Konvergenz und eine höhere Robustheit als Standardansätze bei der stochastischen Variationsinferenz komplexer A-Posteriori Verteilungen. Zusätzlich ermöglicht SVIGL die Bestimmung eines probabilistischen optischen Flusses mit gleichbleibend guten Ergebnissen aber ohne die aufwändige Ableitung von Updateschritten, welche für ProbFlow erforderlich sind.

Obwohl Konfidenzschätzungen in der Lage sind, unzuverlässige Bereiche zu erkennen, verbessern sie nicht direkt die geschätzten Flussfelder. Der zweite Teil dieser Arbeit befasst sich daher mit der Verfeinerung optischer Flussvorhersagen im Kontext neuronaler Netze. Hierbei wird die Nachbearbeitung des Flusses durch die Eingabebilder beeinflusst, da diese wertvolle Informationen über die Struktur korrekter Vorhersagen beinhalten. Der erste Ansatz basiert auf einer bestehenden Methode für bildadaptive Faltungen in einem hochdimensionalen Raum, welcher von unterschiedlichen Merkmalsdimensionen aufgespannt wird. Diese werden in der vorliegenden Arbeit aus Daten gelernt, um das bei der Filterung verwendete Konzept der Pixelähnlichkeit zu verbessern. Der resultierende semantic lattice wird daraufhin angewandt, um das einfache bilineare Upsampling moderner neuronaler Netze zu ersetzen. Dadurch zeigt sich eine klare Verbesserung der Schätzungen, insbesondere an Bewegungskanten.

Im letzten Beitrag werden die beiden Ziele dieser Arbeit kombiniert und die Konfidenzschätzung an jedem Pixel zur bildadaptiven Verfeinerung optischer Flussvorhersagen genutzt. Hierfür werden Pixel in einer Nachbarschaft durch die vorgeschlagenen probabilistic pixel-adaptive convolutions (PPACs) nicht nur abhängig von gelernten Ähnlichkeitsmerkmalen gewichtet, sondern auch basierend auf ihrer individuellen Zuverlässigkeit. Die beschriebenen PPAC-Netzwerke führen zu wesentlichen Verbesserungen im Vergleich zu den zugrunde liegenden Schätzungen des optischen Flusses. Die erzielten Ergebnisse sind state-of-the-art auf mehreren Benchmarks und zeigen gleichmäßige Flussfelder mit scharfen Bewegungsgrenzen sowie verbesserten Schätzungen in unzuverlässigen Regionen.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-194558
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Visual Inference
Date Deposited: 28 Sep 2021 12:08
Last Modified: 15 Feb 2023 11:07
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/19455
PPN: 486192350
Export:
Actions (login required)
View Item View Item