Bei der Aufnahme von Fotos mit einer Digitalkamera werden die resultierenden Bilder von Natur aus durch Rauschen beeinträchtigt. Bildentrauschung, also die Aufgabe, das zugrunde liegende saubere Bild aus einer verrauschten Beobachtung wiederherzustellen, ist von grundlegender Bedeutung, um die visuelle Qualität zu verbessern, weiteres visuelles Verstehen zu unterstützen oder die Optimierung für allgemeinere Bildwiederherstellungsaufgaben beeinzuflussen.
Da Bildrauschen ein stochastisches Phänomen ist, das von verschiedenen Quellen herrührt, wie zum Beispiel dem stochastischen Ankunftsverhalten von Photonen oder Rauschen in den elektrischen Schaltungen auf dem Kamerachip, ist es im Allgemeinen nicht möglich, das genaue rauschfreie Bild wiederherzustellen. Die Herausforderung des Bildentrauschungsproblems besteht nun darin, sowohl für den Entstehungsprozess des verrauschten Bildes als auch für die Eigenschaften der wiederherzustellenden rauschfreien Bilder geeignete Annahmen zu treffen. Diese Annahmen werden entweder explizit in einem mathematischen Modell codiert, in dem das entrauschte Bild als Lösung eines Optimierungsproblems gegeben ist, oder implizit durch Auswahl eines Unterscheidungsmodells wie zum Beispiel eines CNNs, das anhand von Trainingsdaten gelernt wird, die aus sauberen und verrauschten Bildpaaren bestehen.
Mit der der Entscheidung für einen Entrauschungsalgorithmus geht natürlich die Frage nach der Qualität seiner Ausgabe einher. Hier stützt sich die Forschung im Großen und Ganzen auf synthetische Testdaten zur quantitativen Auswertung, bei denen als rauschfrei angenommene Bilder mittels simulierten Rauschens verändert werden. Die Auswertung auf simulierten Daten kann jedoch nur eine Annäherung für die Genauigkeit auf realistischen Bildern liefern. Der erste Beitrag dieser Dissertation füllt diese Lücke, indem er eine neuartige Methodik zur Erstellung realistischer Testdaten für das Entrauschen von Bildern vorschlägt. Insbesondere schlagen wir vor, Paare von je einem echten verrauschten Bild und einem fast rauschfreien Referenzbild aufzunehmen. Wir zeigen, wie aus dem Referenzbild akkurate Ground Truth unter Berücksichtigung des zugrunde liegenden Bilderzeugungsprozesses extrahiert werden können.
Da das Problem der Bildentrauschung von Natur aus unterspezifiziert ist, ist es spanned, über die Vorhersage eines einzelnen möglichen Ergebnisses hinauszugehen, indem zusätzlich die Unsicherheit der Vorhersage bewertet wird. Probabilistische Ansätze zur Bildentrauschung eignen sich direkt für die Vorhersage von Unsicherheiten, da sie die a-posteri Verteilung der entrauschten Bilder gegeben der verrauschten Beobachtung modellieren. Jedoch ist die Inferenz, z. B. der Marginalentropie an jedem Pixel, oft nicht möglich auf. Unser zweiter Beitrag schlägt einen neuartigen SVI-Algorithmus vor, der eine Variationsverteilung (Wainwright and Jordan, 2008) berechnet, um die modellbasierte Unsicherheit auf Pixelebene abzuschätzen. Wir zeigen, dass der resultierende SVIGL-Algorithmus in Bezug auf Geschwindigkeit, Robustheit und Genauigkeit die starke Vergleichsmethod von SVI kombiniert mit dem beliebten Adam-Optimierer (Kingma and Ba, 2015) erreicht oder sogar übertrifft.
In dieser Arbeit beschäftigen wir uns auch damit, den Stand der Technik in Bezug auf die Genauigkeit der entrauschten Bilder zu verbessern. Derzeit liefern Ansätze basierend auf neuronale Netzen die besten Ergebnisse und von traditionelleren Methoden können vor allem nicht-lokale Ansätze (Dabov et al., 2006) damit mithalten. Um das Beste aus beiden Welten zu kombinieren, kombinieren wir in unserem dritten Beitrag einen starken CNN-Entrauscher mit einem neuartigen Block-Matching-Layer, dem so genannten N3-Block (neuronale nächste Nachbarn), für den wir eine vollständig differenzierbare Relaxation der KNN-Auswahlregel präsentieren. Dies ermöglicht es dem Netzwerk, den Merkmalsraum des Block-Matchings zu optimieren. Unser N3-Block ist für allgemeine Eingabedomänen anwendbar. Das zeigen wir am Beispiel der Klassifizierung von Bildpunktkorrespondenzen, wobei das Netzwerk auf mengenwertigen Eingaben operiert.
Während sich die vorgenannten Teile dieser Dissertation mit dem Bildern eines saturierenden Kamerasensors befassen, d. h. die Intensitätswerte steigen nur bis zu einem Maximalwert, betrachten wir auch das neuartige Sensorkonzept eines Modulo-Sensors (Zhao et al., 2015), das für die HDR-Bildgebung vielversprechend ist. Hier werden Pixelwerte zurückgesetzt, sobald sie ihren Maximalwert erreicht haben. Um ein plausibles Bild zu erhalten, muss rekonstruiert werden, wie oft jeder Pixel während der Belichtungszeit zurückgesetzt wurde. In unserem vierten Beitrag rekonstruieren wir diese Informationen aus mehreren verrauschten Modulobildern. Unsere Methode basiert auf einem generativen Modell des Bilderzeugungsprozesses. Das rekonstruierte und entrauschte HDR-Bild erhalten wir anschließend durch Energieminimierung und wir zeigen, dass wir so die Genauigkeit gegenüber existierenden Ansätzen zur Rekonstruktion aus mehreren Modulo-Bildern verbessern. | German |