Modeling, Representing and Learning of Visual Categories

Fritz, Mario (2009)
Modeling, Representing and Learning of Visual Categories.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

Dissertation Mario Fritz - PDF (phd thesis)
diss08_druckversion.pdf
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .
Download (9MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Modeling, Representing and Learning of Visual Categories

Language:

English

Referees:

Schiele, Prof. Bernt ; Perona, Prof. Pietro

Date:

16 June 2009

Place of Publication:

Darmstadt

Date of oral examination:

8 August 2008

Abstract:

This thesis is concerned with the modeling, representing and learning of visual categories for the purpose of automatic recognition and detection of objects in image data. The application area of such methods ranges from image-based retrieval over driver assistance systems for the automotive industry to applications in robotics. Despite the exciting progress that has been achieved in the field of visual object categorization over the last 5 years, we have still a long way to go to measure up to the perceptual capabilities of humans. While humans can recognize far beyond 10000 categories, machines can nowadays recognize only close to 300 categories with moderate accuracy in constraint settings. For more complex tasks the number of categories is a magnitude lower. Existing approaches reveal a surprising diversity in the way how they model, represent and learn visual categories. To a large extend, this diversity is a result of the different scenarios and categories investigated in the literature. This motivated us to develop methods that combine capabilities of previous methods along these 3 axes: Modeling, Representing and Learning. The resulting approaches turn out to be more adaptive and show better performance in recognition and detection tasks on standard datasets. Therefore, the scientific contribution of this thesis is structured into 3 parts: Combination of different modeling paradigms: One basic difference in modeling is, whether a method models the similarities within one category or the differences with respect to other categories. Since both views have their assets and drawbacks, we have developed a hybrid approach that successfully combines the strength of both approaches. Combination of different learning paradigms: While supervised approaches typically tend to have better performance, the high annotation efforts poses a big obstacle towards a larger number of recognizable categories. Unsupervised methods in combination with the overwhelming amount of data at hand (e.g. internet search) constitute an appealing alternative. Given this background we developed a method which makes use of different levels of supervision and consequently achieves better performance by considering unannotated data. Combination of different representation paradigms: Previous approaches differ strongly in the way they represent visual information. Representations range from local structures over line segments to global silhouettes. We present an approach that learns an effective representation directly from the image data and thereby extracts structures that combine the mentioned representation paradigms in a single approach.

Alternative Abstract:

Alternative Abstract

Language

Diese Dissertation beschäftigt sich mit dem Modellieren, Repräsentieren und Erlernen von visuellen Kategorien zum Zweck der automatischen Erkennung und Detektion von Objekten in Bilddaten. Der Anwendungsbereich solcher Methoden erstreckt sich von bildbasierten Suchfunktionen, über Fahrerassistenzsysteme in der Automobilindustrie bis hin zu Anwendungen in der Robotik. Trotz des Fortschritts, den die Forschung gerade in den letzten 5 Jahren in dem Gebiet der visuellen Objektkategorisierung erreicht hat, ist man heute noch weit von den Wahrnehmungsfähigkeiten eines Menschen entfernt. Während Menschen mit Leichtigkeit weit über 10000 Kategorien erkennen, können Maschinen heutzutage nur an die 300 Kategorien mit mäßiger Präzision unter eingeschränkten Bedingungen unterscheiden. Für komplexere Aufgaben ist die Anzahl sogar eine Größenordnung kleiner. Bestehende Ansätze basieren auf einer erstaunlichen Vielfalt verschiedener Methoden visuelle Kategorien zu modellieren, zu repräsentieren und zu erlernen. Diese Vielfalt ist zum großen Teil ein Resultat der verschiedenen Szenarien und Kategorien die in der Literatur untersucht wurden. Dies motivierte uns Methoden zu entwickeln, die die Fähigkeiten vorangegangener Methoden entlang der 3 Achsen -- Modellieren, Repräsentieren und Lernen -- kombinieren. Die resultierenden Ansätze zeigen eine höhere Adaptivität sowie verbesserte Performanz in Erkennungs- und Detektionsaufgaben auf standardisierten Datensätzen. Der wissenschaftliche Beitrag dieser Dissertation ist demzufolge in 3 Teile gliedern: Kombination verschieder Modellierungsparadigmen: Ein grundlegender Unterschied in der Modellierung ist, ob eine Methode die Gemeinsamkeiten innerhalb einer Kategorie oder die Unterschiede zu anderen Kategorien modelliert. Beide Sichtweisen haben ihre Vorzüge und Nachteile, weshalb wir einen hybriden Ansatz entwickelten, der die Stärken beider Ansätze erfolgreich kombiniert. Kombination verschiedener Lernparadigmen: Während überwachte Lernverfahren typischerweise bessere Performanz erzielen stellt der Annotierungsaufwand eine große Hürde auf dem Weg zu einer größeren Anzahl von erkennbaren Kategorien dar. Unüberwachte Verfahren in Kombination mit der überwältigenden Menge an verfügbaren Bildern (z.B. Internetsuchmaschinen) sind eine attraktive Alternative. Vor diesem Hintergrund entwickelten wir ein Verfahren, welches verschiedene Stufen der Überwachung des Lernprozesses nutzt und somit unter Hinzunahme der unannotierten Daten eine bessere Performanz erzielt. Kombination verschiedener Repräsentationsparadigmen: Bisherige Anätze unterscheiden sich stark in der Art und Weise wie visuelle Information repräsentiert wird. Die Repräsentationen reichen von lokalen Strukturen, über Liniensegmente bis hin zu globalen Silhouetten. Wir stellen einen Ansatz vor, der eine effektive Repräsentation direkt von den Bilddaten lernt und dabei Strukturen extrahiert, die die genannten Repräsentationsparadigmen in einem Ansatz kombiniert.

German

Uncontrolled Keywords:

computer vision, object recognition, object detection, machine learning, visual categorization

Alternative keywords: