Konvergenzraten von Bildklassifikatoren basierend auf faltenden neuronalen Netzen

Walter, Benjamin (2023)
Konvergenzraten von Bildklassifikatoren basierend auf faltenden neuronalen Netzen.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00024333
Ph.D. Thesis, Primary publication, Publisher's Version

Text
Dissertation.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (3MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Konvergenzraten von Bildklassifikatoren basierend auf faltenden neuronalen Netzen

Language:

German

Referees:

Kohler, Prof. Dr. Michael ; Aurzada, Prof. Dr. Frank

Date:

2023

Place of Publication:

Darmstadt

Collation:

xii, 137 Seiten

Date of oral examination:

28 June 2023

DOI:

10.26083/tuprints-00024333

Abstract:

In der vorliegenden Arbeit wird das Konvergenzverhalten von Bildklassifikatoren untersucht, die auf faltenden neuronalen Netzen basieren. Es wird gezeigt, dass die Klassifikatoren, welche durch Kleinste-Quadrate-Schätzer als Plug-In Klassifikatoren definiert werden, dimensionsfreie Konvergenzraten für die Differenz des Missklassifikationsrisikos der Schätzung und dem optimalen Missklassifikationsrisiko erzielen und somit den Fluch der hohen Dimension umgehen. Diese Analyse liefert eine theoretische Erklärung für die Nützlichkeit der Komponenten von faltenden neuronalen Netzen in der Bildklassifikation, gibt theoretische Anhaltspunkte für eine geeignete Wahl der Netzwerkparameter und liefert einen theoretischen Hinweis für den Vorteil dieser Architekturen gegenüber anderen Klassifizierungsmethoden.

In vorhergehenden Arbeiten konnte im Rahmen der Regressionsschätzung gezeigt werden, dass Neuronale-Netze-Schätzer unter kompositionellen Annahmen an die zu schätzende Regressionsfunktion eine dimensionsfreie Konvergenzrate erreichen. Die so erzielten Ergebnisse lieferten bisher allerdings keine theoretische Begründung für die Überlegenheit von faltenden neuronalen Netzen gegenüber anderen Netzwerkarchitekturen in Anwendungen der Bildklassifikation. Um dies zu ermöglichen, wird der obige Ansatz auf die Bildklassifikation übertragen, indem Struktur- und Glattheitsannahmen an die a-posteriori Wahrscheinlichkeit formuliert werden. Auf diese Weise werden drei statistische Modelle zur Bildklassifikation eingeführt, in denen das Konvergenzverhalten geeigneter Klassifikatoren untersucht wird.

Das erste Modell beinhaltet die folgenden grundlegenden Beobachtungen zur Bildklassifikation: Zum einen hängt die Klasse eines Bildes von der Existenz von bestimmten Objekten ab, die möglicherweise deutlich kleiner als der gesamte Bildbereich sind, und zum anderen lassen sich Teilbereiche eines Bildes hierarchisch aus benachbarten kleineren Bereichen zusammensetzen. Das zweite Modell wird um den Aspekt ergänzt, dass es nur auf den ungefähren relativen Abstand von Merkmalen der Objekte zueinander ankommt. Die für das zweite Modell eingeführten Netzwerkarchitekturen von faltenden neuronalen Netzen enthalten insbesondere lokale Pooling Schichten. Für das dritte Modell wird ein allgemeinerer Rahmen eingeführt, in dem Bilder als Zufallsvariablen mit Werten in einem Funktionenraum betrachtet werden, wobei die beobachtete Stichprobe durch Diskretisierung solcher Zufallsvariablen gebildet wird. Es wird dann ein Modell für die funktionale a-posteriori Wahrscheinlichkeit eingeführt, welches Klassifikationsprobleme beinhaltet, bei denen die Rotation von Objekten um beliebige Winkel irrelevant für eine korrekte Klassifizierung ist. Für dieses Modell wird eine dimensionsfreie Konvergenzrate erzielt, wenn ein von der Auflösung der diskretisierten Bilder abhängiger Fehlerterm vernachlässigt wird.

Für die Verifizierung der entsprechenden Resultate werden Approximationseigenschaften für faltende neuronale Netze hergeleitet und die Komplexität der Funktionsklassen dieser Netzwerkarchitekturen beschränkt.

Abschließend wird das Verhalten der eingeführten Bildklassifikatoren bei endlichem Stichprobenumfang analysiert. Hierfür werden die Klassifikatoren sowohl auf simulierte als auch auf reale Bilddatensätze angewendet und die Ergebnisse mit verschiedenen alternativen Klassifikationsmethoden verglichen.

Alternative Abstract:

Alternative Abstract

Language

In this thesis, the rate of convergence of image classifiers based on convolutional neural networks is investigated. It is shown that classifiers defined by least squares estimators as plug-in classifiers achieve a rate of convergence for the difference of the misclassification risk of the estimate towards the optimal misclassification risk which does not depend on the input dimension and therefore circumvent the curse of dimensionality. This analysis provides a theoretical explanation for the usefulness of convolutional neural network components in image classification, provides theoretical guidance for an appropriate choice of network parameters, and provides theoretical indication for the advantage of these architectures over other classification methods.

In previous work, it has been shown in the context of regression estimation that neural network estimators achieve a rate of convergence which does not depend on the input dimension under compositional assumptions on the regression function. However, these results have not yet provided a theoretical justification for the superiority of convolutional neural networks compared to other network architectures in image classification applications. To enable this, the above approach is applied to image classification by formulating structural and smoothness assumptions on the a-posteriori probability. In this way, three statistical models for image classification are introduced, in which the convergence behavior of suitable classifiers is investigated.

The first model includes the following basic observations about image classification: First, the class of an image depends on the existence of specific objects that are possibly much smaller than the entire image area, and second, subparts of an image can be hierarchically composed of neighboring smaller subparts. The second model is extended by the aspect that only approximate relative distances between features of objects are important. The network architectures of convolutional neural networks introduced for the second model include, in particular, local pooling layers. For the third model, a more general framework is introduced in which images are considered as random variables with values in a functional space, where the observed sample consists of discretizations of such random variables. A model for the functional a-posteriori probability is introduced, which includes classification problems in which the rotation of objects through arbitrary angles is irrelevant concerning a correct classification. For this model, a convergence rate which is independent of the input dimension is achieved if a resolution-dependent error term is neglected.

To verify the corresponding results, approximation properties for convolutional neural networks are derived and the complexity of the classes of these network architectures is bounded.

Finally, the finite sample size behavior of the introduced image classifiers is analyzed. For this purpose, the classifiers are applied to both simulated and real images and the results are compared to alternative classification methods.

English

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-243332

Classification DDC:

500 Science and mathematics > 510 Mathematics

Divisions:

04 Department of Mathematics > Stochastik

Date Deposited:

25 Jul 2023 12:07

Last Modified: