Zur statistischen Analyse überparametrisierter tiefer neuronaler Netze trainiert durch Gradientenabstieg
Zur statistischen Analyse überparametrisierter tiefer neuronaler Netze trainiert durch Gradientenabstieg
Der Erfolg des Deep Learnings ist unübersehbar, insbesondere bei großen neuronalen Netzen wie ChatGPT-3 mit 175 Mrd. und BERT-Large mit 340 Mio. Parametern. Dies zeigt den Trend zur Überparametrisierung, bei der die Anzahl der Parameter die der Trainingsdaten übersteigt. Klassische Theorien erwarten hier eine Überanpassung und damit eine schlechte Generalisierung auf neuen Daten. Dennoch liefern solche Netze oft sehr gute Ergebnisse. Diese Arbeit untersucht überparametrisierte neuronale Netze, die durch den Gradientenabstieg trainiert werden, im Rahmen der nichtparametrischen Regression, insbesondere in Bezug auf universelle Konsistenz und Konvergenzraten. Dabei zeigt sich, dass die gängige Überanpassungshypothese in diesem Kontext nicht zutrifft. Unser theoretischer Ansatz verbindet die drei zentralen Aspekte des Deep Learnings: Optimierung, Approximation und Generalisierung. Die Optimierung erfolgt, wie in der Praxis üblich, mittels Gradientenabstieg, wobei kein zusätzlicher Regularisierungsterm verwendet wird. Im Bereich der Approximation zeigen wir, dass geeignete Netzwerktopologien eine präzise Annäherung an komplexe Funktionen ermöglichen. Die Generalisierung beschreibt die Leistungsfähigkeit auf neuen Daten. Unsere Untersuchungen zeigen, dass überparametrisierte neuronale Netze trotz der großen Anzahl von Parametern in der Lage sind, zuverlässige Vorhersagen zu treffen. Die theoretischen Ergebnisse dieser Arbeit verdeutlichen das Potenzial überparametrisierter neuronaler Netze in mehrfacher Hinsicht. So lässt sich mit der sigmoidalen Aktivierungsfunktion die Eigenschaft der universellen Konsistenz nachweisen. Für glatte Regressionsfunktionen können zudem nahezu optimale Konvergenzraten abgeleitet werden. Besonders bemerkenswert ist, dass sich für ReLU-Netze unter kompositionellen Annahmen sogar dimensionsunabhängige Raten erzielen lassen und damit der Fluch der Dimensionalität umgangen werden kann.
Descent
The success of deep learning in recent years has been remarkable, especially for large neural networks such as ChatGPT-3 with 175 billion parameters and BERT-Large with 340 million. This reflects a trend toward over-parametrization, where the number of parameters exceeds the amount of training data. Classical theories would predict this to lead to overfitting and poor generalization to new data. However, empirical results are often surprisingly good. This work studies over-parametrized neural networks trained by gradient descent in the context of nonparametric regression. It focuses on their universal consistency and convergence rates. We show that the usual overfitting assumption does not hold in this setting. Our theoretical approach connects the three fundamental aspects of deep learning: optimization, approximation, and generalization. For optimization, we use gradient descent as in practice, but without adding a regularization term. In the approximation part, we demonstrate that suitably chosen network architectures can accurately represent complex functions. Generalization refers to how well a model performs on unseen data. Our results show that even large networks with many parameters can still yield reliable predictions. The theoretical results presented in this work highlight the potential of over-parametrized neural networks in several ways. For example, using the sigmoidal activation function, we can prove universal consistency. For smooth regression functions, we derive nearly optimal convergence rates. Most notably, for ReLU networks under compositional assumptions, we can even achieve dimension-independent convergence rates, which implies that such networks can avoid the curse of dimensionality.

