Logo des Repositoriums
  • English
  • Deutsch
Anmelden
Keine TU-ID? Klicken Sie hier für mehr Informationen.
  1. Startseite
  2. Publikationen
  3. Publikationen der Technischen Universität Darmstadt
  4. Zweitveröffentlichungen
  5. Stochastic multilevel methods for deep learning
 
  • Details
2025
Zweitveröffentlichung
Buch
Postprint

Stochastic multilevel methods for deep learning

File(s)
Download
Hauptpublikation
Jacob_Dissertation.pdf
CC BY 4.0 International
Format: Adobe PDF
Size: 2.37 MB
TUDa URI
tuda/13401
URN
urn:nbn:de:tuda-tuprints-295640
DOI
10.26083/tuprints-00029564
Autor:innen
Jacob, Isabel ORCID 0009-0006-3374-522X
Kurzbeschreibung (Abstract)

As the use cases for neural networks become increasingly complex, modern neural networks must also grow deeper and more intricate to keep up. However, with increased depth and complexity, common training methods like stochastic gradient descent methods (SGD) become more computationally expensive. Multilevel methods, traditionally used to solve differential equations through hierarchies of discretizations, offer the potential to reduce computational effort. These methods operate across multiple levels of complexity. On lower levels, a coarse approximation of the solution can be obtained quickly and at low computational cost. These coarse approximations are then refined on higher levels to achieve a more accurate solution. By alternating between levels, multilevel methods can accelerate convergence while maintaining precision.

This thesis introduces a multilevel stochastic gradient descent algorithm (MLSGD) that combines both concepts aiming to accelerate neural network training through multilevel techniques. The core contribution of this thesis is the development and analysis of MLSGD. As in traditional multilevel methods, prolongation and restriction operators enable transitions between levels. To ensure first-order coherence, a gradient correction is added to the objective function as well as additional conditions including step size regularization and an angle condition. We analyze the convergence properties of the method under the assumption of fixed step sizes. Additionally, we investigate the influence of stochastic directions in the gradient correction as a replacement for full gradients as well as the effect of variance reduction in both cases.

Finally, we evaluate the practical performance of the method as well as the effect of stochastic gradient correction and variance reduction. To this end, MLSGD is applied to the image classification dataset CIFAR-10. We explore two different approaches to constructing a hierarchy, based either on network depth or image resolution. For both approaches, we construct suitable prolongation and restriction operators.

Sprache
Englisch
Alternativtitel
Stochastische Multilevelverfahren für Deep Learning
Alternatives Abstract

Da die Anwendungsfälle für neuronale Netze immer komplexer werden, werden zugleich auch moderne neuronale Netze größer und komplexer, um mithalten zu können. Mit zunehmender Tiefe und Komplexität solcher Netze steigt jedoch auch der Rechenaufwand von gängigen Trainingsmethoden wie dem stochastischen Gradientenverfahren (SGD).

Multilevelverfahren, die traditionell zur Lösung von Differentialgleichungen mit Hilfe von Hierarchien an Diskretisierungen verwendet werden, bieten die Möglichkeit, den Rechenaufwand zu reduzieren. Diese Methoden arbeiten mit verschiedenen Stufen an Komplexität. Auf den unteren Stufen kann eine grobe Näherung der Lösung schnell und mit geringem Aufwand berechnet werde. Diese Näherungen werden dann auf höheren Stufen schrittweise verfeinert, um genauere Näherungen zu erhalten. Durch den Wechsel zwischen den Stufen können Multilevelverfahren schneller konvergieren ohne an Genauigkeit einzubüßen.

In dieser Arbeit wird ein Multilevel stochastisches Gradientenverfahren (MLSGD) vorgestellt, das beide Ansätze miteinander kombiniert. Ziel dabei ist es, das Training von neuronalen Netzen durch den Einsatz von Multilevelmethoden zu beschleunigen. Der zentrale Beitrag dieser Arbeit liegt in der Entwicklung und Analyse von MLSGD. Wie üblich bei Multilevelverfahren, werden Prolongations- und Restriktionsoperatoren verwendet, um den Wechsel zwischen verschiedenen Stufen zu ermöglichen. Um Konsistenz erster Ordnung zu gewährleisten, wird ein Gradientenkorrekturterm zur Zielfunktion hinzugefügt. Des Weiteren verwenden wir zusätzliche Bedingungen, wie eine Schrittweitenregularisierung und eine Winkelbedingung. Wir diskutieren die Konvergenzeigenschaften der Methode unter der Annahme, dass konstante Schrittweiten verwendet werden. Hierbei untersuchen wir auch den Einsatz stochastischer Richtungen anstelle des Gradienten in der Gradientenkorrektur und den Einfluss von Varianzreduktion in beiden Fällen.

Anschließend untersuchen wir das Verhalten des Verfahrens in der Praxis. Auch hier untersuchen wir den Einfluss von einer stochastischen Gradientenkorrektur und Varianzreduktion. MLSGD wird dazu auf den Bildklassifizierungsdatensatz CIFAR-10 angewendet. Wir verwenden dabei zwei verschiedene Ansätze um eine Hierarchie zu bilden, basierend entweder auf der Netzwerktiefe oder der Bildauflösung. Für beide Ansätze werden geeignete Prolongations- und Restriktionsoperatoren konstruiert.

Fachbereich/-gebiet
04 Fachbereich Mathematik > Optimierung > Nonlinear Optimization
DDC
500 Naturwissenschaften und Mathematik > 510 Mathematik
Institution
Universitäts- und Landesbibliothek Darmstadt
Ort
Darmstadt
ISBN
978-3-8439-5599-7
Institution der Erstveröffentlichung
Technische Universität Darmstadt
Verlag
Verlag Dr. Hut
Ort der Erstveröffentlichung
München
Publikationsjahr der Erstveröffentlichung
2025
Qualifikationsschrift
Dissertation
Datum der mündlichen Prüfung
02.12.2024
Gutachter:innen
Ulbrich, Stefan
Pfetsch, Marc E.
PPN
528823019

  • TUprints Leitlinien
  • Cookie-Einstellungen
  • Impressum
  • Datenschutzbestimmungen
  • Webseitenanalyse
Diese Webseite wird von der Universitäts- und Landesbibliothek Darmstadt (ULB) betrieben.