TU Darmstadt / ULB / TUprints

Inductive Biases in Machine Learning for Robotics and Control

Lutter, Michael (2021)
Inductive Biases in Machine Learning for Robotics and Control.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00020048
Ph.D. Thesis, Primary publication, Publisher's Version

[img]
Preview
Text
Phd_Thesis_Michael_Lutter.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (18MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Inductive Biases in Machine Learning for Robotics and Control
Language: English
Referees: Peters, Prof. Jan ; Tedrake, Prof. Russ
Date: 2021
Place of Publication: Darmstadt
Collation: xiii, 136 Seiten
Date of oral examination: 19 November 2021
DOI: 10.26083/tuprints-00020048
Abstract:

A fundamental problem of robotics is how can one program a robot to perform a task with its limited embodiment? Classical robotics solves this problem by carefully engineering interconnected modules. The main disadvantage is that this approach is labor-intensive and becomes close to impossible for unstructured environments and observations. Instead of manual engineering, one can solely use black-box models and data. In this paradigm, interconnected deep networks replace all modules of classical robotics. The network parameters are learned using reinforcement learning or self-supervised losses that predict the future.

In this thesis, we want to show that these two approaches of classical engineering and black-box deep networks are not mutually exclusive. One can transfer insights from classical robotics to the black box deep networks and obtain better learning algorithms for robotics and control. To show that incorporating existing knowledge as inductive biases in machine learning algorithms can improve performance, we present three different algorithms: (1) The Differentiable Newton Euler Algorithm (DiffNEA) reinterprets the classical system identification of rigid bodies. By leveraging automatic differentiation, virtual parameters, and gradient-based optimization, this approach guarantees physically consistent parameters and applies to a wider class of dynamical systems. (2) Deep Lagrangian Networks (DeLaN) combines deep networks with Lagrangian mechanics to learn dynamics models that conserve energy. Using two networks to represent the potential and kinetic energy enables the computation of a physically plausible dynamics model using the Euler-Lagrange equation. (3) Robust Fitted Value Iteration (rFVI) leverages the control-affine dynamics of mechanical systems to extend value iteration to the adversarial reinforcement learning with continuous actions. The resulting approach enables the computation of the optimal policy that is robust to changes in the dynamics.

Each of these algorithms is evaluated on physical systems and compared to the classical engineering and deep learning baselines. The experiments show that the inductive biases increase performance compared to black-box deep learning approaches. DiffNEA solves Ball-in-Cup on the physical Barrett WAM using offline model-based reinforcement learning and only four minutes of data. The deep networks models fail on this task despite using more data. DeLaN obtains a model that can be used for energy control of under-actuated systems. Black box models cannot be applied as these cannot infer the system energy. rFVI learns robust policies that can swing up the Furuta pendulum and cartpole. The rFVI policy is more robust to changes in the pendulum mass compared to deep reinforcement learning with uniform domain randomization.

In conclusion, this thesis introduces the combination of prior knowledge and deep learning. The presented algorithms highlight that one can use deep networks in more creative ways than naive input-output mappings for dynamics models and policies. Compared to the deep learning baselines, the proposed approaches can be applied to more problems and improve performance.

Alternative Abstract:
Alternative AbstractLanguage

Ein grundlegendes Problem der Robotik ist die Frage, wie man einen Roboter so programmieren kann, dass er mit seiner begrenzten Ausstattung eine Aufgabe erfüllt. Die klassische Robotik löst dieses Problem durch die sorgfältige Entwicklung miteinander verbundener Module. Der größte Nachteil ist, dass dieser Ansatz arbeitsintensiv ist und bei unstrukturierten Umgebungen und Beobachtungen nahezu unmöglich wird. Anstelle der manuellen Entwicklung kann man ausschließlich Black-Box-Modelle und Daten verwenden. In diesem Paradigma ersetzen vernetzte tiefe Netzwerke alle Module der klassischen Robotik. Die Parameter des Netzwerks werden mit Hilfe von Reinforcement Learning oder self-supervised Kostenfunktionen gelernt, die die Zukunft vorhersagen.

In dieser Arbeit wollen wir zeigen, dass sich diese beiden Ansätze der klassischen Technik und der Black-Box Deep Networks nicht gegenseitig ausschließen. Man kann Erkenntnisse aus der klassischen Robotik auf die Black-Box Deep Networks übertragen und so bessere Lernalgorithmen für Robotik und Steuerung erhalten. Um zu zeigen, dass die Einbeziehung von vorhandenem Wissen in Form von Inductive Biases in maschinelle Lernalgorithmen die Leistung verbessern kann, stellen wir drei verschiedene Algorithmen vor: (1) Der Differentiable Newton Euler Algorithm (DiffNEA) interpretiert die klassische Systemidentifikation von starren Körpern neu. Durch den Einsatz von automatischer Differenzierung, virtuellen Parametern und gradientenbasierter Optimierung garantiert dieser Ansatz physikalisch konsistente Parameter und lässt sich auf eine größere Klasse dynamischer Systeme anwenden. (2) Deep Lagrangian Networks (DeLaN) kombiniert tiefe Netzwerke mit Lagrangescher Mechanik, um dynamische Modelle zu lernen, die Energie sparen. Die Verwendung von zwei Netzwerken zur Darstellung der potentiellen und kinetischen Energie ermöglicht die Berechnung eines physikalisch plausiblen dynamischen Modells unter Verwendung der Euler-Lagrange-Gleichung. (3) Robust Fitted Value Iteration (rFVI) nutzt die kontroll-affine Dynamik mechanischer Systeme, um die Value Iteration auf das adversarische Reinforcement Learning mit kontinuierlichen Aktionen auszuweiten. Der daraus resultierende Ansatz ermöglicht die Berechnung der optimalen Strategie, die robust gegenüber Änderungen in der Dynamik ist.

Jeder dieser Algorithmen wird an physikalischen Systemen evaluiert und mit den klassischen Engineering- und Deep-Learning-Baselines verglichen. Die Experimente zeigen, dass die Inductive Biases die Leistung im Vergleich zu Black-Box Deep Learning Ansätzen erhöhen. DiffNEA löst Ball-in-Cup auf dem physikalischen Barrett WAM mit offline modellbasiertem Reinforcement Learning und nur vier Minuten an Daten. Die Deep-Networks-Modelle versagen bei dieser Aufgabe trotz der Verwendung von mehr Daten. DeLaN erhält ein Modell, das für die Energiesteuerung unteraktiver Systeme verwendet werden kann. Black-Box-Modelle können nicht angewandt werden, da sie nicht auf die Energie des Systems schließen können. rFVI lernt robuste Strategien, die das Furuta-Pendel und den Karrenmast hochschwingen können. Die rFVI-Politik ist robuster gegenüber Änderungen der Pendelmasse im Vergleich zu Deep Reinforcement Learning mit einheitlicher Domänenrandomisierung.

Zusammenfassend lässt sich sagen, dass diese Arbeit die Kombination von Vorwissen und Deep Learning vorstellt. Die vorgestellten Algorithmen zeigen, dass tiefe Netzwerke auf kreativere Weise als naive Input-Output-Mappings für dynamische Modelle und Strategien eingesetzt werden können. Im Vergleich zu den Deep-Learning-Baselines können die vorgeschlagenen Ansätze auf mehr Probleme angewendet werden und die Leistung verbessern.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-200484
Classification DDC: 000 Generalities, computers, information > 004 Computer science
600 Technology, medicine, applied sciences > 620 Engineering and machine engineering
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 03 Dec 2021 13:11
Last Modified: 03 Dec 2021 13:11
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/20048
PPN: 489267831
Export:
Actions (login required)
View Item View Item