TU Darmstadt / ULB / TUprints

Robot Learning for Muscular Systems

Büchler, Dieter (2019):
Robot Learning for Muscular Systems. (Publisher's Version)
Darmstadt, Technische Universität,
DOI: 10.25534/tuprints-00017210,
[Ph.D. Thesis]

[img]
Preview
Text
phdthesis_buechler.pdf
Available under CC-BY-SA 4.0 International - Creative Commons, Attribution Share-alike.

Download (11MB) | Preview
Item Type: Ph.D. Thesis
Status: Publisher's Version
Title: Robot Learning for Muscular Systems
Language: English
Abstract:

Today's robots are capable of performing many tasks that tremendously improve human lives. For instance, in industrial applications, robots move heavy parts very quickly and precisely along a predefined path. Robots are also widely used in agriculture or domestic applications like vacuum cleaning and lawn mowing. However, in more general settings, the gap between human abilities and what current robots deliver is still not bridged, such as in dynamic tasks. Like table tennis with anthropomorphic robot arms, such tasks require the execution of fast motions that potentially harm the system. Optimizing for such fast motions and being able to execute them without impairing the robot still pose difficult challenges that, so far, have not been met. Humans perform dynamic tasks relatively easy at high levels of performance. Can we enable comparable perfection on kinematically anthropomorphic robots? This thesis investigates whether learning approaches on more human-like actuated robots bring the community a step closer towards this ambitious goal. Learning has the potential to alleviate control difficulties arising from fast motions and more complex robots. On the other hand, an essential part of learning is exploration, which forms a natural trade-off with robot safety, especially at dynamic tasks. This thesis's general theme is to show that more human-like actuation enables exploring and failing directly on the real system while attempting fast and risky motions. In the first part of this thesis, we develop a robotic arm with four degrees of freedom and eight pneumatic artificial muscles (PAM).Such a system is capable of replicating desired behaviors as seen in human arm motions: 1) high power-to-weight ratios, 2) inherent robustness due to passive compliance and 3) high-speed catapult-like motions as possible with fast energy release. Rather than recreating human anatomy, this system is designed to simplify control than previously designed pneumatic muscle robots. One of the main insights is that a simple PID controller is sufficient to control this system for slow motions accurately. When exploring fast movements directly on the real system, the antagonistic actuation avoids damages to the system. In this manner, the PID controller's parameters and additional feedforward terms can be tuned automatically using Bayesian optimization without further safety considerations. Having such a system and following our goal to show the benefits of the combination of learning and muscular systems, the next part's content is to learn a dynamics model and use it for control. In particular, the goal here is to learn a model purely from data as analytical models of PAM-based robots are not sufficiently good. Nonlinearities, hysteresis effects, massive actuator delay, and unobservable dependencies like temperature make such actuators' modeling especially hard. We learn probabilistic forward dynamics models using Gaussian processes and, subsequently, employ them for control to address this issue. However, Gaussian processes dynamics models cannot be set-up for our musculoskeletal robot as for traditional motor-driven robots because of unclear state composition, etc. In this part of the thesis, we empirically study and discuss how to tune these approaches to complex musculoskeletal robots. For the control part, introduce Variance Regularized Control (VRC) that tracks a desired trajectory using the learned probabilistic model. VRC incorporates the GP's variance prediction as a regularization term to optimize for actions that minimize the tracking error while staying in the training data's vicinity. In the third part of this thesis, we utilized the PAM-based robot to return and smash table tennis balls that have been shot by a ball launcher. Rather than optimizing the desired trajectory and subsequently track it to hit the ball, we employ model-free Reinforcement Learning to learn this task from scratch. By using RL with our system, we can specify the table tennis task directly in the reward function. The RL agent also applies the actions directly on the low-level controls (equivalent to the air pressure space) while robot safety is assured due to the antagonistic actuation. In this manner, we allow the RL agent to be applied to the real system in the same way as in simulation. Additionally, we make use of the robustness of PAM-driven robots by letting the training run for 1.5 million time steps 14 hours. We introduce a semi sim and real training procedure in order to avoid training with real balls. With this solution, we return 75% of all incoming balls to the opponent's side of the table without using real balls during training. We also learn to smash the ball with an average ball speed of 12 m\s (5 m\s for the return task) after the hit while sacrificing accuracy (return rate of 29%). In summary, we show that learning approaches to control of muscular systems can lead to increased performance in dynamic tasks. In this thesis, we went through many aspects of robotics: We started by building a PAM-based robot and showed its robustness and inherent safety by tuning control parameters automatically with BO. Also, we modeled the dynamics and used this model for control. In the last chapter, we on top used our system for a precision-demanding task that has not been achieved before. Altogether, this thesis makes a step towards showing that good performance in dynamic tasks can be achieved because and not despite PAM-driven robots.

Alternative Abstract:
Alternative AbstractLanguage

Heutige Roboter sind in der Lage, viele Aufgaben zu übernehmen, die das menschliche Leben enorm verbessern. In industriellen Anwendungen beispielsweise transportieren Roboter schwere Teile sehr schnell und präzise auf einer vordefinierten Trajektorie. Roboter werden immer häufiger in der Landwirtschaft oder im Haushalt eingesetzt, wie zum Beispiel beim Staubsaugen oder Rasenmähen. Für generelle Aufgaben klafft jedoch noch eine Lücke zwischen menschlichen Fähigkeiten und dem, was heutige Roboter im Stande sind zu leisten. Ein gutes Beispiel dafür sind dynamische Aufgaben, wie Tischtennis mit anthropomorphen Roboterarmen. Solche Aufgaben erfordern die Ausführung von schnellen Bewegungen, die das System beschädigen können. Die Berechnung schneller Bewegungen und deren Ausführung ohne den Roboter zu gefährden, stellen eine große Herausforderung dar, die bisher nicht erfüllt wurde. Im Vergleich dazu sind dynamische Aufgaben relative leicht für Menschen zu erlernen und durchzuführen. Können wir ein vergleichbares Level mit anthropomorphen Robotern erreichen? In dieser Arbeit untersuchen wir, ob Lernansätze angewendet auf menschenähnlich angetriebenen Roboter, uns diesem ehrgeizigen Ziel einen Schritt näher bringen können. Lernen hat das Potenzial, schwierige Regelungsprobleme zu lösen, die durch schnelle Bewegungen und komplexe Roboter entstehen. Ein essentieller Teil jedes Lernalgorithmuses besteht darin zu auszuprobieren und daraus zu lernen. Exploration kann auf realen Robotern gefährlich sein und bedarf deshalb einer Abwägung gegen die Sicherheit des Roboters, insbesondere bei dynamischen Aufgaben. Ein generelles Ziel dieser Arbeit ist es zu zeigen, dass menschenähnlichere Antriebe für Roboter es ermöglichen, direkt auf realen Systemen schnelle Bewegungen auszuprobieren und zu scheitern, um daraus lernen zu können. Im ersten Teil dieser Arbeit, entwickeln wir einen Roboterarm mit vier Freiheitsgraden und acht pneumatischen künstlichen Muskeln (PAM). Dieses System ermöglicht es erwünschte Eigenschaften menschlicher Armbewegungen in dynamischen Aufgaben zu reproduzieren: 1) hohes Kraft-zu-Gewicht Verhältnis, 2) inhärente Robustheit durch passive Steifigkeit und 3) schnelle katapult-artige Bewegungen, wie sie durch schnelle Energiefreisetzung möglich sind. Im Kontrast zu bisher gebauten Robotern mit pneumatischem Muskelantrieb, wurde dieses System entwickelt, um die Regelung und Steuerung zu vereinfachen anstatt die menschliche Anatomie nachzubilden. Eine der wichtigsten Erkenntnisse, die wir dabei gewonnen haben, ist, dass ein einfacher PID-Regler ausreicht, um dieses System für langsame Bewegungen präzise zu steuern. Bei der Ausführung schneller Bewegungen direkt auf dem realen System hilft der antagonistische Muskelantrieb Schäden am System zu vermeiden. Auf diese Weise können die Parameter des PID-Reglers und zusätzliche Vorwärtsterme durch Bayes'sche Optimierung ohne weitere Sicherheitseinschränkungen automatisch optimiert werden. Auf dem Weg, die Vorteile der Kombination von Lernansätzen und muskelbasierten Systemen aufzuzeigen, besteht der Inhalt des nächsten Kapitels darin ein Dynamikmodell zu lernen und dieses zur Regelung zu verwenden. Insbesondere geht es hier darum, ein Modell ausschließlich aus Daten zu lernen, da analytische Modelle von PAM-basierten Robotern nicht gut genug sind. Gründe, warum die Ableitung von Modellen aus der Physik schwierig ist, sind Nichtlinearitäten, Hystereseeffekte, massive Stellgliedverzögerungen und schwer beobachtbare Abhängigkeiten wie z.B. von der Temperatur. Um dieses Problem anzugehen, lernen wir probabilistische Vorwärtsdynamikmodelle mit Hilfe von Gaußschen Prozessen und setzen sie anschließend zur Steuerung ein. Allerdings können Gaußsche Dynamikmodelle für muskel-basierte Roboter nicht wie für herkömmliche motorgetriebene Roboter eingesetzt werden, da beispielsweise die Zustandszusammensetzung unklar ist. In diesem Teil der Arbeit untersuchen wir empirisch und diskutieren im Detail, wie man diese Ansätze auf komplexe muskelbetriebene Roboter abstimmen kann. Zusätzlich stellen wir die Methode Variance Regularized Control (VRC) vor, die eine gewünschte Trajektorie mithilfe des erlernten probabilistischen Modells nachführt. VRC nutzt die Varianzvorhersage als Regularisierung, um den Nachführfehler zu minimieren während gleichzeitig das System in der Nähe der Trainingsdaten gehalten wird. Im dritten Teil dieser Arbeit lernen wir Tischtennisbälle, die von einer Ballmaschine geworfen werden, auf den Tisch zurückzuspielen und zu schmettern. Anstatt eine Trajektorie des Schlägers zu optimieren, die den fliegenden Ball zurückspielen würde, und anschließend mit dem Roboter nachzuführen, setzen wir modellfreies Reinforcement Learning (RL) ein und lernen diese Aufgabe ohne Vorwissen einzusetzen. Der Vorteil dieses Ansatzes ist es, dass wir das wesentliche Ziel im Tischtennis direkt in der Belohnungsfunktion formulieren können, anstatt zu versuchen die berechnete Trajektorie als Ganzes nachzuverfolgen. Darüber hinaus wendet der RL-Agent seine Aktionen direkt auf die Low-Level-Steuerung~(entspricht dem Luftdruck) an, während die Unversehrtheit des Roboters durch den antagonistische Muskelantrieb gewährleistet wird. Auf diese Weise kann der RL-Agent auf dieselbe Art und Weise in Simulation und dem realen System agieren. Darüber hinaus nutzen wir die Robustheit von PAM-gesteuerten Robotern, um das Training für 1,5 Millionen Zeitschritte auszuführen (entspricht etwa 14 Stunden). Um ein unpraktisches Training mit realen Bällen zu vermeiden, führen wir eine teil-simulierte und teil-reale Trainingsprozedur ein. Mit dieser Lösung retournieren wir 75 % aller Bälle auf die Seite des Gegners, ohne vorher echte Bälle während des Trainings zu verwenden. Dabei lernen wir den Ball mit einer durchschnittlichen Ballgeschwindigkeit von 12 m\s (5 m\s für das Zurückspielen) zu schmettern, was mit einer geringeren Genauigkeit einhergeht (29% der Bälle werden auf die andere Tischseite zurückgespielt). Zusammenfassend zeigen wir in dieser Dissertation, dass Lernansätze zur Steuerung von Muskelsystemen hilfreich bei dynamischen Aufgaben sind. Dabei arbeiteten wir an vielen Aspekten der Robotik: Wir begannen mit der Entwicklung eines PAM-basierten Roboters und zeigten seine Robustheit, indem wir die Regelparameter automatisch mit Bayes'scher Optimierung ohne Sicherheitsbeschränkungen optimierten. Des Weiteren haben wir die Dynamik des Muskelroboters probabilistisch modelliert und dieses Modell unter Berücksichtigung der Varinzvorhersage zur Steuerung verwendet. Im letzten Kapitel, nutzen wir unser System, um eine dynamische Aufgabe zu lösen, die so bisher noch nicht erreicht wurde. Alles in allem, zeigt diese Arbeit, dass gute Lösungen für dynamischen Aufgaben erzielt werden können nicht obwohl, sondern weil muskelbasierte Systeme eingesetzt wurden.

German
Place of Publication: Darmstadt
Classification DDC: 600 Technik, Medizin, angewandte Wissenschaften > 600 Technik
600 Technik, Medizin, angewandte Wissenschaften > 620 Ingenieurwissenschaften
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 11 Dec 2020 09:09
Last Modified: 12 Dec 2020 01:29
DOI: 10.25534/tuprints-00017210
URN: urn:nbn:de:tuda-tuprints-172109
Referees: Peters, Prof. Dr. Jan and Asfour, Prof. Dr. Tamim
Refereed: 17 December 2019
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/17210
Export:
Actions (login required)
View Item View Item