TU Darmstadt / ULB / TUprints

Randomizing Physics Simulations for Robot Learning

Muratore, Fabio (2021):
Randomizing Physics Simulations for Robot Learning. (Publisher's Version)
Darmstadt, Technische Universität,
DOI: 10.26083/tuprints-00019940,
[Ph.D. Thesis]

Copyright Information: CC-BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (12MB) | Preview
Item Type: Ph.D. Thesis
Status: Publisher's Version
Title: Randomizing Physics Simulations for Robot Learning
Language: English

The ability to mentally evaluate variations of the future may well be the key to intelligence. Combined with the ability to reason, it makes humans excellent at handling new and complex situations. If we want robots to solve varying tasks autonomously, we need to endow them with such kind of ‘mental rehearsal’. Physics simulations allow predicting how the environment will change depending on a sequence of actions. For example, robots can simulate multiple control policies in different simulations instances, collect the results, and subsequently reason about which policy to execute in the real world. As such physics simulations are highly customizable, they enable generating vast amounts of diverse data at a relatively low cost. Therefore, they make it possible to apply deep learning methods for physical systems despite the exorbitant demand for data. Since state-of-the-art deep learning methods come with few guarantees, it is essential to test them in many simulated scenarios before deployment on the real system. Over the last decade, the speed and modeling power of general-purpose physics engines increased significantly. State-of-the-art simulators feature rigid body, soft body, and fluid dynamics, as well as massive GPU-based parallelization. Despite the impressive progress, simulations will always remain an idealized model of the real world, thus are inevitably flawed. Typical error sources are unmodeled physical phenomena, or suboptimal parameter values of the underlying generative model. These discrepancies between the real and the simulated world are summarized by the term ‘reality gap’. This gap can manifest in various ways when learning from simulations. In the best case, it is only a performance drop, e.g., a lower success rate, or a reduced tracking accuracy. More likely, the learned policy is not transferable to the robot because of unknown friction effects, which lead to underestimating the friction in simulation. Thus, the commanded actions are in this case not strong enough to get the robot moving. Another reason for failure are small parameter estimation errors, which can quickly lead to unstable system dynamics. This case is particularly dangerous for humans and robots. For these reasons, bridging the reality gap is the essential step to endow robots with the ability to learn from simulated experience. In this thesis, we will tackle the challenge of learning robot control policies from simulations such that the results can be (directly) transferred to the real world. We focus on scenarios where the source domain is a randomized simulator and the target domain is either a different simulation instance (sim-to-sim) or the physical robot (sim-to-real). We strive to answer the following research questions: 1. How can we quantitatively estimate the transferability of a control policy from one domain to another? 2. Does randomizing the simulator during learning make the resulting policy more robust against modeling imperfections? 3. How do we adapt the randomized simulator based on real-world evaluations? 4. Can we infer the source domain parameter distribution from data and subsequently use it for learning? 5. What are the necessary assumptions and technical requirements to learn robot control policies from randomized simulations? Despite the recent popularity of sim-to-real methods, the first question has been unanswered up to this point in time. As a consequence, state-of-the-art algorithms can not make a quantitative statement about the transferability of the resulting control policies. Moreover, they stop training according to some heuristic like a fixed number of iterations, which can lead to a waste of computation time. In Chapter 3, we derive the simulation optimization bias as a measure of the reality gap, and show that policies learned from a source domain are optimistically biased in terms of their performance in the target domain, even if they originate from the same distribution. To mitigate this problem, we propose a policy search algorithm that estimates simulation optimization bias and continues training until an estimated upper confidence bound on this bias is below a given threshold. Thus, the resulting policy satisfies a probabilistic guarantee on the performance loss when transferring the policy to a different environment from the same source domain distribution. Moreover, our sim-to-real evaluations answer the second question with a clear “yes”. Straightforwardly learning from randomized source domains shows the tendency to be slower and have lower performance at the nominal model than methods that close the sim-to-real loop by adapting the domain parameter distribution. Therefore, we tackle the third question in Chapter 4 by introducing a policy search algorithm which incorporates Bayesian optimization to adapt the domain parameter distribution based on real-world data. The sample-efficiency of Bayesian optimization allows updating the distribution’s parameters, including the uncertainty, while only requiring few evaluations on the physical device. Most notably, the data yielded from these evaluations can be very scarce, e.g., a scalar return value per trial. This way, the connection between distribution over simulator parameters and the target domain performance is captured by a probabilistic model. At the same time, we can eliminate the common assumption of knowing the distribution’s mean and variance a priori. So far, existing domain randomization approaches assume that each domain parameter is independent and obeys a known probability distribution type, typically chosen to be a normal or uniform distribution. These and other assumptions impose unnecessary restrictions on the posterior distribution over simulators, and prevent us from utilizing the full power of domain randomization. In order to overcome this limitation, we propose to combine reinforcement learning with state-of-the-art likelihood-free inference methods, powered by flexible neural density estimators, to learn the posterior over domain parameters. The proposed method only requires a parametric generative model, e.g., a physics simulator, coarse prior ranges, and a small set of real-world trajectories. Together with a policy optimization algorithm, this approach iteratively updates the posterior over simulators and learns how to solve a given task. Most importantly, the generative model does not need to be differentiable, and the neural posterior can capture dependencies between domain parameters. By drastically reducing the quality and quantity of assumptions while still successfully learning transferable control policies, this procedure answers the fourth and the fifth question in Chapter 5. The methods presented in this thesis will greatly benefit from the continuous increase in computational power, allowing the randomization schemes to perform more exhaustive searches through the domain parameter space. In consequence, the required computation time as well as the variance will be reduced, alleviating the two biggest drawbacks of the domain randomization approaches. Meanwhile, financially strong actors like the video gaming industry are heavily pushing the development of physics simulators. Thus, current niche applications like simulations of muscles or interactions between fluid and solid particles are going to be consumer standard in the near future. The facilitated access to high-fidelity simulators will open the door to a whole new range of tasks which can be solved with methods presented in this thesis. One example could be to train control policies for active robotic prostheses in simulation such that to support human motion. In a subsequent step, these controllers could be customized based on user-specific data. The foreseeable establishment of (differentiable) probabilistic simulation engines will provide access to the simulator’s likelihood function, hence boost the applicability of Bayesian inference. As a consequence, the popularity of research on highly data-efficient simulation-based inference methods will increase, leading to new algorithms that can perform complex inference in real time. These approaches have the potential to become the next mega trend in robotics research after the era deep learning.

Alternative Abstract:
Alternative AbstractLanguage

Die Fähigkeit Varianten der Zukunft mental zu evaluieren ist wahrscheinlich der Schlüssel zur Intelligenz. Kombiniert mit der Fähigkeit Schlussfolgerungen zu ziehen, macht sie den Menschen hervorragend im Bewältigen neuer und komplexer Situationen. Wenn Roboter zukünftig unterschiedlichste Aufgaben autonom lösen sollen, müssen wir sie mit einer solchen Art von „mentaler Evaluierung“ ausstatten. Mithilfe von Physiksimulationen lässt sich vorhersagen wie sich die Umgebung in Abhängigkeit von einer Abfolge von Aktionen verändern wird. Zum Beispiel können Roboter mehrere Regelungsstrategien in verschiedenen Simulationsinstanzen ausprobieren, die Ergebnisse sammeln und anschließend entscheiden welche Strategie in der realen Welt ausgeführt werden soll. Die hohe Anpassbarkeit von Physiksimulationen gestattet es gigantische Mengen unterschiedlichster Daten kostengünstig zu generieren. Somit ermöglichen sie die Anwendung von deep learning Methoden für physikalische Systeme trotz deren exorbitanten Bedarfs an Daten. Ein weiteres Einsatzgebiet von Simulationen ist das Testen von gelernten Reglern. Bedingt durch die Tatsache dass moderne deep learning Methoden nur wenige formale Garantien bieten, ist es unerlässlich diese in einer Vielzahl von simulierten Szenarien zu testen, bevor sie auf dem realen System eingesetzt werden. Im Zuge der letzten Dekade stieg die Geschwindigkeit und Modellierungskapazität von Physiksimulatoren rasant an. Zum jetzigen Stand der Technik beinhalten diese unter anderem starre sowie deformierbare Körper, Fluidmechanik und eine hochgradige Parallelisierbarkeit durch Grafikkarten. Ungeachtet der beeindruckenden Fortschritte werden Simulationen immer ein idealisiertes Modell der Realität bleiben und sind daher zwangsläufig fehlerbehaftet. Typische Fehlerquellen sind nicht modellierte physikalische Phänomene oder suboptimale Parameterwerte des zugrunde liegenden generativen Modells. Die Diskrepanzen zwischen der realen und der simulierten Welt werden unter dem Begriff reality gap zusammengefasst. Diese unvermeidlichen Modellierungsungenauigkeiten können sich beim Lernen aus Simulationen auf unterschiedliche Weise manifestieren. Im besten Fall handelt es sich nur um eine verringerte Performanz des Reglers, wie beispielsweise eine niedrigere Erfolgsrate oder eine reduzierte Genauigkeit. Wahrscheinlicher ist jedoch, dass aufgrund unbekannter Effekte die Reibung in der Simulation unterschätzt wird und somit der gelernte Regler nicht auf den realen Roboter übertragbar ist, weil die Stellgrößenvorgaben in diesem Fall nicht stark genug sind um den Roboter in Bewegung zu bringen. Ein weiterer Grund für einen gescheiterten Transfer der Regelungsstrategie sind kleine Parameterschätzungsfehler, die schnell zu einer instabilen Systemdynamik führen können. Dieser Fall ist besonders gefährlich für Mensch und Roboter. Die genannten Gründe verdeutlichen dass die Überbrückung der reality gap der wesentliche Schritt ist, um Roboter mit der Fähigkeit auszustatten aus simulierten Erfahrungen zu lernen. In dieser Dissertation befassen wir uns mit der Herausforderung Roboterregelungsstrategien aus Simulationen so zu lernen, dass die Ergebnisse (direkt) auf die reale Welt übertragen werden können. Wir konzentrieren uns auf Szenarien, in denen die Quelldomäne ein randomisierter Simulator und die Zieldomäne entweder eine andere Simulationsinstanz (sim-to-sim) oder der physische Roboter (sim-to-real) ist. Wir streben danach die folgenden Forschungsfragen zu beantworten: 1. Wie können wir die Übertragbarkeit einer Regelungsstrategie von einer Domäne auf eine andere quantitativ abschätzen? 2. Macht die Randomisierung des Simulators während des Lernens den resultierenden Regler robuster gegenüber Modellierungsunvollkommenheiten? 3. Wie sollten wir den randomisierten Simulator basierend auf realen Auswertungen anpassen? 4. Können wir die Parameterverteilung der Quelldomäne aus Daten erschließen und diese Verteilung anschließend zum Lernen verwenden? 5. Was sind die notwendigen Annahmen und technischen Voraussetzungen um Roboterregelungsstrategien aus randomisierten Simulationen zu lernen? Trotz der jüngsten Popularität von sim-to-real Methoden ist die erste Frage bis zu diesem Zeitpunkt unbeantwortet geblieben. Infolgedessen können die Algorithmen nach dem Stand der Technik keine quantitative Aussage über die Übertragbarkeit der resultierenden Regelungsstrategien treffen. Außerdem beenden diese Algorithmen das Training meist mittels einer Heuristik wie einer festen Anzahl von Iterationen, was zu einer Verschwendung von Rechenzeit führen kann. In Kapitel 3 leiten wir den simulation optimization bias als Maß für die reality gap her und zeigen, dass aus einer Quelldomäne gelernte Regler in Bezug auf ihre Leistung in der Zieldomäne optimistisch verzerrt sind, selbst wenn die Domänen aus der gleichen Verteilung stammen. Um dieses Problem zu entschärfen, schlagen wir einen Algorithmus vor, der den simulation optimization bias schätzt und das Training so lange fortsetzt, bis eine geschätzte obere Konfidenzgrenze für diese Verzerrung unter einem bestimmten Schwellenwert liegt. Somit erfüllt die resultierende Regelungsstrategie eine probabilistische Garantie für den Leistungsverlust beim Übertragen des Reglers auf eine andere Instanz aus derselben Quelldomänenverteilung. Darüberhinaus beantworten unsere sim-to-real Auswertungen die zweite Frage mit einem klaren „ja“. Lernverfahren die ihre Randomisierung nicht anpassen, zeigen die Tendenz langsamer zu sein und eine geringere Leistung beim Nominalmodell zu haben als Methoden, welche die sim-to-real Schleife durch Anpassung der Domänenparameterverteilung schließen. Aus diesem Grund gehen wir die dritte Frage im Kapitel 4 mit der Einführung eines Algorithmus an, der eine Bayes’sche Optimierung miteinbezieht um die Verteilung der Domänenparameter basierend auf realen Daten anzupassen. Die Effizienz der Bayes’schen Optimierung erlaubt es die Parameter dieser Verteilung, einschließlich der Varianz, zu aktualisieren während zugleich nur wenige Auswertungen auf dem physikalischen Gerät benötigt werden. Ein weiterer Vorteil dieser Methode ist, dass sie bereits mit sehr wenigen Auswertungen am physikalischen System funktioniert. Beispielsweise reicht lediglich eine Schätzung der Performanz pro Versuch. Auf diese Weise wird der Zusammenhang zwischen der Verteilung über die Simulatorparameter und der Leistung der Zieldomäne durch ein probabilistisches Modell erfasst. Gleichzeitig können wir die weit verbreitete Annahme eliminieren den Mittelwert sowie die Varianz der Verteilung a priori zu kennen. Bisherige Ansätze zur Domänenrandomisierung gehen davon aus, dass jeder Domänenparameter unabhängig ist und einer bekannten Wahrscheinlichkeitsverteilung folgt, welche typischerweise als Normal- oder Gleichverteilung angenommen wird. Diese sowie andere Annahmen schränken die Ausdrucksfähigkeit der A-posteriori-Verteilung über Simulatoren unnötig ein und verhindern, dass wir das volle Potential der Domänenrandomisierung nutzen können. Um diese Einschränkungen zu überwinden, schlagen wir vor bestärkendes Lernen mit modernsten likelihood-free inference Methoden zu kombinieren, welche die Wahrscheinlichkeitsverteilungen durch spezielle neuronale Netze modellieren, wodurch die Approximation der A-posteriori-Verteilung über die Domänenparameter deutlich flexibler wird. Unsere neuartige Lösung benötigt nur ein parametrisches generatives Modell, wie zum Beispiel einen Physiksimulator, eine grobe Anschätzung der A-priori-Wahrscheinlichkeit und einen kleinen Satz von realen Trajektorien. Zusammen mit einem Optimierungsalgorithmus für den Regler, aktualisiert dieser Ansatz iterativ die A-posteriori-Verteilung über Simulatoren und lernt wie eine gegebene Aufgabe zu lösen ist. Dabei ist hervorzuheben, dass das generative Modell nicht differenzierbar sein muss und dass das neuronale Modell für die A-posteriori-Wahrscheinlichkeit in der Lage ist Abhängigkeiten zwischen Domänenparametern zu erfassen. Durch die drastische Reduzierung der Quantität und Qualität der Annahmen bei gleichzeitig erfolgreichem Lernen von übertragbaren Regelungsstrategien, beantwortet dieses Verfahren die vierte sowie fünfte Frage in Kapitel 5. Die in dieser Arbeit vorgestellten Methoden profitieren in hohem Maße von der kontinuierlichen Steigerung der Rechenleistung, die es den Randomisierungsschemata erlaubt den Domänenparameterraum immer ausführlicher abzusuchen. Infolgedessen werden sowohl die benötigte Rechenzeit als auch die Varianz reduziert, wodurch die zwei größten Nachteile von Randomisierungsansätzen abgemildert werden. Inzwischen treiben finanzstarke Akteure wie die Videospielindustrie die Entwicklung von Physiksimulatoren massiv voran. So werden aktuelle Nischenanwendungen wie beispielsweise die Simulation von Muskeln oder Wechselwirkungen zwischen flüssigen und festen Partikeln bald weit verbreitet sein. Der erleichterte Zugang zu modernen Allzwecksimulatoren wird die Tür zu einer ganzen Reihe von neuen Aufgaben öffnen, die mit den in dieser Arbeit vorgestellten Methoden gelöst werden können. Ein denkbares Beispiel ist die Entwicklung selbstlernender Roboterprothesen die menschliche Bewegungen unterstützten. Die dafür benötigten Datenmengen könnten in einem ersten Schritt aus Simulationen kommen, woraufhin ineinem zweiten Schritt der Regler basierend auf benutzerspezifischen Daten angepasst werden könnte. Die absehbare Etablierung von (differenzierbaren) probabilistischen Simulatoren wird den direkten Zugriff auf die Wahrscheinlichkeitsfunktion des Simulators ermöglichen und damit die Anwendbarkeit von Bayes’schen Methoden drastisch erhöhen. Infolgedessen wird die Popularität der Forschung an hochgradig dateneffizienten simulationsbasierten Inferenzmethoden zunehmen, was zu neuen Algorithmen führt, diekomplexe Schlussfolgerungen in Echtzeit durchführen können. Diese Ansätze haben das Potenzial der nächste Megatrend in der Roboterforschung nach der Ära des deep learning zu werden.

Place of Publication: Darmstadt
Collation: xx, 138 Seiten
Classification DDC: 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
600 Technik, Medizin, angewandte Wissenschaften > 600 Technik
600 Technik, Medizin, angewandte Wissenschaften > 620 Ingenieurwissenschaften
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 01 Dec 2021 13:30
Last Modified: 01 Dec 2021 13:30
DOI: 10.26083/tuprints-00019940
URN: urn:nbn:de:tuda-tuprints-199400
Referees: Peters, Prof. Dr. Jan ; Ramos, Prof. Dr. Fabio
Date of oral examination: 28 September 2021
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/19940
Actions (login required)
View Item View Item