Enhancing Robot Manipulation Skills through Learning
Enhancing Robot Manipulation Skills through Learning
Robotic manipulation is a core area in robotics that focuses on developing systems that enable robots to interact and modify their environment by manipulating objects in the physical world. From stacking groceries on supermarket shelves to solving difficult assembly tasks in industrial settings, robots are expected to handle multiple manipulation challenges in different environments and handle various objects. Manipulation systems are composed of several modules, such as perception, motion planning, and control, each specialized in solving a part of the task, enabling researchers to focus on specific problems and advance the field in a modular way. However, these modules are still nowadays heavily-engineered to solve a specific problem in a static environment or handle particular pre-determined object shapes and sizes. If we expect future robots to be more present in our factories and our homes, they must be able to adapt to new environments and objects and learn new tasks without being constantly reprogrammed by expert users. Noticing the limitations of current manipulation systems and the great advancements in machine learning over the last decade, it is natural to ask how learning methods can help create more capable and adaptive robots. In this thesis, we ask how learning methods can be used to improve the performance of the robotic manipulation pipeline in the subproblems of motion planning, grasping, and insertion.
In three separate chapters, we explore different learning approaches to these subproblems.
First, we note that the performance of optimization-based robot motion planning algorithms highly depends on initial samples, commonly obtained by running a sample-based planning method, which can be slow in high-dimensional and complex scenes and produce non-smooth solutions. Therefore, given previously solved path-planning problems, it is highly desirable to learn this data distribution and use it as a prior for new similar problems. However, this data is highly multimodal, as there are many ways to traverse an environment from a start to a goal configuration. To encode this prior knowledge and adapt to new tasks, we propose Motion Planning Diffusion (MPD), a method to learn trajectory priors for motion planning with diffusion models that, given a new cost function, adapts to new scenes and generates diverse and smooth solutions.
Second, we explore the problem of grasping objects given a single-view camera. The problem of stable grasping is encountered in almost every manipulation task, as the first step in manipulating an object is to grasp it. Particularly in real-world applications, there is often only partial information about the object due to occlusions or sensor limitations. As obtaining real-world grasp data is costly and time-consuming, simulation methods have been developed to collect large amounts of data pairs of objects and stable grasps. The generated data is highly multimodal, as there are many ways to grasp an object. To overcome these challenges, we propose Grasp Diffusion Network (GDN), a method that learns a multimodal grasp generative model given partial views of an object, by modelling the distribution with diffusion models in the manifold of homogenous transformations.
Third, we combine imitation and reinforcement learning to learn control policies for assembly tasks in environments that are difficult to model, such as contact-rich insertion tasks. To solve these problems in the real world, it is helpful to first provide a small set of demonstrations and learn a trajectory distribution with imitation learning. However, sampling a trajectory from the learned distribution and replaying the movement might not solve the task for several reasons. On the one hand, the sampled trajectory might be slightly off. On the other hand, in contact-rich tasks, a low-gain controller is commonly used, and it might not follow the trajectory precisely. Therefore, given a handful of trajectory demonstrations from a human performing an insertion task, we propose to learn Probabilistic Movement Primitives and later adapt sampled trajectories with Residual Reinforcement Learning to account for an imprecise controller and corrections in position and orientation during task execution. The proposed method is evaluated in a real-world block insertion task using a 7-dof robot that the nominal policy previously failed to solve.
In summary, this thesis contributes to advancing the field of robotic manipulation by proposing learning methods that handle large amounts of multimodal data, model the distribution in the correct manifold, and improve sample efficiency when learning from trial-and-error in contact-rich tasks. For each approach, we provide experiments in simulation and real-world tasks that show our methods can improve the performance of different components of the manipulation stack, from motion planning, grasping, and assembly tasks, and thus are a step forward in building more capable and adaptive learning-based robots.
Robotermanipulation ist ein Kernbereich der Robotik, der sich auf die Entwicklung von Systemen konzentriert, die es Robotern ermöglichen, mit ihrer Umgebung zu interagieren und diese durch die Manipulation von Objekten in der physischen Welt zu verändern. Vom Stapeln von Lebensmitteln in Supermarktregalen bis hin zur Lösung komplexer Montageaufgaben in der Industrie wird von Robotern erwartet, dass sie mehrere Manipulationsaufgaben in unterschiedlichen Umgebungen bewältigen und verschiedene Objekte handhaben können. Manipulationssysteme setzten sich aus verschiedenen Modulen wie Wahrnehmung, Bewegungsplanung und Steuerung zusammen, von denen jedes auf die Lösung eines Teils der Aufgabe spezialisiert ist, sodass sich die Forscher auf spezifische Probleme konzentrieren und das Forschungsfeld auf modulare Weise weiterentwickeln können. Allerdings sind diese Module auch heute noch stark darauf ausgerichtet, ein bestimmtes Problem in einer statischen Umgebung zu lösen oder bestimmte vorgegebene Objektformen und Größen zu handhaben. Wenn wir erreichen wollen, dass Roboter zukünftig in unseren Fabriken und Wohnungen Einzug halten sollen, müssen sie in der Lage sein, sich an neue Umgebungen und Objekte anzupassen und neue Aufgaben zu erlernen, ohne dass sie von Experten regelmäßig umprogrammiert werden müssen. Angesichts der Grenzen aktueller Manipulationssysteme und der großen Fortschritte im Bereich des maschinellen Lernens in den letzten zehn Jahren stellt sich in logischer Konsequenz die Frage, wie Lernmethoden dazu beitragen können, leistungsfähigere und lernfähigere Roboter zu entwickeln. In dieser Arbeit untersuchen wir die Frage, wie Lernmethoden eingesetzt werden können, um die Leistung der Robotermanipulationspipeline in den Teilproblemen der Bewegungsplanung, des Greifens und des Einführens zu verbessern.
In drei separaten Kapiteln untersuchen wir verschiedene Lernansätze für diese Teilprobleme.
Erstens stellen wir fest, dass die Leistung optimierungsbasierter Algorithmen für die Bewegungsplanung von Robotern in hohem Maße von der anfänglichen Initialisierung abhängt. In der Regel wird diese durch das Ausführen einer Stichproblenbasierten Planungsmethods gewonnen. Gerade in hochdimensionalen und komplexen Szenen ist diese langsam und kann nicht-flüssige Bewegungen erzeugen. Daher ist es sehr wünschenswert, die Datenverteilung der initialen Stichpunkte für bereits gelöste Planungsprobleme zu erlernen und sie als Basis für neue ähnliche Probleme wieder zu verwenden. Diese Daten sind jedoch oft multimodal, da es viele Möglichkeiten gibt, eine Umgebung von einer Start- zu einer Zielkonfiguration zu durchqueren. Um von diesem Vorwissen zu profitieren und sich an neue Aufgaben anpassen zu können, schlagen wir Motion Planning Diffusion (MPD) vor, eine Methode zum Erlernen von Prior-Verteilungen über Trajektorien für die Bewegungsplanung mit Diffusionsmodellen, die sich bei einer neuen Kostenfunktion an neue Szenen anpasst und vielfältige sowie glatte Lösungen erzeugt.
Zweitens untersuchen wir das Problem des Greifens von Objekten mit Hilfe einer Single-View-Kamera. Das Problem des stabilen Greifens tritt bei fast jeder Manipulationsaufgabe auf, da der erste Schritt bei der Manipulation eines Objekts darin besteht, es zu greifen. Insbesondere bei realen Anwendungen liegen aufgrund von Verdeckungen oder durch Limitierung der Sensoren oft nur Teilinformationen über das zu greifende Objekt vor. Da die Gewinnung von realen Greifdaten kostspielig und zeitaufwändig ist, wurden Simulationsmethoden entwickelt, um große Mengen von Datenpaaren zwischen Objekten und stabilen Griffen zu sammeln. Die erzeugten Daten sind in hohem Maße multimodal, da es viele Möglichkeiten geben kann, ein und das selbe Objekt zu greifen. Um diese Herausforderungen zu bewältigen, schlagen wir das Grasp Diffusion Network (GDN) vor, eine Methode, die ein multimodales generatives Modell für das Greifen von Teilansichten eines Objekts erlernt, indem die Verteilung mit Diffusionsmodellen in der Mannigfaltigkeit der homogenen Transformationen modelliert wird.
Drittens kombinieren wir Imitations- und Bestärkungslernen, um Steuerungsstrategien für Montageaufgaben in Umgebungen zu erlernen, die schwer zu modellieren sind, wie z.B. kontaktreiche Einfügeaufgaben. Um diese Art von Problemen in einer realen Umgebung zu lösen, ist es hilfreich, zunächst eine kleine Menge von Demonstrationen zu sammeln und dieTrajektorienverteilung mithilfe von Imitationslernen zu erlernen. Die Stichprobennahme einer Trajektorie aus der gelernten Trajektorienverteilung und das Wiederholen der Bewegung bringt jedoch häufig aus mehreren Gründen keinen Erfolg. Zum Einen könnte die entnommene Stichproben-Trajektorie leicht daneben liegen. Zum Anderen wird bei Aufgaben mit vielen Kontakten üblicherweise ein Controller mit geringer Verstärkung verwendet, der der Trajektorie möglicherweise nicht genau folgt. Daher schlagen wir vor, anhand einer geringen Anzahl an Trajektorien-demonstrationen eines Menschen, der eine Einfügungsaufgabe ausführt, probabilistische Bewegungsprimitive (ProMPs) zu erlernen und später die gezogenen Trajektorien-Stichproben mithilfe von Residual Reinforcement Learning (RRL) anzupassen, um eine ungenaue Steuerung und Korrekturen der Position und Orientierung während der Aufgabenausführung zu berücksichtigen. Die vorgeschlagene Methode wird in einer realen Blockeinfügungsaufgabe mit einem 7-dof-Roboter evaluiert, welche die nominale Strategie zuvor nicht lösen konnte.
Zusammenfassend trägt diese Arbeit dazu bei, das Gebiet der Robotermanipulation voranzubringen, indem sie Lernmethoden vorschlägt, die große Mengen multimodaler Daten verarbeiten, die Verteilung in der richtigen Mannigfaltigkeit modellieren und die Stichprobeneffizienz beim Lernen aus Versuch und Irrtum in kontaktreichen Aufgaben verbessern. Für jeden Ansatz präsentieren wir Experimente in Simulationen und realen Umgebungen, die zeigen, dass unsere Methoden die Leistung verschiedener Komponenten des Manipulationsstapels verbessern können, von der Bewegungsplanung über das Greifen bis hin zu Montageaufgaben, und somit einen Fortschritt bei der Entwicklung von leistungsfähigeren und adaptiven lernbasierten Robotern darstellen.

