Learning Robotic Manipulation through Vision, Touch, and Spatially Grounded Representations
Learning Robotic Manipulation through Vision, Touch, and Spatially Grounded Representations
Achieving dexterous robotic manipulation remains one of the grand challenges in robotics. Progress toward this goal is essential for physically integrating intelligent autonomous systems into everyday life, enabling robots to assist with or fully perform the diverse range of manipulation tasks currently carried out by humans. Despite remarkable advances in robotic manipulation within structured industrial environments, where tasks are well-defined and predictable, achieving robust manipulation in unstructured, versatile settings such as homes, logistics, and field robotics continues to be an open challenge.
A promising direction toward more flexible and generalizable robotic manipulation lies in leveraging data-driven, machine learning–based approaches. While such approaches have achieved remarkable success in domains like natural language processing, their direct application to robotic manipulation remains challenging. Key difficulties include data scarcity, satisfying real-time constraints, the tight coupling among sensing, policy inference, control, and contact dynamics, as well as the need for long-horizon planning capabilities. One way to address these challenges would be to collect vast amounts of data covering all possible task variations and apply standard large-scale training pipelines. However, considering practical constraints such as cost and time, such approaches are often infeasible. Instead, this thesis adopts a more structured approach, aiming to leverage domain knowledge about robotic manipulation to enhance the performance and efficiency of learning-based methods. From this perspective, several key capabilities emerge as essential for advancing robotic manipulation: advanced tactile sensing to complement visual perception during contact-rich interactions; efficient scene representations that enable learning from few demonstrations and generalization to novel scenarios; policy learning approaches that yield robust and reactive behavior; and flexible long-horizon skill sequencing that accounts for the capabilities of low-level skills to reliably accomplish multi-step manipulation.
In line with these insights, this thesis focuses on the four core topics of tactile sensing, scene representation, policy learning, and skill sequencing. (...)
Die Entwicklung geschickter Manipulationsfähigkeiten zählt nach wie vor zu den größten Herausforderungen der Robotik. Fortschritte in diesem Bereich sind unerlässlich, um intelligente autonome Systeme physisch in den Alltag zu integrieren und Roboter dazu zu befähigen, die vielfältigen Manipulationsaufgaben, die derzeit von Menschen ausgeführt werden, zu unterstützen oder vollständig zu übernehmen. Trotz bemerkenswerter Fortschritte in der Robotermanipulation in strukturierten industriellen Umgebungen, in denen Aufgaben klar definiert und vorhersehbar sind, bleibt die Entwicklung robuster Manipulationsfähigkeiten in unstrukturierten und vielfältigen Umgebungen – etwa in Haushalten, der Logistik oder der Feldrobotik – weiterhin ein zentrales Schlüsselproblem.
Ein vielversprechender Ansatz für flexiblere und allgemeinere Robotermanipulation liegt in der Nutzung datengestützter, auf maschinellem Lernen basierender Verfahren. Während solche Ansätze in Bereichen wie der Verarbeitung natürlicher Sprache bemerkenswerte Erfolge erzielt haben, bleibt ihre direkte Anwendung auf die Robotermanipulation weiterhin eine Herausforderung. Zu den größten Hindernissen zählen die begrenzte Verfügbarkeit geeigneter Daten, die Einhaltung von Echtzeitanforderungen, die enge Kopplung zwischen Sensorik, Auswertung, Regelung und Kontaktdynamik sowie die Notwendigkeit vorausschauender Planung. Eine Möglichkeit, diese Schwierigkeiten zu bewältigen, bestünde in der Sammlung großer Datensätze, die sämtliche Aufgabenvarianten abdecken, und in der anschließenden Anwendung standardisierter, groß angelegter Trainingsmechanismen. Angesichts praktischer Einschränkungen wie Kosten und Zeit ist ein solcher Ansatz jedoch häufig nicht realisierbar. Stattdessen verfolgt diese Arbeit einen strukturierteren Ansatz, der darauf abzielt, Domänenwissen über die Robotermanipulation zu nutzen, um die Leistung und Effizienz lernbasierter Methoden zu verbessern. Aus dieser Perspektive ergeben sich mehrere Schlüsselkompetenzen, die für die Weiterentwicklung der Robotermanipulation unerlässlich sind: fortschrittliche taktile Sensorik zur Ergänzung der visuellen Wahrnehmung bei kontaktintensiven Interaktionen; effiziente Szenendarstellungen, die das Lernen aus wenigen Demonstrationen und die Verallgemeinerung auf neue Szenarien ermöglichen; Ansätze zum Lernen von Handlungsstrategien (Policy Learning), die zu robustem und reaktivem Verhalten führen; sowie langfristiges Planen zur Realisierung mehrstufiger Manipulationsaufgaben.
Aufbauend auf diesen Erkenntnissen widmet sich diese Arbeit vier zentralen Themenbereichen: der taktilen Wahrnehmung, der Szenendarstellung, dem Policy Learning und der Fähigkeitssequenzierung (Skill Sequencing). (...)
