Heutzutage werden industrielle Prozesse mit Hilfe von Robotermanipulatoren weitgehend automatisiert. In einigen Fällen besetzen Roboter einen großen Teil der Produktionslinie und führen eine Vielzahl von Aufgaben aus. Im Gegensatz zu ihrer unermüdlichen Fähigkeit, immer wieder die gleichen Aufgaben mit millimetergenauer Präzision auszuführen, weist die heutige Robotik eine geringe Anpassungsfähigkeit an neue Szenarien auf. Dieser Mangel an Anpassungsfähigkeit behindert in vielen Fällen eine engere Mensch-Roboter- Interaktion; zudem müssen die Roboter, wenn an der Produktionslinie änderungen vorgenommen werden müssen, von hochqualifizierten Personen umkonfiguriert werden. Maschinelles Lernen und insbesondere das Verstärkungslernen versprechen automatisierte Systeme, die sich an neue Situationen anpassen und neue Aufgaben lernen können. Trotz der überwältigenden Fortschritte, die in den letzten Jahren auf diesem Gebiet erzielt wurden, ist die überwiegende Mehrheit des Reinforcement Learning nicht direkt auf die echte Robotik anwendbar. Moderne Reinforcement Learning-Algorithmen erfordern eine intensive Interaktion mit der Umgebung und sind in der frühen Phase des Lernens unsicher, wenn die Politik schlecht abschneidet und die Systeme potenziell schädigt. Aus diesen Gründen hat sich die Anwendung von Reinforcement Learning vor allem bei simulierten Aufgaben wie Computer- und Brettspielen bewährt, bei denen es möglich ist, eine riesige Menge an Proben parallel zu sammeln, und bei denen es keine Möglichkeit gibt, ein reales System zu beschädigen. Um diese Probleme zu entschärfen, schlugen die Forscher vor, zunächst Imitationslernen einzusetzen, um eine vernünftige Strategie zu erhalten, und diese dann durch Verstärkungslernen zu verfeinern. In dieser Arbeit identifizieren wir zwei Hauptprobleme, die die erwähnte Rohrleitung daran hindern, effizient zu arbeiten: (i) Roboterbewegungen werden mit einer hohen Anzahl von Parametern dargestellt, die sowohl eine sichere als auch eine effiziente Exploration verhindern; (ii) die Verbesserung der Richtlinie ist in der Regel eine On-Policy, was ebenfalls ineffiziente und unsichere Aktualisierungen verursacht. Wir schlagen in Kapitel 3 eine effiziente Methode zur Reduzierung der Dimensionalität gelernter Roboter-bewegungen vor, wobei Redundanzen in den Bewegungsräumen (die häufiger bei Manipulationsaufgaben auftreten) statt Redundanzen in der Roboterkinematik ausgenutzt werden. Die Dimensionalitätsreduktion erlaubt die Projektion auf latente Räume, die mit hoher Wahrscheinlichkeit Bewegungen in der Nähe der gezeigten darstellen. Um das Reinforcement Learning sicherer und effizienter zu machen, definieren wir in Kapitel 4 die Off-Policy-Aktualisierung im Latenzraum der Bewegung. In Kapitel 5 schlagen wir eine neuartige Gradientenschätzung außerhalb der Richtlinien vor, die sich einer bestimmten nichtparametrischen Technik
namens Nadaraya-Watson-Kernel-Regression bedient. Aufbauend auf einem soliden theoretischen Rahmen leiten wir statistische Garantien ab. Wir glauben, dass die Bereitstellung starker Garantien das Kernstück eines sicheren maschinellen Lernens ist. In diesem Sinne erweitern und analysieren wir in Kapitel 6 die statistischen Garantien der Nadaraya-Watson-Kernel-Regression weiter. Gewöhnlich muss man hoch entwickelte Belohnungsfunktionen definieren, um herausfordernde Erkundungen beim auf die Robotik angewandten Reinforcement Learning zu vermeiden. Diese Einschränkung behindert die Möglichkeit, nicht-experten Benutzern die Definition neuer Aufgaben zu ermöglichen. Die Exploration bleibt bei hochdimensionaler und spärlicher Belohnung ein offenes Thema. Um dieses Problem zu entschärfen, schlagen wir in Kapitel 7 einen weitsichtigen Explorationsbonus vor, der auf informationstheoretischen Prinzipien aufbaut. Um eine umfassende und statistisch fundierte Analyse unseres Algorithmus zu ermöglichen, haben wir ihn in einer simulierten Umgebung getestet, während wir seine Anwendbarkeit in der realen Welt der Robotik erprobt haben. Die Analyse untermauert unsere Aussage und zeigt, dass die von uns vorgeschlagenen Techniken in Gegenwart einer begrenzten Anzahl von Demonstrationen und Roboterinteraktionen sicher gelernt werden
können. | German |