TU Darmstadt / ULB / TUprints

Understand-Compute-Adapt: Neural Networks for Intelligent Agents

Tanneberg, Daniel (2020)
Understand-Compute-Adapt: Neural Networks for Intelligent Agents.
Technische Universität Darmstadt
doi: 10.25534/tuprints-00017234
Ph.D. Thesis, Primary publication, Publisher's Version

[img]
Preview
Text
thesis_tanneberg_final_10-12-20_tuprints_small.pdf
Copyright Information: CC BY-NC-SA 4.0 International - Creative Commons, Attribution NonCommercial, ShareAlike.

Download (11MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Understand-Compute-Adapt: Neural Networks for Intelligent Agents
Language: English
Referees: Peters, Prof. Dr. Jan ; Rückert, Prof. Dr. Elmar ; Riedmiller, Prof. Dr. Martin
Date: 2020
Place of Publication: Darmstadt
Collation: xii, 106 Seiten
Date of oral examination: 3 December 2020
DOI: 10.25534/tuprints-00017234
Abstract:

An artificial intelligent agent needs to be equipped with a multitude of abilities in order to interact in the world among us. These requirements for intelligent behaviour can roughly be separated into two main categories, cognitive abilities and physical skills. The cognitive abilities refer to cognition and problem solving, whereas the physical skills correspond to movements of an intelligent robot in the real world. In this thesis, we investigate three research questions tackling those different abilities. Precisely, how can new knowledge be taught to a robot in a natural way? How can neural networks learn abstract solution strategies that are independent of the task complexity, data representation and task domain? How can a robot efficiently adapt its movement during execution with a bio-inspired stochastic neural network? These questions span core requirements for intelligent autonomous agents, which we categorize as Understand-Compute-Adapt (UCA), in the style of the classical Sense-Plan-Act framework in robotics. To answer these questions, we investigate neural network based models on these cognitive and physical abilities.

In detail, the first question tackles the ability of cognition, which refers to an understanding of the world and is investigated by learning a set of skills from unlabelled demonstrations of full task executions. Therefore, we studied the task of trajectory segmentation and skill library learning. To provide a natural interface for teaching a robot new tasks, it is desirable to have the user only demonstrating the desired task, without worrying about all the skills that are required for the task and without manually annotating the demonstrations. Such an interface not only enables non-experts to teach robots, but also provides a cheaper approach to teaching robots, as demonstrating all individual skills or segmenting and labelling demonstrations by hand is time consuming and expensive. The approach proposed here learns to segment trajectories and the required skill library simultaneously from unlabelled demonstrations. In addition to this segmenting and skill discovery, the approach also learns the relations between individual skills, i.e., modelling how likely a certain skill follows after another skill. This additional knowledge, or understanding, can be used, for example, in human-robot-interaction scenarios by predicting the human behaviour and therefore enables a more intelligent adaptive behaviour of the robot. The approach was successfully evaluated on multiple different trajectory datasets with varying complexities.

The second aforementioned required cognitive ability, problem solving, refers to the second question and the Compute step. In particular, we investigated the challenge of learning algorithmic solutions, i.e., learning abstract strategies that can easily be transferred to unfamiliar problem instantiations. This transferring of abstract knowledge and solution strategies into novel domains is another crucial feature of intelligent behaviour. Therefore, we investigated the learning of algorithmic solutions that are characterized by three requirements highlighting the abstract nature of the solution: scaling to arbitrary task configurations and complexities, and the independence of both the data representations as well as the task domain. For this purpose we developed a novel framework, the Neural Harvard Computer, that is based on memory-augmented neural networks and whose modular design is inspired by the von Neumann and Harvard architectures of modern computers. This framework enables the learning of abstract algorithmic solutions through its modular design and the separation of information flow into data and control signals. The algorithmic solution is learned in a reinforcement learning setting and solely operating on the control signal flow, enabling the independence of the data representation and task domain. We evaluated the framework's generalization and abstraction features by learning 11 different algorithms, where the approach was able to reliably learn algorithmic solutions with perfect generalization and abstraction, allowing to solve problems with complexities far beyond seen during training and by straight forward transfer to novel task representations and domains.

Ultimately an intelligent robot has to interact in the real world, giving rise to the third entry Adapt, the question of efficient online adaptation. In order to cope with the complex, dynamic and often unstructured real world, in addition to dealing with other agents and humans, the agent has to be able to adapt its models and movements while interacting. This online adaptation belongs to the mentioned physical skills that are required for intelligent behaviour. Moreover, this online adaptation has to be efficient in terms of number of physical interactions and be task-independent, as not every situation can be foreseen when constructing the agent or the method. In this thesis, we studied online adaptation within a bio-inspired spiking neural network that generates movements by simulating its inherent dynamics. The underlying stochastically spiking neurons mimic the behaviour of hippocampal place cells and their decoded activity represents the planned movement. Task-independent adaptation is achieved by using intrinsic motivation signals inspired by cognitive dissonance to guide the learning. These signals capture the discrepancy between the agents expectation of the world (the current model) and the observations of the world, and the online adaptation is triggered and steered through this mismatch. Sample-efficiency is accomplished by using a mental replay strategy to intensify experienced situations and is implemented by using the inherent stochasticity of the framework. We evaluated this framework for online model adaptation and movement generation on an anthropomorphic KUKA LWR arm, where the robot has to adapt to unknown obstacles while performing a waypoint following task. The online adaptation happens within seconds and from few physical interactions while keeping interacting with the environment.

In summary, this thesis investigates three key aspects of intelligent behaviour with respect to cognitive and physical abilities. In more detail, we investigated how neural network based models can be used from learning to understand over learning to compute to learning to adapt to tackle the three raised research question. Each topic has its own requirements on the used neural network model and the learning mechanism. This modularity and diversity of subroutines is a crucial aspect for creating artificial intelligence.

Alternative Abstract:
Alternative AbstractLanguage

Ein künstlicher intelligenter Agent muss mit einer Vielzahl von Fertigkeiten ausgestattet sein, um unter uns in der Welt zu interagieren. Diese Voraussetzungen für intelligentes Verhalten können grob in zwei Hauptkategorien unterteilt werden, kognitive Fähigkeiten und physische Fertigkeiten. Die kognitiven Fähigkeiten beziehen sich auf das Verstehen und Problemlösen, wohingegen die physischen Fertigkeiten sich auf Bewegungen eines intelligenten Roboters in der echten Welt beziehen. In dieser Thesis untersuchen wir drei Forschungsfragen, die sich mit diesen verschiedenen Fertigkeiten beschäftigen. Konkret, wie kann einem Roboter neues Wissen auf eine natürliche Art beigebracht werden? Wie können Neuronale Netzwerke abstrakte Lösungsstrategien lernen, die unabhängig von der Komplexität der Aufgabe, der Datenrepräsentation und dem Aufgabengebiet sind? Wie kann ein Roboter seine Bewegungen effizient während ihrer Ausführung mit einem biologisch-inspiriertem stochastischem Neuronalen Netzwerk anpassen? Diese Fragen umfassen Kernanforderungen an intelligente autonome Agenten, welche wir als Verstehen-Berechnen-Anpassen kategorisieren, in Anlehnung an das klassische Sense-Plan-Act Modell in der Robotik. Um diese Fragen zu beantworten, untersuchen wir die Fähigkeiten von Neuronalen Netzwerken basierten Modellen im Bezug auf diese kognitiven und physischen Fertigkeiten.

Im Detail, die erste Frage beschäftigt sich mit der Fähigkeit des Erkennens, welche sich auf ein Verstehen der Welt bezieht und welche durch das Lernen eines Sets von Fertigkeiten aus unmarkierten Demonstrationen von vollständigen Aufgabenausführungen untersucht wird. Hierfür haben wir die Aufgabe der Segmentierung von Trajektorien und das Lernen einer Fertigkeiten Bibliothek studiert. Für eine natürliche Schnittstelle um einem Roboter neue Aufgaben beizubringen, ist es wünschenswert dass der Benutzer nur die vollständige Aufgabe demonstrieren muss, ohne sich über alle für die Aufgabe benötigten Fertigkeiten Gedanken machen zu müssen und ohne händisch die Demonstrationen markieren zu müssen. Solch eine Schnittstelle erlaubt es nicht nur Nicht-Experten das unterrichten von Robotern, sondern stellt auch eine günstigere Möglichkeit des Unterrichtens von Robotern da, denn das Demonstrieren von allen einzelnen Fertigkeiten oder das händische Segmentieren und Markieren von Demonstrationen ist zeitaufwendig und teuer. Die hier vorgestellte Methode lernt gleichzeitig Trajektorien zu segmentieren und die benötigte Fertigkeiten Bibliothek von unmarkierten Demonstrationen. Zusätzlich zu dieser Segmentierung und Entdeckung von Fertigkeiten, lernt die Methode auch das Zusammenspiel zwischen einzelnen Fertigkeiten, d.h. sie modelliert wie wahrscheinlich eine bestimmte Fertigkeit auf eine andere folgt. Dieses zusätzliche Wissen, oder Verständnis, kann zum Beispiel dafür genutzt werden, das menschliche Verhalten vorherzusagen, um ein intelligenteres adaptives Verhalten des Roboters in Mensch-Roboter Szenarien zu ermöglichen. Die Methode wurde erfolgreich mit mehreren verschiedenen Trajektorien Datensets mit unterschiedlicher Komplexität evaluiert.

Die zweite vorher erwähnte benötigte kognitive Fähigkeit, Problemlösen, bezieht sich auf die zweite Fragen und damit den Berechnen Schritt. Im Detail haben wir die Herausforderung des Lernens von algorithmischen Lösungen untersucht, d.h., das Lernen von abstrakten Strategien, die einfach auf unbekannte Probleminstanzen übertragen werden können. Dieses Übertragen von abstraktem Wissen und Lösungsstrategien auf neue Aufgabengebiete ist eine weitere wichtige Eigenschaft von intelligentem Verhalten. Hierzu untersuchten wir das Lernen von algorithmischen Lösungen, welche durch drei Anforderungen charakterisiert sind, die die abstrakte Natur der Lösung hervorheben: das Skalieren auf beliebige Konfigurationen und Komplexitäten von Aufgaben, und die Unabhängigkeit von sowohl der Datenrepräsentation als auch des Aufgabengebiets. Zu diesem Zweck haben wir ein neues Modell entwickelt, den Neural Harvard Computer, das auf Neuronalen Netzwerken mit externen Speichern basiert und dessen modularer Aufbau von der von Neumann und Harvard Architektur von modernen Computern inspiriert ist. Dieses Modell ermöglicht das Lernen von abstrakten algorithmischen Lösungen durch seinen modularen Aufbau und die Trennung des Informationsflusses in Daten und Kontrollsignale. Die algorithmischen Lösungen werden in einem verstärkendem Lernen Szenario gelernt und operieren ausschließlich auf den Kontrollsignalen, was die Unabhängigkeit von der Datenrepräsentation und des Aufgabengebiets ermöglicht. Die Generalisierungs- und Abstraktionsfähigkeiten des Modells wurde durch das Lernen von 11 verschiedenen Algorithmen evaluiert, bei denen das Modell verlässlich algorithmische Lösungen mit perfekter Generalisierung und Abstraktion gelernt hat. Dies ermöglicht Probleme mit einer deutlich höheren Komplexität zu Lösen als während des Lernens und das Übertragen auf neue Repräsentationen und Aufgabengebiete.

Letztendlich muss ein intelligenter Roboter in der echten Welt interagieren, was sich auf den dritten Schritt Anpassen bezieht, die Frage nach effizienter Onlineanpassung. Um mit der komplexen, dynamischen und oft unstrukturierten echten Welt zurecht zu kommen, zusätzlich zum Beschäftigen mit anderen Agenten und Menschen, muss der Agent die Fähigkeiten haben seine Modelle und Bewegungen während der Interaktion anzupassen. Diese Onlineanpassung gehört zu den erwähnten physischen Fertigkeiten, die für intelligentes Verhalten nötig sind. Zusätzlich muss diese Onlineanpassung effizient im Bezug auf die Anzahl der physischen Interaktionen und Aufgabenunabhängig sein, da nicht jede Situation vorhergesehen werden kann wenn der Agent oder das Modell konstruiert werden. In dieser Thesis studieren wir die Onlineanpassung mit einem biologisch inspiriertem feuerndem Neuronalem Netzwerk, welches Bewegungen generiert indem es seine inhärente Dynamik simuliert. Die zugrundeliegenden stochastisch feuernden Neuronen imitieren das Verhalten von Ortszellen im Hippocampus und ihre dekodierte Aktivität repräsentiert die geplante Bewegung. Aufgabenunabhängige Anpassung wird durch intrinsische Motivationssignale erreicht, welche durch kognitive Dissonanz inspiriert sind und die das Lernen steuern. Diese Signale messen den Unterschied zwischen der Erwartung des Agenten von der Welt (das aktuelle Modell) und die Beobachtung der tatsächlichen Welt, und die Onlineanpassung wird durch diese Ungleichheit ausgelöst und gesteuert. Sample-Effizienz wird durch eine mentale Wiederholungsstrategie erreicht, die widerfahrende Situationen verstärkt, und welche durch die inhärente Stochastizität des Modells implementiert ist. Wir haben das Modell zur Onlineanpassung und Bewegungsgenerierung mit einem anthropomorphen KUKA LWR Roboterarm evaluiert, wobei der Roboter sich an unbekannte Hindernisse anpassen musste während er die Aufgabe hatte Wegpunkten zu folgen. Die Onlineanpassung erfolgte innerhalb von Sekunden und von wenigen physischen Interaktionen, während der durchgehenden Interaktion mit der Umgebung.

Zusammengefasst untersucht diese Thesis drei Schlüsselaspekte von intelligentem Verhalten im Bezug auf kognitive und physische Fähigkeiten. Im Detail untersuchten wir wie auf Neuronalen Netzwerken basierte Modelle benutzt werden können, um die vom Lernen zu Verstehen, über Lernen zu Berechnen, bis hin zu Lernen Anzupassen gestellten Forschungsfragen zu untersuchen. Dabei hat jedes Thema seine eigenen Anforderungen an das Neuronale Netzwerk und die benutzten Lernmethoden. Diese Modularität und Diversität von Teilroutinen ist ein entscheidender Aspekt, um künstliche Intelligenz zu erschaffen.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-172343
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 23 Dec 2020 08:02
Last Modified: 31 May 2023 13:48
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/17234
PPN: 474417565
Export:
Actions (login required)
View Item View Item