TU Darmstadt / ULB / TUprints

Learning Human-Robot Interaction: A Case Study on Human-Robot Handshaking

Prasad, Vignesh (2024)
Learning Human-Robot Interaction: A Case Study on Human-Robot Handshaking.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00019025
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
VigneshPrasad-PhD-Thesis.pdf
Copyright Information: CC BY-NC-ND 4.0 International - Creative Commons, Attribution NonCommercial, NoDerivs.

Download (56MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Learning Human-Robot Interaction: A Case Study on Human-Robot Handshaking
Language: English
Referees: Peters, Prof. Dr. Jan ; Stock-Homburg, Prof. Dr. Ruth ; Hu, Prof. Dr. Yue
Date: 28 October 2024
Place of Publication: Darmstadt
Collation: xxi, 118 Seiten
Date of oral examination: 1 December 2023
DOI: 10.26083/tuprints-00019025
Abstract:

For some years now, the use of humanoid social robots in various situations has been on the rise. These are robots developed to interact with humans and are equipped with corresponding extremities. They already support human users in various industries, such as retail, gastronomy, hotels, education and healthcare. During such Human-Robot Interaction (HRI) scenarios, physical touch plays a central role in the various applications of social robots as interactive non-verbal behaviour is a key factor in making the interaction more natural. Shaking hands is a simple, natural interaction used commonly in many social contexts and is seen as a symbol of greeting, farewell and congratulations. Moreover, the act of handshaking, given its extended phase of physical contact allows one to convey complex emotions via the sense of touch. Giving an appropriate response, therefore, plays an important role in improving the naturalness of the interaction. Furthermore, having a timely response also yields a more natural interaction, where the robot is able to predict the human partner's movements and adapt its motion accordingly. Modelling the dynamics of such interactions is a key aspect of Human-Robot Interaction.

In this context, the main focus of this thesis is to understand how such a physically interactive behaviour affects an interaction with a social robot. The contributions of this thesis are as follows. We first perform a thorough analysis of existing works related to Human-Robot Handshaking exploring the modelling aspects for realising an effective handshakes and social aspects such as the acceptance of such behaviours, auxiliary elements, such as gaze or approach motions, human-likeness etc. We then incorporate these findings in a novel frameworks to realise a timely, adaptive and socially acceptable handshake on a humanoid social robot. We then explore how to extend this modularised form of learning towards a general framework for learning coordinated Human-Robot Interaction. We validate the effectiveness of the proposed frameworks through extensive experimental evaluations with human users who interact with a humanoid social robot equipped with our approaches.

As a first step, the existing state of Human-Robot Handshaking research is looked at and the works are categorised based on their focus areas. Following this, the major findings of these areas are drawn out and their pitfalls are analysed. It is mainly seen that synchronisation is key during the different phases of the interaction. Additional factors like gaze, voice facial expressions etc. can affect the perception of a robotic handshake along with internal factors like personality and mood which can affect the way in which handshaking behaviours are executed by humans. Based on the findings and insights, possible ways forward for future research on such physically interactive behaviours are discussed.

In the case of handshaking and other similar physically interactive behaviours, having a timely response yields a more natural interaction, where the robot is able to predict the human partner's movements and adapt its motion accordingly. Modelling the dynamics of such interactions is a key aspect of Human-Robot Interaction. In this work, a framework is developed for robots to learn such interactions directly from human-human interactions, modular fashion by breaking down the interactions into their underlying segments and learning the sequencing between them. We do so using Hidden Markov Models to model the interaction dynamics via the latent embeddings learned by a Variational Autoencoder. We show how the interaction dynamics learned from Human-Human Interactions can help regularize the learning of robot trajectories and we explore the conditional generation of robot motions from human observations to enable learning suitable and accurate Human-Robot Interactions. We further explore how to adapt the generated motions for a spatially accurate and compliant handshaking behaviour, leading to a higher degree of acceptance by human users.

We further explore how the performance of the reactive motion generation can be improved by bridging the gap in the proposed framework by integrating the conditioning of the HMMs into the VAEs in a more principled manner. To this end, we demonstrate how Mixture Density Networks yield themselves as an extension of the underlying HMM conditioning. Such a structure inherently allows the model to capture the complex and multimodal nature of human behavior. We demonstrate how the proposed framework can enhance the prediction of the reactive motion generation by learning multiple latent policies which when combined enable the generation of more accurate interactions.

To summarise, the goals of this thesis are: (i) to further investigate the act of handshaking in the scope of physical Human-Robot Interactions, (ii) to develop a framework that can learn a library of such physically interactive behaviours to widen the social skills of a robot and (iii) to explore how the accuracy of generating realistic and natural interactive behaviors can be improved.

Alternative Abstract:
Alternative AbstractLanguage

Seit einigen Jahren nimmt der Einsatz humanoider sozialer Roboter in verschiedenen Situationen zu. Dabei handelt es sich um Roboter, die für die Interaktion mit Menschen entwickelt wurden und mit entsprechenden Extremitäten ausgestattet sind. Sie unterstützen bereits menschliche Nutzer in verschiedenen Branchen, wie z. B. im Einzelhandel, in der Gastronomie, in Hotels, im Bildungswesen und im Gesundheitswesen. Bei solchen Szenarien der Mensch-Roboter-Interaktion (HRI) spielt die körperliche Berührung eine zentrale Rolle in den verschiedenen Anwendungen sozialer Roboter, da interaktives nonverbales Verhalten ein Schlüsselfaktor ist, um die Interaktion natürlicher zu gestalten. Händeschütteln ist eine einfache, natürliche Interaktion, die in vielen sozialen Kontexten üblich ist und als Symbol für Begrüßung, Verabschiedung und Glückwünsche gilt. Darüber hinaus ermöglicht das Händeschütteln aufgrund der langen Phase des Körperkontakts die Vermittlung komplexer Emotionen über den Tastsinn. Eine angemessene Antwort spielt daher eine wichtige Rolle bei der Verbesserung der Natürlichkeit der Interaktion. Darüber hinaus führt eine rechtzeitige Reaktion auch zu einer natürlicheren Interaktion, bei der der Roboter die Bewegungen des menschlichen Partners vorhersagen und seine Bewegungen entsprechend anpassen kann. Die Modellierung der Dynamik solcher Interaktionen ist ein Schlüsselaspekt der Mensch-Roboter-Interaktion.

In diesem Zusammenhang liegt der Schwerpunkt dieser Arbeit darauf, zu verstehen, wie ein solches physisches Interaktionsverhalten eine Interaktion mit einem sozialen Roboter beeinflusst. Die Beiträge dieser Arbeit sind wie folgt. Zunächst führen wir eine gründliche Analyse bestehender Arbeiten zum Thema Mensch-Roboter-Handshake durch und untersuchen die Modellierungsaspekte für die Realisierung eines effektiven Handshakes sowie soziale Aspekte wie die Akzeptanz solcher Verhaltensweisen, Hilfselemente wie Blick- oder Annäherungsbewegungen, Menschenähnlichkeit usw. Diese Erkenntnisse fließen dann in ein neuartiges Framework ein, um einen zeitnahen, adaptiven und sozial akzeptablen Händedruck auf einem humanoiden sozialen Roboter zu realisieren. Anschließend untersuchen wir, wie diese modularisierte Form des Lernens zu einem allgemeinen Rahmen für das Lernen koordinierter Mensch-Roboter-Interaktion erweitert werden kann. Wir validieren die Wirksamkeit des vorgeschlagenen Rahmens durch umfangreiche experimentelle Auswertungen mit menschlichen Benutzern, die mit einem humanoiden sozialen Roboter interagieren, der mit unseren Ansätzen ausgestattet ist.

In einem ersten Schritt wird der aktuelle Stand der Mensch-Roboter-Handshaking-Forschung untersucht und die Arbeiten werden nach ihren Schwerpunkten kategorisiert. Anschließend werden die wichtigsten Erkenntnisse aus diesen Bereichen herausgearbeitet und ihre Fallstricke analysiert. Es zeigt sich vor allem, dass die Synchronisation in den verschiedenen Phasen der Interaktion entscheidend ist. Zusätzliche Faktoren wie Blicke, Stimme, Mimik usw. können die Wahrnehmung eines Roboter-Handschlags beeinflussen, ebenso wie interne Faktoren wie Persönlichkeit und Stimmung, die sich auf die Art und Weise auswirken können, wie das Handshake-Verhalten von Menschen ausgeführt wird. Basierend auf den Erkenntnissen und Einsichten werden mögliche Wege für die zukünftige Forschung zu solchen physisch interaktiven Verhaltensweisen diskutiert.

Im Falle des Händeschüttelns und anderer ähnlicher physisch interaktiver Verhaltensweisen führt eine rechtzeitige Reaktion zu einer natürlicheren Interaktion, bei der der Roboter in der Lage ist, die Bewegungen des menschlichen Partners vorherzusagen und seine Bewegung entsprechend anzupassen. Die Modellierung der Dynamik solcher Interaktionen ist ein Schlüsselaspekt der Mensch-Roboter-Interaktion. In dieser Arbeit wird ein Rahmen für Roboter entwickelt, um solche Interaktionen direkt von Mensch-Mensch-Interaktionen zu lernen, und zwar auf modulare Weise, indem die Interaktionen in ihre zugrundeliegenden Segmente zerlegt werden und die Abfolge zwischen ihnen gelernt wird. Dazu verwenden wir Hidden Markov Modelle, um die Interaktionsdynamik über die latenten Einbettungen zu modellieren, die von einem Variational Autoencoder gelernt werden. Wir zeigen, wie die aus Mensch-Mensch-Interaktionen gelernte Interaktionsdynamik dazu beitragen kann, das Lernen von Robotertrajektorien zu regulieren, und wir untersuchen die bedingte Generierung von Roboterbewegungen aus menschlichen Beobachtungen, um das Lernen geeigneter und genauer Mensch-Roboter-Interaktionen zu ermöglichen. Darüber hinaus untersuchen wir, wie die generierten Bewegungen für ein räumlich genaues und nachgiebiges Handshaking-Verhalten angepasst werden können, was zu einem höheren Grad an Akzeptanz durch menschliche Benutzer führt.

Wir untersuchen weiter, wie die Leistung der reaktiven Bewegungsgenerierung verbessert werden kann, indem wir die Lücke im vorgeschlagenen Rahmenwerk schließen, indem wir die Konditionierung der HMMs auf prinzipiellere Weise in die VAEs integrieren. Zu diesem Zweck zeigen wir, wie sich Mixture Density Networks als eine Erweiterung der zugrunde liegenden HMM-Konditionierung ergeben. Eine solche Struktur ermöglicht es dem Modell, die komplexe und multimodale Natur des menschlichen Verhaltens zu erfassen. Wir zeigen, wie der vorgeschlagene Rahmen die Vorhersage der reaktiven Bewegungserzeugung verbessern kann, indem er mehrere latente Strategien erlernt, die in Kombination die Erzeugung genauerer Interaktionen ermöglichen.

Zusammenfassend kann man sagen, dass die Ziele dieser Arbeit folgende sind: (i) den Akt des Händeschüttelns im Rahmen der physischen Mensch-Roboter-Interaktion weiter zu untersuchen, (ii) einen Rahmen zu entwickeln, der eine Bibliothek solcher physisch interaktiven Verhaltensweisen erlernen kann, um die sozialen Fähigkeiten eines Roboters zu erweitern und (iii) zu untersuchen, wie die Genauigkeit der Erzeugung realistischer und natürlicher interaktiver Verhaltensweisen verbessert werden kann.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-190254
Additional Information:

In reference to IEEE copyrighted material which is used with permission in this thesis, the IEEE does not endorse any of Technical University of Darmstadt’s products or services. Internal or personal use of this material is permitted. If interested in reprinting/republishing IEEE copyrighted material for advertising or promotional purposes or for creating new collective works for resale or redistribution, please go to http://www.ieee.org/publications_standards/publications/rights/rights_link.html to learn how to obtain a License from RightsLink. If applicable, University Microfilms and/or ProQuest Library, or the Archives of Canada may supply single copies of the dissertation

Classification DDC: 000 Generalities, computers, information > 004 Computer science
600 Technology, medicine, applied sciences > 600 Technology
600 Technology, medicine, applied sciences > 620 Engineering and machine engineering
Divisions: 20 Department of Computer Science > Intelligent Autonomous Systems
Date Deposited: 28 Oct 2024 13:11
Last Modified: 30 Oct 2024 06:36
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/19025
PPN: 522518796
Export:
Actions (login required)
View Item View Item