TU Darmstadt / ULB / TUprints

Human Problem-Solving with Interactive Artificial Intelligence

Salikutluk, Vildan (2024)
Human Problem-Solving with Interactive Artificial Intelligence.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00028908
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
PhD_Thesis_Vildan_Salikutluk.pdf
Copyright Information: CC BY 4.0 International - Creative Commons, Attribution.

Download (14MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Human Problem-Solving with Interactive Artificial Intelligence
Language: English
Referees: Jäkel, Prof. Dr. Frank ; Chuang, Prof. Dr. Lewis
Date: 20 December 2024
Place of Publication: Darmstadt
Collation: 136 Seiten
Date of oral examination: 9 December 2024
DOI: 10.26083/tuprints-00028908
Abstract:

Humans constantly have to solve complex problems, often with uncertain and incomplete information. Finding adequate strategies to solve different types of problems is a hallmark of human intelligence. While this ability allows humans to navigate many (unknown) challenges, humans can still experience difficulties during problem-solving and can likely benefit from well-designed support tools. Recent artificial intelligence (AI) systems offer possibilities to aid humans in many tasks. Especially if the strengths of humans and AI are combined, there is great potential for improved performance and solutions. However, it is not always clear how to design such complementary human-AI interaction. Using a human-centered approach is promising, as it helps us understand how humans solve different problems and where AI can best support them. This enables us to tailor interactions and AI design to the user. To achieve this, we must consider the features of the problems and how humans solve them. Importantly, investigating the cognitive processes and solution steps of humans is crucial, not only to identify their limitations in different problem-solving settings, but also to design AI tools that are useful and well-integrated into these processes.

The focus of this thesis is to examine how humans solve different types of problems with interactive AI systems. We use a mixed-methods approach to obtain qualitative insights about underlying cognitive processes and quantitative data about human behavior, performance, and confidence during problem-solving. These results provide insights to understand what is important in both well-defined and ill-defined problems. Furthermore, we can investigate what happens when appropriate AI systems are employed to potentially support humans during their problem-solving process. To examine such human-AI interaction, we conduct several empirical studies. In the first one, a human and AI agent have to collaboratively solve a well-defined problem. This means, they solve a task together, in which all steps and sub-tasks that need to be completed are known. In this study, the overall performance is influenced by the coordination of sub-tasks. This coordination entails who solves a particular sub-task and in which order all of them are completed. Thus, we examine how humans coordinate with an AI agent. To do this, we designed our experimental task to include sub-tasks that can either be solved by only the human, only the agent, or both. Some sub-tasks have interdependent steps as well. Therefore, the interaction and coordination have a substantial influence on how efficient and well the human-AI team (HAT) performs. In such settings, the aspect of AI autonomy is crucial: Determining who handles each sub-task and how they are solved efficiently depends on how interactions and communication are initiated and carried out between humans and AI agents. Thus, we empirically investigate the impact of AI autonomy on HAT performance and user satisfaction in a cooperative task in a simulated shared workspace. Specifically, we compare fixed AI autonomy levels with situation-dependent autonomy adaptation. We find that HATs performed best when the AI adjusted its autonomy based on the current situation. Users also rated this agent highest in terms of perceived intelligence. Our findings highlight the benefits of adaptive AI autonomy in settings where humans solve such a well-defined problem together with an AI agent.

Furthermore, we explore how humans solve an example task for ill-defined problems. Specifically, we investigate guesstimation, i.e., the estimation of unknown quantities from incomplete or highly uncertain information. Guesstimation problems are ill-defined since multiple approaches are possible, and often it is not even clear how to evaluate the quality of solutions. If it is not possible to determine the quality of the solution in experiments, however, it becomes very hard to investigate the performance in such tasks. To address this, we devised guesstimation problems across a wide range of domains to which we know the answers, but participants in our study could not know or find out directly. Using these questions allowed us to analyze the problem-solving process systematically with a mixed-methods approach. We examined our participants’ underlying solution processes with qualitative data by collecting think-aloud protocols during guesstimation. With such rich data, we were able to identify their solution strategies and how they approach these problems. In addition, we collected quantitative measures for their performance and confidence about their answers. We found that participants solved guesstimation problems reasonably well. They decomposed the questions into sub-questions and often transformed them into semantically related ones that were easier to answer. However, this is also where impasses frequently occurred: often they were unable to brainstorm semantic transformations and got stuck, leading them to simply guess an answer. To address this impasse, we provided another AI system. We prompted a Large Language Model (LLM), such that it was able to provide ideas for transformations during this brainstorming process within guesstimation. We then tested the impact of such an AI tool’s availability on task performance. Thus, we not only identified guesstimation as a promising testbed for studying human-AI interaction in ill-defined problem-solving settings, but also provide in-depth evaluations. While the tool successfully produced human-like suggestions, participants were reluctant to use it. Because of this, we found no significant difference in the participants’ performance based on the tool’s availability. Given our results, we reflect on why LLMs are not (yet) capable to significantly increase performance in these kinds of tasks. We discuss why the design of AI tools for such cognitive support is not trivial, but also point to promising directions for future work.

We also observed that the LLM we used as a brainstorming tool sometimes generated outputs containing harmful biases, for instance, when the guesstimation questions included references to certain regions of the world. To ensure that AI systems are human-centered, we need to not only integrate them well into the cognitive processes of problem-solvers, but also make them fair and prevent them from causing harm. This will be especially critical if such tools are used for guesstimation tasks in the real world, like (geo-)political forecasting. We therefore investigate biases in LLMs systematically. For this study, we focus on whether different state-of-the-art LLMs show biases in terms of gender and religion. Our findings show that (intersectional) biases are indeed present in all LLMs we tested – even despite many debiasing efforts. The LLMs are still significantly more likely to produce outputs that are in line with harmful stereotypes against marginalized groups. Therefore, we discuss what it would mean to employ these systems in real-world problem-solving settings, and what measures could be used to uncover and ultimately improve the unfair outputs of LLMs.

In summary, this thesis deals with the investigation of human problem-solving with interactive AI systems. We show that different problem types, i.e., well-defined and ill-defined ones, require different considerations in terms of AI support and the interaction with such systems to ensure a human-centered approach. We empirically test what humans need and prefer, as well as how they coordinate with agents while they solve a well-defined problem. We also explore ill-defined problem-solving with AI in the case of guesstimation. We examine how humans approach and solve guesstimation problems, which informed how we apply AI support to be most promising. This approach takes into account both the needs of the human and the capabilities of current AI systems, such as LLMs. Thus, we not only identify guesstimation as a suitable case for potential complementarity by combining the strengths of humans and AI systems, but also investigate it in-depth. Generally, in both our well-defined and ill-defined problem-solving settings, we observe advantages and shortcomings of the human-AI interaction. We discuss the factors influencing the task performance and interaction in each setting, and which future directions are promising. We present how our findings and perspective of combining cognitive science and interaction research can further improve upon our understanding and, ultimately, the design of fair and beneficial human-AI interaction for problem-solving.

Alternative Abstract:
Alternative AbstractLanguage

Menschen müssen häufig komplexe und sehr unterschiedliche Probleme lösen, oft mit unsicheren und unvollständigen Informationen. Eine besondere Eigenschaft menschlicher Intelligenz ist das flexible Finden geeigneter Strategien zur Lösung solcher Probleme. Diese Fähigkeit ermöglicht es Menschen viele (unbekannte) Herausforderungen zu meistern. Dennoch können Menschen beim Problemlösen auf Schwierigkeiten stoßen und können daher von Hilfsmitteln profitieren. Systeme, die auf künstlicher Intelligenz (KI) basieren, können als solche Hilfsmittel fungieren und Menschen bei vielen Aufgaben zu unterstützen. Insbesondere wenn die komplementären Stärken von Menschen und KI kombiniert werden, besteht ein großes Potenzial für verbesserte Leistungen und Lösungen. Es ist jedoch nicht immer klar, wie eine solche komplementäre Mensch-KI-Interaktion gestaltet werden kann. Ein mensch-zentrierter Ansatz ist dabei vielversprechend, da er uns hilft zu verstehen, wie Menschen verschiedene Probleme lösen und wo KI sie am besten unterstützen kann. Dies kann uns ermöglichen, Interaktionen und KI-Design auf die Nutzenden zuzuschneiden. Um dies zu erreichen, müssen die Merkmale der Probleme und die Art und Weise, wie Menschen sie lösen, berücksichtigt werden. Dabei ist die Untersuchung der kognitiven Prozesse und Lösungsschritte des Menschen von entscheidender Bedeutung. Dies kann dabei helfen die Schwierigkeiten in verschiedenen Problemlösungssituationen zu erkennen und um KI-Tools zu entwickeln, die nützlich sein können und sich gut in diese Prozesse integrieren lassen. Daher wird in dieser Arbeit untersucht, wie Menschen verschiedene Arten von Problemen mit interaktiven KI-Systemen lösen. Wir verwenden einen kombinierten Methodenansatz, um qualitative Erkenntnisse über die zugrundeliegenden kognitiven Prozesse und quantitative Daten über das menschliche Verhalten, deren Performance und ihre angegebene Unsicherheit während des Problemlösens zu erhalten. Diese Ergebnisse geben Aufschluss darüber, was sowohl bei strukturierten als auch bei unstrukturierten Problemen beachtet werden sollte, um potentielle Verbesserungen durch Mensch-KI Interaktion zu erzielen. Darüber hinaus können wir so untersuchen, was passiert, wenn geeignete KI-Systeme eingesetzt werden, um Menschen bei ihrem Problemlösungsprozess zu unterstützen. Um eine solche Mensch-KI-Interaktion zu untersuchen, führen wir mehrere empirische Studien durch.

In der ersten Studie müssen ein Mensch und ein KI-Agent gemeinsam ein klar definiertes und strukturiertes Problem lösen. Das heißt, sie lösen gemeinsam eine Aufgabe, bei der alle Schritte und Teilaufgaben bekannt sind, die erledigt werden müssen. In dieser Studie wird die Gesamtleistung durch die Koordination der Teilaufgaben beeinflusst. Bei dieser Koordination geht es darum, wer eine bestimmte Teilaufgabe löst und in welcher Reihenfolge alle Teilaufgaben erledigt werden. Wir untersuchen also, wie sich Menschen mit einem KI-Agenten koordinieren. Zu diesem Zweck haben wir die experimentelle Aufgabe so gestaltet, dass sie Teilaufgaben enthält, die entweder nur vom Menschen, nur vom Agenten oder von beiden gelöst werden können. Einige Teilaufgaben haben auch voneinander abhängige Schritte. Daher haben die Interaktion und Koordination einen wesentlichen Einfluss darauf, wie effizient und gut das Mensch-KI-Team zusammenarbeitet. In solchen Situationen ist der Aspekt der KI-Autonomie von entscheidender Bedeutung: Wer die einzelnen Teilaufgaben übernimmt und wie sie effizient gelöst werden, hängt davon ab, wie die Interaktionen und die Kommunikation zwischen Menschen und KI-Agent initiiert und durchgeführt werden. Daher untersuchen wir empirisch die Auswirkungen von KI-Autonomie auf die Team Leistung und die Nutzerzufriedenheit bei einer kooperativen Aufgabe in einem simulierten gemeinsamen Arbeitsraum. Konkret vergleichen wir festgesetzte KI-Autonomie-Niveaus mit situationsabhängiger Autonomieanpassung. Unsere Ergebnisse zeigen, dass Mensch-KI-Teams die beste Leistung erzielen, wenn die KI ihre Autonomie an die aktuelle Situation anpasst. Die Versuchspersonen bewerteten außerdem diesen KI-Agenten am besten in Bezug auf die wahrgenommene Intelligenz. Diese Resultate unterstreichen die Vorteile einer adaptiven KI-Autonomie in Situationen, in denen Menschen gemeinsam mit einem KI-Agenten ein genau definiertes und strukturiertes Problem lösen.

Des Weiteren untersuchen wir, wie Menschen eine Beispielaufgabe für unstrukturierte Probleme lösen. Konkret untersuchen wir die Schätzung unbekannter Größen aus unvollständigen oder unsicheren Informationen. Diese Schätzungsprobleme (auch Guesstimation problems genannt) sind offen und unstrukturiert, und erlauben daher z.B. mehrere Ansätze für eine mögliche Lösung. Oft ist dabei sogar unklar, wie die Qualität der Lösungen zu bewerten ist. Wenn es jedoch nicht möglich ist, die Qualität der Lösung in Experimenten zu bestimmen, wird es sehr schwierig, die Leistung bei solchen Aufgaben zu untersuchen. Um diese Gegebenheit zu adressieren, haben wir Schätzaufgaben konstruiert, für die wir die Antworten kennen, die die Teilnehmenden an unserer Studie aber nicht kennen oder herausfinden konnten. Die Verwendung dieser Fragen ermöglicht es uns, den Problemlösungsprozess systematisch mit einem Mixed-Methods-Ansatz zu analysieren. Wir untersuchten die zugrunde liegenden Lösungsprozesse unserer Teilnehmenden mit qualitativen Daten, indem wir die Methode des Lauten Denkens anwenden während die Versuchspersonen ihre Schätzungen erarbeiten. Mit diesen umfangreichen Daten konnten wir ihre Lösungsstrategien und die Herangehensweise der Versuchspersonen an solche Probleme ermitteln. Darüber hinaus haben wir quantitative Messungen erhoben, die die Leistung und die Unsicherheit über die Antworten zeigen. Mit diesen Daten fanden wir heraus, dass die Teilnehmenden die Probleme relativ gut lösen und ihre Schätzung sinnvoll erarbeiten. Sie zerlegen dafür die Fragen häufig in Unterfragen. Außerdem formen die Versuchspersonen die Fragen oft in semantisch ähnliche Fragen um, die aber leichter zu beantworten waren. Hierbei kam es allerdings häufig zu Schwierigkeiten: Oft waren die Versuchspersonen nicht in der Lage semantische Transformationen zu finden und wussten so oft nicht weiter und haben sich Hilfe gewünscht. Um diese Schwierigkeit und das „Steckenbleiben“ zu überwinden, haben wir ein KI-System entwickelt. Wir nutzen ein großes Sprachmodell (Large Language Model, kurz: LLM), dass wir so instruierten, dass es in der Lage ist diese Art von Transformationen zu generieren. Das heißt, wir konnten dieses System als Brainstorming Unterstützung für die Generierung dieser Transformationen nutzen. Wir stellten dieses System in einem weiteren Experiment unseren Versuchspersonen zur Verfügung und testeten die Auswirkungen der Verfügbarkeit eines solchen KI-Tools auf die Leistung in der Aufgabe. So zeigen wir, dass Guesstimation nicht nur als ein vielversprechende Testaufgabe für die Untersuchung von Interaktionen zwischen Mensch und KI beim Lösen unstrukturierter Probleme und Aufgaben ist, sondern präsentieren zusätzlich eine ausführliche Evaluation. Obwohl das Tool erfolgreich menschenähnliche und sinnvolle Vorschläge produzierte, haben die Teilnehmenden das System selten genutzt. Aus diesem Grund fanden wir keinen signifikanten Unterschied in der Leistung der Teilnehmenden, wenn das Tool zur Verfügung stand und wenn nicht. Angesichts unserer Ergebnisse reflektieren wir darüber, warum LLMs (noch) nicht in der Lage sind, die Leistung von Menschen bei dieser Art von Aufgaben signifikant zu steigern und positiv zu beeinflussen. Wir diskutieren ebenfalls, warum die Entwicklung von KI-Tools für eine solche kognitive Unterstützung nicht trivial ist, weisen aber auch auf vielversprechende Richtungen für zukünftige Arbeiten hin.

Wir haben auch festgestellt, dass das LLM, welches wir als Brainstorming-Tool verwendet haben, manchmal Ergebnisse erzeugte, die negative Biases (Verzerrungen) enthielten, z.B. wenn die Fragen zur Schätzung Hinweise auf bestimmte Regionen der Welt enthielten. Diese Effekte müssen unbedingt berücksichtigt werden, wenn KI-Systeme in die kognitiven Prozesse von Menschen beim Problemlösen integriert sein sollen. Denn es ist wichtig, dass die Gestaltung solcher Systeme fair ist und wir verhindern, dass sie negative Konsequenzen haben und zu (weiterer) Diskriminierung führen könnten. Dies ist besonders wichtig, wenn solche Systeme für Schätzungsaufgaben in der realen Welt eingesetzt werden, wie z.B. bei (geo-)politischen Prognosen. Wir untersuchen daher Biases in LLMs systematisch. In dieser Studie konzentrieren wir uns darauf, ob verschiedene, aktuelle LLMs Biases in Bezug auf Geschlecht und Religion aufweisen. Unsere Ergebnisse zeigen, dass (intersektionale) Biases in allen von uns getesteten LLMs vorhanden sind – und das, obwohl es bereits zahlreiche Maßnahmen gab, diese Biases in solchen den Systemen zu minimieren. Die LLMs produzieren immer noch mit deutlich höherer Wahrscheinlichkeit Ergebnisse, die mit negativen Stereotypen gegenüber marginalisierten Gruppen übereinstimmen. Daher diskutieren wir, welchen Effekt der Einsatz solcher Systeme in realen Problemlösungssituationen haben könnte. Zusätzlich zeigen wir auf, welche Maßnahmen eingesetzt werden könnten, um die unfairen Ausgaben von LLMs aufzudecken und in der Zukunft weiter zu minimieren.

Zusammenfassend befasst sich diese Arbeit mit der Untersuchung des menschlichen Problemlösens mit interaktiven KI-Systemen. Wir zeigen, dass unterschiedliche Problemtypen, d.h. strukturierte und unstrukturierte Probleme, unterschiedliche Überlegungen hinsichtlich der KI-Unterstützung und der Interaktion mit solchen Systemen erfordern. Wir evaluieren dabei empirisch, was Menschen brauchen und bevorzugen und wie sie sich mit einer KI koordinieren, während sie ein strukturiertes Problem lösen. Wir erforschen auch das Lösen unstrukturierter, offener Probleme und Fragen mit KI am Beispiel von Schätzaufgaben. Wir untersuchen, wie Menschen an Schätzaufgaben herangehen und sie lösen. Durch diese Resultate ist es möglich zu erkennen, wie wir die KI-Unterstützung am vielversprechendsten einsetzen könnten. Dieser Ansatz berücksichtigt sowohl die Bedürfnisse des Menschen als auch die Fähigkeiten von aktuellen KI-Systemen wie LLMs. Wir zeigen, dass Guesstimation problems gute Testaufgaben sind um mögliche Komplementarität durch die Kombination der Stärken von Menschen und KI-Systemen zu erreichen und untersuchen dies tiefgehend. Generell können wir sowohl in unseren strukturierten und klardefinierten als auch in offeneren und unstrukturierten Problemlösesituationen Vorteile und Nachteile von Mensch-KI-Interaktion beobachten. Wir erörtern die Faktoren, die die erfolgreiche Aufgabenerfüllung und die Interaktion in diesen Aufgabentypen beeinflussen, und welche zukünftigen Richtungen vielversprechend sind. Wir stellen dar, wie unsere Ergebnisse und die kombinierte Perspektive aus Kognitionswissenschaft und Interaktionsforschung dabei helfen kann unser Verständnis und letztlich die Gestaltung einer fairen, gewinnbringenden und vorteilhaften Mensch-KI-Interaktion für Problemlösung zu ermöglichen.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-289081
Classification DDC: 100 Philosophy and psychology > 150 Psychology
Divisions: 03 Department of Human Sciences > Institute for Psychology > Models of Higher Cognition
Date Deposited: 20 Dec 2024 13:12
Last Modified: 20 Dec 2024 13:12
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/28908
PPN:
Export:
Actions (login required)
View Item View Item