TU Darmstadt / ULB / TUprints

From Assistance to Empowerment: Human-AI Collaboration in High-Risk Decision Making

Jourdan, Sara (2024)
From Assistance to Empowerment: Human-AI Collaboration in High-Risk Decision Making.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00028727
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
Dissertation_Jourdan_2024_Human_AI_Collaboration.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (3MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: From Assistance to Empowerment: Human-AI Collaboration in High-Risk Decision Making
Language: English
Referees: Buxmann, Prof. Dr. Peter ; Benlian, Prof. Dr. Alexander
Date: 28 November 2024
Place of Publication: Darmstadt
Collation: XVII, 158 Seiten
Date of oral examination: 11 November 2024
DOI: 10.26083/tuprints-00028727
Abstract:

The increasing availability of large amounts of valuable data and the development of ever more powerful machine learning (ML) algorithms enable ML systems to quickly and independently identify complex relationships in data. As a result, ML systems not only generate new knowledge, but also offer significant potential to augment human capabilities and assist decision makers in challenging tasks. In high-risk areas such as aviation or healthcare, humans retain final decision-making responsibility, but will increasingly collaborate with ML systems to improve decision-making processes. However, since ML systems rely on statistical approaches, they are susceptible to error, and the complexity of modern algorithms often renders the output of ML systems opaque to humans. While initial approaches from the field of explainable artificial intelligence (XAI) aim to make the output of ML systems more understandable and comprehensible to humans, current research investigating the impact of ML systems on human decision makers is limited and lacks approaches on how humans can improve their capabilities through collaboration to make better decisions in the long run. To fully exploit the potential of ML systems in high-risk areas, both humans and ML systems should be able to learn from each other to enhance their performance in the context of collaboration. Furthermore, it is essential to design effective collaboration that considers the unique characteristics of ML systems and enables humans to critically assess system decisions. This dissertation comprises five published papers that use a mixed-methods study, two quantitative experiments and two qualitative design science research (DSR) studies to explore the collaboration and bilateral influences between humans and ML systems in decision-making contexts within high-risk areas from three perspectives: (1) the human perspective, (2) the ML system perspective, and (3) the collaborative perspective. From a human perspective, this dissertation examines how humans can learn from ML systems in collaboration to enhance their own capabilities and avoid the risk of false learning due to erroneous ML output. In a mixed-methods study, radiologists segmented 690 brain tumors in MRI scans supported by either high-performing or low-performing ML systems, which provided explainable or non-explainable output design. The study shows that human decision makers can learn from ML systems to improve their decision performance and confidence. However, incorrect system outputs also lead to false learning and pose risks for decision makers. Explanations from the XAI field can significantly improve the learning success of radiologists and prevent false learning in the case of incorrect ML system output. In fact, some radiologists were even able to learn from mistakes made by low-performing ML systems when local explanations were provided with the system output. This study provides first empirical insights into the human learning potential in the context of collaborating with ML systems. The finding that explainable design of ML systems enables radiologists to identify erroneous output may facilitate earlier adoption of explainable ML systems that can improve their performance over time. The ML system perspective, on the other hand, examines how ML systems must be designed to respond flexibly to changes in human problem perception and their dynamic deployment environment. This allows the systems to also learn from humans and ensures reliable system performance in dynamic collaborative environments. Through 15 qualitative interviews with data science and ML experts in the context of a DSR study, challenges for the long-term deployment of ML systems are identified. The results show that the requirements for flexible adaptation of systems in long-term use must be established in the early phases of the ML development process. Tangible design requirements and principles for ML systems that can learn from their environment and humans are derived for all phases of the CRISP-ML(Q) process model for the development and deployment of ML models. Implementing these principles allows ML systems to maintain or even improve their performance in the long run despite occurring changes, thus creating the prerequisites for a sustainable lifecycle of ML systems. Finally, the collaborative perspective examines how the collaboration between humans and ML systems should be designed to account for the unique characteristics of ML systems, such as error proneness and opacity, as well as the cognitive biases that are inherent to human decision making. In this context, pilots were provided with different ML systems for the visual detection of other aircraft in the airspace during 222 recorded flight simulations. The experiment examines the influence of different ML error types and XAI approaches in collaboration, and shows that an explainable output design can significantly reduce ML error-induced pilot trust and performance degradation for individual error types. However, processing explanations from the XAI field increases the pilot’s mental workload. While ML errors erode the trust of human decision makers, a DSR study is conducted to derive design principles for acceptance-promoting artifacts for collaboration between humans and ML systems. Finally, the last part of the analysis shows how cognitive biases such as the IKEA effect cause humans to overvalue the results of collaboration with ML systems when a high level of personal effort is invested in the collaboration. The findings provide a broad foundation for designing effective human-AI collaboration in organizations, especially in high-risk areas where humans will be involved in decision making for the long term. Overall, the papers show how by designing effective collaboration, both humans and ML systems can benefit from each other in the long run and enhance their own capabilities. The explainable design of ML system outputs can serve as a catalyst for the adoption of ML systems, especially in high-risk areas. This dissertation defines novel requirements for the collaboration between humans and ML systems and provides guidance for ML developers, scientists, and organizations that aspire to involve both human decision makers and ML systems in decision-making processes and ensure high and robust performance in the long term.

Alternative Abstract:
Alternative AbstractLanguage

Die zunehmende Verfügbarkeit großer Mengen an wertvollen Daten und die Entwicklung immer leistungsfähiger Algorithmen im Bereich des maschinellen Lernens (ML) erlauben es ML-Systemen auch komplexe Zusammenhänge in Daten schnell und eigenständig zu erkennen. Hierdurch können ML-Systeme nicht nur neues Wissen generieren, sondern bieten insbesondere großes Potential, menschliche Fähigkeiten zu erweitern und Entscheidungsträger auch bei anspruchsvollen Tätigkeiten zu unterstützen. In Hochrisikobereichen wie der Luftfahrt oder dem Gesundheitswesen trägt der Mensch die finale Entscheidungsverantwortung, wird allerdings zunehmend mit ML-Systemen kollaborieren, um Entscheidungsprozesse zu verbessern. Da ML-Systeme jedoch auf statistischen Ansätzen beruhen, sind sie fehleranfällig und die Komplexität moderner Algorithmen lässt ML-Systemausgaben für den Menschen oft undurchsichtig erscheinen. Während erste Ansätze aus dem Forschungsfeld der erklärbaren künstlichen Intelligenz (XAI) bereits darauf abzielen ML-Systemausgaben für den Menschen verständlicher und nachvollziehbarer zu gestalten, greift die aktuelle Forschung, die den Einfluss von ML-Systemen auf den menschlichen Entscheidungsträger untersucht, zu kurz. Es fehlt an Ansätzen, die es dem Menschen ermöglichen, seine Fähigkeiten durch die Kollaboration zu erweitern, um langfristig bessere Entscheidungen zu treffen. Um das Potential von ML-Systemen in Hochrisikobereichen ausschöpfen zu können, ist es erforderlich, dass sowohl der Mensch als auch das System voneinander lernen können. Auf diese Weise kann die Leistungsfähigkeit beider Parteien im Rahmen der Kollaboration verbessert werden. Darüber hinaus muss eine effektive Zusammenarbeit gestaltet werden, die die besonderen Eigenschaften von ML-Systemen berücksichtigt und dem Menschen erlaubt Systementscheidungen kritisch zu hinterfragen. Die vorliegende Dissertation umfasst fünf veröffentlichte Beiträge, die mittels einer Mixed-Methods-Studie, zwei quantitativen Experimenten und zwei qualitativen Design Science Research (DSR) Studien die Kollaboration und bilateralen Einflüsse zwischen Mensch und ML-System im Kontext von Entscheidungen in Hochrisikobereichen aus drei Perspektiven untersuchen: der (1) Mensch-, (2) ML-System- und (3) Kollaborationsperspektive. Im Rahmen der Mensch-Perspektive wird untersucht, wie der Mensch von ML-Systemen in der Kollaboration lernen kann, um seine eigenen Fähigkeiten auszubauen und Risiken für falsches Lernen durch fehlerhafte ML-Systemausgaben vermieden werden. In einer Mixed-Methods Studie segmentieren Radiologen 690 Hirntumore in MRT-Bildern unter Einbezug leistungsstarker oder leistungsschwacher ML-Systeme, die ein erklärbares oder nicht-erklärbares Design für Systemausgaben bereitstellen. Die Studie offenbart, dass menschliche Entscheidungsträger von ML-Systemen lernen können, um ihre Entscheidungsperformance und -sicherheit zu verbessern. Im Falle von fehlerhaften Systemausgaben führt dies jedoch auch zu falschem Lernen und birgt ein Risiko für den Entscheidungsträger. Erklärungen aus dem XAI-Bereich können den Lernerfolg der Radiologen signifikant verbessern und verhindern falsches Lernen im Falle inkorrekter ML-Systemausgaben. Tatsächlich können einige Radiologen sogar von Fehlern leistungsschwacher ML-Systeme lernen, wenn mit den Systemausgaben lokale Erklärungen bereitgestellt werden. Die Studie liefert erste empirische Erkenntnisse zum menschlichen Lernpotential im Rahmen der Kollaboration mit ML-Systemen. Die Erkenntnis, dass erklärbares Design von ML-Systemen Radiologen befähigt, fehlerhafte Ausgaben zu identifizieren, kann eine frühere Adoption von erklärbaren ML-Systemen, die ihre Leistungsfähigkeit über die Zeit ausbauen können, ermöglichen. Die ML-Systemperspektive untersucht hingegen, wie ML-Systeme entwickelt werden müssen, sodass diese flexibel auf Änderungen in der Problemwahrnehmung des Menschen und ihrer dynamischen Umgebung reagieren können. Dies erlaubt den Systemen auch vom Mensch zu lernen und stellt eine zuverlässige Leistungsfähigkeit der Systeme in dynamischen Kollaborationsumgebungen sicher. Mittels 15 qualitativer Interviews mit Data Science und ML-Experten im Rahmen einer DSR-Studie werden Herausforderungen für den langfristigen Einsatz von ML-Systemen identifiziert. Die Ergebnisse verdeutlichen, dass bereits in frühen Phasen im ML-Entwicklungsprozess Voraussetzungen für die flexible Anpassung der Systeme im realen Langzeiteinsatz geschaffen werden müssen. Es werden konkrete Designanforderungen und Designprinzipien für ML-Systeme, die von ihrer Umgebung und dem Menschen lernen können, für alle Phasen des CRISP-ML(Q) Prozessmodells für die Entwicklung und den Einsatz von ML-Systemen abgeleitet. Die Umsetzung dieser Prinzipien erlaubt ML-Systemen ihre Performance auch langfristig trotz auftretender Veränderungen zu erhalten oder sogar zu verbessern und schafft damit die Voraussetzungen für einen nachhaltigen Lebenszyklus von ML-Systemen. Abschließend untersucht die (3) Kollaborationsperspektive, wie die Zusammenarbeit von Mensch und ML-System gestaltet sein sollte, um die speziellen Eigenschaften wie Fehleranfälligkeit und Undurchsichtigkeit von ML-Systemen, aber auch kognitive Verzerrungen, die beim menschlichen Entscheidungsträger auftreten zu berücksichtigen und vorteilhaft in die Kollaboration einzubeziehen. Hierbei werden Piloten für 222 aufgezeichnete Flugsimulationen verschiedene ML-Systeme zur visuellen Detektion anderer Flugzeuge im Luftraum bereitgestellt. Das Experiment untersucht den Einfluss verschiedener ML-Fehlertypen und XAI-Ansätze in der Kollaboration und zeigt, dass erklärbares Design ML-fehlerbedingte Vertrauens- und Leistungseinbrüche für einzelne Fehlertypen signifikant reduzieren kann. Allerdings erhöht die Verarbeitung der Erklärungen die mentale Arbeitslast der Piloten. Während ML-Fehler das Vertrauen von menschlichen Entscheidungsträgern schädigen, werden in einer DSR-Studie zudem Designprinzipien für akzeptanzfördernde Artefakte für die Zusammenarbeit von Mensch und ML-System abgeleitet. Abschließend wird im letzten Teil der Analyse gezeigt wie kognitive Verzerrungen wie der IKEA-Effekt verursachen, dass Menschen die Ergebnisse der Kollaboration mit ML-Systemen mehr wertschätzen, wenn ein hohes Maß an eigenem Aufwand in die Kollaboration eingebracht wurde. Die Erkenntnisse bieten ein breites Fundament für die Gestaltung wirkungsvoller Kollaboration in Organisationen und insbesondere Hochrisikobereichen, wo Menschen auch langfristig in die Entscheidungsfindung eingebunden sein werden. Übergreifend zeigen die Studien, wie über die Gestaltung effektiver Kollaboration sowohl Menschen als auch ML-Systeme langfristig voneinander profitieren und ihre eigenen Fähigkeiten verbessern können. Dabei kann erklärbares Design von ML-Systemausgaben als Katalysator für die Adoption von ML-Systemen insbesondere in Hochrisikobereichen dienen. Diese Dissertation definiert neue Ansprüche für die Kollaboration von Mensch und ML-System und bietet Orientierung für ML-Entwickler, Wissenschaftler und Organisationen, die sowohl menschliche Entscheidungsträger als auch ML-Systeme in Entscheidungsprozesse einbeziehen und eine langfristig hohe Leistungsfähigkeit sicherstellen möchten.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-287274
Classification DDC: 000 Generalities, computers, information > 004 Computer science
300 Social sciences > 330 Economics
Divisions: 01 Department of Law and Economics > Betriebswirtschaftliche Fachgebiete > Information Systems
Date Deposited: 28 Nov 2024 14:33
Last Modified: 02 Dec 2024 08:47
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/28727
PPN: 524258317
Export:
Actions (login required)
View Item View Item