Context Aware Voice User Interfaces for Workflow Support

Schnelle, Dirk (2007)
Context Aware Voice User Interfaces for Workflow Support.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

PDF
PhD.pdf
Copyright Information: In Copyright.
Download (1MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Context Aware Voice User Interfaces for Workflow Support

Language:

English

Referees:

Mühlhäuser, Prof. Dr. Max ; Nöth, PD Dr. hab Elmar

Advisors:

Mühlhäuser, Prof. Dr. Max

Date:

9 October 2007

Place of Publication:

Darmstadt

Date of oral examination:

27 August 2007

Abstract:

Audio is a significant factor in the design of the human computer interface in ubiquitous computing. The characteristics of the medium allow for a hands-free interaction without the need to switch the focus to a display (eyes-free).Moreover, determining the graphical capabilities of the wearable device to adapt the output to the device is not needed. But audio based interfaces are also challenging, since humans are visually oriented. The ubiquitous computing community recognized the advantages of the audio channel, but the restrictions inherent to the medium are mostly ignored. Authors of such systems who know about these challenges often look for a solution by using additional modalities, preferably visually oriented. This thesis analyses these challenges with respect to the human’s cognitive capabilities and shows a possible solution using audio design patterns. Users on the move face additional challenges, since wearable devices do not have the computational power and storage capacity of desktop PCs which are required to use speech recognizers and speech synthesizers off the shelf. Thus recognition and synthesis software running on such a device does not have the capabilities of their desktop size counterparts. Streaming technologies can use high-end voice technology on a server at the cost of network dependency. This thesis introduces a new approach combining both worlds. In order to aid the user best, context information is used, location at first place. The context information is obtained from the current environment and from the task that she wants to accomplish. workflow engines are a standard for storing and controlling tasks as processes. Additionally, workflow engines consider the data flow which is a fundamental aspect of each process. Initial approaches to using context information in workflow engines exist but they lack a reusable concept.This thesis introduces such a concept. The process descriptions in workflow engines are modality independent in order to have reusable business logic. Modality dependant specifications of the current activity reside outside the workflow engine and are stored in a meta format that can be used to address multiple modalities. The user interfaces are generated by code generators at run-time. Current concepts consider neither a separation of modality independent business logic nor do they regard data flow. If a user is working on multiple processes in parallel, she needs support in returning into the context of an interrupted process. The challenges inherent to audio are not well suited to aid her resuming the task efficiently. In this thesis, we introduce a first concept of an audio-only support for task resumption.

Alternative Abstract:

Alternative Abstract

Language

Im Ubiquitous-Computing-Umfeld ist Audio eine wesentliche Komponente bei der Gestaltung der Mensch-Maschine-Schnittstelle. Die Eigenschaften des Mediums ermöglichen eine Interaktion ohne Zuhilfenahme der Hände (hands-free) und ohne den Blick von der Haupttätigkeit abzuwenden (eyes-free). Daneben müssen auch die grafischen Möglichkeiten der tragbaren Geräte nicht ausgelotet werden, um die aktuelle Ausgabe an diese Fähigkeiten anzupassen. Da der Mensch jedoch hauptsächlich visuell ausgerichtet ist, bringt die Gestaltung von audiobasierten Schnittstellen eine Reihe von Herausforderungen mit sich. Dennoch werden die Vorteile des Audiokanals in den meisten Arbeiten im Bereich Ubiquitous Computing als solche erkannt. Die damit einher gehenden Einschränkungen werden jedoch häufig gänzlich ignoriert. Autoren, die die technischen Beschränkungen audiobasierter Schnittstellen erkennen, suchen oft eine Lösung durch das Hinzuziehen weiterer Modalitäten, vorzugsweise visueller Art. In dieser Arbeit werden die Herausforderungen unter Berücksichtigung kognitiven Fähigkeiten von Benutzern rein audiobasierter Anwendungen systematisch analysiert und Möglichkeiten zu ihrer Bewältigung mit Hilfe von Design Patterns aufgezeigt. Für die mobile Benutzerin ergibt sich zudem die Problematik, dass mobile Geräte nicht über das Leistungspotenzial, insbesondere in Bezug auf Rechenleistung und Speicherkapazität, wie Desktop PCs verfügen, die die Verwendung von Standardsoftware zur Spracherkennung und Sprachsynthese erst ermöglicht. Sprachsoftware, die auf den tragbaren Geräten läuft, verfügt deswegen nicht über die Leistungsfähigkeit der Standardsoftware. Streamingtechnologien hingegen nutzen höherwertige Sprachsoftware auf dem Server auf Kosten von Netzabhängigkeiten. In dieser Arbeit wird ein neuer Ansatz vorgestellt, der beide Welten miteinander verbindet. Um die Benutzerin effizient unterstützen zu können, werden Kontextinformationen, insbesondere der Aufenthaltsort der Benutzerin, genutzt. Diese werden zum einen aus der aktuellen Umgebung der Benutzerin gewonnen und zum anderen aus dem Kontext der zu erledigenden Aufgabe. Eine standardisierte Form zur Speicherung und zur Ablaufsteuerung dieser Aufgaben ist in Form von Prozessen einer Workflow Engine gegeben. Zudem haben Workflow Engines den Vorteil, dass sie auf einen durchgängigen Datenfluss, der immer zu einem Prozess gehört, Wert legen. Erste Ansätze zur Nutzung von Kontextinformationen in Workflow Engines existieren, es fehlt jedoch ein wiederverwertbares Konzept. In dieser Arbeit wird ein solches Konzept vorgestellt. Die Beschreibung des Prozesses in der Workflow Engine wird Modalitäten unabhängig gehalten, um so Widerverwendbarkeit zu erreichen. Eine Modalitäten abhängige Konkretisierung des aktuellen Prozessschrittes wird außerhalb der Workflow Engine in einem Metaformat gespeichert. Mit Hilfe eines Codegenerators wird hieraus die verwendete Benutzungsschnittstelle zur Laufzeit erzeugt. Bisherige Konzepte haben hier weder eine solche Trennung vorgesehen, noch den Datenfluss aktiv unterstützt. Arbeitet eine Benutzerin an mehreren Prozessen gleichzeitig, so muss sie bei der Wiederaufnahme eines Prozesses aktiv unterstützt werden, um effizient weiter arbeiten zu können, was durch die speziellen Eigenschaften des auditiven Mediums erschwert wird. In dieser Arbeit wird erstmalig ein Konzept zur aktiven Unterstützung dieser Wiedereinführung in den Aufgabenkontext präsentiert.

German

URN:

urn:nbn:de:tuda-tuprints-8760

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science

Date Deposited:

17 Oct 2008 09:22

Last Modified:

08 Jul 2020 22:59

URI: