Eye movements in dynamic environments

Hoppe, David (2019)
Eye movements in dynamic environments.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

Dissertation - Text
Hoppe_Dissertation_Abgabe_25_05_19.pdf - Accepted Version
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (23MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Eye movements in dynamic environments

Language:

English

Referees:

Rothkopf, Prof. Constantin A. ; Lengyel, Prof. Mate

Date:

2019

Place of Publication:

Darmstadt

Date of oral examination:

2 May 2019

Abstract:

The capabilities of the visual system and the biological mechanisms controlling its active nature are still unequaled by modern technology. Despite the spatial and temporal complexity of our environment, we succeed in tasks that demand extracting relevant information from complex, ambiguous, and noisy sensory data. Dynamically distributing visual attention across multiple targets is an important task. In many situations, for example driving a vehicle, switching focus between several targets (e.g., looking ahead, mirrors, control panels) is needed to succeed. This is further complicated by the fact, that most information gathered during active gaze is highly dynamic (e.g., other vehicles on the street, changes of street direction). Hence, while looking at one of the targets, the uncertainty regarding the others increases. Crucially, we manage to do so despite omnipresent stochastic changes in our surroundings. The mechanisms responsible for how the brain schedules our visual system to access the information we need exactly when we need it are far from understood. In a dynamic world, humans not only have to decide where to look but also when to direct their gaze to potentially informative locations in the visual scene. Our foveated visual apparatus is only capable of gathering information with high resolution within a limited area of the visual field. As a consequence, in a changing environment, we constantly and inevitably lose information about the locations not currently brought into focus. Little is known about how the timing of eye movements is related to environmental regularities and how gaze strategies are learned. This is due to three main reasons: First, to relate the scheduling of eye movements to stochastic environmental dynamics, we need to have access to those statistics. However, these are usually unknown. Second, to apply the powerful framework of statistical learning theory, we require knowledge of the current goals of the subject. During every-day tasks, the goal structure can be complex, multi-dimensional and is only partially accessible. Third, the computational problem is, in general, intractable. Usually, it involves learning sequences of eye movements rather than a single action from delayed rewards under temporal and spatial uncertainty that is further amplified by dynamic changes in the environment. In the present thesis, we propose an experimental paradigm specifically designed to target these problems: First, we use simple stimuli with reduced spatial complexity and controlled stochastic behavior. Second, we give subjects explicit task instructions. Finally, the temporal and spatial statistics are designed in a way, that significantly simplifies computation and makes it possible to infer several human properties from the action sequences while still using normative models for behavior. We present results from four different studies that show how this approach can be used to gain insights into the temporal structure of human gaze selection. In a controlled setting in which crucial quantities are known, we show how environmental dynamics are learned and used to control several components of the visual apparatus by properly scheduling the time course of actions.

First, we investigated how endogenous eye blinks are controlled in the presence of nonstationary environmental demands. Eye blinks are linked to dopamine and therefore have been used as a behavioral marker for many internal cognitive processes. Also, they introduce gaps in the stream of visual information. Empirical results had suggested that 1) blinking behavior is affected by the current activity and 2) highly variable between participants. We present a computational approach that quantifies the relationship between blinking behavior and environmental demands. We show that blinking is the result of a trade-off between task demands and the internal urge to blink in our psychophysical experiment. Crucially, we can predict the temporal dynamics of blinking (i.e., the distribution of interblink intervals) for individual blinking patterns. Second, we present behavioral data establishing that humans learn to adjust their temporal eye movements efficiently. More time is spent at locations where meaningful events are short and therefore easily missed. Our computational model further shows how several properties of the visual system determine the timing of gaze. We present a Bayesian learner that fully explains how eye movement patterns change due to learning the event statistics. Thus, humans use temporal regularities learned from observations to adjust the scheduling of eye movements in a nearly optimal way. This is a first computational account towards understanding how eye movements are scheduled in natural behavior. After establishing the connection of temporal eye movement dynamics, reward in the form of task performance, and physiological costs for saccades and endogenous eye blinks, we applied our paradigm to study the variability in temporal eye movement sequences within and across subjects. The experimental design facilitates analyzing the temporal structure of eye movementswith full knowledge about the statistics of the environment. Hence, we can quantify the internal beliefs about task-relevant properties and can further study how they contribute to the variability in gaze sequences in combination with physiological costs. Crucially, we developed a visual monitoring task where a subject is confronted with the same stimulus dynamics multiple times while learning effects are kept to a minimum. Hence, we are not only able to compute the variability between subjects but also over trials of the same subject. We present behavioral data and results from our computational model showing how variability of eye movement sequences is related to task properties. Having access to the subjects' reward structure, we are able to show how expected rewards influence the variance in visual behavior. Finally, we studied the computational properties underlying the control of eye movement sequences in a visual search task. In particular, we investigated whether eye movements are planned. Research from psychology has merely revealed that sequences of multiple eye movements are jointly prepared as a scanpath. Here we examine whether humans are capable of finding the optimal scanpath even if it requires incorporating more than just the next eye movement into the decision. For a visual search task, we derive an ideal observer as well as an ideal planner based on the framework of partially observable Markov decision processes (POMDP). The former always takes the action associated with the maximum immediate reward while the latter maximized the total sum of rewards for the whole action sequence. We show that depending on the search shape ideal planner and ideal observer lead to different scanpaths. Following this paradigm, we found evidence that humans are indeed capable of planning scanpaths. The ideal planner explained our subjects' behavior better compared to the ideal observer. In particular, the location of the first fixation differed depending on the shape and the time available for the search, a characteristic well predicted by the ideal planner but not by the ideal observer. Overall, our results are the first evidence that our visual system is capable of taking into account future consequences beyond the immediate reward for choosing the next fixation target. In summary, this thesis proposes an experimental paradigm that enables us to study the temporal structure of eye movements in dynamic environments. While approaching this computationally is generally intractable, we reduce the complexity of the stimuli in dimensions that do not contribute to the temporal effects. As a consequence, we can collect eye movement data in tasks with a rich temporal structure while being able to compute the internal beliefs of our subjects in a way that is not possible for natural stimuli. We present four different studies that show how this paradigm can lead to new insights into several properties of the visual system. Our findings have several implications for future work: First, we established several factors that play a crucial role in the generation of gaze behavior and have to be accounted for when describing the temporal dynamics of eye movements. Second, future models of eye movements should take into account, that delayed rewards can affect behavior. Third, the relationship between behavioral variability and properties of the reward structure are not limited to eye movements. Instead, it is a general prediction by the computational framework. Therefore, future work can use this approach to study the variability of various other actions. Our computational models have applications in state of the art technology. For example, blink rates are already utilized in vigilance systems for drivers. Our computational model is able to describe the temporal statistics of blinking behavior beyond simple blink rates and also accounts for interindividual differences in eye physiology. Using algorithms that can deal with natural images, e.g., deep neural networks, the environmental statistics can be extracted and our models then can be used to predict eye movements in daily situations like driving a vehicle.

Alternative Abstract:

Alternative Abstract

Language

Die Leistung des menschlichen visuellen Systems und der zugrunde liegenden Mechanismen sind immer noch unerreicht von moderner Technologie. Unsere Umgebung ist geprägt von komplexen zeitlichen und räumlichen Dynamiken, dennoch sind wir in der Lage aus uneindeutigen und mit Rauschen versehenen sensorischen Daten jene Informationen zu extrahieren, welche uns in die Lage versetzen, schwierige Aufgaben zu meistern. Eine Schlusselrolle spielt dabei die dynamische Verteilung unserer visuellen Aufmerksamkeit auf mehrere Regionen im Raum. In vielen Situationen, zum Beispiel während des Fahrens eines Autos, ist es wichtig Informationen von einer Vielzahl an informationstragenden Punkten im Auge zu behalten (z. B., Abstand zum Vordermann, überholende Autos im Seitenspiegel, die Einstellungen des Entertainmentsystems). Dies wird zusätzlich dadurch erschwert, dass der Großteil der Informationen zeitlichen Veränderungen unterliegt. So verändert sich beim Fahren zwangsläufig die Umgebung, da wir uns im Auto fortbewegen. Zusätzlich bewegen sich die anderen Verkehrsteilnehmer. Da wir lediglich in einem kleinen Bereich (der Fovea) visuelle Eindrücke mit hoher Aufösung wahrnehmen können, verpassen wir mit jeder Fixation Informationen an allen Regionen, die wir in diesem Moment nicht fokussieren. Trotz der stochastischen Veränderungen in unserer Umgebung zeigen Menschen gute Leistungen in vielen visuellen Aufgaben. Dabei ist es unklar, wie das Gehirn unser visuelles System derart koordiniert, dass wir zum richtigen Zeitpunkt Zugang zu den richtigen Informationen haben. Durch die zeitliche Dynamik in unserer Umwelt müssen wir nicht nur entscheiden, wohin wir unseren Blick richten, sondern auch wann. Es ist unumgänglich, dass wir ständig Informationen verlieren, da wir nicht alles gleichzeitig fokussieren können und sich der Zustand unserer Umgebung ändert. Viele Details der zeitlichen Steuerung von Augenbewegungen und der Verbindung zu Regelmäßigkeiten in unserer Umgebung sind ungeklärt. Auch existieren nur wenige Erkenntnisse darüber, wie Strategien zur Kontrolle von Augenbewegungen erlernt werden. Dafür gibt es drei Gründe: Erstens brauchen wir Zugang zu den Statistiken unserer Umgebung, um diese mit Augenbewegungen in Verbindung zu bringen. Diese Statistiken sind allerdings im Allgemeinen nicht zugänglich und daher unbekannt. Zweitens sind für die Modellierung des Verhaltens mittels Methoden der statistischen Lerntheorie Informationen über die Zielstruktur der Probandin notwendig. Diese latenten Strukturen sind in der Realität allerdings komplex, vielschichtig und nur teilweise abrufbar. Drittens übersteigt die Komplexität der Berechnungen, welche zur Beschreibung von natürlichem Verhalten nötig sind, die verfügbare Rechenleistung. Gewöhnlich handelt es sich nämlich nicht um das Erlernen einzelner Augenbewegungen, sondern um Sequenzen von Augenbewegungen, welche in Gegenwart zeitlicher und räumlicher Unsicherheit und dynamischer Veränderungen der Umgebung aus verzögerten Belohnungen abgeleitet werden müssen.

In der vorliegenden Arbeit stellen wir einen experimentellen Ansatz vor, welcher speziell zur Lösung dieser Problematik entwickelt wurde: Erstens nutzen wir Stimuli mit reduzierter räumlicher Komplexität und kontrollieren deren stochastisches Verhalten. Zweitens verwenden wir Aufgaben, bei denen wir Zugang zu der Belohnungsstruktur haben. Dies wird durch geeignete Instruktionen sichergestellt. Zuletzt wählen wir die zeitlichen und räumlichen Statistiken auf eine Weise, sodass sich die Modellberechnungen signifikant vereinfachen und somit das Inferieren von Eigenschaften der menschlichen Informationsverarbeitung aus Handlungssequenzen auch mit normativen Modellen möglich wird. Wir präsentieren Ergebnisse aus vier verschiedenen Studien, welche zeigen, wie dieser Ansatz genutzt werden kann, um Einblicke in die zeitliche Koordination von Augenbewegungen zu erhalten. Für kontrollierte Umgebungen, in denen für das Verhalten relevante Größen zugänglich sind, zeigen wir wie Umgebungsdynamiken gelernt und zur Kontrolle verschiedener Komponenten des visuellen Apparats genutzt werden. Zunächst haben wir untersucht, ob der Lidschluss von den Dynamiken und Anforderungen einer sich stetig verändernden Umgebung beeinflusst werden. Eine Verbindung zwischen der Häufigkeit des Lidschlusses und dem Neurotransmitter Dopamin gilt als erwiesen, daher stellt der Lidschluss eine beobachtbare Verhaltensweise dar, welche Rückschlüsse auf viele nicht sichtbare interne Prozesse erlaubt. Zudem führt der Lidschluss zu regelmäßigen Lücken in der visuellen Wahrnehmung. Empirische Ergebnisse legen nahe, dass 1) das Lidschlussverhalten von der aktuellen Tätigkeit beeinflusst wird und 2) dass eine hohe interindividuelle Variabilität besteht. Mittels eines computationalen Modells konnten wir die Verbindung zwischen dem Lidschlussverhalten und den Anforderungen der Umgebung quantifizieren. In einemWahrnehmungsexperiment konnten wir zeigen, dass Häufigkeit des Lidschlusses Folge eines Trade-Off zwischen Erfordernissen der Aufgabe und dem Drang zu blinzeln ist. Erstaunlich ist dabei, dass wir in der Lage sind die Verteilung der Zeiten zwischen zwei Lidschlüssen für einzelne Personen vorherzusagen.

Im Anschluss präsentieren wir Verhaltensdaten, welche eine effiziente Anpassung der zeitlichen Abfolge von Augenbewegungen beim Menschen belegen. Regionen werden länger fokussiert, wenn bedeutungsvolle Ereignisse in diesen Regionen nur von kurzer Dauer sind und daher leicht verpasst werden können. Unser mathematisches Modell zeigt darüber hinaus wie Eigenschaften des visuellen Systems das Timing von Augenbewegungen leiten. Wir präsentieren einen Bayesianischen Learner, der die Veränderungen in den Augenbewegungsstrategien auf das Erlernen der Ereignisstatistiken zurückführt. Dadurch können wir zeigen, dass Menschen zeitliche Regelmäßigkeiten, erlernt über sensorische Beobachtungen, nutzen, um beinahe in optimaler Weise Augenbewegunsstrategien anzupassen. Diese Ergebnisse sind ein erster Schritt zu einem tieferen Verständnis von Augenbewegungen in natürlichem Verhalten. Nachdem wir die Verbindung zwischen zeitlichen Dynamiken von Augenbewegungen, der Belohnungsstruktur der zu erledigenden Aufgabe und physiologischen Kosten für Sakkaden und Lidschlüsse nachgewiesen hatten, haben wir unser experimentelles Paradigma angewendet, um die interindividuelle Variabilität von Augenbewegungssequenzen zu erforschen. Das experimentelle Design ermöglicht die zeitliche Struktur von Augenbewegungen zu analysieren, während detaillierte Informationen bezüglich der Statistiken der Umgebung verfügbar sind. Mit dieser Grundlage können wir die internen Vorstellungen der Probanden über aufgabenrelevante Größen quantifizieren. Weiter können wir untersuchen, wie sie in Kombination mit physiologischen Kosten zur Variabilität von visuellen Verhaltensweisen beitragen. Wir entwickelten eine Aufgabe bei der die Probandin mehrere Regionen mithilfe von geeigneten Augenbewegungen im Auge behalten muss. Durch geeignete Manipulation der Stimuli konnten wir dieselbe Sequenz mehrfach präsentieren, während Lerneffekte so gering wie möglich gehalten wurden. Dies ermöglicht eine Quantifizierung sowohl der inter- wie auch der intraindividuellen Variabilität. Wir präsentieren Verhaltensdaten und Ergebnisse von unserem Modell, welche aufzeigen, wie Variabilität von Verhalten mit Eigenschaften der Aufgabe verbunden ist. Insbesondere sind wir in der Lage eine Verbindung zwischen der erwarteten Belohnung einer Entscheidung und der Variabilität in der Entscheidung herzustellen.

Abschließend untersuchten wir die computationalen Eigenschaften, welche Sequenzen von Augenbewegungen während visueller Suche unterliegen. Insbesondere untersuchten wir ob Menschen in der Lage sind Augenbewegungen zu planen. Forschungsergebnisse aus der Psychologie legen nahe, dass mehrere Augenbewegungen gemeinsam in Form eines Scanpaths vorbereitet, bzw. programmiert, werden. Unsere Fragestellung war, ob Menschen fähig sind die optimale Sequenz von Augenbewegungen auszuführen, auch wenn dies erfordert, mehr als die nächste Fixation in die Entscheidung einzubeziehen. Für eine Aufgabe aus dem Bereich der visuellen Suche leiteten wir einen Ideal Observer und einen Ideal Planner basierend auf dem Framework der belief MDPs her. Der Ideal Observer wählt jene Augenbewegung, welche zu maximaler sofortiger Belohnung direkt im Anschluss an die Augenbewegung führt. Im Gegensatz dazu maximiert der Ideal Planner die Gesamtsumme aller Belohnungen über alle Augenbewegungen hinweg. Wir konnten zeigen, dass Ideal Observer und Ideal Planner zu unterschiedlichen Verhaltenssequenzen führen, dies aber zusätzlich von der Form des Suchfeldes abhängt. Mithilfe dieses Paradigmas konnten wir die Fähigkeit einen Scanpath zu planen beim Menschen nachweisen. Der Ideal Planner lieferte eine weit bessere Erklärung für die erhobenen Daten unserer Probanden als der Ideal Observer. Insbesondere hing die Landeposition der ersten Augenbewegung innerhalb der Suchsequenz von der Zeit, die zur Suche zur Verfügung stand, ab. Dieser Effekt ist im Einklang mit den Vorhersagen des Ideal Planners, nicht jedoch des Ideal Observers. Insgesamt stellen unsere Ergebnisse die erste Evidenz dafür dar, dass unser visuelles System in der Lage ist, mehr als unmittelbare Konsequenzen in die Entscheidung für die nächste Augenbewegung mit einzubeziehen.

Zusammengefasst stellt die vorliegende Arbeit ein experimentelles Paradigma vor, welches die quantitative Erforschung der zeitlichen Struktur von Augenbewegungen in dynamischen Umgebungen ermöglicht. Während eine computationale Beschreibung für den allgemeinen Fall nicht möglich ist, haben wir die Komplexität in für die Untersuchung zweitrangigen Bereichen reduziert. Durch dieses Vorgehen konnten wir Daten über Augenbewegungen in Aufgaben mit komplexer zeitlicher Struktur sammeln und trotzdem die für die Modellierung der internen Vorstellungen der Probanden notwendigen Größen einbeziehen. Insgesamt stellen wir vier Studien vor, welche aufzeigen, wie das Paradigma zu neuen Erkenntnissen über zahlreiche Eigenschaften der visuellen Informationsverarbeitung führen kann. Unsere Ergebnisse haben klare Auswirkungen auf zukünftige Forschungsarbeiten: Erstens haben wir Faktoren ermittelt, welche bei der Generierung von visuellem Verhalten eine tragende Rolle spielen. Diese müssen für die Beschreibung der zeitlichen Folge von Augenbewegungen in die Betrachtung mit einbezogen werden. Zweitens sollten zukünftige Modelle für Augenbewegungen berücksichtigen, dass auch Belohnungen über die unmittelbare Belohnung einer Handlung hinaus das Verhalten beeinflussen können. Drittens sind die Ergebnisse über den Zusammenhang zwischen Variabilität und den Eigenschaften der Belohnungsstruktur nicht auf Augenbewegungen beschränkt. Vielmehr handelt es sich um eine allgemeine Vorhersage des Modells, welche auf andere Bereiche übertragen werden kann. Zukünftige Arbeiten können demnach den Ansatz nutzen, um Variabilität in anderen Verhaltensmodalitäten zu untersuchen. Unsere Modelle sind außerdem relevant für zahlreiche technologische Anwendungen. Der Lidschluss, zum Beispiel, wird bereits in Systemen zur Erfassung von Aufmerksamkeit und Wachheit im Rahmen des Straßenverkehrs verwendet. Das von uns entwickelte Modell ist in der Lage die zeitlichen statistischen Kennwerte des Blinzelns zu beschreiben und dabei insbesondere physiologische Unterschiede zwischen Personen zu berücksichtigen. In Verbindung mit modernen Algorithmen für komplexes hochdimensionales Datenmaterial wie Bilder und Videos, zum Beispiel tiefe neuronale Netze, können die Statistiken der Umgebung abgeleitet werden. Auf diese Weise ist eine Anwendung der im Rahmen dieser Arbeit entwickelten Modelle auf alltägliche Problemstellungen möglich.

German

URN:

urn:nbn:de:tuda-tuprints-88171

Classification DDC:

100 Philosophy and psychology > 150 Psychology

Divisions:

03 Department of Human Sciences > Institute for Psychology
03 Department of Human Sciences > Institute for Psychology > Psychology of Information Processing

Date Deposited:

24 Jun 2019 14:46

Last Modified:

09 Jul 2020 02:39

URI: