Item Type: |
Ph.D. Thesis |
Title: |
Visual Analytics Approaches
for
Descriptor Space Comparison
and the
Exploration of Time Dependent Data |
Language: |
English |
Abstract: |
Modern technologies allow us to collect and store increasing amounts of data. However, their analysis is often
difficult. For that reason, Visual Analytics combines data mining and visualization techniques to explore and an-
alyze large amounts of complex data. Visual Analytics approaches exist for various problems and applications,
but all share the idea of a tight combination of visualization and automatic analysis. Their respective implemen-
tations are highly specialized on the given data and the analytical task. In this thesis I present new approaches
for two specific topics, visual descriptor space comparison and the analysis of time series.
Visual descriptor space comparison enables the user to analyze different representations of complex datasets
e.g., phylogenetic trees or chemical compounds. I propose approaches for data sets with hierarchic or unknown
structure, each combining an automatic analysis with interactive visualization. For hierarchically organized data,
I suggest a novel similarity score embedded in an interactive analysis framework linking different views, each
specialized on a particular analytical tasks. This analysis framework is evaluated in cooperation with biologists
in the area of phylogenetic research. To extend the scalability of my approach, I introduce CloudTrees, a new vi-
sualization technique for the comparison of large trees with thousands of leaves. It reduces overplotting problems
by ensuring the visibility of small but important details like high scoring subtrees.
For the comparison of data with unknown structure, I assess several state of the art projection quality measures
to analyze their capability for descriptor comparison. For the creation of appropriate ground truth test data.
I suggest an interactive tool called PCDC for the controlled creation of high dimensional data with different
properties like data distribution or number and size of contained clusters. For the visual comparison of unknown
structured data, I introduce a technique which bases on the comparison of two dimensional projections of the
descriptors using a two dimensional colormap. I present the approach for scatterplots and extended it to Self-
Organizing Maps (SOMs) including reliability encoding. I embed the automatic and visual comparison in an
interactive analysis pipeline, which automatically calculates a set of representative descriptors out of a larger
collection of descriptors. For a deeper analysis of the proposed result and the underlying characteristics of the
input data, the analyst can follow each step of the pipeline. The approach is applied to a large set of chemical
data in a high throughput screening analysis scenario.
For the analysis of time dependent, categorical data I propose a new approach called Time Parallel Sets (TIPS).
It focuses on the analysis of group changes of objects in large datasets. Different automatic algorithms identify
and select potentially interesting points in time for a detailed analysis. The user can interactively track groups or
single objects, add or remove selected points in time or change parameters of the detection algorithms according
to the analytical goal. The approach is applied to two scenarios: Emergency evacuation of buildings and tracking
of mobile phone calls over long time periods.
Large time series can be compressed by transforming them into sequences of symbols whereas each symbol
represents a set of similar subsequences in time. For these time sequences, I propose new visual-analytical tools,
starting with an interactive, semi-automatic definition of symbol similarity. Based on this, the sequences are
visualized using different linked views, each specialized on other analytical problems. As an example usecase, a
financial dataset containing the risk estimations and return values of 60 companies over 500 days is analyzed. |
Alternative Abstract: |
Alternative Abstract | Language |
---|
Sensorik, Robotik und verbesserte Messverfahren führen zu einer Schwemme an Beobachtungsdaten, deren
manuelle Auswertung den Benutzer überfordert. Die computergestützte Auswertung ermöglicht einen effektiveren
Umgang mit diesen Datenmengen. Dabei können zwei Analyseziele unterschieden werden. In einigen
Szenarien existieren klar definierte Muster die gefunden, oder Hypothesen, die überprüft werden sollen. Hier
erzielen komplett automatisierte Ansätze sehr gute Resultate, da sie wesentlich effizienter als der Mensch eindeutig
beschriebene Muster in großen Datenmengen finden können. Im Gegensatz dazu steht die explorative
Datananalyse mit der ich mich in dieser Arbeit beschäftige.
Die Idee einer engen Kombination von automatischen Analysealgorithmen, interaktiver Visualisierung und
Integration von Expertenwissen dient als Basis für die beiden folgenden Teile meiner Arbeit, den visuell-interaktiven
Vergleich von Deskriptoren und die visuelle Analyse von zeitabhängigen Daten.
Um große Datenmengen aus komplexen Objekten wie Netzwerken oder Molekülen computergestützt verarbeiten
zu können, wird für diese eine kompakte Repräsentationsform benötigt. Diese sollte für die Analyse relevante
Information enthalten. Solche Beschreibungen können sowohl einfache numerische Werte sein, wie etwa die
Ladung eines Moleküls, aber auch lange Ketten von Zeichen, die zum Beispiel die DNA Struktur eines Bakteriums
repräsentieren. Jede dieser Beschreibungen stellt einen Deskriptor dar, die ihrerseits beliebig zu sogenannten
Deskriptorräumen kombiniert werden können. Durch die explorative Analyse und den Vergleich verschiedener
Repräsentationen der Daten können Muster und Zusammenhänge sichtbar werden bzw. deren Bewertung erleichtert
werden. Ziel der Analyse ist es Ähnlichkeiten und Unterschiede zwischen verschiedenen Deskriptoren
sowohl auf globaler als auch lokaler Ebene zu finden. Das gilt sowohl im paarweisen Vergleich als auch im Vergleich
aller verfügbarer Deskriptoren. Tritt ein Muster etwa in verschiedenen Deskriptoren der gleichen Daten
auf, ist es potentiell interessanter und verlässlicher als bei nur seltenem Auftreten. Ich stelle in dieser Arbeit Ansätze
für den Vergleich von Daten vor, deren Struktur hierarchisch oder nicht bekannt ist. In beiden Fällen folge
ich dem in der Visual Analytics typischen Ansatz und verbinde eine automatische Analyse, zum Beispiel die
algorithmische Bewertung von Ähnlichkeit, mit einer interaktiven Visualisierung um das Wissen des Benutzers
in die explorative Anaylse zu integrieren.
Zeitabhängige Daten treten in vielen Anwendungsgebieten wie der Finanazanalyse, der Klimabeobachtung oder
der Medizin auf. Die zeitliche Komponente spielt dabei eine entscheidende Rolle, die sowohl bei der automatischen
Analyse als auch bei der Visualisierung berücksichtigt werden muss. Viele Methoden ähneln stark denen
aus anderen Spezialisierungsfeldern innerhalb der Visual Analytics, sind aber auf die spezifischen Anforderungen
zeitabhängiger Daten angepasst. Diese Arbeit enthält Beiträge zu zwei Teilbereichen, der Analyse gruppierter
zeitabhängiger Daten und der Analyse sequenzieller zeitabhängiger Daten. | German |
|
Place of Publication: |
Darmstadt |
Uncontrolled Keywords: |
Visual Analytics, Visualization, Data Mining, Comparative Visualization, Descriptor, Data Analysis |
Classification DDC: |
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik |
Divisions: |
20 Department of Computer Science > Interactive Graphics Systems |
Date Deposited: |
12 Dec 2013 14:22 |
Last Modified: |
09 Jul 2020 00:34 |
URN: |
urn:nbn:de:tuda-tuprints-37196 |
Referees: |
Fellner, Prof. Dr. Dieter and Schreck, Prof. Dr. Tobias |
Refereed: |
2 December 2013 |
URI: |
https://tuprints.ulb.tu-darmstadt.de/id/eprint/3719 |
Export: |
|