Visual Analytics Approaches for Descriptor Space Comparison and the Exploration of Time Dependent Data

Bremm, Sebastian (2013)
Visual Analytics Approaches for Descriptor Space Comparison and the Exploration of Time Dependent Data.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

Text
disstemplate.pdf
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .
Download (37MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Visual Analytics Approaches for Descriptor Space Comparison and the Exploration of Time Dependent Data

Language:

English

Referees:

Fellner, Prof. Dr. Dieter ; Schreck, Prof. Dr. Tobias

Date:

2013

Place of Publication:

Darmstadt

Date of oral examination:

2 December 2013

Abstract:

Modern technologies allow us to collect and store increasing amounts of data. However, their analysis is often difficult. For that reason, Visual Analytics combines data mining and visualization techniques to explore and an- alyze large amounts of complex data. Visual Analytics approaches exist for various problems and applications, but all share the idea of a tight combination of visualization and automatic analysis. Their respective implemen- tations are highly specialized on the given data and the analytical task. In this thesis I present new approaches for two specific topics, visual descriptor space comparison and the analysis of time series. Visual descriptor space comparison enables the user to analyze different representations of complex datasets e.g., phylogenetic trees or chemical compounds. I propose approaches for data sets with hierarchic or unknown structure, each combining an automatic analysis with interactive visualization. For hierarchically organized data, I suggest a novel similarity score embedded in an interactive analysis framework linking different views, each specialized on a particular analytical tasks. This analysis framework is evaluated in cooperation with biologists in the area of phylogenetic research. To extend the scalability of my approach, I introduce CloudTrees, a new vi- sualization technique for the comparison of large trees with thousands of leaves. It reduces overplotting problems by ensuring the visibility of small but important details like high scoring subtrees. For the comparison of data with unknown structure, I assess several state of the art projection quality measures to analyze their capability for descriptor comparison. For the creation of appropriate ground truth test data. I suggest an interactive tool called PCDC for the controlled creation of high dimensional data with different properties like data distribution or number and size of contained clusters. For the visual comparison of unknown structured data, I introduce a technique which bases on the comparison of two dimensional projections of the descriptors using a two dimensional colormap. I present the approach for scatterplots and extended it to Self- Organizing Maps (SOMs) including reliability encoding. I embed the automatic and visual comparison in an interactive analysis pipeline, which automatically calculates a set of representative descriptors out of a larger collection of descriptors. For a deeper analysis of the proposed result and the underlying characteristics of the input data, the analyst can follow each step of the pipeline. The approach is applied to a large set of chemical data in a high throughput screening analysis scenario. For the analysis of time dependent, categorical data I propose a new approach called Time Parallel Sets (TIPS). It focuses on the analysis of group changes of objects in large datasets. Different automatic algorithms identify and select potentially interesting points in time for a detailed analysis. The user can interactively track groups or single objects, add or remove selected points in time or change parameters of the detection algorithms according to the analytical goal. The approach is applied to two scenarios: Emergency evacuation of buildings and tracking of mobile phone calls over long time periods. Large time series can be compressed by transforming them into sequences of symbols whereas each symbol represents a set of similar subsequences in time. For these time sequences, I propose new visual-analytical tools, starting with an interactive, semi-automatic definition of symbol similarity. Based on this, the sequences are visualized using different linked views, each specialized on other analytical problems. As an example usecase, a financial dataset containing the risk estimations and return values of 60 companies over 500 days is analyzed.

Alternative Abstract:

Alternative Abstract

Language

Sensorik, Robotik und verbesserte Messverfahren führen zu einer Schwemme an Beobachtungsdaten, deren manuelle Auswertung den Benutzer überfordert. Die computergestützte Auswertung ermöglicht einen effektiveren Umgang mit diesen Datenmengen. Dabei können zwei Analyseziele unterschieden werden. In einigen Szenarien existieren klar definierte Muster die gefunden, oder Hypothesen, die überprüft werden sollen. Hier erzielen komplett automatisierte Ansätze sehr gute Resultate, da sie wesentlich effizienter als der Mensch eindeutig beschriebene Muster in großen Datenmengen finden können. Im Gegensatz dazu steht die explorative Datananalyse mit der ich mich in dieser Arbeit beschäftige.

Die Idee einer engen Kombination von automatischen Analysealgorithmen, interaktiver Visualisierung und Integration von Expertenwissen dient als Basis für die beiden folgenden Teile meiner Arbeit, den visuell-interaktiven Vergleich von Deskriptoren und die visuelle Analyse von zeitabhängigen Daten.

Um große Datenmengen aus komplexen Objekten wie Netzwerken oder Molekülen computergestützt verarbeiten zu können, wird für diese eine kompakte Repräsentationsform benötigt. Diese sollte für die Analyse relevante Information enthalten. Solche Beschreibungen können sowohl einfache numerische Werte sein, wie etwa die Ladung eines Moleküls, aber auch lange Ketten von Zeichen, die zum Beispiel die DNA Struktur eines Bakteriums repräsentieren. Jede dieser Beschreibungen stellt einen Deskriptor dar, die ihrerseits beliebig zu sogenannten Deskriptorräumen kombiniert werden können. Durch die explorative Analyse und den Vergleich verschiedener Repräsentationen der Daten können Muster und Zusammenhänge sichtbar werden bzw. deren Bewertung erleichtert werden. Ziel der Analyse ist es Ähnlichkeiten und Unterschiede zwischen verschiedenen Deskriptoren sowohl auf globaler als auch lokaler Ebene zu finden. Das gilt sowohl im paarweisen Vergleich als auch im Vergleich aller verfügbarer Deskriptoren. Tritt ein Muster etwa in verschiedenen Deskriptoren der gleichen Daten auf, ist es potentiell interessanter und verlässlicher als bei nur seltenem Auftreten. Ich stelle in dieser Arbeit Ansätze für den Vergleich von Daten vor, deren Struktur hierarchisch oder nicht bekannt ist. In beiden Fällen folge ich dem in der Visual Analytics typischen Ansatz und verbinde eine automatische Analyse, zum Beispiel die algorithmische Bewertung von Ähnlichkeit, mit einer interaktiven Visualisierung um das Wissen des Benutzers in die explorative Anaylse zu integrieren.

Zeitabhängige Daten treten in vielen Anwendungsgebieten wie der Finanazanalyse, der Klimabeobachtung oder der Medizin auf. Die zeitliche Komponente spielt dabei eine entscheidende Rolle, die sowohl bei der automatischen Analyse als auch bei der Visualisierung berücksichtigt werden muss. Viele Methoden ähneln stark denen aus anderen Spezialisierungsfeldern innerhalb der Visual Analytics, sind aber auf die spezifischen Anforderungen zeitabhängiger Daten angepasst. Diese Arbeit enthält Beiträge zu zwei Teilbereichen, der Analyse gruppierter zeitabhängiger Daten und der Analyse sequenzieller zeitabhängiger Daten.

German

Uncontrolled Keywords:

Visual Analytics, Visualization, Data Mining, Comparative Visualization, Descriptor, Data Analysis

URN:

urn:nbn:de:tuda-tuprints-37196

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Interactive Graphics Systems

Date Deposited:

12 Dec 2013 14:22

Last Modified: