Information Retrieval for Multivariate Research Data Repositories

In this dissertation, I tackle the challenge of information retrieval for multivariate research data by providing novel means of content-based access.

Large amounts of multivariate data are produced and collected in different areas of scientific research and industrial applications, including the human or natural sciences, the social or economical sciences and applications like quality control, security and machine monitoring. Archival and re-use of this kind of data has been identified as an important factor in the supply of information to support research and industrial production. Due to increasing efforts in the digital library community, such multivariate data are collected, archived and often made publicly available by specialized research data repositories. A multivariate research data document consists of tabular data with $m$ columns (measurement parameters, e.g., temperature, pressure, humidity, etc.) and $n$ rows (observations). To render such data-sets accessible, they are annotated with meta-data according to well-defined meta-data standard when being archived. These annotations include time, location, parameters, title, author (and potentially many more) of the document under concern. In particular for multivariate data, each column is annotated with the parameter name and unit of its data (e.g., water depth [m]).

The task of retrieving and ranking the documents an information seeker is looking for is an important and difficult challenge. To date, access to this data is primarily provided by means of annotated, textual meta-data as described above. An information seeker can search for documents of interest, by querying for the annotated meta-data. For example, an information seeker can retrieve all documents that were obtained in a specific region or within a certain period of time. Similarly, she can search for data-sets that contain a particular measurement via its parameter name or search for data-sets that were produced by a specific scientist. However, retrieval via textual annotations is limited and does not allow for content-based search, e.g., retrieving data which contains a particular measurement pattern like a linear relationship between water depth and water pressure, or which is similar to example data the information seeker provides.

In this thesis, I deal with this challenge and develop novel indexing and retrieval schemes, to extend the established, meta-data based access to multivariate research data. By analyzing and indexing the data patterns occurring in multivariate data, one can support new techniques for content-based retrieval and exploration, well beyond meta-data based query methods. This allows information seekers to query for multivariate data-sets that exhibit patterns similar to an example data-set they provide. Furthermore, information seekers can specify one or more particular patterns they are looking for, to retrieve multivariate data-sets that contain similar patterns. To this end, I also develop visual-interactive techniques to support information seekers in formulating such queries, which inherently are more complex than textual search strings. These techniques include providing an over-view of potentially interesting patterns to search for, that interactively adapt to the user's query as it is being entered. Furthermore, based on the pattern description of each multivariate data document, I introduce a similarity measure for multivariate data. This allows scientists to quickly discover similar (or contradictory) data to their own measurements.

Sprache

Englisch

Alternativtitel

Information Retrieval für Sammlungen multivariater Forschungsdaten

Alternatives Abstract

Diese Dissertation beschäftigt sich mit der Herausforderung der inhaltsbasierten Suche in Sammlungen multivariater Forschungsdaten.

Multivariate Forschungsdaten werden in immer größerem Maße in vielen Wissenschaftsdisziplinen, wie den Human- und Naturwissenschaften oder den Sozial- und Wirtschaftswissenschaften, erhoben. Das Archivieren und Wiederverwerten dieser Daten spielt eine immer wichtigere Rolle in der Informationsversorgung. Hierzu wurden spezialisierte Repositorien geschaffen, die diese Daten archivieren und zur Nachnutzung bereitstellen. Ein multivariater Datensatz beinhaltet dabei $m$ Messgrößen (zum Beispiel Temperatur, Druck, Feuchtigkeit, etc. in der Klimaforschung) und $n$ Beobachtungen. Um solche Datensätze in den Repositorien auffindbar zu machen, werden diese nach einem gewissen Metadatenstandard textuell annotiert und können anhand dieser Annotation gesucht werden. Diese annotierten Metadaten beinhalten beispielsweise Ort, Datum, Messgrößen, Autor, Titel, etc. des zugrundeliegenden Datensatzes. Insbesondere bei multivariaten Daten werden insbesondere die einzelnen Spalten annotiert, um eindeutig festzuhalten, welche Messgröße und Einheit die einzelnen Spalten wiedergeben. Nach diesem Stand können Wissenschaftler ihren Informationsbedarf derzeit decken, indem sie für sie relevante Datensätze anhand der Metadaten finden. Beispielsweise können alle Datensätze gefunden werden, die in einem gewissen Zeitraum oder innerhalb gewisser geographischer Grenzen erfasst wurden. Ebenso können jene Datensätze gefunden werden, die Messungen zu einer bestimmten Messgröße (z.B. Wasserdruck) enthalten oder von einem bestimmten Wissenschaftler aufgenommen wurden. Fragestellungen, die nicht oder nur unzulänglich mit Hilfe textueller Annotationen beantwortet werden können, beinhalten beispielsweise die Suche nach einem speziellen Muster in den multivariaten Daten, wie etwa ein linearer Zusammenhang von Wasserdruck und Wassertiefe. Eine andere solche Fragestellung ist die Suche nach multivariaten Daten, die einem Beispieldatensatz möglichst ähnlich sind, das heißt, solche Datensätze die ähnliche Muster wie der Beispieldatensatz aufweisen.

In dieser Dissertation beschäftige ich mich mit diesen Herausforderungen und entwickle neue Verfahren, um den etablierten Zugang zu multivariaten Forschungsdaten auf Annotationsbasis, durch inhaltbasierte Ansätze zum Beschreiben der Muster innerhalb der Daten zu erweitern. Damit erhöhe ich das Maß an Zugänglichkeit zu diesen Daten, durch die Unterstützung verschiedener Such- und Explorationsmodalitäten, die für die Auffindbarkeit und damit die Nachnutzung der Datensätze entscheidend sind. Durch Analyse und Merkmalsbeschreibung der multivariaten Daten selbst werden Suchanfragen ermöglicht, die anhand der Metadaten allein nicht durchführbar gewesen wären. Dies erlaubt die Suche nach jenen Datensätzen, deren Messungen ein bestimmtes Muster (beispielsweise den bereits oben erwähnten linearen Zusammenhang von Wasserdruck und Wassertiefe) vorweisen. Ebenso entwickle ich visuell-interaktive Verfahren, um den Nutzer bei der Formulierung solch komplexer Suchanfragen zu unterstützen. So kann beispielsweise eine Übersicht interessanter Muster präsentiert werden, die sich in Echtzeit an die (Teil-)Suchanfrage des Nutzers anpasst. Weiterhin habe ich über die Merkmalsbeschreibungen einzelner Datensätze ein Maß zur Bestimmung der Ähnlichkeiten zwischen multivariaten Datensätzen entwickelt. Dies erlaubt Wissenschaftlern mittels Beispieldatensätzen andere Datensätze gemäß ihrer Ähnlichkeit aufzufinden. So kann beispielsweise schnell festgestellt werden, ob andere Wissenschaftler zu ähnlichen (oder auch widersprüchlichen) Ergebnissen gekommen sind.

Fachbereich/-gebiet

20 Fachbereich Informatik

20 Fachbereich Informatik > Graphisch-Interaktive Systeme