Informationsbeschaffung aus digitalen Textressourcen - Domänenadaptive Verfahren zur Strukturierung heterogener Textdokumente

In der heutigen Informationsgesellschaft sind Personen häufig mit der sogenannten Informationsüberflutung konfrontiert. Dies bedeutet, dass es aufgrund der enormen Menge insbesondere digital verfügbarer textueller Ressourcen zu einer Überforderung bei der Identifikation relevanter Informationen kommen kann. Bislang ist eine Unterstützung bei dieser Aufgabe vorrangig über Volltextsuchen in Textsammlungen möglich, die jedoch keine komplexen Suchanfragen mit Beschreibung unterschiedlicher Aspekte der Suchanfrage erlauben. Werkzeuge zur elaborierten Suche, welche es erlauben, einzelne Aspekte der zu suchenden Information zu beschreiben, existieren nur in spezifischen Domänen. Ein wesentlicher Grund hierfür ist, dass die zu durchsuchenden digitalen Textressourcen meist in unstrukturierter Form vorliegen. Damit ist kein einheitlicher, gezielter Zugriff auf spezifische Informationen innerhalb der Dokumente möglich, welcher die Realisierung solcher Werkzeuge vereinfachen würde. Strukturierte Repräsentationen der Dokumente, in denen die Bedeutung einzelner Textfragmente für die in den Dokumenten beschriebenen Entitäten zu erkennen ist, würden diesen Zugriff ermöglichen.

Im Rahmen dieser Dissertation wird untersucht, mit welchen Verfahren textuelle Dokumente automatisiert in eine strukturierte Repräsentation überführt werden können. Existierende Ansätze mit gleicher oder ähnlicher Zielsetzung sind meist für spezifische Anwendungsdomänen entwickelt und lassen sich nur schwer in andere Domänen übertragen. Bei Einsatz in neuen Domänen müssen bislang somit vollständig neue Ansätze zur Strukturierung entworfen werden oder zur Übertragung von Ansätzen ein großer manueller Aufwand erbracht werden. Daraus resultiert die Notwendigkeit, domänenadaptive Verfahren zur Strukturierung von Textressourcen zu entwickeln. Dem steht als wesentliche Herausforderung die Heterogenität von Anwendungsdomänen hinsichtlich verschiedener Kriterien wie verwendeter Dokumentenformate, vorherrschender Textlänge und domänenspezifischer Terminologie entgegen.

Die Untersuchung von fünf ausgewählten heterogenen Anwendungsdomänen zeigte, dass bestimmte Typen von Informationen domänenübergreifend von Relevanz sind. Daher wurden für drei dieser Typen Verfahren konzipiert, welche Informationen dieser Typen in heterogenen Dokumenten identifizieren können. Hierbei wurde sichergestellt, dass für die erstmalige Anwendung der Verfahren in einer spezifischen Domäne möglichst wenig manueller Aufwand erforderlich ist, um die Anforderung der Domänenadaptivität der Verfahren zu berücksichtigen. Zur Reduktion des manuellen Aufwands wurden Techniken des maschinellen Lernens, wie der Ansatz des Active Learning, sowie existierende, frei verfügbare Wissensbasen verwendet. Die konzipierten Verfahren wurden implementiert und unter Verwendung von Textkorpora aus den zuvor analysierten Domänen evaluiert. Dabei konnte gezeigt werden, dass die Identifikation von Informationen dieser drei Typen mit hoher Güte möglich ist und gleichzeitig eine gute Domänenadaptivität erreicht wird. Weiterhin wurden unabhängige Verfahren zur Identifikation von Informationen der einzelnen Typen kombiniert, um eine Strukturierung kompletter Dokumente durchführen zu können. Dieses Konzept wurde in einer Fallstudie für eine der Anwendungsdomänen implementiert und unter Verwendung eines Textkorpus aus dieser Domäne evaluiert. Die Resultate bestätigen, dass eine Strukturierung mittels Kombination der Verfahren zur Identifikation der Informationen der einzelnen Typen erreicht werden kann.

Unter Verwendung der in dieser Dissertation vorgestellten domänenadaptiven Verfahren lassen sich strukturierte Repräsentationen aus unstrukturierten digitalen Textressourcen erstellen, die die vereinfachte Realisierung von Werkzeugen zur Informationsbeschaffung ermöglichen. Die daraus resultierenden Möglichkeiten für elaborierte Werkzeuge zur Informationsbeschaffung reduzieren die Überforderung der Nutzer bei der Identifikation relevanter Informationen.

Freie Schlagworte

Sprachverarbeitung

Wissensmanagement

Informationsextraktio...

Suchmaschinen

Maschinelles Lernen

Sprache

Deutsch

Alternativtitel

Gathering of Information from Digital Text Resources – Domain-adaptive Approaches for Structuring of Textual Documents

Alternatives Abstract

In today's information society, users are increasingly confronted with the so-called information overload problem. They are often overwhelmed by the huge amount of mostly digitally available textual resources when trying to identify relevant information suiting their information needs.

So far, users are mainly left only with a full-text search due to the lack of more elaborate tools which would allow them to specify different aspects of their information need. Elaborate search tools, that allow a precise definition of information needs, only exist in specific domains. One of the main reasons is that the mostly unstructured nature of digital textual resources does not allow access to specific information within the documents which would enable the realization of these tools. A structured representation of the documents, where the meaning of individual text fragments for the entities being described in the documents is known, would allow for this access.

The goal of this thesis is to investigate approaches that would automatically transform documents into structured representations. Existing approaches that have similar aims are often tailored to specific applications and thus cannot be easily applied to other applications or domains. Their deployment in new domains currently requires a redesign of the approaches or significant manual effort for their adaptation. Based on this observation, this thesis aims to develop domain-adaptive approaches to structure textual documents. A major challenge for the design of appropriate methods is the heterogeneity of application domains, in particular with regards to the document formats, lengths of texts, and domain-specific terminology used.

A study of five selected heterogeneous domains revealed the existence of common types of information across domains. As a result of this finding, different methods were designed to identify information in heterogeneous documents for three of these types. As a design requirement, it was considered that only little manual effort is accepted when deploying the methods to a new domain. This requirement enables a good domain adaptation of the methods. In order to reduce the manual effort needed, techniques from the field of machine learning, such as Active Learning, were applied. Furthermore, freely available and domain-independent knowledge bases were integrated. The approaches were implemented and evaluated using data sets from the observed domains. Results showed that the identification of information of individual types is possible while still maintaining a good domain adaptivity. Finally, a concept was presented that combines methods for the identification of information with the goal of structuring entire documents. An implementation and evaluation of this concept revealed that structuring can be obtained through a combination of different methods, whereby each method identifies only a single type of information.

The domain adaptive means presented in this dissertation enable the creation of structured representations from unstructured digital textual resources. This simplifies the realization of various tools for information retrieval. The resulting possibilites for the development of new information retrieval tools reduce the overload problem experienced by users when trying to identify relevant information.

Fachbereich/-gebiet

18 Fachbereich Elektrotechnik und Informationstechnik > Institut für Datentechnik > Multimedia Kommunikation

DDC

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

600 Technik, Medizin, angewandte Wissenschaften > 620 Ingenieurwissenschaften und Maschinenbau

Institution

Technische Universität Darmstadt

Ort

Darmstadt