TU Darmstadt / ULB / TUprints

Automatic Structured Text Summarization with Concept Maps

Falke, Tobias (2019)
Automatic Structured Text Summarization with Concept Maps.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text
PhDThesis_TobiasFalke.pdf - Published Version
Copyright Information: CC BY-NC-ND 4.0 International - Creative Commons, Attribution NonCommercial, NoDerivs.

Download (2MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Automatic Structured Text Summarization with Concept Maps
Language: English
Referees: Gurevych, Prof. Dr. Iryna ; Dagan, Prof. Dr. Ido
Date: 2019
Place of Publication: Darmstadt
Date of oral examination: 29 January 2019
Abstract:

Efficiently exploring a collection of text documents in order to answer a complex question is a challenge that many people face. As abundant information on almost any topic is electronically available nowadays, supporting tools are needed to ensure that people can profit from the information's availability rather than suffer from the information overload. Structured summaries can help in this situation: They can be used to provide a concise overview of the contents of a document collection, they can reveal interesting relationships and they can be used as a navigation structure to further explore the documents. A concept map, which is a graph representing concepts and their relationships, is a specific form of a structured summary that offers these benefits. However, despite its appealing properties, only a limited amount of research has studied how concept maps can be automatically created to summarize documents. Automating that task is challenging and requires a variety of text processing techniques including information extraction, coreference resolution and summarization. The goal of this thesis is to better understand these challenges and to develop computational models that can address them. As a first contribution, this thesis lays the necessary ground for comparable research on computational models for concept map--based summarization. We propose a precise definition of the task together with suitable evaluation protocols and carry out experimental comparisons of previously proposed methods. As a result, we point out limitations of existing methods and gaps that have to be closed to successfully create summary concept maps. Towards that end, we also release a new benchmark corpus for the task that has been created with a novel, scalable crowdsourcing strategy. Furthermore, we propose new techniques for several subtasks of creating summary concept maps. First, we introduce the usage of predicate-argument analysis for the extraction of concept and relation mentions, which greatly simplifies the development of extraction methods. Second, we demonstrate that a predicate-argument analysis tool can be ported from English to German with low effort, indicating that the extraction technique can also be applied to other languages. We further propose to group concept mentions using pairwise classifications and set partitioning, which significantly improves the quality of the created summary concept maps. We show similar improvements for a new supervised importance estimation model and an optimal subgraph selection procedure. By combining these techniques in a pipeline, we establish a new state-of-the-art for the summarization task. Additionally, we study the use of neural networks to model the summarization problem as a single end-to-end task. While such approaches are not yet competitive with pipeline-based approaches, we report several experiments that illustrate the challenges - mostly related to training data - that currently limit the performance of this technique. We conclude the thesis by presenting a prototype system that demonstrates the use of automatically generated summary concept maps in practice and by pointing out promising directions for future research on the topic of this thesis.

Alternative Abstract:
Alternative AbstractLanguage

Textdokumente effizient zu durchsuchen um eine komplexe Frage zu beantworten ist eine Herausforderung, der viele Menschen gegenüberstehen. Da heutzutage zu fast jedem Thema zahlreiche Informationen elektronisch verfügbar sind, sind unterstützende Tools erforderlich, die sicherstellen, dass wir von der Verfügbarkeit der Informationen profitieren anstatt in der Informationsflut unterzugehen. Strukturierte Zusammenfassungen können in dieser Situation helfen: Sie können einen prägnanten Überblick über den Inhalt einer Dokumentensammlung geben, können interessante Beziehungen aufzeigen und können als Navigationsstruktur zur weiteren Erkundung der Dokumente dienen. Eine Concept Map, ein Graph bestehend aus Konzepten und ihrer Beziehungen, ist eine Form strukturierter Zusammenfassungen die genau diese Vorteile bietet. Trotz ihrer ansprechenden Eigenschaften wurde bisher jedoch nur wenig untersucht, wie Concept Maps automatisch erstellt werden können um Dokumente zusammenzufassen. Die Automatisierung dieser Aufgabe ist herausfordernd und erfordert eine Vielzahl von Sprachverarbeitungstechniken, insbesondere Methoden der Informationsextraktion, der Koreferenzauflösung und der Zusammenfassung. Das Ziel dieser Arbeit ist es, diese Herausforderungen besser zu verstehen und passende Modelle und Algorithmen zu entwickeln. Zuerst legt diese Arbeit daher den Grundstein für eine vergleichbare Forschung an Methoden für die automatische Textzusammenfassung auf Basis von Concept Maps. Wir führen eine präzise Definition dieses Problems ein, schlagen Evaluierungsprotokolle vor und führen experimentelle Vergleiche existierender Methoden durch. Dabei zeigen sich Einschränkungen bestehender Methoden und noch nicht abgedeckte Teilprobleme des Zusammenfassungsproblems. Zudem veröffentlichen wir ein neues Evaluierungs-Korpus, das mit einer neuartigen, skalierbaren Crowdsourcing-Methode erstellt wurde. Darüber hinaus schlagen wir neue Techniken für mehrere Teilaufgaben der Erstellung von Concept Maps vor. Zunächst führen wir die Verwendung von Prädikat-Argument-Analyse zur Extraktion von Konzept- und Beziehungserwähnungen ein, was die Entwicklung von Extraktionsmethoden erheblich vereinfacht. Zweitens zeigen wir, dass ein Tool zur Prädikat-Argument-Analyse mit geringem Aufwand von Englisch nach Deutsch portiert werden kann, was unterstreicht, dass diese Extraktionstechnik auch auf andere Sprachen angewendet werden kann. Wir schlagen außerdem vor, Konzepterwähnungen mithilfe paarweiser Klassifizierungen zu partitionieren, wodurch die Qualität der erstellten Zusammenfassungen deutlich verbessert wird. Wir zeigen ähnliche Verbesserungen für ein neues Modell zur Abschätzung der Wichtigkeit von Konzepten und ein optimales Selektionsverfahren für Zusammenfassungs-Teilgraphen. Durch die Kombination dieser Techniken in einer Pipeline erstellen wir zudem das aktuell beste System zur Erstellung von Concept Map-basierten Textzusammenfassungen. Darüber hinaus untersuchen wir die Verwendung neuronaler Netze, um das Zusammenfassungsproblem als ein einziges End-to-End-Problem zu modellieren. Zwar können derartige Ansätze zur Zeit noch nicht mit Pipeline-basierten Ansätzen konkurrieren, wir zeigen jedoch durch mehrere Experimente auf, welche Herausforderungen - die überwiegend im Zusammenhang mit Trainingsdaten stehen - die Leistungsfähigkeit dieser Technik derzeit noch einschränken. Zum Abschluss der Arbeit stellen wir einen Anwendungsprototyp vor, der die praktische Nutzung von automatisch generierten Concept Maps demonstriert und beschreiben Richtungen für zukünftige Forschung in diesem Bereich.

German
URN: urn:nbn:de:tuda-tuprints-84304
Classification DDC: 000 Generalities, computers, information > 004 Computer science
400 Language > 400 Language, linguistics
Divisions: 20 Department of Computer Science > Ubiquitous Knowledge Processing
Date Deposited: 12 Apr 2019 14:28
Last Modified: 09 Jul 2020 02:30
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/8430
PPN: 447721224
Export:
Actions (login required)
View Item View Item