Approaches to Automatic Text Structuring

Erbs, Nicolai (2015)
Approaches to Automatic Text Structuring.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

Text (PhD thesis of Nicolai Erbs)
Erbs_AutomaticTextStructuring.pdf - Published Version
Copyright Information: CC BY-NC-ND 3.0 Unported - Creative Commons, Attribution, NonCommercial, NoDerivs.
Download (3MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Approaches to Automatic Text Structuring

Language:

English

Referees:

Gurevych, Prof. Dr. Iryna ; Agirre, Prof. Dr. Eneko ; Zesch, Prof. Dr. Torsten

Date:

11 September 2015

Place of Publication:

Darmstadt

Date of oral examination:

2 February 2015

Abstract:

Structured text helps readers to better understand the content of documents. In classic newspaper texts or books, some structure already exists. In the Web 2.0, the amount of textual data, especially user-generated data, has increased dramatically. As a result, there exists a large amount of textual data which lacks structure, thus making it more difficult to understand. In this thesis, we will explore techniques for automatic text structuring to help readers to fulfill their information needs. Useful techniques for automatic text structuring are keyphrase identification, table-of-contents generation, and link identification. We improve state of the art results for approaches to text structuring on several benchmark datasets. In addition, we present new representative datasets for users’ everyday tasks. We evaluate the quality of text structuring approaches with regard to these scenarios and discover that the quality of approaches highly depends on the dataset on which they are applied. In the first chapter of this thesis, we establish the theoretical foundations regarding text structuring. We describe our findings from a user survey regarding web usage from which we derive three typical scenarios of Internet users. We then proceed to the three main contributions of this thesis. We evaluate approaches to keyphrase identification both by extracting and assigning keyphrases for English and German datasets. We find that unsupervised keyphrase extraction yields stable results, but for datasets with predefined keyphrases, additional filtering of keyphrases and assignment approaches yields even higher results. We present a de- compounding extension, which further improves results for datasets with shorter texts. We construct hierarchical table-of-contents of documents for three English datasets and discover that the results for hierarchy identification are sufficient for an automatic system, but for segment title generation, user interaction based on suggestions is required. We investigate approaches to link identification, including the subtasks of identifying the mention (anchor) of the link and linking the mention to an entity (target). Approaches that make use of the Wikipedia link structure perform best, as long as there is sufficient training data available. For identifying links to sense inventories other than Wikipedia, approaches that do not make use of the link structure outperform the approaches using existing links. We further analyze the effect of senses on computing similarities. In contrast to entity linking, where most entities can be discriminated by their name, we consider cases where multiple entities with the same name exist. We discover that similarity de- pends on the selected sense inventory. To foster future evaluation of natural language processing components for text structuring, we present two prototypes of text structuring systems, which integrate techniques for automatic text structuring in a wiki setting and in an e-learning setting with eBooks.

Alternative Abstract:

Alternative Abstract

Language

Ein strukturierter Text hilft Lesern den Inhalt eines Dokuments besser zu verstehen. Bei herkömmlichen Textmedien wie Zeitungsartikeln oder Büchern ist bereits eine Struktur vorgegeben. Im Web 2.0 hat sich die Menge an Texten, insbesondere der von Nutzern erstellten, dramatisch erhöht. Ein großer Teil dieser Texte ist daher unstrukturiert und ihr Verständnis dadurch erschwert. In dieser Arbeit werden wir Techniken zur Textstrukturierung untersuchen, um Lesern bei der Erfüllung ihres Informationsbedürfnisses zu helfen. Nützliche Techniken für die automatische Textstrukturierung sind die Identifikation von Schlüsselphrasen, die Generierung von Inhaltsübersichten und die Identifikation von Verlinkungen. Wir konnten die Resultate für den aktuellen Forschungsstand im Bereich der Ansätze zur Textstrukturierung bei mehreren der üblichen Datensätze verbessern. Darüber hinaus präsentieren wir neue repräsentative Datensätze für häufige Szenarien, in denen Nutzer nach Informationen suchen. Wir evaluieren die Qualität der Ansätze zur Textstrukturierung in Bezug auf diese Szenarien und stellen fest, dass diese stark von dem jeweils gewählten Datensatz abhängt. Zu Beginn dieser Arbeit, beschäftigen wir uns mit den theoretischen Grundlagen der Textstrukturierung. Wir erläutern unsere Ergebnisse aus einer Nutzerumfrage zu dem Ge- brauch des Internets, woraus wir drei typischen Szenarien von Internetnutzern ableiten. Anschließend beschäftigen wir uns in drei Kapiteln mit den zentralen Inhalten dieser Arbeit. Wir evaluieren Ansätze zur Identifikation von Schlüsselphrasen, sowohl durch Extraktion als auch durch Zuordnung von Schlüsselphrasen für englische und deutsche Datensätze. Wir beobachten, dass nicht überwachte Ansätze zur Identifikation von Schlüsselphrasen stabile Ergebnisse liefern. Bei Datensätzen mit vordefinierten Schlüsselphrasen werden sie jedoch von Ansätzen mit Filterung oder Zuordnung übertroffen. Wir präsentieren eine Erweiterung dieses Ansatzes, bei dem die Komposita getrennt werden. Hierdurch werden die Resultate bei Datensätzen mit kürzeren Texten weiter verbessert. Wir konstruieren hierarchische Inhaltsverzeichnisse für drei englische Datensätze und stellen fest, dass die Resultate für die Identifikation der Hierarchie für ein automatisches System ausreichend sind. Allerdings ist für die Generierung von Titeln eine Nutzerinteraktion notwendig. Weiterhin untersuchen wir Ansätze für die Identifikation von Links. Diese müssen zwei Aufgaben erfüllen, zum einen die Identifikation von Erwähnungen (Anker) des Links und zum anderen Verlinkung der Erwähnung zu einer Entität (Ziel). Ansätze, die auf der Linkstruktur von Wikipedia beruhen, liefern die besten Resultate, sofern genügend Trainingsdaten zur Verfügung stehen. Um Links zu anderen Bedeutungsinventaren zu identifizieren, erweisen sich Ansätze, die nicht auf der Linkstruktur basieren, überlegen gegenüber linkbasierten Ansätzen. Weiter analysieren wir den Effekt von Bedeutungen auf die Berechnung von Ähnlichkeiten. Im Gegensatz zu der Verlinkung von Erwähnungen, wo viele Entitäten anhand ihres Namens unterschieden werden können, betrachten wir Fälle, in denen mehrere Entitäten mit identischem Namen existieren. Wir beobachten, dass die Ähnlichkeit von dem gewählten Bedeutungsinventar abhängt. Um die zukünftige Evaluation von Komponenten der natürlichen Sprachverarbeitung zur Textstrukturierung zu fördern, präsentieren wir zwei Prototypen von Textstrukturierungssystemen. Diese integrieren Techniken zur automatischen Textstrukturierung in einer Wiki-Umgebung bzw. einem E-Learning Szenario mit eBooks.

German

Uncontrolled Keywords:

Text Structuring; Keyphrases; Word Sense Disambiguation; Named Entities

URN:

urn:nbn:de:tuda-tuprints-49595

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Ubiquitous Knowledge Processing

Date Deposited:

14 Sep 2015 09:37

Last Modified: