TU Darmstadt / ULB / TUprints

Approaches to Automatic Text Structuring

Erbs, Nicolai (2015)
Approaches to Automatic Text Structuring.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text (PhD thesis of Nicolai Erbs)
Erbs_AutomaticTextStructuring.pdf - Published Version
Copyright Information: CC BY-NC-ND 3.0 Unported - Creative Commons, Attribution, NonCommercial, NoDerivs.

Download (3MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Approaches to Automatic Text Structuring
Language: English
Referees: Gurevych, Prof. Dr. Iryna ; Agirre, Prof. Dr. Eneko ; Zesch, Prof. Dr. Torsten
Date: 11 September 2015
Place of Publication: Darmstadt
Date of oral examination: 2 February 2015
Abstract:

Structured text helps readers to better understand the content of documents. In classic newspaper texts or books, some structure already exists. In the Web 2.0, the amount of textual data, especially user-generated data, has increased dramatically. As a result, there exists a large amount of textual data which lacks structure, thus making it more difficult to understand. In this thesis, we will explore techniques for automatic text structuring to help readers to fulfill their information needs. Useful techniques for automatic text structuring are keyphrase identification, table-of-contents generation, and link identification. We improve state of the art results for approaches to text structuring on several benchmark datasets. In addition, we present new representative datasets for users’ everyday tasks. We evaluate the quality of text structuring approaches with regard to these scenarios and discover that the quality of approaches highly depends on the dataset on which they are applied. In the first chapter of this thesis, we establish the theoretical foundations regarding text structuring. We describe our findings from a user survey regarding web usage from which we derive three typical scenarios of Internet users. We then proceed to the three main contributions of this thesis. We evaluate approaches to keyphrase identification both by extracting and assigning keyphrases for English and German datasets. We find that unsupervised keyphrase extraction yields stable results, but for datasets with predefined keyphrases, additional filtering of keyphrases and assignment approaches yields even higher results. We present a de- compounding extension, which further improves results for datasets with shorter texts. We construct hierarchical table-of-contents of documents for three English datasets and discover that the results for hierarchy identification are sufficient for an automatic system, but for segment title generation, user interaction based on suggestions is required. We investigate approaches to link identification, including the subtasks of identifying the mention (anchor) of the link and linking the mention to an entity (target). Approaches that make use of the Wikipedia link structure perform best, as long as there is sufficient training data available. For identifying links to sense inventories other than Wikipedia, approaches that do not make use of the link structure outperform the approaches using existing links. We further analyze the effect of senses on computing similarities. In contrast to entity linking, where most entities can be discriminated by their name, we consider cases where multiple entities with the same name exist. We discover that similarity de- pends on the selected sense inventory. To foster future evaluation of natural language processing components for text structuring, we present two prototypes of text structuring systems, which integrate techniques for automatic text structuring in a wiki setting and in an e-learning setting with eBooks.

Alternative Abstract:
Alternative AbstractLanguage

Ein strukturierter Text hilft Lesern den Inhalt eines Dokuments besser zu verstehen. Bei herkömmlichen Textmedien wie Zeitungsartikeln oder Büchern ist bereits eine Struktur vorgegeben. Im Web 2.0 hat sich die Menge an Texten, insbesondere der von Nutzern erstellten, dramatisch erhöht. Ein großer Teil dieser Texte ist daher unstrukturiert und ihr Verständnis dadurch erschwert. In dieser Arbeit werden wir Techniken zur Textstrukturierung untersuchen, um Lesern bei der Erfüllung ihres Informationsbedürfnisses zu helfen. Nützliche Techniken für die automatische Textstrukturierung sind die Identifikation von Schlüsselphrasen, die Generierung von Inhaltsübersichten und die Identifikation von Verlinkungen. Wir konnten die Resultate für den aktuellen Forschungsstand im Bereich der Ansätze zur Textstrukturierung bei mehreren der üblichen Datensätze verbessern. Darüber hinaus präsentieren wir neue repräsentative Datensätze für häufige Szenarien, in denen Nutzer nach Informationen suchen. Wir evaluieren die Qualität der Ansätze zur Textstrukturierung in Bezug auf diese Szenarien und stellen fest, dass diese stark von dem jeweils gewählten Datensatz abhängt. Zu Beginn dieser Arbeit, beschäftigen wir uns mit den theoretischen Grundlagen der Textstrukturierung. Wir erläutern unsere Ergebnisse aus einer Nutzerumfrage zu dem Ge- brauch des Internets, woraus wir drei typischen Szenarien von Internetnutzern ableiten. Anschließend beschäftigen wir uns in drei Kapiteln mit den zentralen Inhalten dieser Arbeit. Wir evaluieren Ansätze zur Identifikation von Schlüsselphrasen, sowohl durch Extraktion als auch durch Zuordnung von Schlüsselphrasen für englische und deutsche Datensätze. Wir beobachten, dass nicht überwachte Ansätze zur Identifikation von Schlüsselphrasen stabile Ergebnisse liefern. Bei Datensätzen mit vordefinierten Schlüsselphrasen werden sie jedoch von Ansätzen mit Filterung oder Zuordnung übertroffen. Wir präsentieren eine Erweiterung dieses Ansatzes, bei dem die Komposita getrennt werden. Hierdurch werden die Resultate bei Datensätzen mit kürzeren Texten weiter verbessert. Wir konstruieren hierarchische Inhaltsverzeichnisse für drei englische Datensätze und stellen fest, dass die Resultate für die Identifikation der Hierarchie für ein automatisches System ausreichend sind. Allerdings ist für die Generierung von Titeln eine Nutzerinteraktion notwendig. Weiterhin untersuchen wir Ansätze für die Identifikation von Links. Diese müssen zwei Aufgaben erfüllen, zum einen die Identifikation von Erwähnungen (Anker) des Links und zum anderen Verlinkung der Erwähnung zu einer Entität (Ziel). Ansätze, die auf der Linkstruktur von Wikipedia beruhen, liefern die besten Resultate, sofern genügend Trainingsdaten zur Verfügung stehen. Um Links zu anderen Bedeutungsinventaren zu identifizieren, erweisen sich Ansätze, die nicht auf der Linkstruktur basieren, überlegen gegenüber linkbasierten Ansätzen. Weiter analysieren wir den Effekt von Bedeutungen auf die Berechnung von Ähnlichkeiten. Im Gegensatz zu der Verlinkung von Erwähnungen, wo viele Entitäten anhand ihres Namens unterschieden werden können, betrachten wir Fälle, in denen mehrere Entitäten mit identischem Namen existieren. Wir beobachten, dass die Ähnlichkeit von dem gewählten Bedeutungsinventar abhängt. Um die zukünftige Evaluation von Komponenten der natürlichen Sprachverarbeitung zur Textstrukturierung zu fördern, präsentieren wir zwei Prototypen von Textstrukturierungssystemen. Diese integrieren Techniken zur automatischen Textstrukturierung in einer Wiki-Umgebung bzw. einem E-Learning Szenario mit eBooks.

German
Uncontrolled Keywords: Text Structuring; Keyphrases; Word Sense Disambiguation; Named Entities
URN: urn:nbn:de:tuda-tuprints-49595
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Ubiquitous Knowledge Processing
Date Deposited: 14 Sep 2015 09:37
Last Modified: 16 Sep 2015 07:48
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/4959
PPN: 386801185
Export:
Actions (login required)
View Item View Item