TU Darmstadt / ULB / TUprints

Advanced Corpus Annotation Strategies for NLP. Applications in Automatic Summarization and Text Classification

Tauchmann, Christopher (2021)
Advanced Corpus Annotation Strategies for NLP. Applications in Automatic Summarization and Text Classification.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00017576
Ph.D. Thesis, Primary publication, Publisher's Version

[img]
Preview
Text
PhDThesis_ChristopherTauchmann.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (2MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Advanced Corpus Annotation Strategies for NLP. Applications in Automatic Summarization and Text Classification
Language: English
Referees: Kersting, Prof. Dr. Kristian ; Mieskes, Prof. Dr. Margot
Date: 2021
Place of Publication: Darmstadt
Collation: x, 179 Seiten
Date of oral examination: 5 February 2021
DOI: 10.26083/tuprints-00017576
Abstract:

Natural Language Processing (NLP) methods demand elaborate strategies for the creation of corpora that are fundamental to well-working NLP systems. In this thesis, we present different corpus creation strategies and application scenarios for different NLP tasks and show how they can benefit a task. One focus lies on automatic summarization and summary evaluation, and the other on corpus creation for text classification tasks.

To this end, in the first part of the thesis we provide the necessary background on corpus annotation for such an analysis: Chapter 2 details research on corpus annotation theory and annotation practices in different disciplines such as Corpus Linguistics, and Computational Linguistics/Natural Language Processing (NLP). It also introduces the crowdsourcing approach to language annotations. Chapter 3 shows how different annotator populations annotate datasets with different annotation strategies. These strategies combine human and machine input. Chapter 4 details the background and historical overview of the foundations on automatic summarization and summary evaluation. We show that automatic summarization is a challenging NLP task and highlight the limiting focus in research on short English newswire datasets in research which can lead to rather skewed results.

The second part deals with specific application scenarios in automatic summarization and summary evaluation. Chapter 5 describes the creation of a hierarchical summarization dataset. This dataset addresses two limitations in research: the focus on news datasets is enhanced with heterogeneous documents, and the source documents for the summaries are longer. Our research makes use of both crowdworkers and expert annotators, and shows how the strengths of both populations can be meaningfully combined in a larger corpus. Chapter 6 presents how research can benefit from the extension of an existing heterogeneous summarization corpus from the educational domain with a range of further topics from this domain. Furthermore, we introduce an evaluation of summarization difficulty using heterogeneity estimators based on measures from information theory and cosine similarity. Chapter 7 outlines the creation of a summary evaluation corpus with annotations of a content-based evaluation metric, the Pyramid method. We apply an existing automatic method to create the Pyramids on the same corpus and show that they correspond well to manual expert Pyramids.

In the third part, the focus lies on general corpus creation illustrated by two other tasks which are both machine learning (ML)-oriented. Chapter 8 describes a crowdsourcing method to annotate items based on measuring input data complexity with measures from language learning, NLP, and information theory. We create different subsets of data that also function to train and filter crowdworkers. We test the method on an existing three-class sentence classification dataset from argument mining and show that our method needs fewer annotators to achieve the same inter-annotator agreement than randomly distributed dataset portions. Chapter 9 presents the creation of a dataset that includes discourse conventions in texts from the social sciences that concern the topic of Artificial Intelligence (AI). The dataset consists of subsets of data from different domains: software development, research paper abstracts, and online discussions. We annotate the dataset with expert active learning, where the ML model ‘‘asks’’ for annotations on certain items. Moreover, we evaluate the conventions that an ML model predicts and explain why these conventions can be detected correctly by the model.

Alternative Abstract:
Alternative AbstractLanguage

Methoden der natürlichen Sprachverarbeitung (NLP) benötigen elaborierte Strategien der Korpuserstellung – sie sind fundamental für gut funktionierende NLP-Systeme. In dieser Dissertation stellen wir verschiedene Strategien und Anwendungsszenarien für verschiedene NLP-Aufgaben, im weiteren „tasks’’ genannt, vor und zeigen, wie diese Strategien einem task zuträglich sein können. Der Fokus liegt hierbei auf automatischen Zusammenfassungen und der Korpuserstellung für Textklassifizierung basierend auf maschinellem Lernen (ML).

Im ersten Teil der Arbeit geben wir einen theoretischen Überblick und das benötigte Hintergrundwissen. Kapitel 2 stellt eine Übersicht der bisherigen For-schung zu Korpusannotationen und Annotationspraktiken, besonders im Bereich der Korpuslinguistik und der Computerlinguistik/natürlichen Sprachverarbeitung, vor. Es geht auch auf den Prozess des Crowdsourcing zur Erstellung von Sprachannotationen ein. Kapitel 3 befasst sich mit der Frage, wie verschiedene Annotatoren verschiedene Datensätze mit unterschiedlichen Strategien annotieren. Hier geht es, u.a. um das spezifische Zusammenspiel von Mensch und Maschine. Kapitel 4 beschäftigt sich mit der Herausbildung der Forschung zur Erstellung von automatischen Zusammenfassungen und deren Evaluation. Wir zeigen, dass die Erstellung automatischer Zusammenfassungen keine leichte Aufgabe für NLP ist, insbesondere, da der langjährige Fokus der Forschung limitierend wirkt: die Forschung nutzt meist sehr kurze, englischsprachige Nachrichtentexte, was zu verzerrten Ergebnissen führen kann.

Der zweite Teil befasst sich mit einem ersten Anwendungsszenario: mit automatischen Zusammenfassungen und der Evaluation der Zusammenfassungen. Kapitel 5 beschreibt die Methodik zur Erstellung eines Datensatzes mit hierarchischen Zusammenfassungen. Dieser Datensatz richtet sich an die zwei zuvor genannten Begrenzungen in der Forschung: der Korpus besteht aus heterogeneren Texte und die Quelldokumente sind insgesamt länger. Wir haben diesen Datensatz durch Crowdworker und Experten annotieren lassen und konnten zeigen, wie die jeweiligen Populationen beide sinnvoll an einem größeren Korpus zusammenarbeiten können. Kapitel 6 führt die Arbeit zur Heterogenität fort, indem ein bereits bestehender Korpus um Quelltexte aus der Textdomäne „Bildung“ sinnvoll erweitert werden konnte. Hier nutzen wir weiterhin Maße der Informationstheorie und Kosinusähnlichkeit, um die Heterogenität der Texte zu bestimmen und so auch den Schwierigkeitsgrad der jeweiligen Zusammenfassungen zu berechnen. Kapitel 7 behandelt die korpusbasierte Auswertung von Zusammenfassungen. Hier erstellen wir einen Korpus, den wir mit inhaltsbasierten manuellen Annotationen versehen – der Pyramid-Methode. Wir wenden weiterhin eine automatisierte Methode an, um Pyramiden zu erstellen – mit dem Ergebnis, dass sie erstaunlich gut mit den Pyramiden, die manuell von Experten erstellt wurden korrespondieren.

Im dritten Teil liegt der Fokus auf der Korpuserstellung für an maschinellem Lernen (ML) orientierten tasks. Kapitel 8 nutzt Methoden des Crowdsourcing zur Annotation eines Datensatztes. Zunächst sortieren wir hier die zu annotierenden Segmente nach Komplexität, wofür wir Maße aus den Bereichen Spracherwerb, NLP und Informationstheorie nutzen. Auf Basis dieser Komplexitätsmaße erstellen wir Teil-Datensätze, die wir zusätzlich nutzen, um die Crowdworker zu trainieren und diejenigen herauszufiltern, deren Annotationen in einem Teildatensatz niedrige Qualität zeigen. Wir testen diese Methode an einem Datensatz zur Klassifizierung von Sätzen in Argumenten (argument mining). Wir zeigen, dass unsere Methode insgesamt weniger Annotatoren benötigt, um zum gleichen Inter-annotator-agreement zu gelangen. In Kapitel 9 erstellen wir einen Korpus der Diskurskonventionen annotiert. Diese Konventionen stammen aus den Sozialwissenschaften und wir erstellen zur Textklassifikation einen Datensatz, der Texte enthält, die das Thema „Künstliche Intelligenz’’ (KI) thematisieren. Der Datensatz besteht aus Teil-Datensätzen aus verschiedenen Textdomänen: Softwareentwicklung, Abstracts von Forschungsarbeiten und Online-Foren Experten annotieren den Datensatz mithilfe des aktiven Lernens, indem Annotationen für spezielle Datenpunkte vom ML-Modell „erfragt’’ werden. Wir evaluieren die Konventionen, die das ML-Modell vorausgesagt sowohl quantitativ als auch qualitativ hat und erklären, warum diese vom Modell vorausgesagten sinnvoll sind.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-175768
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Artificial Intelligence and Machine Learning
Date Deposited: 22 Oct 2021 07:09
Last Modified: 22 Oct 2021 07:09
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/17576
PPN: 487412036
Export:
Actions (login required)
View Item View Item