Advanced Corpus Annotation Strategies for NLP. Applications in Automatic Summarization and Text Classiﬁcation

Tauchmann, Christopher (2021)
Advanced Corpus Annotation Strategies for NLP. Applications in Automatic Summarization and Text Classiﬁcation.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00017576
Ph.D. Thesis, Primary publication, Publisher's Version

Preview

Text
PhDThesis_ChristopherTauchmann.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (2MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Advanced Corpus Annotation Strategies for NLP. Applications in Automatic Summarization and Text Classiﬁcation

Language:

English

Referees:

Kersting, Prof. Dr. Kristian ; Mieskes, Prof. Dr. Margot

Date:

2021

Place of Publication:

Darmstadt

Collation:

x, 179 Seiten

Date of oral examination:

5 February 2021

DOI:

10.26083/tuprints-00017576

Abstract:

Natural Language Processing (NLP) methods demand elaborate strategies for the creation of corpora that are fundamental to well-working NLP systems. In this thesis, we present diﬀerent corpus creation strategies and application scenarios for diﬀerent NLP tasks and show how they can beneﬁt a task. One focus lies on automatic summarization and summary evaluation, and the other on corpus creation for text classiﬁcation tasks.

To this end, in the ﬁrst part of the thesis we provide the necessary background on corpus annotation for such an analysis: Chapter 2 details research on corpus annotation theory and annotation practices in diﬀerent disciplines such as Corpus Linguistics, and Computational Linguistics/Natural Language Processing (NLP). It also introduces the crowdsourcing approach to language annotations. Chapter 3 shows how diﬀerent annotator populations annotate datasets with diﬀerent annotation strategies. These strategies combine human and machine input. Chapter 4 details the background and historical overview of the foundations on automatic summarization and summary evaluation. We show that automatic summarization is a challenging NLP task and highlight the limiting focus in research on short English newswire datasets in research which can lead to rather skewed results.

The second part deals with speciﬁc application scenarios in automatic summarization and summary evaluation. Chapter 5 describes the creation of a hierarchical summarization dataset. This dataset addresses two limitations in research: the focus on news datasets is enhanced with heterogeneous documents, and the source documents for the summaries are longer. Our research makes use of both crowdworkers and expert annotators, and shows how the strengths of both populations can be meaningfully combined in a larger corpus. Chapter 6 presents how research can beneﬁt from the extension of an existing heterogeneous summarization corpus from the educational domain with a range of further topics from this domain. Furthermore, we introduce an evaluation of summarization diﬃculty using heterogeneity estimators based on measures from information theory and cosine similarity. Chapter 7 outlines the creation of a summary evaluation corpus with annotations of a content-based evaluation metric, the Pyramid method. We apply an existing automatic method to create the Pyramids on the same corpus and show that they correspond well to manual expert Pyramids.

In the third part, the focus lies on general corpus creation illustrated by two other tasks which are both machine learning (ML)-oriented. Chapter 8 describes a crowdsourcing method to annotate items based on measuring input data complexity with measures from language learning, NLP, and information theory. We create diﬀerent subsets of data that also function to train and ﬁlter crowdworkers. We test the method on an existing three-class sentence classiﬁcation dataset from argument mining and show that our method needs fewer annotators to achieve the same inter-annotator agreement than randomly distributed dataset portions. Chapter 9 presents the creation of a dataset that includes discourse conventions in texts from the social sciences that concern the topic of Artiﬁcial Intelligence (AI). The dataset consists of subsets of data from diﬀerent domains: software development, research paper abstracts, and online discussions. We annotate the dataset with expert active learning, where the ML model ‘‘asks’’ for annotations on certain items. Moreover, we evaluate the conventions that an ML model predicts and explain why these conventions can be detected correctly by the model.

Alternative Abstract:

Alternative Abstract

Language

Methoden der natürlichen Sprachverarbeitung (NLP) benötigen elaborierte Strategien der Korpuserstellung – sie sind fundamental für gut funktionierende NLP-Systeme. In dieser Dissertation stellen wir verschiedene Strategien und Anwendungsszenarien für verschiedene NLP-Aufgaben, im weiteren „tasks’’ genannt, vor und zeigen, wie diese Strategien einem task zuträglich sein können. Der Fokus liegt hierbei auf automatischen Zusammenfassungen und der Korpuserstellung für Textklassiﬁzierung basierend auf maschinellem Lernen (ML).

Im ersten Teil der Arbeit geben wir einen theoretischen Überblick und das benötigte Hintergrundwissen. Kapitel 2 stellt eine Übersicht der bisherigen For-schung zu Korpusannotationen und Annotationspraktiken, besonders im Bereich der Korpuslinguistik und der Computerlinguistik/natürlichen Sprachverarbeitung, vor. Es geht auch auf den Prozess des Crowdsourcing zur Erstellung von Sprachannotationen ein. Kapitel 3 befasst sich mit der Frage, wie verschiedene Annotatoren verschiedene Datensätze mit unterschiedlichen Strategien annotieren. Hier geht es, u.a. um das speziﬁsche Zusammenspiel von Mensch und Maschine. Kapitel 4 beschäftigt sich mit der Herausbildung der Forschung zur Erstellung von automatischen Zusammenfassungen und deren Evaluation. Wir zeigen, dass die Erstellung automatischer Zusammenfassungen keine leichte Aufgabe für NLP ist, insbesondere, da der langjährige Fokus der Forschung limitierend wirkt: die Forschung nutzt meist sehr kurze, englischsprachige Nachrichtentexte, was zu verzerrten Ergebnissen führen kann.

Der zweite Teil befasst sich mit einem ersten Anwendungsszenario: mit automatischen Zusammenfassungen und der Evaluation der Zusammenfassungen. Kapitel 5 beschreibt die Methodik zur Erstellung eines Datensatzes mit hierarchischen Zusammenfassungen. Dieser Datensatz richtet sich an die zwei zuvor genannten Begrenzungen in der Forschung: der Korpus besteht aus heterogeneren Texte und die Quelldokumente sind insgesamt länger. Wir haben diesen Datensatz durch Crowdworker und Experten annotieren lassen und konnten zeigen, wie die jeweiligen Populationen beide sinnvoll an einem größeren Korpus zusammenarbeiten können. Kapitel 6 führt die Arbeit zur Heterogenität fort, indem ein bereits bestehender Korpus um Quelltexte aus der Textdomäne „Bildung“ sinnvoll erweitert werden konnte. Hier nutzen wir weiterhin Maße der Informationstheorie und Kosinusähnlichkeit, um die Heterogenität der Texte zu bestimmen und so auch den Schwierigkeitsgrad der jeweiligen Zusammenfassungen zu berechnen. Kapitel 7 behandelt die korpusbasierte Auswertung von Zusammenfassungen. Hier erstellen wir einen Korpus, den wir mit inhaltsbasierten manuellen Annotationen versehen – der Pyramid-Methode. Wir wenden weiterhin eine automatisierte Methode an, um Pyramiden zu erstellen – mit dem Ergebnis, dass sie erstaunlich gut mit den Pyramiden, die manuell von Experten erstellt wurden korrespondieren.

Im dritten Teil liegt der Fokus auf der Korpuserstellung für an maschinellem Lernen (ML) orientierten tasks. Kapitel 8 nutzt Methoden des Crowdsourcing zur Annotation eines Datensatztes. Zunächst sortieren wir hier die zu annotierenden Segmente nach Komplexität, wofür wir Maße aus den Bereichen Spracherwerb, NLP und Informationstheorie nutzen. Auf Basis dieser Komplexitätsmaße erstellen wir Teil-Datensätze, die wir zusätzlich nutzen, um die Crowdworker zu trainieren und diejenigen herauszuﬁltern, deren Annotationen in einem Teildatensatz niedrige Qualität zeigen. Wir testen diese Methode an einem Datensatz zur Klassiﬁzierung von Sätzen in Argumenten (argument mining). Wir zeigen, dass unsere Methode insgesamt weniger Annotatoren benötigt, um zum gleichen Inter-annotator-agreement zu gelangen. In Kapitel 9 erstellen wir einen Korpus der Diskurskonventionen annotiert. Diese Konventionen stammen aus den Sozialwissenschaften und wir erstellen zur Textklassiﬁkation einen Datensatz, der Texte enthält, die das Thema „Künstliche Intelligenz’’ (KI) thematisieren. Der Datensatz besteht aus Teil-Datensätzen aus verschiedenen Textdomänen: Softwareentwicklung, Abstracts von Forschungsarbeiten und Online-Foren Experten annotieren den Datensatz mithilfe des aktiven Lernens, indem Annotationen für spezielle Datenpunkte vom ML-Modell „erfragt’’ werden. Wir evaluieren die Konventionen, die das ML-Modell vorausgesagt sowohl quantitativ als auch qualitativ hat und erklären, warum diese vom Modell vorausgesagten sinnvoll sind.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-175768

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Artificial Intelligence and Machine Learning

Date Deposited:

22 Oct 2021 07:09

Last Modified: