Improving Natural Language Dataset Annotation Quality and Efficiency

Klie, Jan-Christoph (2024)
Improving Natural Language Dataset Annotation Quality and Efficiency.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00026580
Ph.D. Thesis, Primary publication, Publisher's Version

Text
dissertation_jck_final_20240502.pdf
Copyright Information: CC BY-NC-ND 4.0 International - Creative Commons, Attribution NonCommercial, NoDerivs.
Download (6MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Improving Natural Language Dataset Annotation Quality and Efficiency

Language:

English

Referees:

Gurevych, Prof. Dr. Iryna ; Webber, Prof. Ph.D Bonnie

Date:

7 June 2024

Place of Publication:

Darmstadt

Collation:

xi, 242 Seiten

Date of oral examination:

18 April 2024

DOI:

10.26083/tuprints-00026580

Abstract:

Annotated data is essential in many scientific disciplines, including natural language processing, linguistics, language acquisition research, bioinformatics, healthcare, or the digital humanities. Datasets are used to train and evaluate machine learning models, to deduce new knowledge, and to suggest appropriate revisions to existing theories. Especially in machine learning, large, high-quality datasets play a crucial role in advancing the field and evaluate new approaches. There are two central topics when creating these crucial datasets: annotation efficiency and annotation quality. We improve on both in this thesis.

While annotated data is fundamental and sought after, creating it via manual annotation is expensive, time-consuming, and often requires experts. It is therefore very desirable to reduce costs and improve speed of data annotation, two significant aspects of annotation efficiency. Through this thesis, we hence propose different ways of improving annotation efficiency, including human-in-the-loop label suggestions, interactive annotator training, and community annotation.

To train well-performing models and for their accurate evaluation, the data itself needs to be of the highest quality. Errors in the dataset can lead to degraded downstream task performance, biased or even cause harmful predictions. In addition, when erroneous data is used to evaluate or compare model architectures, algorithms, training regimes, or other scientific contributions, the relative order in performance might change. Thus, dataset errors can cause incorrect conclusions to be drawn. The focus of most machine learning work is on developing new models and methods; data quality is often overlooked. To alleviate quality issues, this thesis presents two contributions to improve annotation quality. First, we analyze best practices of annotation quality management, analyze how it is conducted in practice, and derive recommendations for future dataset creators on how to structure the annotation process and manage quality. Second, we survey the field of automatic annotation error detection, formalize it, re-implement and study the effectiveness of the most commonly used methods. Based on extensive experiments, we provide insights and recommendations concerning which ones should be used in which context.

Alternative Abstract:

Alternative Abstract

Language

Annotierte Daten sind in vielen wissenschaftlichen Disziplinen unverzichtbar, z. B. in der Verarbeitung natürlicher Sprache, Linguistik, der Spracherwerbsforschung, der Bioinformatik, dem Gesundheitswesen oder den digitalen Geisteswissenschaften. Datensätze werden verwendet, um Modelle mittels maschinellem Lernen zu trainieren und zu evaluieren, um neues Wissen zu generieren und um bestehende Theorien zu erweitern. Insbesondere im Bereich des maschinellen Lernens spielen große, qualitativ hochwertige Datensätze eine entscheidende Rolle, um das Feld voranzubringen und neue Ansätze auszuwerten. Bei der Erstellung dieser essentiellen Datensätze sind zwei Themen von zentraler Bedeutung: Annotationseffizienz und -qualität. In dieser Arbeit werden wir beide Aspekte verbessern.

Annotierte Daten sind von grundlegender Bedeutung und sehr nachgefragt, aber die manuelle Erstellung von Annotationen ist teuer, zeitaufwändig und erfordert oft Experten. Es ist daher sehr wünschenswert, die Annotationskosten zu senken und die Annotationsgeschwindigkeit zu verbessern - zwei wichtige Aspekte der Annotationseffizienz.

In dieser Arbeit schlagen wir daher verschiedene Möglichkeiten zur Verbesserung der Annotationseffizienz vor, darunter Human-in-the-Loop Annotationsvorschläge, interaktives Annotatorentraining und Annotation durch freiwillige Helfer.

Um gut funktionierende Modelle zu trainieren und eine akkurate Auswertung zu ermöglichen, müssen die Daten selbst von höchster Qualität sein. Annotationsfehler können zu schlechten Ergebnissen in der eigentlichen Anwendung führen; Modellvorhersagen können sogar schädlich sein. Wenn fehlerhafte Daten zur Bewertung oder zum Vergleich von Modellarchitekturen, Algorithmen, Trainingssystemen oder anderen Aspekten verwendet werden, kann sich außerdem die relative Reihenfolge der Methoden in Bezug auf die Leistung ändern. Somit können Fehler in annotierten Daten zu falschen Schlussfolgerungen führen. Der Schwerpunkt der meisten Arbeiten im Bereich des maschinellen Lernens liegt auf der Entwicklung neuer Modelle und Methoden; Forschung zur Datenqualität wird dabei oft vernachlässigt. In dieser Arbeit werden zwei Beiträge zur Verbesserung der Annotationsqualität vorgestellt, um Qualitätsprobleme zu reduzieren. Erstens analysieren wir bewährte Verfahren des Annotationsqualitätsmanagements, untersuchen, wie es in der Praxis durchgeführt wird, und leiten daraus Empfehlungen für zukünftige Datensatzersteller ab, wie der Annotationsprozess strukturiert und die Qualität gemanagt werden kann. Zweitens geben wir einen Überblick über den Bereich der automatischen Fehlererkennung bei Annotationen, formalisieren die Aufgabe, implementieren die am häufigsten verwendeten Methoden neu und untersuchen deren Wirksamkeit. Auf der Grundlage umfangreicher Experimente geben wir Einblicke und Empfehlungen dazu, welche Methoden in welchem Kontext verwendet werden sollten.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-265805

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Ubiquitous Knowledge Processing

TU-Projects:

DFG|GU798/21-1|Infrastruktur für in
DFG|EC503/1-1|Infrastruktur für in

Date Deposited: