TU Darmstadt

ULB

TUprints

Crowdsource Annotation and Automatic Reconstruction of Online Discussion Threads

Jamison, Emily K. (2016)
Crowdsource Annotation and Automatic Reconstruction of Online Discussion Threads.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

Text
thesis-EJ-print-version-2016.04.21.pdf
Copyright Information: CC BY-NC-ND 3.0 Unported - Creative Commons, Attribution, NonCommercial, NoDerivs.
Download (2MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Crowdsource Annotation and Automatic Reconstruction of Online Discussion Threads

Language:

English

Referees:

Gurevych, Prof. Dr. Iryna ; Fürnkranz, Prof. Dr. Johannes ; Daelemans, Prof. Walter

Date:

2016

Place of Publication:

Darmstadt, Germany

Date of oral examination:

17 February 2016

Abstract:

Modern communication relies on electronic messages organized in the form of discussion threads. Emails, IMs, SMS, website comments, and forums are all composed of threads, which consist of individual user messages connected by metadata and discourse coherence to messages from other users. Threads are used to display user messages effectively in a GUI such as an email client, providing a background context for understanding a single message. Many messages are meaningless without the context provided by their thread. However, a number of factors may result in missing thread structure, ranging from user mistake (replying to the wrong message), to missing metadata (some email clients do not produce/save headers that fully encapsulate thread structure; and, conversion of archived threads from over repository to another may also result in lost metadata), to covert use (users may avoid metadata to render discussions difficult for third parties to understand). In the field of security, law enforcement agencies may obtain vast collections of discussion turns that require automatic thread reconstruction to understand. For example, the Enron Email Corpus, obtained by the Federal Energy Regulatory Commission during its investigation of the Enron Corporation, has no inherent thread structure.

In this thesis, we will use natural language processing approaches to reconstruct threads from message content. Reconstruction based on message content sidesteps the problem of missing metadata, permitting post hoc reorganization and discussion understanding. We will investigate corpora of email threads and Wikipedia discussions. However, there is a scarcity of annotated corpora for this task. For example, the Enron Emails Corpus contains no inherent thread structure. Therefore, we also investigate issues faced when creating crowdsourced datasets and learning statistical models of them. Several of our findings are applicable for other natural language machine classification tasks, beyond thread reconstruction.

We will divide our investigation of discussion thread reconstruction into two parts.

First, we explore techniques needed to create a corpus for our thread reconstruction research. Like other NLP pairwise classification tasks such as Wikipedia discussion turn/edit alignment and sentence pair text similarity rating, email thread disentanglement is a heavily class-imbalanced problem, and although the advent of crowdsourcing has reduced annotation costs, the common practice of crowdsourcing redundancy is too expensive for class-imbalanced tasks. As the first contribution of this thesis, we evaluate alternative strategies for reducing crowdsourcing annotation redundancy for class-imbalanced NLP tasks. We also examine techniques to learn the best machine classifier from our crowdsourced labels. In order to reduce noise in training data, most natural language crowdsourcing annotation tasks gather redundant labels and aggregate them into an integrated label, which is provided to the classifier. However, aggregation discards potentially useful information from linguistically ambiguous instances. For the second contribution of this thesis, we show that, for four of five natural language tasks, filtering of the training dataset based on crowdsource annotation item agreement improves task performance, while soft labeling based on crowdsource annotations does not improve task performance.

Second, we investigate thread reconstruction as divided into the tasks of thread disentanglement and adjacency recognition. We present the Enron Threads Corpus, a newly-extracted corpus of 70,178 multi-email threads with emails from the Enron Email Corpus. In the original Enron Emails Corpus, emails are not sorted by thread. To disentangle these threads, and as the third contribution of this thesis, we perform pairwise classification, using text similarity measures on non-quoted texts in emails. We show that i) content text similarity metrics outperform style and structure text similarity metrics in both a class-balanced and class-imbalanced setting, and ii) although feature performance is dependent on the semantic similarity of the corpus, content features are still effective even when controlling for semantic similarity. To reconstruct threads, it is also necessary to identify adjacency relations among pairs. For the forum of Wikipedia discussions, metadata is not available, and dialogue act typologies, helpful for other domains, are inapplicable. As our fourth contribution, via our experiments, we show that adjacency pair recognition can be performed using lexical pair features, without a dialogue act typology or metadata, and that this is robust to controlling for topic bias of the discussions. Yet, lexical pair features do not effectively model the lexical semantic relations between adjacency pairs. To model lexical semantic relations, and as our fifth contribution, we perform adjacency recognition using extracted keyphrases enhanced with semantically related terms. While this technique outperforms a most frequent class baseline, it fails to outperform lexical pair features or tf-idf weighted cosine similarity. Our investigation shows that this is the result of poor word sense disambiguation and poor keyphrase extraction causing spurious false positive semantic connections.

In concluding this thesis, we also reflect on open issues and unanswered questions remaining after our research contributions, discuss applications for thread reconstruction, and suggest some directions for future work.

Alternative Abstract:

Alternative Abstract

Language

Moderne Kommunikation beruht auf elektronischen Nachrichten, die in Form von Threads organisiert sind. E-Mails, Sofortnachrichten, SMS, Kommentare auf Webseiten und in Foren sind aus solchen Threads aufgebaut - diese wiederum bestehen aus einzelnen Benutzernachrichten, die mithilfe von Metadaten verbunden sind und zwischen denen Diskurskohärenz besteht. Threads werden benutzt, um Benutzernachrichten effektiv in einer GUI, wie etwa einem E-Mail-Programm, zu visualisieren. Sie stellen also einen Hintergrundkontext bereit, ohne den einzelne Nachrichten oft nicht verstanden werden können. Allerdings kann es durch eine Reihe von Faktoren dazu kommen, dass eine solche Thread-Struktur verloren geht: Angefangen von Benutzerfehlern (z.B. dem Antworten auf eine falsche Nachricht), über fehlende Metadaten (manche E-Mail-Programme erzeugen E-Mail-Header, die nicht die volle Thread-Struktur enthalten; auch Konvertierungen von alten Threads können in fehlenden Metadaten resultieren) bis hin zu absichtlich verschleierter Struktur (etwa durch Benutzer, die es Dritten erschweren wollen, eine Diskussion nachzuvollziehen, und dazu Metadaten vermeiden oder entfernen). Im Bereich Sicherheit benötigen Strafverfolgungsbehörden daher eine automatische Thread-Rekonstruktion, um große Mengen an gesammelten elektronischen Nachrichten aus Diskussionen verstehen zu können. Beispielsweise besitzt das Enron Email Corpus, das von der Federal Energy Regulatory Commission der USA während der Ermittlungen beim Energiekonzern Enron zusammengetragen wurde, keine inhärente Thread-Struktur.

In dieser Arbeit verwenden wir Ansätze aus der maschinellen Sprachverarbeitung (Natural Language Processing, NLP), um Threads aus Nachrichteninhalten zu rekonstruieren. Eine solche Rekonstruktion basierend auf den Inhalten umgeht das Problem fehlender Metadaten und erlaubt eine nachträgliche Restrukturierung und damit auch ein Verstehen der gesamten Diskussion. Wir untersuchen Korpora bestehend aus E-Mail-Threads und Wikipedia-Dis\-kussionen. Allerdings herrscht eine Knappheit an geeigneten, annotierten Korpora. Zum Beispiel enthält das Enron Emails Corpus keine Angaben zur Thread-Struktur. Aus diesem Grund erforschen wir außerdem Probleme, die beim Erstellen von crowdgesourcten Datensätzen und beim Trainieren maschineller Lernverfahren auf solchen Datensätzen auftreten. Viele unserer Ergebnisse sind daher über die Thread-Rekonstruktion hinaus auch auf andere automatische Klassifizierungsaufgaben für natürliche Sprache anwendbar.

Wir gliedern unsere Erforschung der Rekonstruktion von Diskussions-Threads in zwei Teile auf.

Zuerst untersuchen wir Methoden für die Erstellung eines Korpus, das der Forschung an Thread-Rekonstruktion dienen soll. Wie andere Problemstellungen im Bereich paarweiser Klassifikation in NLP, etwa die Textähnlichkeitsbewertung für Satzpaare oder das Alignment von Sprecherwechseln in Wikipedia-Diskussionen zu Artikeländerungen, ist auch die Wiederherstellung von E-Mail-Threads ein stark klassen-unbalanciertes Problem. Trotz des Aufkommens von Crowdsourcing, das Annotationskosten deutlich reduziert hat, ist die bisher übliche Praxis der Crowdsourcing-Redundanz zu teuer für Aufgaben mit Klassen-Ungleichgewicht. Als ersten Beitrag dieser Arbeit evaluieren wir alternative Strategien, um Crowdsourcing-Redundanz für Annotationen in klassen-unbalancierten NLP Aufgaben zu reduzieren. Wir untersuchen außerdem Methoden, den bestmöglichen maschinellen Klassifikator auf unseren crowdgesourcten Labeln zu trainieren. Um Rauschen in Trainingsdaten zu reduzieren, sammeln die meisten Crowdsourcing-Annotationsexperimente in NLP mehrere redundante Label und aggregieren sie zu einem ganzheitlichen Label, das dann an den Klassifikator weitergegeben wird. Allerdings verwirft solch eine Aggregation potenziell nützliche Informationen von linguistisch ambigen Instanzen. Für den zweiten Beitrag dieser Arbeit zeigen wir für vier von fünf NLP-Problemstellungen, dass das Filtern von Trainingsdaten basierend auf Inter-Annotator-Agreement von Instanzen die Effektivität des Klassifikators steigern kann, im Gegensatz zu Soft-Labeling, das keine Ergebnisverbesserungen liefert.

Zweitens untersuchen wir Thread-Rekonstruktion, aufgeteilt in die Entflechtung von Threads und die Erkennung von Adjazenz. Wir stellen das Enron Threads Corpus vor, ein neu extrahiertes Korpus von 70.178 Threads, bestehend aus jeweils mehreren E-Mails des Enron Email Corpus. Die E-Mails im ursprünglichen Enron Emails Corpus sind nicht nach Threads sortiert. Um Threads zu finden und zu entflechten, wenden wir als dritten Beitrag dieser Arbeit paarweise Klassifikation an. Dazu benutzen wir Textähnlichkeitsmaße auf nicht-zitiertem Text in E-Mails. Wir zeigen zweierlei: i) Textähnlichkeitsmaße, die auf dem Textinhalt operieren, übertreffen stil- und strukturorientierte Maße sowohl in klassen-balancierten als auch in klassen-unbalancierten Experimenten. Und ii) obwohl die Effektivität der Features von der semantischen Ähnlichkeit des Korpus abhängt, sind inhaltliche Features auch dann effektiv, wenn die semantische Ähnlichkeit kontrolliert wird. Um Threads zu rekonstruieren ist es zusätzlich notwendig, Adjazenzbeziehungen zwischen Paaren zu identifizieren. Für die Wikipedia-Diskussionen sind keine Metadaten verfügbar; außerdem sind Dialogakt-Typologien, die für andere Domänen hilfreich sein können, hier nicht nutzbar. Als vierten Beitrag zeigen wir anhand unserer Experimente, dass die Erkennung von Adjazenzpaaren unter Benutzung von ,,Lexical-Pair-Features`` durchgeführt werden kann. Dieser Ansatz ist robust auch bei Berücksichtigung von Topic Bias der Diskussionen und benötigt weder Dialogakt-Typologie noch Metadaten. Allerdings bilden Lexical-Pair-Features nicht tatsächlich die lexikalisch-se\-man\-ti\-schen Relationen zwischen Adjazenzpaaren ab. Um also lexikalisch-semantische Beziehungen zu modellieren, führen wir als unseren fünften Beitrag Adjazenz-Erkennung mittels extra\-hier\-ter Keyphrases durch, die mit semantisch ähnlichen Termen angereichert werden. Diese Methode liefert bessere Ergebnisse als eine ,,Most-Frequent-Class-Baseline``, zeigt aber keine Ver\-bes\-se\-rung gegenüber Lexical-Pair-Features oder mittels Tf-idf gewichteter Kosinus-Ähnlichkeit. Unsere Untersuchung zeigt, dass dies das Resultat fehlerhafter Word-Sense-Disambiguation und Keyphrase-Extraction ist, was falsche semantische Verbindungen hervorbringt.

Publikationen, die unsere Beiträge behandeln, sind in Section 1.3 aufgelistet. Figure 1.1 zeigt einen Überblick über die Themen der Beiträge und wie sie miteinander in Beziehung stehen.

Abschließend besprechen wir nach den vorliegenden Beiträgen verbleibende ungelöste Probleme und offene Fragen, diskutieren Anwendungen für Thread-Rekonstruktion und zeigen mögliche Wege für weiterführende Arbeiten auf.

(Dieses Abstract wurde aus dem Englischen übersetzt von Erik-Lân Do Dinh.)

German

Uncontrolled Keywords:

Natural Language Processing, Discussion Thread Reconstruction, Thread Disentanglement, Adjacency Recognition, Crowdsourcing, Amazon Mechanical Turk, Class-Imbalanced Corpus, Email Threads, Wikipedia Discussions, Enron Threads Corpus, Soft Labeling, Lexical Expansion, Text Classification, Machine Learning

Alternative keywords:

Alternative keywords	Language
Sprachtechnologie, maschinelle Sprachverarbeitung, Rekonstruktion von Diskussions-Threads, Thread-Entflechtung, Adjadzenz-Erkennung, Crowdsourcing, Amazon Mechanical Turk, klassen-unbalanciertes Korpus, E-Mail-Threads, Wikipedia-Diskussionen, Enron Threads Corpus, Soft-Labeling, lexikalische Erweiterung, Textklassifikation, Maschinelles Lernen	German

URN:

urn:nbn:de:tuda-tuprints-53850

Classification DDC:

000 Generalities, computers, information > 004 Computer science
400 Language > 400 Language, linguistics

Divisions:

20 Department of Computer Science > Ubiquitous Knowledge Processing

Date Deposited:

27 Apr 2016 06:39

Last Modified:

27 Apr 2016 06:39

URI:

https://tuprints.ulb.tu-darmstadt.de/id/eprint/5385