TU Darmstadt

ULB

TUprints

The Quality of Content in Open Online Collaboration Platforms: Approaches to NLP-supported Information Quality Management in Wikipedia

Ferschke, Oliver (2014)
The Quality of Content in Open Online Collaboration Platforms: Approaches to NLP-supported Information Quality Management in Wikipedia.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

Text
Thesis_OF_published_print.pdf - Published Version
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .
Download (3MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

The Quality of Content in Open Online Collaboration Platforms: Approaches to NLP-supported Information Quality Management in Wikipedia

Language:

English

Referees:

Gurevych, Prof. Dr. Iryna ; Schütze, Prof. Dr. Hinrich ; Rosé, Prof. Dr. Carolyn

Date:

15 July 2014

Place of Publication:

Darmstadt

Date of oral examination:

15 July 2014

Abstract:

Over the past decade, the paradigm of the World Wide Web has shifted from static web pages towards participatory and collaborative content production. The main properties of this user generated content are a low publication threshold and little or no editorial control. While this has improved the variety and timeliness of the available information, it causes an even higher variance in quality than the already heterogeneous quality of traditional web content. Wikipedia is the prime example for a successful, large-scale, collaboratively created resource that reflects the spirit of the open collaborative content creation paradigm. Even though recent studies have confirmed that the overall quality of Wikipedia is high, there is still a wide gap that must be bridged before Wikipedia reaches the state of a reliable, citable source.

A key prerequisite to reaching this goal is a quality management strategy that can cope both with the massive scale of Wikipedia and its open and almost anarchic nature. This includes an efficient communication platform for work coordination among the collaborators as well as techniques for monitoring quality problems across the encyclopedia. This dissertation shows how natural language processing approaches can be used to assist information quality management on a massive scale.

In the first part of this thesis, we establish the theoretical foundations for our work. We first introduce the relatively new concept of open online collaboration with a particular focus on collaborative writing and proceed with a detailed discussion of Wikipedia and its role as an encyclopedia, a community, an online collaboration platform, and a knowledge resource for language technology applications. We then proceed with the three main contributions of this thesis.

Even though there have been previous attempts to adapt existing information quality frameworks to Wikipedia, no quality model has yet incorporated writing quality as a central factor. Since Wikipedia is not only a repository of mere facts but rather consists of full text articles, the writing quality of these articles has to be taken into consideration when judging article quality. As the first main contribution of this thesis, we therefore define a comprehensive article quality model that aims to consolidate both the quality of writing and the quality criteria defined in multiple Wikipedia guidelines and policies into a single model. The model comprises 23 dimensions segmented into the four layers of intrinsic quality, contextual quality, writing quality and organizational quality.

As a second main contribution, we present an approach for automatically identifying quality flaws in Wikipedia articles. Even though the general idea of quality detection has been introduced in previous work, we dissect the approach to find that the task is inherently prone to a topic bias which results in unrealistically high cross-validated evaluation results that do not reflect the classifier’s real performance on real world data.

We solve this problem with a novel data sampling approach based on the full article revision history that is able to avoid this bias. It furthermore allows us not only to identify flawed articles but also to find reliable counterexamples that do not exhibit the respective quality flaws. For automatically detecting quality flaws in unseen articles, we present FlawFinder, a modular system for supervised text classification. We evaluate the system on a novel corpus of Wikipedia articles with neutrality and style flaws. The results confirm the initial hypothesis that the reliable classifiers tend to exhibit a lower cross-validated performance than the biased ones but the scores more closely resemble their actual performance in the wild.

As a third main contribution, we present an approach for automatically segmenting and tagging the user contributions on article Talk pages to improve the work coordination among Wikipedians. These unstructured discussion pages are not easy to navigate and information is likely to get lost over time in the discussion archives. By automatically identifying the quality problems that have been discussed in the past and the solutions that have been proposed, we can help users to make informed decisions in the future.

Our contribution in this area is threefold: (i) We describe a novel algorithm for segmenting the unstructured dialog on Wikipedia Talk pages using their revision history. In contrast to related work, which mainly relies on the rudimentary markup, this new algorithm can reliably extract meta data, such as the identity of a user, and is moreover able to handle discontinuous turns. (ii) We introduce a novel scheme for annotating the turns in article discussions with dialog act labels for capturing the coordination efforts of article improvement. The labels reflect the types of criticism discussed in a turn, for example missing information or inappropriate language, as well as any actions proposed for solving the quality problems. (iii) Based on this scheme, we created two automatically segmented and manually annotated discussion corpora extracted from the Simple English Wikipedia (SEWD) and the English Wikipedia (EWD). We evaluate how well text classification approaches can learn to assign the dialog act labels from our scheme to unseen discussion pages and achieve a cross-validated performance of F1 = 0.82 on the SEWD corpus while we obtain an average performance of F1 = 0.78 on the larger and more complex EWD corpus.

Alternative Abstract:

Alternative Abstract

Language

In den vergangenen zehn Jahren hat sich der Fokus des World Wide Web von primär statischen Webseiten hin zu kollaborativ erstellten Inhalten verlagert. Die wichtigsten Eigenschaften dieses neuen Paradigmas sind eine niedrige Veröffentlichungsschwelle und wenig oder gänzlich fehlende redaktionelle Kontrolle. Wenngleich dadurch die Vielfalt und Aktualität der verfügbaren Informationen verbessert wurde, fördert es zugleich auch die Heterogenität der Webinhalte hinsichtlich ihrer Qualität. Wikipedia ist das Paradebeispiel für eine große, erfolgreiche, kollaborativ erstellte Ressource, die den Geist freier Kollaboration widerspiegelt. Auch wenn jüngste Studien bestätigt haben, dass die Qualität von Wikipedia insgesamt hoch ist, ist es immer noch ein weiter Weg Wikipedia zu einer zuverlässigen und zitierbaren Quelle zu machen.

Eine wichtige Voraussetzung zur Erreichung dieses Ziels ist eine Qualitätsmanagementstrategie, die sowohl mit der Größe von Wikipedia und ihrer offenen, nahezu anarchischen Organisationsstruktur umgehen kann. Dies schließt eine effiziente Kommunikationsplattform für die Arbeitskoordination zwischen den Nutzern, sowie Techniken zur Überwachung von Qualitätsproblemen in der Enzyklopädie mit ein. Diese Dissertation zeigt auf, wie sprachtechnologische Methoden die bestehenden Ansätze zum Informationsqualitätsmanagement in Wikipedia effektiv unterstützen können.

Im ersten Teil der Dissertation führen wir die theoretischen Grundlagen für unsere Arbeit ein. Wir erörtern zunächst das relativ neue Konzept der freien Online-Kollaboration unter besonderer Berücksichtigung kollaborativen Schreibens. Vervollständigt wird diese Einführung durch eine ausführliche Diskussion der Wikipedia. Auf Basis dieser Grundlagen folgen die drei Hauptbeiträge der vorliegenden Arbeit.

Wenngleich es bereits Versuche gab, bestehende Frameworks zur Erfassung von Informationsqualität an die Bedürfnisse der Wikipedia anzupassen, hat bisher kein Modell die Text- und Schreibqualität als zentralen Faktor berücksichtigt. Da Wikipedia jedoch nicht nur eine Ansammlung von Fakten ist, sondern aus Volltextartikeln besteht, ist der Text und Schreibqualität dieser Artikel eine zentrale Rolle bei den Qualitätsbetrachtungen zuzuschreiben.

Als ersten zentralen Beitrag dieser Dissertation definieren wir daher ein umfassendes Artikelqualitätsmodell, welches sowohl die Text- und Schreibqualität als auch die spezifischen Qualitätskriterien der Wikipedia in einem einzigen Modell zusammenführt. Es umfasst insgesamt 23 Qualitätsdimensionen in den Kategorien intrinsische Qualität , kontextbezogene Qualität , Text- und Schreibqualität und strukturelle Qualität.

Im zweiten zentralen Beitrag dieser Arbeit, stellen wir einen Ansatz zur automatischen Erkennung von Qualitätsmängeln in Wikipedia-Artikeln vor. Auch wenn die Idee hierzu bereits in früheren Arbeiten beschrieben wurde, haben wir in unseren Experimenten herausgefunden, dass dieser Ansatz von Natur aus anfällig für ein Themenbias ist, welches zu unrealistisch hohen Werten in der Kreuzvalidierung der Klassifikationsmodelle führt. Die tatsächliche Leistung auf realen Daten liegt weit unter den Ergebnissen, die in früheren Arbeiten berichtet wurden. Wir lösen dieses Problem mit einem neuen Samplingverfahren basierend auf der Artikelrevisionsgeschichte. Dieser Ansatz vermag es nicht nur fehlerhafte Artikel zu identifizieren, sondern auch zuverlässige Gegenbeispiele zu finden, die nicht die entsprechenden Qualitätsmängel aufweisen. Zur automatischen Erkennung von Qualitätsmängeln haben wir FlawFinder entwickelt, ein modulares System für überwachte Textklassifikation. Wir evaluieren das System auf einem Korpus aus Wikipedia-Artikeln mit Qualitätsmängeln in den Bereichen Neutralität und Stilistik. Die gewonnenen Ergebnisse bestätigen unsere Ausgangshypothese, dass auf ausgeglichenen Daten trainierte Klassifikatoren zwar zu einer geringeren kreuzvalidierten Leistung neigen, jedoch die tatsächliche Leistung in realen Anwendungsszenarien realistischer widerspiegeln.

Als dritten zentralen Beitrag dieser Arbeit, stellen wir einen Ansatz für die automatische Segmentierung und Klassifikation von Nutzerbeiträgen in Artikeldiskussionsseiten vor. Es hat sich gezeigt, dass Nutzer der Wikipedia Probleme haben, sich auf diesen unstrukturierten Diskussionsseiten zurechtzufinden und archivierte Informationen mit der Zeit nur noch schwer auffindbar sind. Indem wir automatisch die Qualitätsprobleme und Lösungsvorschläge identifizieren, die in vergangenen Diskussionen erörtert wurden, können wir den Nutzern helfen, fundierte Entscheidungen in der Zukunft zu treffen. Der Beitrag unterteilt sich in folgende drei Teile: (i) Wir beschreiben einen neuen Algorithmus zur Segmentierung des unstrukturierten Dialogs auf Wikipedia-Diskussionsseiten mit Hilfe ihrer Revisionsgeschichte. (ii) Wir stellen ein neuartiges Annotationsschema für Beiträge in Artikeldiskussionen vor. Die darin definierten Dialogakte spiegeln wider, welche Kritik an einem Artikel geäußert wurde, wie zum Beispiel fehlende Informationen oder unangemessene Sprache, und welche Lösungen vorgeschlagen wurden. (iii) Basierend auf diesem Schema haben wir zwei automatisch segmentierte und manuell annotierte Korpora aus Artikeln der Simple English Wikipedia (SEWD) und der englischen Wikipedia (EWD) erstellt. Wir nutzen diese Korpora um Klassifikationsmodelle zu trainieren um die Dialogakte in unbekannten Diskussionsseiten identifizieren zu können. In unserer Evaluation erreichen wir auf dem SEWD Korpus eine Leistung von F1 = 0.82, während wir auf dem komplexeren EWD Korpus durchschnittlich F1 = 0.78 erreichen konnten.

German

Uncontrolled Keywords:

Natural Language Processing, Wikipedia, Information Quality Management, Collaboration, Collaborative Writing, Topic Bias, Text Classification, Machine Learning, Text Quality, Readability

Alternative keywords:

Alternative keywords	Language
Sprachtechnologie, Wikipedia, Informationsqualitätsmanagement, Kollaboartion, Kollaboratives Schreiben, Themenbias, Textklassifikation, Maschinelles Lernen, Textqualität, Lesbarkeit	German

URN:

urn:nbn:de:tuda-tuprints-40929

Classification DDC:

000 Generalities, computers, information > 004 Computer science
000 Generalities, computers, information > 020 Library and information sciences
400 Language > 400 Language, linguistics

Divisions:

20 Department of Computer Science > Ubiquitous Knowledge Processing

Date Deposited:

25 Aug 2014 13:51

Last Modified:

09 Jul 2020 00:45

URI:

https://tuprints.ulb.tu-darmstadt.de/id/eprint/4092