The Writing Process in Online Mass Collaboration: NLP-Supported Approaches to Analyzing Collaborative Revision and User Interaction

Daxenberger, Johannes (2016)
The Writing Process in Online Mass Collaboration: NLP-Supported Approaches to Analyzing Collaborative Revision and User Interaction.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

Text
PhD_Daxenberger_OnlineMassCollaboration_Print.pdf
Copyright Information: CC BY-NC-ND 3.0 Unported - Creative Commons, Attribution, NonCommercial, NoDerivs.
Download (3MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

The Writing Process in Online Mass Collaboration: NLP-Supported Approaches to Analyzing Collaborative Revision and User Interaction

Language:

English

Referees:

Gurevych, Prof. Dr. Iryna ; Weihe, Prof. Dr. Karsten ; Ofer, Prof. Dr. Arazy

Date:

2016

Place of Publication:

Darmstadt

Date of oral examination:

21 July 2015

Abstract:

In the past 15 years, the rapid development of web technologies has created novel ways of collaborative editing. Open online platforms have attracted millions of users from all over the world. The open encyclopedia Wikipedia, started in 2001, has become a very prominent example of a largely successful platform for collaborative editing and knowledge creation. The wiki model has enabled collaboration at a new scale, with more than 30,000 monthly active users on the English Wikipedia. Traditional writing research deals with questions concerning revision and the writing process itself. The analysis of collaborative writing additionally raises questions about the interaction of the involved authors. Interaction takes place when authors write on the same document (indirect interaction), or when they coordinate the collaborative writing process by means of communication (direct interaction). The study of collaborative writing in online mass collaboration poses several interesting challenges. First and foremost, the writing process in open online collaboration is typically characterized by a large number of revisions from many different authors. Therefore, it is important to understand the interplay and the sequences of different revision categories. As the quality of documents produced in a collaborative writing process varies greatly, the relationship between collaborative revision and document quality is an important field of study. Furthermore, the impact of direct user interaction through background discussions on the collaborative writing process is largely unknown. In this thesis, we tackle these challenges in the context of online mass collaboration, using one of the largest collaboratively created resources, Wikipedia, as our data source. We will also discuss to which extent our conclusions are valid beyond Wikipedia. We will be dealing with three aspects of collaborative writing in Wikipedia. First, we carry out a content-oriented analysis of revisions in the Wikipedia revision history. This includes the segmentation of article revisions into human-interpretable edits. We develop a taxonomy of edit categories such as spelling error corrections, vandalism or information adding, and verify our taxonomy in an annotation study on a corpus of edits from the English and German Wikipedia. We use the annotated corpora as training data to create models which enable the automatic classification of edits. To show that our model is able to generalize beyond our own data, we train and test it on a second corpus of English Wikipedia revisions. We analyze the distribution of edit categories and frequent patterns in edit sequences within a larger set of article revisions. We also assess the relationship between edit categories and article quality, finding that the information content in high-quality articles tends to become more stable after their promotion and that high-quality articles show a higher degree of homogeneity with respect to frequent collaboration patterns as compared to random articles. Second, we investigate activity-based roles of users in Wikipedia and how they relate to the collaborative writing process. We automatically classify all revisions in a representative sample of Wikipedia articles and cluster users in this sample into seven intuitive roles. The roles are based on the editing behavior of the users. We find roles such as Vandals, Watchdogs, or All-round Contributors. We also analyze the stability of our discovered roles across time and analyze role transitions. The results show that although the nature of roles remains stable across time, more than half of the users in our sample changed their role between two time periods. Third, we analyze the correspondence between indirect user interaction through collaborative editing and direct user interaction through background discussion. We analyze direct user interaction using the notion of turns, which has been established in previous work. Turns are snippets from Wikipedia discussion pages. We introduce the notion of corresponding edit-turn-pairs. A corresponding edit-turn-pair consists of a turn and an edit from the same Wikipedia article; the turn forms an explicit performative and the edit corresponds to this performative. This happens, for example, when a user complains about a missing reference in the discussion about an article, and another user adds an appropriate reference to the article itself. We identify the distinctive properties of corresponding edit-turn-pairs and use them to create a model for the automatic detection of corresponding and non-corresponding edit-turn-pairs. We show that the percentage of corresponding edit-turn-pairs in a corpus of flawed English Wikipedia articles is typically below 5% and varies considerably across different articles. The thesis is concluded with a summary of our main contributions and findings. The growing number of collaborative platforms in commercial applications and education, e.g. in massive open online learning courses, demonstrates the need to understand the collaborative writing process and to support collaborating authors. We also discuss several open issues with respect to the questions addressed in the main parts of the thesis and point out possible directions for future work. Many of the experiments we carried out in the course of this thesis rely on supervised text classification. In the appendix, we explain the concepts and technologies underlying these experiments. We also introduce the DKPro TC framework, which was substantially extended as part of this thesis.

Alternative Abstract:

Alternative Abstract

Language

Die Weiterentwicklung von Webtechnologien in den vergangenen 15 Jahren hat vollkommen neue Formen gemeinschaftlichen Schreibens im Web hervorgebracht. Open-Access Online-Plattformen haben Millionen Benutzer, die über die gesamte Erde verteilt sind. Die Online-Enzyklopädie Wikipedia, gegründet im Jahr 2001, hat sich zu einer der bekanntesten und erfolgreichsten Plattformen für gemeinschaftliches Schreiben und Wissensgenerierung entwickelt. Das Wiki-Modell macht Zusammenarbeit in einer neuen Dimension möglich, so dass bspw. in der englischen Wikipedia jeden Monat mehr als 30.000 Benutzer aktiv sind. Die traditionelle Schreibforschung setzt sich mit Fragen über Revision und den Schreibprozess auseinander. Die Analyse gemeinschaftlichen Schreibens interessiert sich darüber hinaus für die Interaktion der beteiligten Benutzer. Solche Interaktion findet statt wenn Autoren am selben Dokument schreiben (indirekte Interaktion), oder wenn Autoren den gemeinschaftlichen Schreibprozess mittels mündlicher oder schriftlicher Kommunikation koordinieren (direkte Interaktion). Die Erforschung gemeinschaftlichen Schreibens unter massiver Zusammenarbeit auf Online-Plattformen beinhaltet mehrere interessante Herausforderungen. Der gemeinschaftliche Schreibprozess im Web ist gekennzeichnet durch eine typischerweise sehr hohe Zahl von Änderungen, die von vielen verschiedenen Autoren stammen. Dementsprechend ist es unverzichtbar, den Zusammenhang und die Abfolge unterschiedlicher Revisionstypen zu verstehen. Da die inhaltliche Qualität der Dokumente, die unter Zusammenarbeit erstellt werden, sehr unterschiedlich ist, ist außerdem die Erforschung der Korrelation zwischen gemeinschaftlichen Änderungen und Dokumentqualität ein wichtiges Feld. Desweiteren ist der Einfluss direkter Benutzerinteraktion mittels Diskussionen im Hintergrund auf den gemeinschaftlichen Schreibprozess größtenteils unbekannt. In der vorliegenden Arbeit setzen wir uns mit diesen Herausforderungen im Kontext massiver Zusammenarbeit auf Online-Plattformen auseinander. Dabei verwenden wir Wikipedia, eine der größten gemeinschaftlich erstellen Online-Ressourcen, als Datengrundlage. Wir werden auch diskutieren, inwiefern unsere Erkenntnisse über Wikipedia hinaus Gültigkeit besitzen. Drei Hauptaspekte gemeinschaftlichen Schreibens in Wikipedia stellen das Grundgerüst dieser Arbeit dar. Als erstes führen wir eine inhaltliche Analyse von Revisionstypen in der Wikipedia Versionsgeschichte durch, wozu auch die Segmentierung von Artikelrevisionen in kleinere Edits, die einfacher zu interpretieren sind, zählt. Wir entwickeln eine Taxonomie für Edittypen, die bspw. Rechtschreibkorrekturen, Vandalismus oder Ergänzungen von Information beinhaltet. Die Taxonomie wird getestet in einer Annotationsstudie auf Edits aus der englischen und der deutschen Wikipedia. Wir verwenden die annotierten Korpora als Trainingsdaten zum Erstellen eines Modells für die automatischen Klassifikation von Edits. Um zu zeigen, dass dieses Modell auch in der Lage ist, über unsere eigenen Daten hinaus zu generalisieren, trainieren und testen wir es zusätzlich auf einem zweiten Korpus, das englische Wikipedia Revisionen annotiert. Wir analysieren die Verteilung der Edittypen sowie häufig auftretende Muster in Editsequenzen auf einer größeren Menge von Artikelrevisionen. Außerdem untersuchen wir den Zusammenhang zwischen Edittypen und Artikelqualität. Das Ergebnis zeigt, dass der Informationsgehalt in hoch-qualitativen Wikipedia Artikeln tendentiell stabiler wird sobald die Artikel ausgezeichnet werden. Ebenfalls zeigen hoch-qualitative Artikel im Vergleich zu zufällig gewählten Artikeln eine gesteigerte Homogenität mit Bezug auf häufig auftretende Editsequenzen. Als zweites untersuchen wir auf Benutzeraktivität basierende Rollen und deren Zusammenhang mit dem gemeinschaftlichen Schreibprozess in Wikipedia. Dazu klassifizieren wir sämtliche Revisionen auf einem repräsentativen Teil der englischen Wikipedia und clustern deren Autoren in sieben interpretierbare Rollen, die das Editierverhalten der Autoren widerspiegeln. Wir identifizieren bspw. die Rollen von Vandalen, All-round Contributors oder Watchdogs. Außerdem untersuchen wir die Stabilität der Rollen über Zeiträume hinweg und analysieren Übergänge einzelner Benutzer in andere Rollen. Die Ergebnisse zeigen, dass die Beschaffenheit der Rollen über zwei Zeiträume hinweg stabil ist, allerdings wechseln im Laufe der Zeit mehr als die Hälfte der Benutzer ihre Rolle. Als drittes untersuchen wir den Zusammenhang zwischen direkter Benutzerinteraktion mittels gemeinschaftlichem Editieren und indirekter Benutzerinteraktion mittels Diskussion im Hintergrund. Dabei analysieren wir direkte Interaktion mit Hilfe des Konzepts von Turns, welches aus Vorarbeiten stammt. Turns sind kurze Ausschnitte aus Wikipedia Diskussionsseiten, auf denen basierend wir sogenannte übereinstimmende Edit-Turn-Paare definieren. Ein übereinstimmendes Edit-Turn-Paar beinhaltet einen Turn und einen Edit von derselben Wikipedia Seite, dabei stellt der Turn einen expliziten Performativ dar und der Edit führt diesen Performativ aus. Das passiert bspw. wenn sich ein Benutzer in der Diskussion eines Artikels über eine fehlende Referenz beschwert und ein weiterer Benutzer die entsprechende Referenz zum Artikel selbst hinzufügt. Wir identifizieren distinktive Merkmale übereinstimmender Edit-Turn-Paare und verwenden diese um ein Modell zum automatischen Auffinden von (nicht-)übereinstimmenden Edit-Turn-Paaren zu entwickeln. Dabei zeigen wir, dass der Prozentsatz übereinstimmender Paare in einem Korpus bestehend aus englischen Wikipedia Artikeln mit Qualitätsmängeln typischerweise unter 5% liegt und von Artikel zu Artikel erheblich variiert. Die Arbeit wird abgeschlossen von einer Zusammenfassung unserer wichtigsten Beiträge und Ergebnisse. Die wachsende Zahl von Plattformen für gemeinschaftliches Schreiben in kommerziellen Anwendungen und in der Bildung, bspw. durch Massive Open Online Learning Courses, verdeutlicht den Bedarf eines besseren Verständnisses gemeinschaftlicher Schreibprozesse sowie eines besseren Supports der beteiligten Autoren. Wir diskutieren auch die Punkte, die im Bezug auf die Forschungsfragen im Hauptteil dieser Arbeit noch offen geblieben sind und skizzieren mögliche Ansatzpunkte für zukünftige Forschung. Da ein Großteil der Experimente, die im Rahmen dieser Arbeit ausgeführt wurden, auf Verfahren der überwachten Textklassifikation zurückgreift, erläutern wir deren grundlegende Konzepte und Technologien im Appendix. Der Appendix enthält außerdem eine Einleitung in das DKPro TC Framework, das im Laufe dieser Arbeit substantiell erweitert wurde.

German

Uncontrolled Keywords:

Natural Language Processing, Wikipedia, Wiki, Writing Process, Writing Research, Collaboration, Collaborative Writing, Revision, User Interaction, Edit Classification, Activity-Based Role, Text Classification, Machine Learning

Alternative keywords:

Alternative keywords	Language
Sprachtechnologie, Wikipedia, Wiki, Schreibprozess, Schreibforschung, Kollaboration, Kollaboratives Schreiben, Revision, Benutzerinteraktion, Änderungsklassifikation, Aktivitäts-basierte Rolle, Textklassifikation, Maschinelles Lernen	German

URN:

urn:nbn:de:tuda-tuprints-52259

Classification DDC:

000 Generalities, computers, information > 004 Computer science
000 Generalities, computers, information > 020 Library and information sciences
400 Language > 400 Language, linguistics

Divisions:

20 Department of Computer Science > Ubiquitous Knowledge Processing

Date Deposited:

18 Jan 2016 10:09

Last Modified:

15 Jul 2020 09:18

URI:

https://tuprints.ulb.tu-darmstadt.de/id/eprint/5225