TU Darmstadt / ULB / TUprints

A Composite Model for Computing Similarity Between Texts

Bär, Daniel (2013)
A Composite Model for Computing Similarity Between Texts.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
Text
Thesis_Screen.pdf
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .

Download (2MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: A Composite Model for Computing Similarity Between Texts
Language: English
Referees: Gurevych, Prof. Dr. Iryna ; Dagan, Prof. Ido ; Zesch, Dr. Torsten
Date: 11 October 2013
Place of Publication: Darmstadt
Date of oral examination: 11 October 2013
Abstract:

Computing text similarity is a foundational technique for a wide range of tasks in natural language processing such as duplicate detection, question answering, or automatic essay grading. Just recently, text similarity received wide-spread attention in the research community by the establishment of the Semantic Textual Similarity (STS) Task at the Semantic Evaluation (SemEval) workshop in 2012---a fact that stresses the importance of text similarity research. The goal of the STS Task is to create automated measures which are able to compute the degree of similarity between two given texts in the same way that humans do. Measures are thereby expected to output continuous text similarity scores, which are then either compared with human judgments or used as a means for solving a particular problem. We start this thesis with the observation that while the concept of similarity is well grounded in psychology, text similarity is much less well-defined in the natural language processing community. No attempt has been made yet to formalize in what way text similarity between two texts can be computed. Still, text similarity is regarded as a fixed, axiomatic notion in the community. To alleviate this shortcoming, we describe existing formal models of similarity and discuss how we can adapt them to texts. We propose to judge text similarity along multiple text dimensions, i.e. characteristics inherent to texts, and provide empirical evidence based on a set of annotation studies that the proposed dimensions are perceived by humans. We continue with a comprehensive survey of state-of-the-art text similarity measures previously proposed in the literature. To the best of our knowledge, no such survey has been done yet. We propose a classification into compositional and non-compositional text similarity measures according to their inherent properties. Compositional measures compute text similarity based on pairwise word similarity scores between all words which are then aggregated to an overall similarity score, while non-compositional measures project the complete texts onto particular models and then compare the texts based on these models. Based on our theoretical insights, we then present the implementation of a text similarity system which composes a multitude of text similarity measures along multiple text dimensions using a machine learning classifier. Depending on the concrete task at hand, we argue that such a system may need to address more than a single text dimension in order to best resemble human judgments. Our efforts culminate in the open source framework DKPro Similarity, which streamlines the development of text similarity measures and experimental setups. We apply our system in two evaluations, for which it consistently outperforms prior work and competing systems: an intrinsic and an extrinsic evaluation. In the intrinsic evaluation, the performance of text similarity measures is evaluated in an isolated setting by comparing the algorithmically produced scores with human judgments. We conducted the intrinsic evaluation in the context of the STS Task as part of the SemEval workshop. In the extrinsic evaluation, the performance of text similarity measures is evaluated with respect to a particular task at hand, where text similarity is a means for solving a particular problem. We conducted the extrinsic evaluation in the text classification task of text reuse detection. The results of both evaluations support our hypothesis that a composition of text similarity measures highly benefits the similarity computation process. Finally, we stress the importance of text similarity measures for real-world applications. We therefore introduce the application scenario Self-Organizing Wikis, where users of wikis, i.e. web-based collaborative content authoring systems, are supported in their everyday tasks by means of natural language processing techniques in general, and text similarity in particular. We elaborate on two use cases where text similarity computation is particularly beneficial: the detection of duplicates, and the semi-automatic insertion of hyperlinks. Moreover, we discuss two further applications where text similarity is a valuable tool: In both question answering and textual entailment recognition, text similarity has been used successfully in experiments and appears to be a promising means for further research in these fields. We conclude this thesis with an analysis of shortcomings of current text similarity research and formulate challenges which should be tackled by future work. In particular, we believe that computing text similarity along multiple text dimensions---which depend on the specific task at hand---will benefit any other task where text similarity is fundamental, as a composition of text similarity measures has shown superior performance in both the intrinsic as well as the extrinsic evaluation.

Alternative Abstract:
Alternative AbstractLanguage

Die Berechnung von Textähnlichkeit ist eine grundlegende Technik für ein breites Anwendungsspektrum in der automatischen Sprachverarbeitung, wie etwa der Duplikatserkennung, der Beantwortung natürlich-sprachlicher Fragen, oder auch der automatisierten Bewertung von Essays. Durch die Einrichtung des Semantic Textual Similarity Wettbewerbs im Rahmen des Semantic Evaluation (SemEval) Workshops im Jahr 2012 kam dem Thema Textähnlichkeit große Aufmerksamkeit in der wissenschaftlichen Gemeinde zugute – ein deutlicher Beleg dafür, dass hier aktuell großer Forschungsbedarf besteht. Ziel dieses Wettbewerbs ist es, maschinelle Maße zu entwickeln, die fähig sind, Ähnlichkeit zwischen zwei gegebenen Texten auf die gleiche Weise zu ermitteln, wie es auch Menschen tun. Von diesen Maßen wird dabei erwartet, Ähnlichkeitswerte auf einer kontinuierlichen Skala zu produzieren, die im Anschluss entweder direkt mit menschlichen Referenzbewertungen verglichen werden, oder als Hilfsmittel zur Lösung eines konkreten Problems dienen. Wir beginnen diese Arbeit mit der Feststellung, dass der Begriff der Ähnlichkeit in der Psychologie zwar wohldefiniert ist, im Gegensatz dazu aber dem Begriff der Textähnlichkeit in unserer wissenschaftlichen Gemeinde nur eine rudimentäre Definition zugrunde liegt. Bisher gab es unseres Wissens keinen konkreten Versuch, zu formalisieren, auf welche Weise Texte denn überhaupt ähnlich sein können. Noch bis heute wird Textähnlichkeit ausschließlich als pauschalisierter Begriff verwendet. Um diesen Missstand zu beheben, beschreiben wir existierende formale Ähnlichkeitsmodelle und diskutieren, wie wir diese für Texte zuschneiden können. Wir schlagen vor, Textähnlichkeit anhand mehrerer Textdimensionen zu bestimmen, d.h. anhand von Merkmalen, die Texten zueigen sind. Im Rahmen mehrerer Annotationsstudien zeigen wir, dass die vorgeschlagenen Dimensionen in der Tat von Menschen zur Ähnlichkeitsbewertung von Texten herangezogen werden. Im Anschluss zeigen wir eine gründliche Analyse des aktuellen Forschungsstandes zu Textähnlichkeitsmaßen auf, die unseres Wissens die bisher erste umfassende Analyse in diesem Bereich darstellt. Wir schlagen vor, die bestehenden Maße in zwei Merkmalsklassen einzuteilen: Aggregierende Maße berechnen zunächst paarweise Wortähnlichkeiten zwischen allen Wörtern der gegebenen Texte und aggregieren diese im Anschluss, um einen finalen Textähnlichkeitswert zu erhalten. Nicht-aggregierende Maße hingegen bilden die gegebenen Texte auf bestimmte Modelle ab und vergleichen im Anschluss die Texte ausschließlich anhand dieser Modelle. Vor dem Hintergrund unserer theoretischen Analysen, die wir zu Beginn dieser Arbeit aufzeigten, entwerfen wir nun die Implementierung eines Textähnlichkeitssystems, welches eine Vielzahl von Textähnlichkeitsmaßen anhand verschiedener Textdimensionen im Rahmen eines maschinellen Lernverfahrens vereint. Wir argumentieren, dass ein solches System – abhängig von der konkreten Aufgabe – mehr als eine Textdimension in Betracht ziehen sollte, um menschliche Ähnlichkeitsbewertungen bestmöglich nachzubilden. Unsere Arbeiten münden schließlich in der quelloffenen Softwarebibliothek DKPro Similarity, welche die Entwicklung von Textähnlichkeitsmaßen anhand standardisierter Schnittstellen erlaubt, sowie dazu anregen soll, in einfacher Weise Experimentaufbauten im Hinblick auf die Reproduzierbarkeit der Ergebnisse der wissenschaftlichen Gemeinde zur Verfügung zu stellen. Wir evaluieren unser System anschließend sowohl intrinsisch als auch extrinsisch, wobei es in beiden Fällen durchgängig besser abschneidet als alle früheren Arbeiten und konkurrierenden Systeme. In der intrinsischen Evaluation messen wir die Güte der Textähnlichkeitsmaße in einem isolierten Versuchsaufbau und vergleichen die maschinell erzeugten Ähnlichkeitswerte mit denen menschlicher Studienteilnehmer. Wir führten diese Evaluation im Rahmen des SemEval Workshops im Semantic Textual Similarity Wettbewerb durch. Im Gegensatz dazu messen wir in der extrinsischen Evaluation die Güte der Textähnlichkeitsmaße nicht direkt, sondern im Rahmen einer konkreten Problemstellung. Wir führten die extrinsische Evaluation für eine Textklassifizierungsaufgabe durch, in welcher der Grad von Textwiederverwendung zwischen zwei Texten ermittelt wird. Die Ergebnisse beider Evaluationen stützen unsere Annahme, dass ein System zur Berechnung von Textähnlichkeit deutlich davon profitiert, eine Kombination mehrerer Maße zu verwenden. Im finalen Teil der Arbeit betonen wir die besondere Bedeutung von Textähnlichkeit für reale Problemstellungen. Wir gehen dazu zunächst auf das Anwendungsszenario der Selbstorganisierenden Wikis ein. In diesem Szenario werden Benutzer von Wikis, d.h. kollaborativen Werkzeugen für das Internet-basierte Wissensmanagement, bei ihren täglichen Aufgaben durch Methoden der automatischen Sprachverarbeitung unterstützt, insbesondere auch durch Zuhilfenahme von Textähnlichkeitsmaßen. Wir diskutieren zwei Einsatzfelder im Besonderen: Die Erkennung von Duplikaten sowie das halbautomatisierte Einfügen von Querbezügen. Darüber hinaus gehen wir auf zwei weitere Anwendungen ein, in denen Textähnlichkeitsmaße bereits sehr vielversprechend eingesetzt wurden: Die Beantwortung natürlich-sprachlicher Fragen und das Erkennen von logischen Schlussfolgerungen. Wir schließen diese Arbeit mit einer Analyse aktuell offener Forschungsfragen ab und formulieren dabei Herausforderungen, denen in zukünftigen Arbeiten begegnet werden sollte. Gestützt auf die positiven Ergebnisse unserer beiden Evaluationen sind wir der festen Überzeugung, dass der vorgeschlagene Weg, Textähnlichkeit anhand verschiedener Textdimensionen zu berechnen, die jeweils abhängig von der konkreten Aufgabe sind, auch andere verwandte Problemstellungen in der automatischen Sprachverarbeitung nachhaltig positiv beeinflussen wird.

German
Uncontrolled Keywords: text similarity, text relatedness
URN: urn:nbn:de:tuda-tuprints-36415
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Ubiquitous Knowledge Processing
Date Deposited: 18 Oct 2013 12:57
Last Modified: 09 Jul 2020 00:32
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/3641
PPN: 332752739
Export:
Actions (login required)
View Item View Item