Die Berechnung von Textähnlichkeit ist eine grundlegende Technik für ein breites Anwendungsspektrum in der automatischen Sprachverarbeitung, wie etwa der Duplikatserkennung, der Beantwortung natürlich-sprachlicher Fragen, oder auch der automatisierten Bewertung von Essays. Durch die Einrichtung des Semantic Textual Similarity Wettbewerbs im Rahmen des Semantic Evaluation (SemEval) Workshops im Jahr 2012 kam dem Thema Textähnlichkeit große Aufmerksamkeit in der wissenschaftlichen Gemeinde zugute – ein deutlicher Beleg dafür, dass hier aktuell großer Forschungsbedarf besteht. Ziel dieses Wettbewerbs ist es, maschinelle Maße zu entwickeln, die fähig sind, Ähnlichkeit zwischen zwei gegebenen Texten auf die gleiche Weise zu ermitteln, wie es auch Menschen tun. Von diesen Maßen wird dabei erwartet, Ähnlichkeitswerte auf einer kontinuierlichen Skala zu produzieren, die im Anschluss entweder direkt mit menschlichen Referenzbewertungen verglichen werden, oder als Hilfsmittel zur Lösung eines konkreten Problems dienen.
Wir beginnen diese Arbeit mit der Feststellung, dass der Begriff der Ähnlichkeit in der Psychologie zwar wohldefiniert ist, im Gegensatz dazu aber dem Begriff der Textähnlichkeit in unserer wissenschaftlichen Gemeinde nur eine rudimentäre Definition zugrunde liegt. Bisher gab es unseres Wissens keinen konkreten Versuch, zu formalisieren, auf welche Weise Texte denn überhaupt ähnlich sein können. Noch bis heute wird Textähnlichkeit ausschließlich als pauschalisierter Begriff verwendet. Um diesen Missstand zu beheben, beschreiben wir existierende formale Ähnlichkeitsmodelle und diskutieren, wie wir diese für Texte zuschneiden können. Wir schlagen vor, Textähnlichkeit anhand mehrerer Textdimensionen zu bestimmen, d.h. anhand von Merkmalen, die Texten zueigen sind. Im Rahmen mehrerer Annotationsstudien zeigen wir, dass die vorgeschlagenen Dimensionen in der Tat von Menschen zur Ähnlichkeitsbewertung von Texten herangezogen werden.
Im Anschluss zeigen wir eine gründliche Analyse des aktuellen Forschungsstandes zu Textähnlichkeitsmaßen auf, die unseres Wissens die bisher erste umfassende Analyse in diesem Bereich darstellt. Wir schlagen vor, die bestehenden Maße in zwei Merkmalsklassen einzuteilen: Aggregierende Maße berechnen zunächst paarweise Wortähnlichkeiten zwischen allen Wörtern der gegebenen Texte und aggregieren diese im Anschluss, um einen finalen Textähnlichkeitswert zu erhalten. Nicht-aggregierende Maße hingegen bilden die gegebenen Texte auf bestimmte Modelle ab und vergleichen im Anschluss die Texte ausschließlich anhand dieser Modelle.
Vor dem Hintergrund unserer theoretischen Analysen, die wir zu Beginn dieser Arbeit aufzeigten, entwerfen wir nun die Implementierung eines Textähnlichkeitssystems, welches eine Vielzahl von Textähnlichkeitsmaßen anhand verschiedener Textdimensionen im Rahmen eines maschinellen Lernverfahrens vereint. Wir argumentieren, dass ein solches System – abhängig von der konkreten Aufgabe – mehr als eine Textdimension in Betracht ziehen sollte, um menschliche Ähnlichkeitsbewertungen bestmöglich nachzubilden. Unsere Arbeiten münden schließlich in der quelloffenen Softwarebibliothek DKPro Similarity, welche die Entwicklung von Textähnlichkeitsmaßen anhand standardisierter Schnittstellen erlaubt, sowie dazu anregen soll, in einfacher Weise Experimentaufbauten im Hinblick auf die Reproduzierbarkeit der Ergebnisse der wissenschaftlichen Gemeinde zur Verfügung zu stellen.
Wir evaluieren unser System anschließend sowohl intrinsisch als auch extrinsisch, wobei es in beiden Fällen durchgängig besser abschneidet als alle früheren Arbeiten und konkurrierenden Systeme. In der intrinsischen Evaluation messen wir die Güte der Textähnlichkeitsmaße in einem isolierten Versuchsaufbau und vergleichen die maschinell erzeugten Ähnlichkeitswerte mit denen menschlicher Studienteilnehmer. Wir führten diese Evaluation im Rahmen des SemEval Workshops im Semantic Textual Similarity Wettbewerb durch. Im Gegensatz dazu messen wir in der extrinsischen Evaluation die Güte der Textähnlichkeitsmaße nicht direkt, sondern im Rahmen einer konkreten Problemstellung. Wir führten die extrinsische Evaluation für eine Textklassifizierungsaufgabe durch, in welcher der Grad von Textwiederverwendung zwischen zwei Texten ermittelt wird. Die Ergebnisse beider Evaluationen stützen unsere Annahme, dass ein System zur Berechnung von Textähnlichkeit deutlich davon profitiert, eine Kombination mehrerer Maße zu verwenden.
Im finalen Teil der Arbeit betonen wir die besondere Bedeutung von Textähnlichkeit für reale Problemstellungen. Wir gehen dazu zunächst auf das Anwendungsszenario der Selbstorganisierenden Wikis ein. In diesem Szenario werden Benutzer von Wikis, d.h. kollaborativen Werkzeugen für das Internet-basierte Wissensmanagement, bei ihren täglichen Aufgaben durch Methoden der automatischen Sprachverarbeitung unterstützt, insbesondere auch durch Zuhilfenahme von Textähnlichkeitsmaßen. Wir diskutieren zwei Einsatzfelder im Besonderen: Die Erkennung von Duplikaten sowie das halbautomatisierte Einfügen von Querbezügen. Darüber hinaus gehen wir auf zwei weitere Anwendungen ein, in denen Textähnlichkeitsmaße bereits sehr vielversprechend eingesetzt wurden: Die Beantwortung natürlich-sprachlicher Fragen und das Erkennen von logischen Schlussfolgerungen.
Wir schließen diese Arbeit mit einer Analyse aktuell offener Forschungsfragen ab und formulieren dabei Herausforderungen, denen in zukünftigen Arbeiten begegnet werden sollte. Gestützt auf die positiven Ergebnisse unserer beiden Evaluationen sind wir der festen Überzeugung, dass der vorgeschlagene Weg, Textähnlichkeit anhand verschiedener Textdimensionen zu berechnen, die jeweils abhängig von der konkreten Aufgabe sind, auch andere verwandte Problemstellungen in der automatischen Sprachverarbeitung nachhaltig positiv beeinflussen wird. | German |