Adjusting Sense Representations for Word Sense Disambiguation and Automatic Pun Interpretation

Word sense disambiguation (WSD)—the task of determining which meaning a word carries in a particular context—is a core research problem in computational linguistics. Though it has long been recognized that supervised (machine learning–based) approaches to WSD can yield impressive results, they require an amount of manually annotated training data that is often too expensive or impractical to obtain. This is a particular problem for under-resourced languages and domains, and is also a hurdle in well-resourced languages when processing the sort of lexical-semantic anomalies employed for deliberate effect in humour and wordplay. In contrast to supervised systems are knowledge-based techniques, which rely only on pre-existing lexical-semantic resources (LSRs). These techniques are of more general applicability but tend to suffer from lower performance due to the informational gap between the target word's context and the sense descriptions provided by the LSR.

This dissertation is concerned with extending the efficacy and applicability of knowledge-based word sense disambiguation. First, we investigate two approaches for bridging the information gap and thereby improving the performance of knowledge-based WSD. In the first approach we supplement the word's context and the LSR's sense descriptions with entries from a distributional thesaurus. The second approach enriches an LSR's sense information by aligning it to other, complementary LSRs.

Our next main contribution is to adapt techniques from word sense disambiguation to a novel task: the interpretation of puns. Traditional NLP applications, including WSD, usually treat the source text as carrying a single meaning, and therefore cannot cope with the intentionally ambiguous constructions found in humour and wordplay. We describe how algorithms and evaluation methodologies from traditional word sense disambiguation can be adapted for the "disambiguation" of puns, or rather for the identification of their double meanings.

Finally, we cover the design and construction of technological and linguistic resources aimed at supporting the research and application of word sense disambiguation. Development and comparison of WSD systems has long been hampered by a lack of standardized data formats, language resources, software components, and workflows. To address this issue, we designed and implemented a modular, extensible framework for WSD. It implements, encapsulates, and aggregates reusable, interoperable components using UIMA, an industry-standard information processing architecture. We have also produced two large sense-annotated data sets for under-resourced languages or domains: one of these targets German-language text, and the other English-language puns.

Freie Schlagworte

word sense disambigua...

puns

word sense alignment

distributional simila...

natural language proc...

Sprache

Englisch

Alternativtitel

Die Anpassung von Bedeutungsrepräsentationen für Lesartendisambiguierung und die Interpretation von Wortspielen

Alternatives Abstract

Lesartendisambiguierung (engl. word sense disambiguation, oder WSD) ist ein Kernforschungsproblem der Computerlinguistik und beschreibt die Aufgabe, festzustellen, welche Bedeutung ein bestimmtes Wort in einem bestimmten Kontext hat. Schon seit langem hat man erkannt, dass überwachte (d.h. auf maschinellem Lernen basierende) Ansätze für WSD zu beeindruckenden Ergebnissen führen können, jedoch benötigen diese eine große Menge an manuell annotierten Trainingsdaten, deren Herstellung oder Beschaffung oft zu aufwändig oder unpraktisch ist. Dies ist insbesondere ein Problem bei Sprachen und Domänen, für die wenige Ressourcen zur Verfugung stehen, und wenn es um die Verarbeitung der lexikalisch-semantischen Anomalien geht, die typischerweise für Humor und Wortspiele eingesetzt werden. Im Gegensatz zu überwachten Systemen verlassen sich wissensbasierte Verfahren nur auf bereits bestehende lexikalisch-semantische Ressourcen (LSRs). Obwohl diese Verfahren breiter anwendbar sind, kommt es häufig zu Qualitätseinbußen aufgrund der Informationslücke zwischen dem Kontext des Zielworts und den Bedeutungsbeschreibungen, die die LSR zur Verfügung stellt.

Diese Dissertation beschäftigt sich mit der Verbesserung der Wirksamkeit und Anwendbarkeit wissensbasierter Lesartendisambiguierung. Ihre Hauptbeiträge sind die drei folgenden: Zunächst untersuchen wir zwei Ansätze zur Überbrückung der Informationslücke und damit zur Verbesserung der Leistung von wissensbasiertem WSD. Im ersten Ansatz erweitern wir den Kontext des Wortes und die Bedeutungsbeschreibungen der LSR mit Einträgen aus einem distributionellen Thesaurus, der zweite Ansatz ergänzt die Bedeutungsinformationen einer LSR durch die Verknüpfung mit anderen, komplementären LSRs.

Unser nächster Hauptbeitrag ist die Anpassung von WSD-Techniken an eine neue Aufgabe: die Interpretation von Wortspielen. Traditionelle linguistische Datenverarbeitung, einschließlich WSD, behandelt den Quelltext normalerweise so, als ob er nur eine einzige Bedeutung trägt und kann deshalb nicht mit absichtlich mehrdeutigen Konstruktionen von Humor und Wortspielen umgehen. Wir beschreiben, wie man Algorithmen und Evaluierungsmethoden der traditionellen Lesartendisambiguierung anpassen kann, um Wortspiele zu "disambiguieren", oder besser gesagt, um ihre doppelte Bedeutung zu erkennen.

Schließlich beschreiben wir die Konzeption und Konstruktion technischer und linguistischer Ressourcen, die die Forschung und Anwendung wissensbasierter Lesartendisambiguierung unterstützen. Die Entwicklung und der Vergleich von WSD-Systemen wurden schon seit langem durch einen Mangel an standardisierten Datenformaten, Sprachressourcen, Softwarekomponenten und Arbeitsabläufen behindert. Um dieses Problem anzugehen, haben wir ein modulares, erweiterbares Framework für WSD konzipiert und umgesetzt. Es implementiert, kapselt und aggregiert wiederverwendbare, kompatible Komponenten mit UIMA, einer Informationsverarbeitungsarchitektur nach Industriestandard. Darüber hinaus haben wir zwei große Korpora erstellt, in denen Wörter mit den entsprechenden Wortbedeutungen annotiert wurden: eines für deutschsprachigen Text, und eines für englischsprachige Wortspiele.

Fachbereich/-gebiet

20 Fachbereich Informatik > Ubiquitäre Wissensverarbeitung

DDC

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

400 Sprache > 400 Sprache, Linguistik

Institution

Technische Universität Darmstadt

Ort

Darmstadt