TU Darmstadt / ULB / tuprints

Wiktionary: The Metalexicographic and the Natural Language Processing Perspective

Meyer, Christian M. :
Wiktionary: The Metalexicographic and the Natural Language Processing Perspective.
Technische Universität, Darmstadt
[Ph.D. Thesis], (2013)

[img]
Preview
Dissertation - Text
dissertation-meyer-wiktionary-print.pdf - Published Version
Available under Creative Commons Attribution Non-commercial No Derivatives, 2.5.

Download (22MB) | Preview
Item Type: Ph.D. Thesis
Title: Wiktionary: The Metalexicographic and the Natural Language Processing Perspective
Language: English
Abstract:

Dictionaries are the main reference works for our understanding of language. They are used by humans and likewise by computational methods. So far, the compilation of dictionaries has almost exclusively been the profession of expert lexicographers. The ease of collaboration on the Web and the rising initiatives of collecting open-licensed knowledge, such as in Wikipedia, caused a new type of dictionary that is voluntarily created by large communities of Web users. This collaborative construction approach presents a new paradigm for lexicography that poses new research questions to dictionary research on the one hand and provides a very valuable knowledge source for natural language processing applications on the other hand. The subject of our research is Wiktionary, which is currently the largest collaboratively constructed dictionary project.

In the first part of this thesis, we study Wiktionary from the metalexicographic perspective. Metalexicography is the scientific study of lexicography including the analysis and criticism of dictionaries and lexicographic processes. To this end, we discuss three contributions related to this area of research: (i) We first provide a detailed analysis of Wiktionary and its various language editions and dictionary structures. (ii) We then analyze the collaborative construction process of Wiktionary. Our results show that the traditional phases of the lexicographic process do not apply well to Wiktionary, which is why we propose a novel process description that is based on the frequent and continual revision and discussion of the dictionary articles and the lexicographic instructions. (iii) We perform a large-scale quantitative comparison of Wiktionary and a number of other dictionaries regarding the covered languages, lexical entries, word senses, pragmatic labels, lexical relations, and translations. We conclude the metalexicographic perspective by finding that the collaborative Wiktionary is not an appropriate replacement for expert-built dictionaries due to its inconsistencies, quality flaws, one-fits-all-approach, and strong dependence on expert-built dictionaries. However, Wiktionary's rapid and continual growth, its high coverage of languages, newly coined words, domain-specific vocabulary and non-standard language varieties, as well as the kind of evidence based on the authors' intuition provide promising opportunities for both lexicography and natural language processing. In particular, we find that Wiktionary and expert-built wordnets and thesauri contain largely complementary entries.

In the second part of the thesis, we study Wiktionary from the natural language processing perspective with the aim of making available its linguistic knowledge for computational applications. Such applications require vast amounts of structured data with high quality. Expert-built resources have been found to suffer from insufficient coverage and high construction and maintenance cost, whereas fully automatic extraction from corpora or the Web often yields resources of limited quality. Collaboratively built encyclopedias present a viable solution, but do not cover well linguistically oriented knowledge as it is found in dictionaries. That is why we propose extracting linguistic knowledge from Wiktionary, which we achieve by the following three main contributions: (i) We propose the novel multilingual ontology OntoWiktionary that is created by extracting and harmonizing the weakly structured dictionary articles in Wiktionary. A particular challenge in this process is the ambiguity of semantic relations and translations, which we resolve by automatic word sense disambiguation methods. (ii) We automatically align Wiktionary with WordNet 3.0 at the word sense level. The largely complementary information from the two dictionaries yields an aligned resource with higher coverage and an enriched representation of word senses. (iii) We represent Wiktionary according to the ISO standard Lexical Markup Framework, which we adapt to the peculiarities of collaborative dictionaries. This standardized representation is of great importance for fostering the interoperability of resources and hence the dissemination of Wiktionary-based research. To this end, our work presents a foundational step towards the large-scale integrated resource UBY, which facilitates a unified access to a number of standardized dictionaries by means of a shared web interface for human users and an application programming interface for natural language processing applications. A user can, in particular, switch between and combine information from Wiktionary and other dictionaries without completely changing the software.

Our final resource and the accompanying datasets and software are publicly available and can be employed for multiple different natural language processing applications. It particularly fills the gap between the small expert-built wordnets and the large amount of encyclopedic knowledge from Wikipedia. We provide a survey of previous works utilizing Wiktionary, and we exemplify the usefulness of our work in two case studies on measuring verb similarity and detecting cross-lingual marketing blunders, which make use of our Wiktionary-based resource and the results of our metalexicographic study. We conclude the thesis by emphasizing the usefulness of collaborative dictionaries when being combined with expert-built resources, which bears much unused potential.

Alternative Abstract:
Alternative AbstractLanguage
Wörterbücher bilden die wichtigste Referenz für unser Sprachverständnis. Sie werden von menschlichen Nutzern und von Computerprogrammen gleichermaßen eingesetzt. Bisher wurden Wörterbücher nahezu ausschließlich von professionellen Lexikographen verfasst. Neue Möglichkeiten der Interaktion im Web und die zunehmende Bestrebung frei-zugängliches Wissen zu dokumentieren, wie etwa in Wikipedia, schaffen einen neuartigen Typ von Wörterbuch, welcher von großen Nutzergemeinden freiwillig erstellt wird. Das gemeinschaftlich-kollaborative Vorgehen etabliert ein neues lexikographisches Paradigma, das einerseits zu völlig neuen Forschungsfragen im Bereich der Wörterbuchforschung führt und andererseits eine wertvolle Wissensquelle für sprachtechnologische Anwendungen darstellt. Wiktionary ist das derzeit größte gemeinschaftlich erstellte Wörterbuch und Gegenstand unserer Forschung. Im ersten Teil der vorliegenden Arbeit untersuchen wir Wiktionary aus der metalexikographischen Perspektive. Metalexikographie bezeichnet die wissenschaftliche Beschäftigung mit der Lexikographie, Wörterbüchern und lexikographischen Prozessen. Wir diskutieren drei Forschungsbeiträge aus diesem Bereich: (i) Wir geben eine detaillierte Beschreibung von Wiktionary und den damit verbundenen vielfältigen Sprachversionen und Wörterbuchstrukturen. (ii) Wir analysieren die gemeinschaftliche Vorgehensweise der Wiktionary-Autoren. Unsere Ergebnisse zeigen, dass sich die bekannten Phasen des lexikographischen Prozesses nur mäßig auf Wiktionary anwenden lassen. Daher schlagen wir eine neue Prozessbeschreibung vor, die auf der häufigen und fortwährenden Überarbeitung und Diskussion der Wörterbuchartikel und der lexikographischen Instruktionen basiert. (iii) Wir vergleichen Wiktionary mit anderen Wörterbüchern hinsichtlich der enthaltenen Sprachen, Lemmazeichen, Bedeutungen, pragmatischen Markierungen, lexikalischen Relationen und Übersetzungen. Für die metalexikographische Perspektive kommen wir zu dem Schluss, dass Wiktionary kein adäquater Ersatz für professionell erstellte Wörterbücher ist, da Inkonsistenzen und qualitative Mängel überwiegen, weder Wörterbuchfunktionen noch Benutzerbezug festgelegt sind und professionelle Wörterbücher häufig zur Verifikation der Wörterbuchangaben dienen. Das rasante und stetige Wachstum, die große Zahl verschiedener Sprachen, Neologismen, domänenspezifisches Vokabular und nicht standardisierter Varietäten, sowie die Einbeziehung der Intuition und subjektiven Meinungen von vielen Autoren zeigen dagegen vielversprechende Möglichkeiten für Lexikographie und Sprachtechnologie auf. Insbesondere erweist sich Wiktionary als größtenteils komplementär zu professionell erstellten Wortnetzen und Thesauri. Im zweiten Teil der Arbeit adressieren wir die sprachtechnologische Perspektive, um das kodierte linguistische Wissen für softwaregestützte Anwendungen nutzbar zu machen. Solche Anwendungen benötigen enorme Mengen strukturierter Daten mit hoher Qualität. Während professionell erstellte Ressourcen häufig zu klein oder zu teuer in ihrer Erstellung und Unterhaltung sind, mangelt es bei vollautomatisch erzeugten Ressourcen häufig an der Qualität der extrahierten Angaben. Gemeinschaftlich erstellte Enzyklopädien werden vielfach als Lösung vorgeschlagen, enthalten jedoch kaum linguistisch orientiertes Wissen. Wir adressieren daher die Extraktion und Aufbereitung linguistischer Angaben aus Wiktionary und diskutieren dazu drei Forschungsbeiträge: (i) Wir erzeugen die neue mehrsprachige Ontologie OntoWiktionary basierend auf den in Wiktionary kodierten schwach strukturierten Angaben. Eine wesentliche Herausforderung liegt dabei in der Auflösung von Mehrdeutigen in semantischen Relationen und Übersetzungen, die wir mit Hilfe automatischer Methoden zur Lesartendisambiguierung erreichen. (ii) Wir alignieren Wiktionary und WordNet 3.0 auf der Ebene der Wortbedeutungen, was zu einer integrierten Ressource mit höherer Abdeckung und reichhaltigeren Angaben führt. (iii) Wir modellieren Wiktionary anhand des ISO-Standards Lexical Markup Framework und beschreiben das dazu nötige Lexikonmodell im Hinblick auf gemeinschaftlich erstellte Wörterbücher. Dies ist von großer Wichtigkeit, um die Interoperabilität zwischen verschiedenartigen Ressourcen zu gewährleisten. Unsere Arbeit ist damit ein fundamentaler Schritt zur umfangreichen integrierten Ressource UBY, welche einen einheitlichen Zugriff auf eine große Zahl standardisierter Wörterbücher erlaubt – sowohl über eine Online-Plattform für menschliche Nutzer als auch über eine Programmierschnittstelle für sprachtechnologische Anwendungen. Entwickler können insbesondere zwischen verschiedenen Wörterbüchern wechseln und deren Angaben kombinieren ohne die Anwendung von Grund auf neu zu konzipieren. Unsere finale Ressource und die dazugehörigen Datensätze und Software-Tools sind frei verfügbar und können für vielfältige sprachtechnologische Anwendungen eingesetzt werden. Damit schließen wir speziell die Lücke zwischen den oftmals kleinen professionell erstellten Wortnetzen und den großen Mengen enzyklopädischer Angaben aus Wikipedia. In einer Bestandsaufnahme charakterisieren wir frühere Arbeiten zur sprachtechnologischen Nutzung von Wiktionary, bevor wir die Zweckmäßigkeit unserer Arbeit anhand zweier Fallbeispiele zur Messung von Verb-Ähnlichkeiten und zur Identifikation von sprachenübergreifenden Werbepannen aufzeigen. Dabei bauen wir auf den Erkenntnissen unserer metalexikographischen Analyse und unseren Wiktionary-basierten Ressourcen auf. Im abschließenden Fazit stellen wir den Nutzwert gemeinschaftlich erstellter Wörterbücher heraus, wenn diese insbesondere mit professionell erstellten Ressourcen kombiniert werden -- eine Forschungsrichtung, die noch sehr viel ungenutztes Potential birgt.German
Place of Publication: Darmstadt
Collation: XII, 216 pages, ill.
Uncontrolled Keywords: Wiktionary, Collaborative Lexicography, Dictionary, Lexical Resource, Natural Language Processing
Alternative keywords:
Alternative keywordsLanguage
Wiktionary, kollaborative Lexikographie, Wörterbuch, lexikalische Ressource, SprachtechnologieGerman
Classification DDC: 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
400 Sprache > 400 Sprache, Linguistik
Divisions: Fachbereich Informatik > Ubiquitäre Wissensverarbeitung
Date Deposited: 19 Nov 2013 06:39
Last Modified: 19 Nov 2013 06:39
Related URLs:
URN: urn:nbn:de:tuda-tuprints-36541
Referees: Gurevych, Prof. Dr. Iryna and Calzolari, Prof. Dr. Nicoletta and Weikum, Prof. Dr. Gerhard
Refereed: 28 October 2013
URI: http://tuprints.ulb.tu-darmstadt.de/id/eprint/3654
Export:
["page:actions_header" not defined]
View Item View Item