TU Darmstadt / ULB / TUprints

Knowledge-based Supervision for Domain-adaptive Semantic Role Labeling

Hartmann, Silvana :
Knowledge-based Supervision for Domain-adaptive Semantic Role Labeling.
Technische Universität, Darmstadt
[Ph.D. Thesis], (2017)

[img]
Preview
Dissertation "Knowledge-based Supervision for Domain-adaptive Semantic Role Labeling" - Text (.pdf Dokument)
dissertation-silvana-hartmann-knowledge-based-srl-final-online.pdf - Accepted Version
Available under CC-BY-NC-ND 4.0 International - Creative Commons Attribution Non-commercial No-derivatives 4.0.

Download (3MB) | Preview
Item Type: Ph.D. Thesis
Title: Knowledge-based Supervision for Domain-adaptive Semantic Role Labeling
Language: English
Abstract:

Semantic role labeling (SRL) is a method for the semantic analysis of texts that adds a level of semantic abstraction on top of syntactic analysis, for instance adding semantic role labels like Agent on top of syntactic functions like Subject. SRL has been shown to benefit various natural language processing applications such as question answering, information extraction, and summarization. Automatic SRL systems are typically based on a predefined model of semantic predicate argument structure incorporated in lexical knowledge bases like PropBank or FrameNet. They are trained using supervised or semi-supervised machine learning methods using training data labeled with predicate (word sense) and role labels. Even state-of-the-art systems based on deep learning still rely on a labeled training set. However, despite the success in an experimental setting, the real-world application of SRL methods is still prohibited by severe coverage problems (lexicon coverage problem) and lack of domain-relevant training data for training supervised systems (domain adaptation problem). These issues apply to English, but are even more severe for other languages, for which only small resources exist. The goal of this thesis is to develop knowledge-based methods to improve lexicon coverage and training data coverage for SRL. We use linked lexical knowledge bases to extend lexicon coverage and as a basis for automatic training data generation across languages and domains.

Alternative Abstract:
Alternative AbstractLanguage
Die automatische Annotation semantischer Rollen (Semantic Role Labeling , kurz SRL) ist eine Methode der automatischen Textanalyse, die auf der syntaktischen Analyse aufbaut und syntaktische Argumente um Annotationen ihrer semantischen Funktion ergänzt. Die syntaktische Funktion Subjekt erhält so beispielsweise die semantische Funktion, oder semantische Rolle, "Agent". Frühere Arbeiten zeigen, dass Semantic Role Labeling eingesetzt werden kann um verschiedene Anwendungen, die semantische Informationen voraussetzen, zu verbessern. Beispiele sind das automatische Beantworten von Fragen (Question answering ), die Informationsextraktion (Information extraction) oder die automatische Textzusammenfassung (Summarization). Systeme für die automatische Rollen-Annotation nutzen üblicherweise ein theoretisches Modell semantischer Prädikat-Argument-Struktur, das in lexikalischen Wissensba sen wie PropBank oder FrameNet implementiert ist. Diese Modelle weisen semantischen Prädikaten, zumeist Verben, eine Lesartenannotation (Word Sense) zu, und annotieren (oft abhängig von der Lesart) syntaktische Argumente der Prädikate mit semantischen Rollen. Überwachte oder teilüberwachte Verfahren des Maschinellen Lernens werden auf entsprechend annotierten Trainingsdaten angewendet, um automatische Systeme zur Annotation der Prädikat-Argument-Strukturen zu trainieren. Auch Systeme, die dem neuesten Stand der Forschung entsprechend Deep Learning einsetzen, benötigen annotierte Trainingsdaten. Diese üblicherweise von Experten manuell annotierten Datensätze zu produzieren ist sehr aufwändig. Die mangelnde Abdeckung der Vielfalt natürlicher Sprache durch die Trainingskorpora (mangelnde Lexikonabdeckung) ist ein Grund dafür, dass Systeme für die automatische Annotation semantischer Rollen zwar in Laborexperimenten erfolgreich sind, in praktischen Anwendungen jedoch noch nicht umfassend eingesetzt werden können. Ein weiterer Grund ist der Mangel an Trainingsdaten für verschiedene Textarten oder Genres, auch Domänen genannt, denn trainierte Systeme müssen auf neue Genres, für die sie eingesetzt werden sollen, angepasst werden (Domänenadaption). Diese beiden Probleme bestehen für das Englische, sind jedoch noch stärker ausgeprägt für andere Sprachen, für die es nur wenige, kleine Ressourcen mit semantischen Rollen, also lexikalische Wissensbasen und annotierte Korpora, gibt. Das Forschungsziel dieser Arbeit ist die Entwicklung wissensbasierter Methoden, mit denen die Lexikonabdeckung und Abdeckung mit Trainingsdaten für die automatische An- notation semantischer Rollen verbessert werden kann, sowohl für neue Sprachen als auch für neue Genres. Die Verlinkung lexikalischer Wissensbasen auf der Ebene von Word Sense und semantischer Prädikat-Argument-Struktur dient als Grundlage für die automatische Generierung von Trainingsdaten mit Lesarten und semantischen Rollen für verschiedene Sprachen und Genres.German
Place of Publication: Darmstadt
Classification DDC: 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Divisions: 20 Department of Computer Science > Ubiquitous Knowledge Processing
Date Deposited: 18 Sep 2017 10:41
Last Modified: 20 Sep 2017 06:51
URN: urn:nbn:de:tuda-tuprints-67700
Referees: Gurevych, Prof. Dr. Iryna and Palmer, Prof. Martha and Ponzetto, Prof. Dr. Simone Paolo
Refereed: 30 September 2016
URI: http://tuprints.ulb.tu-darmstadt.de/id/eprint/6770
Export:
Actions (login required)
View Item View Item

Downloads

Downloads per month over past year