Die automatische Annotation semantischer Rollen (Semantic Role Labeling , kurz SRL) ist eine Methode der automatischen Textanalyse, die auf der syntaktischen Analyse aufbaut und syntaktische Argumente um Annotationen ihrer semantischen Funktion ergänzt. Die syntaktische Funktion Subjekt erhält so beispielsweise die semantische Funktion, oder semantische Rolle, "Agent". Frühere Arbeiten zeigen, dass Semantic Role Labeling eingesetzt werden kann um verschiedene Anwendungen, die semantische Informationen voraussetzen, zu verbessern. Beispiele sind das automatische Beantworten von Fragen (Question answering ), die Informationsextraktion (Information extraction) oder die automatische Textzusammenfassung (Summarization).
Systeme für die automatische Rollen-Annotation nutzen üblicherweise ein theoretisches Modell semantischer Prädikat-Argument-Struktur, das in lexikalischen Wissensba sen wie PropBank oder FrameNet implementiert ist. Diese Modelle weisen semantischen Prädikaten, zumeist Verben, eine Lesartenannotation (Word Sense) zu, und annotieren (oft
abhängig von der Lesart) syntaktische Argumente der Prädikate mit semantischen Rollen.
Überwachte oder teilüberwachte Verfahren des Maschinellen Lernens werden auf entsprechend annotierten Trainingsdaten angewendet, um automatische Systeme zur Annotation der Prädikat-Argument-Strukturen zu trainieren. Auch Systeme, die dem neuesten Stand der Forschung entsprechend Deep Learning einsetzen, benötigen annotierte Trainingsdaten. Diese üblicherweise von Experten manuell annotierten Datensätze zu produzieren ist sehr aufwändig. Die mangelnde Abdeckung der Vielfalt natürlicher Sprache durch die Trainingskorpora (mangelnde Lexikonabdeckung) ist ein Grund dafür, dass Systeme für die automatische Annotation semantischer Rollen zwar in Laborexperimenten erfolgreich
sind, in praktischen Anwendungen jedoch noch nicht umfassend eingesetzt werden können. Ein weiterer Grund ist der Mangel an Trainingsdaten für verschiedene Textarten oder Genres, auch Domänen genannt, denn trainierte Systeme müssen auf neue Genres, für die sie eingesetzt werden sollen, angepasst werden (Domänenadaption). Diese beiden Probleme bestehen für das Englische, sind jedoch noch stärker ausgeprägt für andere Sprachen, für die es nur wenige, kleine Ressourcen mit semantischen Rollen, also lexikalische Wissensbasen und annotierte Korpora, gibt.
Das Forschungsziel dieser Arbeit ist die Entwicklung wissensbasierter Methoden, mit denen die Lexikonabdeckung und Abdeckung mit Trainingsdaten für die automatische An-
notation semantischer Rollen verbessert werden kann, sowohl für neue Sprachen als auch für neue Genres. Die Verlinkung lexikalischer Wissensbasen auf der Ebene von Word Sense und semantischer Prädikat-Argument-Struktur dient als Grundlage für die automatische Generierung von Trainingsdaten mit Lesarten und semantischen Rollen für verschiedene Sprachen und Genres. | German |