TU Darmstadt / ULB / tuprints

Dependency Graph Based Sentence Fusion and Compression

Filippova, Katja :
Dependency Graph Based Sentence Fusion and Compression.
TU Darmstadt
[Ph.D. Thesis], (2010)

[img]
Preview
PhD thesis - PDF (Sentence fusion and compression)
thesis.pdf
Available under Creative Commons Attribution Non-commercial No Derivatives.

Download (1421Kb) | Preview
Item Type: Ph.D. Thesis
Title: Dependency Graph Based Sentence Fusion and Compression
Language: English
Abstract:

The popularity of text summarization (TS) in the NLP community has been steadily increasing in recent years. This is not surprising given its practical utility: e.g., multi-document summarization systems would be of great use given the enormous amount of news published daily online. Although TS methods vary considerably, most of them share one important property: they are extractive, and the most common extraction unit is the sentence - that is, most TS systems build summaries from extracted sentences. The extractive strategy has a well-recognized drawback which is related to the fact that sentences pulled from different documents may overlap but also complement each other. As a consequence, extractive systems are often unable to produce summaries which are complete and non-redundant at the same time. Sentence fusion is a text-to-text generation technique which addresses exactly this problem. Sentence fusion systems take a set of related documents as input and output sentences ``fused'' from dependency structures of similar sentences. In this thesis we present a novel sentence fusion system which advances TS towards abstractive summarization by building a global representation of input sentences and generating a new sentence from this representation. The sentence fusion process includes two main tasks - dependency tree construction and dependency tree linearization, both of which we solve in a novel and effective way. Our tree construction method is largely unsupervised and generates grammatical sentences by taking syntactic and semantic knowledge into account without reliance on hand-crafted rules. Tree linearization is accomplished with a method that extends previous approaches but requires little overgeneration in comparison with them. Our method is also significantly more accurate than the previous ones because it utilizes features from several levels of linguistic organization (syntax, semantics, information structure). We test our system on a corpus of comparable biographies in German and obtain good readability results in an evaluation with native speakers. We also apply the same method to sentence compression (i.e., the task of producing a summary of a single sentence) in English and German and obtain results comparable to those reported by recent systems designed exclusively for this task.

Alternative Abstract:
Alternative AbstractLanguage
Die Popularitäat von Text-Zusammenfassung (TS) in der NLP-Gemeinschaft hat in den letzten Jahren stetig zugenommen. Dies ist aufgrund ihres praktischen Nutzens nicht verwunderlich: z. B. wäre automatische Textzusammenfassung mehrerer Dokumente sehr hilfreich angesichts der enormen Menge von Nachrichten, die täglich online erscheinen. Obwohl TS-Methoden sehr unterschiedlich sind, teilen die meisten von ihnen eine wichtige Eigenschaft: Sie sind extraktiv, und die am häufigsten benutzte Extraktionseinheit ist der Satz. Das heißt, dass die meisten TS-Systeme Zusammenfassungen aus extrahierten Sätzen bilden. Der extraktive Ansatz hat den bekannten Nachteil, dass sich Sätze aus verschiedenen Quellen überschneiden, aber auch gegenseitig ergänzen können. Dies hat zur Folge, dass extraktive Systeme oft nicht in der Lage sind, Zusammenfassungen zu generieren, die sowohl vollständig als auch nicht-redundant sind. Satzfusion ist eine Text-to-Text Generierungstechnik, die genau dieses Problem angeht. Satzfusion ermöglicht es, aus den Dependenzstrukturen ähnlicher Sätze, die verwandten Dokumenten entstammen, neue Sätze zu generieren. In dieser Arbeit stellen wir ein neuartiges System vor, welches Satzfusion weiter in Richtung abstraktiver Textzusammenfassung entwickelt, indem erst eine globale Darstellung von Input-Sätzen aufgebaut wird und dann neue Sätze aus dieser Darstellung generiert werden. Im Wesentlichen beinhaltet Satzfusion zwei Aufgaben: Dependenzbaumkonstruktion und Dependenzbaumlinearisierung. Beide Aufgaben lösen wir auf eine neue und effiziente Art und Weise. Unsere Baumkonstruktionsmethode ist weitgehend unüberwacht und erzeugt grammatische Sätze, indem sie syntaktische und semantische Information berücksichtigt, ohne auf manuell geschriebene Regeln zurückzugreifen. Unsere Baumlinearisierungsmethode basiert auf bisherigen Ansätzen, ist aber im Vergleich mit ihnen deutlich effizienter. Überdies erreicht unsere Methode höhere Akkuratheit, da sie Wissen von verschiedenen Ebenen sprachlicher Analyse nutzt (Syntax, Semantik, Informationsstruktur). Wir testen unser System auf einem Korpus vergleichbarer Biographien in deutscher Sprache und erreichen gute Lesbarkeitsraten in einem Experiment mit Muttersprachlern. Wir übertragen dieselbe Methode auf Satzkomprimierung im Englischen und im Deutschen mit dem Ziel, eine Satzzusamenfassung zu generieren, und erreichen Ergebnisse vergleichbar mit speziell für diese Aufgabe entwickelten Systemen.German
Classification DDC: 400 Sprache > 400 Sprache, Linguistik
Divisions: Fachbereich Gesellschafts- und Geschichtswissenschaften
Date Deposited: 08 Jun 2010 09:37
Last Modified: 07 Dec 2012 11:57
URN: urn:nbn:de:tuda-tuprints-21281
License: Creative Commons: Attribution-Noncommercial-No Derivative Works 3.0
Referees: Teich, Prof. Dr. Elke and Lapata, Dr. Mirella
Refereed: 9 October 2009
URI: http://tuprints.ulb.tu-darmstadt.de/id/eprint/2128
Export:

Actions (login required)

View Item View Item