Dependency Graph Based Sentence Fusion and Compression

Filippova, Katja (2010)
Dependency Graph Based Sentence Fusion and Compression.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

PhD thesis - PDF (Sentence fusion and compression)
thesis.pdf
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .
Download (1MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Dependency Graph Based Sentence Fusion and Compression

Language:

English

Referees:

Teich, Prof. Dr. Elke ; Lapata, Dr. Mirella

Date:

16 April 2010

Place of Publication:

Darmstadt

Date of oral examination:

9 October 2009

Abstract:

The popularity of text summarization (TS) in the NLP community has been steadily increasing in recent years. This is not surprising given its practical utility: e.g., multi-document summarization systems would be of great use given the enormous amount of news published daily online. Although TS methods vary considerably, most of them share one important property: they are extractive, and the most common extraction unit is the sentence - that is, most TS systems build summaries from extracted sentences. The extractive strategy has a well-recognized drawback which is related to the fact that sentences pulled from different documents may overlap but also complement each other. As a consequence, extractive systems are often unable to produce summaries which are complete and non-redundant at the same time. Sentence fusion is a text-to-text generation technique which addresses exactly this problem. Sentence fusion systems take a set of related documents as input and output sentences ``fused'' from dependency structures of similar sentences. In this thesis we present a novel sentence fusion system which advances TS towards abstractive summarization by building a global representation of input sentences and generating a new sentence from this representation. The sentence fusion process includes two main tasks - dependency tree construction and dependency tree linearization, both of which we solve in a novel and effective way. Our tree construction method is largely unsupervised and generates grammatical sentences by taking syntactic and semantic knowledge into account without reliance on hand-crafted rules. Tree linearization is accomplished with a method that extends previous approaches but requires little overgeneration in comparison with them. Our method is also significantly more accurate than the previous ones because it utilizes features from several levels of linguistic organization (syntax, semantics, information structure). We test our system on a corpus of comparable biographies in German and obtain good readability results in an evaluation with native speakers. We also apply the same method to sentence compression (i.e., the task of producing a summary of a single sentence) in English and German and obtain results comparable to those reported by recent systems designed exclusively for this task.

Alternative Abstract:

Alternative Abstract

Language

Die Popularitäat von Text-Zusammenfassung (TS) in der NLP-Gemeinschaft hat in den letzten Jahren stetig zugenommen. Dies ist aufgrund ihres praktischen Nutzens nicht verwunderlich: z. B. wäre automatische Textzusammenfassung mehrerer Dokumente sehr hilfreich angesichts der enormen Menge von Nachrichten, die täglich online erscheinen. Obwohl TS-Methoden sehr unterschiedlich sind, teilen die meisten von ihnen eine wichtige Eigenschaft: Sie sind extraktiv, und die am häufigsten benutzte Extraktionseinheit ist der Satz. Das heißt, dass die meisten TS-Systeme Zusammenfassungen aus extrahierten Sätzen bilden. Der extraktive Ansatz hat den bekannten Nachteil, dass sich Sätze aus verschiedenen Quellen überschneiden, aber auch gegenseitig ergänzen können. Dies hat zur Folge, dass extraktive Systeme oft nicht in der Lage sind, Zusammenfassungen zu generieren, die sowohl vollständig als auch nicht-redundant sind. Satzfusion ist eine Text-to-Text Generierungstechnik, die genau dieses Problem angeht. Satzfusion ermöglicht es, aus den Dependenzstrukturen ähnlicher Sätze, die verwandten Dokumenten entstammen, neue Sätze zu generieren. In dieser Arbeit stellen wir ein neuartiges System vor, welches Satzfusion weiter in Richtung abstraktiver Textzusammenfassung entwickelt, indem erst eine globale Darstellung von Input-Sätzen aufgebaut wird und dann neue Sätze aus dieser Darstellung generiert werden. Im Wesentlichen beinhaltet Satzfusion zwei Aufgaben: Dependenzbaumkonstruktion und Dependenzbaumlinearisierung. Beide Aufgaben lösen wir auf eine neue und effiziente Art und Weise. Unsere Baumkonstruktionsmethode ist weitgehend unüberwacht und erzeugt grammatische Sätze, indem sie syntaktische und semantische Information berücksichtigt, ohne auf manuell geschriebene Regeln zurückzugreifen. Unsere Baumlinearisierungsmethode basiert auf bisherigen Ansätzen, ist aber im Vergleich mit ihnen deutlich effizienter. Überdies erreicht unsere Methode höhere Akkuratheit, da sie Wissen von verschiedenen Ebenen sprachlicher Analyse nutzt (Syntax, Semantik, Informationsstruktur). Wir testen unser System auf einem Korpus vergleichbarer Biographien in deutscher Sprache und erreichen gute Lesbarkeitsraten in einem Experiment mit Muttersprachlern. Wir übertragen dieselbe Methode auf Satzkomprimierung im Englischen und im Deutschen mit dem Ziel, eine Satzzusamenfassung zu generieren, und erreichen Ergebnisse vergleichbar mit speziell für diese Aufgabe entwickelten Systemen.

German

URN:

urn:nbn:de:tuda-tuprints-21281

Classification DDC:

400 Language > 400 Language, linguistics

Divisions:

02 Department of History and Social Science

Date Deposited:

08 Jun 2010 09:37

Last Modified:

08 Jul 2020 23:43

URI: