Die Popularitäat von Text-Zusammenfassung (TS) in der NLP-Gemeinschaft hat in den letzten Jahren stetig zugenommen. Dies ist aufgrund ihres praktischen Nutzens nicht verwunderlich: z. B. wäre automatische Textzusammenfassung mehrerer Dokumente sehr hilfreich angesichts der enormen Menge von Nachrichten, die täglich online erscheinen. Obwohl TS-Methoden sehr unterschiedlich sind, teilen die meisten von ihnen eine wichtige Eigenschaft: Sie sind extraktiv, und die am häufigsten benutzte Extraktionseinheit ist der Satz. Das heißt, dass die meisten TS-Systeme Zusammenfassungen aus extrahierten Sätzen bilden. Der extraktive Ansatz hat den bekannten Nachteil, dass sich Sätze aus verschiedenen Quellen überschneiden, aber auch gegenseitig ergänzen können. Dies hat zur Folge, dass extraktive Systeme oft nicht in der Lage sind, Zusammenfassungen zu generieren, die sowohl vollständig als auch nicht-redundant sind. Satzfusion ist eine Text-to-Text Generierungstechnik, die genau dieses Problem angeht. Satzfusion ermöglicht es, aus den Dependenzstrukturen ähnlicher Sätze, die verwandten Dokumenten entstammen, neue Sätze zu generieren. In dieser Arbeit stellen wir ein neuartiges System vor, welches Satzfusion weiter in Richtung abstraktiver Textzusammenfassung entwickelt, indem erst eine globale Darstellung von Input-Sätzen aufgebaut wird und dann neue Sätze aus dieser Darstellung generiert werden. Im Wesentlichen beinhaltet Satzfusion zwei Aufgaben: Dependenzbaumkonstruktion und Dependenzbaumlinearisierung. Beide Aufgaben lösen wir auf eine neue und effiziente Art und Weise. Unsere Baumkonstruktionsmethode ist weitgehend unüberwacht und erzeugt grammatische Sätze, indem sie syntaktische und semantische Information berücksichtigt, ohne auf manuell geschriebene Regeln zurückzugreifen. Unsere Baumlinearisierungsmethode basiert auf bisherigen Ansätzen, ist aber im Vergleich mit ihnen deutlich effizienter. Überdies erreicht unsere Methode höhere Akkuratheit, da sie Wissen von verschiedenen Ebenen sprachlicher Analyse nutzt (Syntax, Semantik, Informationsstruktur). Wir testen unser System auf einem Korpus vergleichbarer Biographien in deutscher Sprache und erreichen gute Lesbarkeitsraten in einem Experiment mit Muttersprachlern. Wir übertragen dieselbe Methode auf Satzkomprimierung im Englischen und im Deutschen mit dem Ziel, eine Satzzusamenfassung zu generieren, und erreichen Ergebnisse vergleichbar mit speziell für diese Aufgabe entwickelten Systemen. | German |