TU Darmstadt / ULB / TUprints

On the Principles of Evaluation for Natural Language Generation

Zhao, Wei (2023)
On the Principles of Evaluation for Natural Language Generation.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00023295
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
Dissertation_WZ.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (5MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: On the Principles of Evaluation for Natural Language Generation
Language: English
Referees: Gurevych, Prof. Dr. Iryna ; Eger, Prof. Dr. Steffen ; Glavaš, Prof. Dr. Goran
Date: 2023
Place of Publication: Darmstadt
Collation: viii, 201 Seiten
Date of oral examination: 13 December 2022
DOI: 10.26083/tuprints-00023295
Abstract:

Natural language processing is concerned with the ability of computers to understand natural language texts, which is, arguably, one of the major bottlenecks in the course of chasing the holy grail of general Artificial Intelligence. Given the unprecedented success of deep learning technology, the natural language processing community has been almost entirely in favor of practical applications with state-of-the-art systems emerging and competing for human-parity performance at an ever-increasing pace. For that reason, fair and adequate evaluation and comparison, responsible for ensuring trustworthy, reproducible and unbiased results, have fascinated the scientific community for long, not only in natural language but also in other fields. A popular example is the ISO-9126 evaluation standard for software products, which outlines a wide range of evaluation concerns, such as cost, reliability, scalability, security, and so forth. The European project EAGLES-1996, being the acclaimed extension to ISO-9126, depicted the fundamental principles specifically for evaluating natural language technologies, which underpins succeeding methodologies in the evaluation of natural language.

Natural language processing encompasses an enormous range of applications, each with its own evaluation concerns, criteria and measures. This thesis cannot hope to be comprehensive but particularly addresses the evaluation in natural language generation (NLG), which touches on, arguably, one of the most human-like natural language applications. In this context, research on quantifying day-to-day progress with evaluation metrics lays the foundation of the fast-growing NLG community. However, previous works have failed to address high-quality metrics in multiple scenarios such as evaluating long texts and when human references are not available, and, more prominently, these studies are limited in scope, given the lack of a holistic view sketched for principled NLG evaluation.

In this thesis, we aim for a holistic view of NLG evaluation from three complementary perspectives, driven by the evaluation principles in EAGLES-1996: (i) high-quality evaluation metrics, (ii) rigorous comparison of NLG systems for properly tracking the progress, and (iii) understanding evaluation metrics. To this end, we identify the current state of challenges derived from the inherent characteristics of these perspectives, and then present novel metrics, rigorous comparison approaches, and explainability techniques for metrics to address the identified issues.

We hope that our work on evaluation metrics, system comparison and explainability for metrics inspires more research towards principled NLG evaluation, and contributes to the fair and adequate evaluation and comparison in natural language processing.

Alternative Abstract:
Alternative AbstractLanguage

Die Verarbeitung natürlicher Sprache befasst sich mit der Fähigkeit von Computern, Texte in natürlicher Sprache zu verstehen, was wohl einer der größten Engpässe bei der Jagd nach dem heiligen Gral der allgemeinen künstlichen Intelligenz ist. Angesichts des beispiellosen Erfolgs der Deep-Learning-Technologie hat sich die Gemeinschaft der Verarbeitung natürlicher Sprache fast ausschließlich für praktische Anwendungen ausgesprochen, wobei hochmoderne Systeme entstehen und in einem immer schnelleren Tempo um menschenähnliche Leistung konkurrieren. Aus diesem Grund faszinieren faire und angemessene Bewertungen und Vergleiche, die für vertrauenswürdige, reproduzierbare und unvoreingenommene Ergebnisse sorgen, die wissenschaftliche Gemeinschaft seit langem, nicht nur in der natürlichen Sprache, sondern auch in anderen Bereichen. Ein beliebtes Beispiel ist der Bewertungsstandard ISO-9126 für Softwareprodukte, der eine breite Palette von Bewertungsaspekten wie Kosten, Zuverlässigkeit, Skalierbarkeit, Sicherheit usw. umreißt. Das europäische Projekt EAGLES-1996, das die gefeierte Erweiterung von ISO-9126 darstellt, stellte die grundlegenden Prinzipien speziell für die Bewertung von Technologien natürlicher Sprache dar, die nachfolgende Methoden zur Bewertung natürlicher Sprache untermauern.

Die Verarbeitung natürlicher Sprache umfasst eine enorme Bandbreite von Anwendungen, jede mit ihren eigenen Bewertungsanliegen, -kriterien und -maßen. Diese Dissertation erhebt keinen Anspruch auf Vollständigkeit, befasst sich aber insbesondere mit der Evaluation in der Generierung natürlicher Sprache (NLG), die wohl eine der menschenähnlichsten Anwendungen natürlicher Sprache berührt. In diesem Zusammenhang legt die Forschung zur Quantifizierung des täglichen Fortschritts mit Bewertungsmetriken den Grundstein für die schnell wachsende NLG-Community. Frühere Arbeiten haben es jedoch versäumt, qualitativ hochwertige Metriken in mehreren Szenarien zu behandeln, z. B. bei der Bewertung langer Texte und wenn keine menschlichen Referenzen verfügbar sind, und vor allem sind diese Studien in ihrem Umfang begrenzt, da eine ganzheitliche Sichtweise fehlt, die auf Prinzipien basiert NLG-Bewertung.

In dieser Arbeit streben wir eine ganzheitliche Betrachtung der NLG-Bewertung aus drei komplementären Perspektiven an, die von den Bewertungsprinzipien in EAGLES-1996 angetrieben werden: (i) qualitativ hochwertige Bewertungsmetriken, (ii) strenger Vergleich von NLG-Systemen zur ordnungsgemäßen Verfolgung des Fortschritts , und (iii) Verständnis von Bewertungsmetriken. Zu diesem Zweck identifizieren wir den aktuellen Stand der Herausforderungen, die sich aus den inhärenten Merkmalen dieser Perspektiven ableiten, und präsentieren dann neuartige Metriken, rigorose Vergleichsansätze und Erklärbarkeitstechniken für Metriken, um die identifizierten Probleme anzugehen.

Wir hoffen, dass unsere Arbeit zu Bewertungsmetriken, Systemvergleich und Erklärbarkeit von Metriken zu mehr Forschung in Richtung einer prinzipientreuen NLG-Bewertung anregt und zu einer fairen und angemessenen Bewertung und einem Vergleich in der Verarbeitung natürlicher Sprache beiträgt.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-232959
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Ubiquitous Knowledge Processing
Date Deposited: 03 Mar 2023 13:04
Last Modified: 06 Mar 2023 07:20
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/23295
PPN: 505480662
Export:
Actions (login required)
View Item View Item