Constrained Generation and Adaptive Selection of C-Tests

Lee, Ji-Ung (2024)
Constrained Generation and Adaptive Selection of C-Tests.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00027274
Ph.D. Thesis, Primary publication, Publisher's Version

Text
phd-thesis-ji_ung_lee.pdf
Copyright Information: CC BY-NC 4.0 International - Creative Commons, Attribution NonCommercial.
Download (5MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Constrained Generation and Adaptive Selection of C-Tests

Language:

English

Referees:

Gurevych, Prof. Dr. Iryna ; Zesch, Prof. Dr. Torsten

Date:

26 July 2024

Place of Publication:

Darmstadt

Collation:

xiv, 233 Seiten

Date of oral examination:

9 July 2024

DOI:

10.26083/tuprints-00027274

Abstract:

Increasing globalization and immigration is driving the importance of multi-lingual proficiency. Being able to communicate across different languages is already one of the key competencies that can define success—however, various institutions such as the European Council or the United Nations High Commissioner for Refugees predict that this trend will intensify even further with climate change and rising refugee numbers. Despite these concerning developments, a shortage of proficient human translators remains, while existing automated solutions fall far behind the requirements. For instance, current translation tools have been shown to perform substantially worse in low-resource languages or in specialized domains such as legal or medical—causing real-world harm through unreflected use. Large language models (LLMs) still exhibit biases and hallucinations—rendering them unreliable. At the same time, the continuous shortage of teachers leads to an increasing gap for language learning opportunities. While self-directed learning and intelligent tutoring systems (ITS) have the potential to alleviate some of the issues, research in this area suffers from limited available data—a result of proprietary software and data protection regulations. This calls for methods that are capable of learning efficiently from little user feedback. The goal of this thesis is to provide new language learning opportunities by devising methods that alleviate the work for teachers and that empower learners to self-directed learning. For evaluation we use C-Tests, a type of gap filling exercise that is similar to cloze tests, but less ambiguous. In the first part of this thesis, we develop novel methods for generating C-Tests. In contrast to previous works, our methods—that are based on heuristics and constrained optimization—are capable of generating C-Tests with a specific target difficulty. Moreover, our method based on mixed-integer programming allows teachers to pose specific constraints which are guaranteed to be adhered, resulting in C-Tests that better suit their needs. In the second part of this thesis, we devise a new sampling method to interactively train a C-Test selection model. We draw inspiration from active learning that aims to improve model training by only annotating instances that presumably help the model most (model objective). At first glance, active learning seems to be unfit for educational scenarios as it can lead to instances that are more difficult to annotate—or likewise, result in C-Tests that do not suit a learner’s current proficiency. Conversely, only selecting instances that suit the learner’s current proficiency—ideally with a high certainty (user objective)—will result in feedback that is uninformative for the model. We show that it is indeed possible to sample instances that optimize both and that this results in C-Tests which benefit model and learner better than sampling instances for each objective individually. Finally, we explore interactive data annotation as a scenario that could benefit from our joint sampling strategy. We first develop an application that showcases the usefulness of interactive data annotation in a scenario where domain experts can interactively annotate data to ease their work. We then show how annotation studies in general comprise a learning process, and devise annotation curricula, a method to reorder annotated instances which significantly reduces annotation time.

Alternative Abstract:

Alternative Abstract

Language

Globalisierung und Migration erhöhen zunehmend den Bedarf an Mehrsprachigkeit, welche bereits jetzt schon als eine der Schlüsselkompetenzen für Erfolg gilt. Institutionen wie die Europäische Kommission und das Hochkommissariat der Vereinten Nationen für Flüchtlinge projizieren bereits jetzt schon einen Zuwachs an Geflüchteten durch eine Verschärfung des Klimawandels. Obgleich dieser Entwicklung gibt es einen beständigen ein Mangel an Dolmetscher:innen. Gleichzeitig stellen verfügbare technische Lösungen, wie automatisierte Übersetzungsgeräte, keine adäquate Alternative dar, da diese—insbesondere für selten gesprochene Sprachen und spezifische Domänen wie Jura oder Medizin—stark hinter den Anforderungen zurückfallen. Ebenso schaffen Large Language Models (LLMs) keine Abhilfe, da diese anfällig gegenüber Stereotypisierungen und sogenannten Halluzinationen sind. Der konstante Mangel an qualifiziertem Lehrpersonal verschärft hierbei umso mehr den Mangel an Sprachlernmöglichkeiten. Diese könnten zwar durch Intelligent Tutoring Systems (ITS) bereichert werden, allerdings bedarf die Entwicklung solcher Systeme die Überwindung von hohen rechtlichen und bürokratischen Hürden aufgrund stark lizenzierter Daten und strengen Datenschutzauflagen. Dies macht Methoden notwendig, die dazu in der Lage sind, bereits aus geringem Feedback zu lernen. Das Ziel dieser Thesis ist die Schaffung neuer Sprachlernmöglichkeiten durch die Entwicklung von Methoden, welche die Arbeit des Lehrpersonals erleichtern und neue Möglichkeiten des Selbststudiums anregen. Unser Anwendungsgebiet sind sogenannte C-Tests, Lückentexte, welche sich durch eindeutigere Lücken von den cloze tests abgrenzen. Hierfür werden im ersten Teil der Thesis neue Methoden zur automatischen Generierung solcher C-Tests entwickelt. Im Gegensatz zu vergangenen Arbeiten zeichnen sich unsere Methoden, welche auf Heuristiken und Constrained Optimization basieren, dadurch aus, dass sie C-Tests mit einer bestimmten Zielschwierigkeit erstellen können. Zudem garantiert unsere, auf Mixed-Integer-Programming basierende Methodik, dass spezifische Vorgaben während der C-Test Generierung eingehalten werden. Im zweiten Teil dieser Arbeit entwickeln wir ein neues Samplingverfahren, um ein C-Test Selektionsmodell interaktiv zu trainieren. Hierfür verwenden wir Konzepte aus dem Bereich des Active Learning, welches darauf abzielt, nur Instanzen zu annotieren, welche optimal zum Modelltraining beitragen (Modell Objective). Auf den ersten Blick erscheint Active Learning ungeeignet für Sprachlernszenarien, da dies zur Selektion von Instanzen führt, die schwieriger zu annotieren sind—und dementsprechend auch unpassend für Lernende sind (d.h. zu schwierig oder zu einfach). Im Gegensatz hierzu steht die Selektion von C-Tests, welche mit großer Wahrscheinlichkeit für Lernende geeignet sind (User Objective); da diese nicht sonderlich hilfreich für das Modelltraining sind. Wir zeigen mit unserer Samplingstrategie, dass es möglich ist, Instanzen zu selektieren, welche beide Objectives gleichzeitig maximieren, und dass diese gleichzeitige Maximierung zu zur Selektion von C-Tests führt, die das Training und den Lernprozess optimieren; insgesamt sogar besser als die Optimierung der jeweiligen Einzelobjectives. Im letzten Teil der Thesis widmen wir uns der Erschließung von interaktiven Annotationsszenarien als einen weiteren Anwendungsfall, welcher von der neuen Samplingstrategie profitieren könnte. Hierfür entwickeln wir zuerst eine Applikation, die am Anwendungsfall einer Prozesslernfabrik aufzeigt, wie der Arbeitsalltag von Angestellten durch die interaktive Datenannotation erleichtert werden kann. Zuletzt zeigen wir, dass auch in Annotationsstudien Lernprozesse zu finden sind, und entwickeln Annotation Curricula, eine Methode, zur Sortierung der annotierten Instanzen. Unsere Nutzungsstudie zeigt, dass Annotation Curricula die für die Annotation benötigte Zeit signifikant reduzieren.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-272746

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Ubiquitous Knowledge Processing

TU-Projects:

DFG|GU798/20-1|Argumentationsanalys
DFG|GU798/27-1|EVIDENCE: Computer-u
EU/EFRE|20005482|TexPrax - Gurevych
HA(Hessen Agentur)|521/17-03|a! automated languag

Date Deposited:

26 Jul 2024 12:10

Last Modified:

30 Jul 2024 13:22

URI:

https://tuprints.ulb.tu-darmstadt.de/id/eprint/27274

PPN:

52020137X

Export: