Predicting and Manipulating the Difficulty of Text-Completion Exercises for Language Learning

The increasing levels of international communication in all aspects of life lead to a growing demand of language skills. Traditional language courses compete nowadays with a wide range of online offerings that promise higher flexibility. However, most platforms provide rather static educational content and do not yet incorporate the recent progress in educational natural language processing. In the last years, many researchers developed new methods for automatic exercise generation, but the generated output is often either too easy or too difficult to be used with real learners. In this thesis, we address the task of predicting and manipulating the difficulty of text-completion exercises based on measurable linguistic properties to bridge the gap between technical ambition and educational needs. The main contribution consists of a theoretical model and a computational implementation for exercise difficulty prediction on the item level. This is the first automatic approach that reaches human performance levels and is applicable to various languages and exercise types.

The exercises in this thesis differ with respect to the exercise content and the exercise format. As theoretical basis for the thesis, we develop a new difficulty model that combines content and format factors and further distinguishes the dimensions of text difficulty, word difficulty, candidate ambiguity, and item dependency. It is targeted at text-completion exercises that are a common method for fast language proficiency tests. The empirical basis for the thesis consists of five difficulty datasets containing exercises annotated with learner performance data. The difficulty is expressed as the ratio of learners who fail to solve the exercise. In order to predict the difficulty for unseen exercises, we implement the four dimensions of the model as computational measures. For each dimension, the thesis contains the discussion and implementation of existing measures, the development of new approaches, and an experimental evaluation on sub-tasks. In particular, we developed new approaches for the tasks of cognate production, spelling difficulty prediction, and candidate ambiguity evaluation. For the main experiments, the individual measures are combined into an machine learning approach to predict the difficulty of C-tests, X-tests and cloze tests in English, German, and French. The performance of human experts on the same task is determined by conducting an annotation study to provide a basis for comparison. The quality of the automatic prediction reaches the levels of human accuracy for the largest datasets.

If we can predict the difficulty of exercises, we are able to manipulate the difficulty. We develop a new approach for exercise generation and selection that is based on the prediction model. It reaches high acceptance ratings by human users and can be directly integrated into real-world scenarios. In addition, the measures for word difficulty and candidate ambiguity are used to improve the tasks of content and distractor manipulation. Previous work for exercise difficulty was commonly limited to manual correlation analyses using learner results. The computational approach of this thesis makes it possible to predict the difficulty of text-completion exercises in advance. This is an important contribution towards the goal of completely automated exercise generation for language learning.

Freie Schlagworte

difficulty prediction...

enlp

CALL

ICALL

language learning

educational natural l...

natural language proc...

computer-assisted lan...

exercise generation

text difficulty

readability

item difficulty

Sprache

Englisch

Alternativtitel

Vorhersage und Manipulation der Schwierigkeit von Übungen zur Textvervollständigung für Sprachlerner

Alternatives Abstract

Durch die zunehmende internationale Kommunikation in allen Lebensbereichen werden Sprachkenntnisse immer gefragter. Traditionelle Sprachkurse konkurrieren mittlerweile mit zahlreichen Online-Angeboten, die eine höhere Flexibilität versprechen. Die meisten E-learning-Kurse beruhen jedoch auf eher statischen Lerninhalten und berücksichtigen noch nicht die jüngsten Entwicklungen der Sprachtechnologie. In den letzen Jahren wurden viele neue Methoden zur automatischen Aufgabengenerierung entwickelt, aber die resultierenden Aufgaben sind häufig zu einfach oder zu schwierig um in echten Lernszenarien eingesetzt zu werden. In dieser Dissertation geht es darum, die Schwierigkeit von Sprachlernaufgaben anhand messbarer linguistischer Merkmale automatisch vorherzusagen und anzupassen. Der Hauptbeitrag besteht in der Entwicklung eines theoretischen Modells und seiner Implementierung für die automatische Schwierigkeitsvorhersage von Aufgaben zur Textvervollständigung. Die entwickelte Methode ist die erste, die das Qualitätsniveau menschlicher Experten für die Schwierigkeitsvorhersage erreicht und für verschiedene Aufgabentypen und Sprachen eingesetzt werden kann.

Die theoretische Grundlage für diese Arbeit wird durch die Entwicklung eines neuen Schwierigkeitsmodells gelegt, das sowohl den Aufgabeninhalt als auch das Aufgabenformat berücksichtigt und dabei vier Dimensionen unterscheidet: die Textschwierigkeit, die Wortschwierigkeit der Lösung, die Ambiguität der Lösungskandidaten und die gegenseitige Abhängigkeit von Teilaufgaben. Im Fokus stehen Aufgaben, die dem Prinzip der reduzierten Redundanz folgen und vom Lerner die Vervollständigung eines lückenhaften Textes erfordern. Die empirische Grundlage besteht aus fünf Datensätzen mit Aufgaben und den entsprechenden Lösungsergebnissen von Sprachlernern. Die Schwierigkeit einer Aufgabe ergibt sich aus dem Anteil der Lerner, die die Aufgabe nicht lösen können. Um die Schwierigkeit von neuen Aufgaben vorherzusagen, werden automatische Methoden entwickelt, die die vier Dimensionen des Modells abbilden. Für jede Dimension werden existierende Methoden diskutiert und implementiert und neue Ansätze entwickelt und evaluiert. Die neuen Methoden beinhalten insbesondere Lösungen für die Produktion von Kognaten, die Vorhersage von Rechtschreibschwierigkeiten und die Abschätzung der Ambiguität von Lösungskandidaten.

Die vier Dimensionen werden dann in einem maschinellen Lernverfahren zusammen geführt, um die Schwierigkeit von sogenannten C-tests, X-tests und Cloze Tests für Englisch, Französisch und Deutsch vorherzusagen. Die menschliche Fähigkeit, die Schwierigkeit von Aufgaben einzuschätzen wird zudem in einer Annotationsstudie erhoben, um eine Vergleichsbasis heranziehen zu können. Es zeigt sich, dass die automatische Vorhersagequalität der einer erfahrenen Lehrkraft entspricht, wenn die Datensätze groß genug sind.

Die guten Ergebnisse der Schwierigkeitsvorhersage werden schließlich verwendet, um die Schwierigkeit von Aufgaben automatisch zu justieren. Der neu entwickelte Ansatz zur Generierung und Auswahl von Aufgaben erzielt hohe Akzeptanzwerte bei pädagogischen Fachkräften und kann direkt in ihre Arbeitsroutinen integriert werden. Darüber hinaus werden die Methoden für die Bestimmung der Wortschwierigkeit und der Ambiguität zwischen Lösungskandidaten eingesetzt, um die Schwierigkeit von Aufgabentexten und Lösungskandidaten zu manipulieren. Frühere Arbeiten zur Aufgabenschwierigkeit waren weitestgehend auf manuelle Korrelationsanalysen von Lernerdaten beschränkt. Der automatische Ansatz dieser Arbeit ermöglicht es, die Schwierigkeit von Aufgaben vorab zu bestimmen. Dies ist ein wichtiger Beitrag auf dem Weg zur komplett automatischen Aufgabengenerierung für Sprachlerner.

Fachbereich/-gebiet

20 Fachbereich Informatik > Ubiquitäre Wissensverarbeitung

DDC

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

400 Sprache > 400 Sprache, Linguistik

Institution

Technische Universität Darmstadt

Ort

Darmstadt