Automatic Question Generation to Support Reading Comprehension of Learners - Content Selection, Neural Question Generation, and Educational Evaluation

Steuer, Tim (2023)
Automatic Question Generation to Support Reading Comprehension of Learners - Content Selection, Neural Question Generation, and Educational Evaluation.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00023032
Ph.D. Thesis, Primary publication, Publisher's Version

Text
2022-12-21_Steuer_Tim.pdf
Copyright Information: CC BY-NC-SA 4.0 International - Creative Commons, Attribution NonCommercial, ShareAlike.
Download (2MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Automatic Question Generation to Support Reading Comprehension of Learners - Content Selection, Neural Question Generation, and Educational Evaluation

Language:

English

Referees:

Steinmetz, Prof. Dr. Ralf ; Schroeder, Prof. Dr. Ulrik

Date:

2023

Place of Publication:

Darmstadt

Collation:

viii, 163 Seiten

Date of oral examination:

16 December 2022

DOI:

10.26083/tuprints-00023032

Abstract:

Simply reading texts passively without actively engaging with their content is suboptimal for text comprehension since learners may miss crucial concepts or misunderstand essential ideas. In contrast, engaging learners actively by asking questions fosters text comprehension. However, educational resources frequently lack questions. Textbooks often contain only a few at the end of a chapter, and informal learning resources such as Wikipedia lack them entirely. Thus, in this thesis, we study to what extent questions about educational science texts can be automatically generated, tackling two research questions. The first question concerns selecting learning-relevant passages to guide the generation process. The second question investigates the generated questions' potential effects and applicability in reading comprehension scenarios.

Our first contribution improves the understanding of neural question generation's quality in education. We find that the generators' high linguistic quality transfers to educational texts but that they require guidance by educational content selection. In consequence, we study multiple educational context and answer selection mechanisms.

In our second contribution, we propose novel context selection approaches which target question-worthy sentences in texts. In contrast to previous works, our context selectors are guided by educational theory. The proposed methods perform competitive to related work while operating with educationally motivated decision criteria that are easier to understand for educational experts.

The third contribution addresses answer selection methods to guide neural question generation with expected answers. Our experiments highlight the need for educational corpora for the task. Models trained on noneducational corpora do not transfer well to the educational domain. Given this discrepancy, we propose a novel corpus construction approach. It automatically derives educational answer selection corpora from textbooks. We verify the approach's usefulness by showing that neural models trained on the constructed corpora learn to detect learning-relevant concepts.

In our last contribution, we use the insights from the previous experiments to design, implement, and evaluate an automatic question generator for educational use. We evaluate the proposed generator intrinsically with an expert annotation study and extrinsically with an empirical reading comprehension study. The two evaluation scenarios provide a nuanced view of the generated questions' strengths and weaknesses. Expert annotations attribute an educational value to roughly 60 % of the questions but also reveal various ways in which the questions still fall short of the quality experts desire. Furthermore, the reader-based evaluation indicates that the proposed educational question generator increases learning outcomes compared to a no-question control group.

In summary, the results of the thesis improve the understanding of the content selection tasks in educational question generation and provide evidence that it can improve reading comprehension. As such, the proposed approaches are promising tools for authors and learners to promote active reading and thus foster text comprehension.

Alternative Abstract:

Alternative Abstract

Language

Alleiniges Durchlesen eines Textes ohne aktive Auseinandersetzung mit dessen Inhalt führt oft zu mangelndem Textverständnis, denn Lernende überlesen häufig Kernkonzepte oder missverstehen wesentliche Ideen. Um das Verständnis eines Textes zu verbessern, sind Fragen hilfreich. Allerdings mangelt es vielen Texten an Fragen: Lehrbücher enthalten oft nur wenige Fragen und informelle Lernressourcen wie Wikipedia enthalten meist überhaupt keine.

In der nachfolgenden Arbeit wird deshalb erforscht, inwieweit Fragen zu Fachtexten automatisch generiert werden können und es werden zwei Forschungsfragen betrachtet: In der ersten Forschungsfrage wird die automatische Auswahl lernrelevanter Inhalte zur Steuerung des Fragegenerierungsprozesses untersucht. Die zweite Forschungsfrage befasst sich mit dem Einsatz der generierten Fragen in Lernszenarien.

Im Rahmen der Forschungsfragen wird zunächst die linguistische Güte neuronaler Fragegeneratoren in der Bildung analysiert. Bei der Analyse ergibt sich, dass die hohe sprachliche Qualität der generierten Fragen auch auf Fachtexten besteht. Jedoch werden durch übliche Fragegeneratoren viele nicht-lernrelevante Fragen erzeugt.

Infolgedessen wird die automatische Auswahl lernrelevanter Sätze und Antworten zur Verbesserung der Fragegenerierung untersucht. Es wird eine neuartige, pädagogisch motivierte Kontextselektion zur Auswahl lernrelevanter Sätze konzipiert, implementiert und evaluiert. Der vorgeschlagene Ansatz erzielt eine vergleichbare Auswahlgenauigkeit wie der Stand der Forschung und ist durch seine pädagogisch motivierten Entscheidungskriterien für Anwender leichter verständlich.

Weiterhin wird in der Dissertation die Antwortselektion untersucht, um den Fragegenerierungsprozess durch erwartete Antworten zu verbessern. Die Experimente verdeutlichen die Relevanz der Korpora-Auswahl: Modelle, die auf allgemeinen Antwortselektionskorpora trainiert werden, selektieren oftmals Antworten, die nicht zwangsläufig lernrelevant sind. Infolgedessen wird ein Ansatz zur automatischen Konstruktion von Korpora mithilfe lernrelevanter Konzepte aus Lehrbüchern vorgeschlagen. Die Nützlichkeit des Ansatzes zeigt sich dadurch, dass neuronale Modelle, die auf den konstruierten Korpora trainiert wurden, lernrelevante Konzepte in Texten erkennen.

Basierend auf den vorangegangenen Experimenten wird ein automatischer Fragegenerator zur Verbesserung des Leseverständnisses konzipiert, implementiert und evaluiert. Dieser neuartige Ansatz wird mit einer intrinsischen Evaluation mit Bildungsexperten und einer extrinsischen Evaluation mit einer empirischen Studie zum Leseverständnis evaluiert. Beide Evaluationen bieten einen differenzierten Blick auf die Stärken und Schwächen des Fragegenerators. Experten bewerten ca. 60 % der generierten Fragen als hilfreich, auch wenn manche Fragen in verschiedener Hinsicht hinter der gewünschten Qualität zurückblieben. Weiterhin erhöhen die Fragen des vorgeschlagenen Ansatzes den Lernerfolg im Vergleich zu einer Kontrollgruppe.

Zusammenfassend tragen die Ergebnisse dieser Dissertation zu einem tiefergehenden Verständnis von automatischer Inhaltsauswahl für Fragegeneratoren im Bildungsbereich bei und liefern dazu neuartige Ansätze zur Kontextselektion, Antwortselektion und zur lernrelevanten Fragegenerierung. In einer durchgeführten Studie verbesserte der vorgeschlagene Fragegenerierungsprozess das Leseverständnis. Somit sind die vorgeschlagenen Ansätze zur Fragegenerierung wahrscheinlich ein nützliches Hilfsmittel für Autoren und Lernende, um aktives Lesen und somit das Leseverständnis zu fördern.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-230328

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

18 Department of Electrical Engineering and Information Technology > Institute of Computer Engineering > Multimedia Communications

Date Deposited:

01 Feb 2023 13:09

Last Modified: