Context Matters - Analysis and Integration of Contextual Factors for Stance Classification Models
Context Matters - Analysis and Integration of Contextual Factors for Stance Classification Models
Text produced by humans does not exist in isolation. It is written by one or multiple persons, written at a certain time, and targeted at a specific audience. An email by a CEO to their employees is different in style and vocabulary than a social media post by a politician to their followers, or a direct message from one friend to another. In short, text is always embedded in a context. This context can be crucial for understanding the meaning of a text.
In Natural Language Processing (NLP), context, or contextual factors, encompass any elements that are not explicitly stated within a text but influence its production, interpretation, or computational modeling. When it comes to the automatic processing of text using NLP, such context is often not explicitly modeled. While modern language models are becoming increasingly proficient in generating natural-looking text, their understanding of context is mostly restricted to what they observed during pretraining on large corpora. Scaling the size and diversity of such corpora does expose models to a variety of texts, but the unsupervised pretraining of language models does not explicitly account for contextual factors, such as time of writing or the socio-demographic background of the author. This leads to a contextual gap between a text's context and its computational representation. It can have a significant impact on the performance of language models in downstream tasks, and lead to biased or incorrect predictions.
Overcoming this gap requires the capability of integrating contextual factors and evaluating their impact on language models. In this work, we are concerned with (1) improving the integration of contextual information for better downstream task performance and (2) analyzing the influence of contextual factors on the downstream performance of language models. We choose the task of stance detection as a case study which deals with the classification of the viewpoint of a text towards a target, such as an individual, a product, or a controversial topic. Correctly identifying the stance often requires access to context about the topic being discussed, or the background of the author. It is thus a suitable task to study the impact of context on the performance of language models. Further, opinions are an integral part of everyday communication. On a micro-scale, they are important for opinion formation as an individual; on a macro-scale, opinion leaders can have significant impact on decision-making processes. To be able to analyze opinion formation on a larger scale, language models need to be extended to also consider contextual factors.
To better understand the contributions of this work, we first introduce our multi-dimensional view of context in NLP. As the term \textit{context} is ambiguously defined across several research disciplines, we introduce a definition in this paper that focuses on the relevance of context with regards to NLP tasks. We then review and categorize existing NLP research along the dimensions of our conceptualization of context. Most crucially, our notion of context differentiates between extrinsic context of the text itself (e.g., time, information about the author, or world knowledge) and intrinsic context which is introduced through the development of a NLP model itself (e.g., annotations, pretraining data, or loss function) Our specific research questions arise from two major challenges regarding context in NLP; how can we make different contextual factors accessible for LMs (integration) and how do we measure the influence of context on LM output (evaluation)?
We first study the influence of annotation quality on language models' downstream task performance. The annotators' proficiency and the design of the annotation study are contextual factors directly influencing annotation quality and therefore indirectly model performance. As many tasks in NLP require a substantial amount of labeled data, annotation efficiency is crucial to be able to annotate large resources. Thus, we propose to use model-generated label suggestions during annotation. We conduct a multi-group annotation study on German Covid-19 related twitter posts and show that label suggestions help novice annotators to improve their annotation quality, compared to annotators without label suggestions. The differences in annotation quality for the annotator groups are confirmed on downstream task performance when used for model training. More crucially, we do not observe any significant annotation biases introduced by model suggestions.
Another factor influencing model performance is its domain-specific pretraining. We showcase the role of domain specificity as a contextual factor contributing to model performance for stance detection. Our results demonstrate that adapting a language model to the target domain via domain-specific pretraining improves its' performance. In addition, we investigate the role of mixed-language model training and demonstrate that monolingual language models outperform their multilingual counterparts for opinion mining tasks.
While the importance of context for stance detection has been recognized, the integration of such factors into language models is still an open research question. Most existing approaches require manual feature engineering or are limited to specific domains, such as social media. Therefore, we propose a dual-encoder architecture to enable simple and robust integration of text providing additional context for the input. Our framework enables context integration in a robust manner leveraging a cross-attention mechanism between two encoder models. We compare different context extraction approaches and identify prompting instruction-tuned large language models as the best option, both in terms of performance and ease of usage.
With the increasing prominence of large language models in NLP, prompting has emerged as an efficient alternative to standard fine-tuning. While these models are readily used across an increasing number of applications, the extent to which they are sensitive to contextual information in the prompt is still largely unexplored. Specifically, the capability of a large language model to adapt its output based on socio-demographic information is crucial for many NLP applications, such as stance detection or toxicity classification. Thus, we conduct an analysis of the impact of socio-demographic context within prompts on large language models' predictions. Our results show consistent sensitivity for all models under scrutiny while the extent of variation largely depends on the model and datasets. Further, we demonstrate that socio-demographic information can be used to improve zero-shot performance, however, little variations in the prompt can lead to significant changes in predictions, thereby confirming a lack of robustness.
Finally, we extend our analysis on the impact of context by adding social media metadata, such as a description about the author, or synthetically generated topic summaries on the zero-shot performance of stance detection in Twitter data. Our results confirm that such context integration can improve model performance, but is dependent on the dataset and model in use. Crucially, our analysis shows that while all context information is potentially informative, LLMs lack the capability to differentiate relevant from irrelevant information.
With the increasing usage of (large) language models in everyday life, making sure that they are able to understand and process context is crucial. This thesis offers both conceptual and practical advances in how context can be represented, integrated, and evaluated within NLP pipelines. Based on a unified, multi-dimensional view on context, our work investigates different ways of integrating context into the NLP pipeline for text classification and contributes evaluation schemata to evaluate their influence on model output. As such, we not only improve performance on stance detection but also establish methodologies that other researchers can adopt for classification, generation, or bias analysis. In doing so, this work informs future efforts to build more transparent, fair, and context-aware NLP systems across a wide array of applications.
Text existiert nicht in Isolation. Er wird von einer oder mehreren Personen geschrieben, zu einem bestimmten Zeitpunkt verfasst und richtet sich an ein bestimmtes Publikum. Eine E-Mail eines Geschäftsführers an seine Mitarbeiter hat einen anderen Stil und ein anderes Vokabular als ein Social-Media-Post eines Politikers an seine Follower oder eine Direktnachricht von einem Freund an einen anderen. Kurz gesagt, ein Text ist immer in einen Kontext eingebettet. Dieser Kontext kann entscheidend sein, um die Bedeutung eines Textes zu verstehen.
In der natürlichen Sprachverarbeitung (Natural Language Processing, NLP) umfasst der Begriff Kontext oder kontextuelle Faktoren alle Elemente, die nicht explizit in einem Text enthalten sind, aber seine Produktion, Interpretation oder computergestützte Modellierung beeinflussen. Bei der automatischen Verarbeitung von Texten mit NLP wird dieser Kontext oft nicht explizit modelliert. Moderne Sprachmodelle werden zwar immer besser darin, natürlich aussehende Texte zu erzeugen, aber ihr Verständnis von Kontext beschränkt sich meist auf das, was sie beim Vortraining in großen Korpora beobachtet haben oder vom Nutzer über die Eingabe an zusätzlichen Informationen erhalten. Durch die Skalierung des Umfangs und der Vielfalt solcher Korpora werden die Modelle zwar einer Vielzahl von Texten ausgesetzt, aber das unüberwachte Vortraining von Sprachmodellen berücksichtigt nicht explizit kontextuelle Faktoren wie den Zeitpunkt des Schreibens oder den soziodemografischen Hintergrund des Autors. Dies führt zu einer kontextuellen Lücke zwischen dem Kontext eines Textes und seiner computergestützten Darstellung. Dies kann sich erheblich auf die Leistung von Sprachmodellen bei spezifischen NLP Aufgaben auswirken und zu verzerrten oder falschen Vorhersagen führen.
Die Überwindung dieser Lücke erfordert die Fähigkeit, kontextuelle Faktoren zu integrieren und ihre Auswirkungen auf Sprachmodelle zu evaluieren. In dieser Arbeit befassen wir uns mit (1) der Verbesserung der Integration von Kontextinformationen für eine bessere aufgabenspezifische Leistung in NLP und (2) der Analyse des Einflusses von Kontextfaktoren auf die Leistung von Sprachmodellen. Als Fallstudie wählen wir die Aufgabe der Erkennung von Meinungspolarität. Hier geht es um die Klassifizierung des Standpunkts des Autors eines Textes gegenüber einem Ziel, z. B. einer Person, einem Produkt oder einem kontroversen Thema. Die korrekte Erkennung des Standpunkts erfordert oft den Zugang zu Kontext über das diskutierte Thema oder den Hintergrund des Autors. Es handelt sich also um eine geeignete Aufgabe, um den Einfluss des Kontexts auf die Leistung von Sprachmodellen zu untersuchen. Außerdem sind Meinungen ein fester Bestandteil der Alltagskommunikation. Auf der Mikroebene sind sie wichtig für die Meinungsbildung des Einzelnen, auf der Makroebene können Meinungsführer einen erheblichen Einfluss auf Entscheidungsprozesse haben. Um die Meinungsbildung in einem größeren Maßstab analysieren zu können, müssen Sprachmodelle dahingehend erweitert werden, um auch kontextuelle Faktoren zu berücksichtigen.
Um die Beiträge dieser Arbeit besser zu verstehen, stellen wir zunächst unsere mehrdimensionale Sichtweise von Kontext in NLP vor. Da der Begriff ''Kontext'' in verschiedenen Forschungsdisziplinen nicht eindeutig definiert ist, führen wir in dieser Arbeit eine Definition ein, die sich auf die Relevanz von Kontext in Bezug auf spezifische Anwendungsfälle konzentriert. Wir überprüfen und kategorisieren dann die bestehende NLP-Forschung entlang der Dimensionen unserer Konzeptualisierung von Kontext. Entscheidend ist, dass unser Konzept von Kontext zwischen dem extrinsischen Kontext des Textes selbst (z.B. Zeit, Informationen über den Autor oder Weltwissen) und dem intrinsischen Kontext unterscheidet, der durch die Entwicklung eines NLP-Modells selbst eingeführt wird (z.B. Annotationen, Pretraining-Daten oder Trainings-Details). Unsere spezifischen Forschungsfragen ergeben sich aus zwei großen Herausforderungen in Bezug auf Kontext in NLP: Wie können wir verschiedene Kontextfaktoren für LMs zugänglich machen (Integration) und wie messen wir den Einfluss des Kontexts auf die Ausgabe des Modells (Bewertung)?
Zunächst untersuchen wir den Einfluss der Annotationsqualität auf die Leistung von Sprachmodellen bei nachgelagerten Aufgaben. Die Kompetenz der Annotatoren und das Design der Annotationsstudie sind kontextuelle Faktoren, die sich direkt auf die Annotationsqualität und damit indirekt auf die Modellleistung auswirken. Da viele Aufgaben im Bereich NLP eine beträchtliche Menge an gelabelten Daten erfordern, ist die Effizienz der Annotation entscheidend, um große Ressourcen annotieren zu können. Wir schlagen daher vor, während der Annotation modellgenerierte Vorschläge für die Beschriftung zu verwenden. Während sich solche Vorschläge für erfahrene Annotatoren als vorteilhaft erwiesen haben, ist unklar, ob sie auch die Effizienz von Annotatoren ohne umfangreiche aufgabenspezifische Annotationsausbildung (z. B. Studenten oder Crowdworker) verbessern können. Wir führen eine Multigruppen-Annotation-Studie zu deutschen Covid-19-bezogenen Twitter-Posts durch und zeigen, dass Label-Vorschläge unerfahrenen Annotatoren helfen, ihre Annotationsqualität zu verbessern, verglichen mit Annotatoren ohne Label-Vorschläge. Die Unterschiede in der Annotationsqualität zwischen den Annotatorengruppen werden durch die nachgelagerten Aufgaben bestätigt, wenn sie für das Modelltraining verwendet werden. Noch entscheidender ist, dass wir keine signifikanten Verzerrungen bei der Annotation durch Modellvorschläge feststellen konnten.
Ein weiterer Faktor, der die Leistung des Modells beeinflusst, ist sein domänenspezifisches Vortraining. Wir zeigen die Rolle der Domänenspezifität als einen kontextuellen Faktor, der zur Modellleistung bei der Erkennung von Haltungen beiträgt. Unsere Ergebnisse zeigen, dass die Anpassung eines Sprachmodells an die Zieldomäne durch domänenspezifisches Vortraining seine Leistung verbessert. Darüber hinaus untersuchen wir die Rolle von gemischtsprachigem Modelltraining und zeigen, dass einsprachige Sprachmodelle ihre mehrsprachigen Gegenstücke bei Aufgaben der Meinungsfindung übertreffen.
Obwohl die Bedeutung des Kontexts für die Erkennung von Haltungen erkannt wurde, ist die Integration solcher Faktoren in Sprachmodelle immer noch eine offene Forschungsfrage. Die meisten bestehenden Ansätze erfordern manuelles Feature-Engineering oder sind auf bestimmte Bereiche, wie z. B. soziale Medien, beschränkt. Daher schlagen wir eine Dual-Encoder-Architektur vor, die eine einfache und robuste Integration von Text ermöglicht, der zusätzlichen Kontext für die Eingabe liefert. Unser Framework ermöglicht eine robuste Kontextintegration, indem es einen Cross-Attention-Mechanismus zwischen zwei Encoder-Modellen nutzt. Wir vergleichen verschiedene Ansätze zur Kontextextextraktion und stellen fest, dass auf Prompting-Instruktionen abgestimmte große Sprachmodelle die beste Option darstellen, sowohl in Bezug auf die Leistung als auch auf die Benutzerfreundlichkeit.
Mit der zunehmenden Bedeutung von großen Sprachmodellen im NLP hat sich Prompting als effiziente Alternative zur Standard-Feinabstimmung herauskristallisiert. Während diese Modelle in immer mehr Anwendungen eingesetzt werden, ist noch weitgehend unerforscht, inwieweit sie auf kontextuelle Informationen im Prompt reagieren. Insbesondere die Fähigkeit eines großen Sprachmodells, seine Ausgabe auf der Grundlage soziodemografischer Informationen anzupassen, ist für viele NLP-Anwendungen, wie z. B. die Erkennung von Haltungen oder die Klassifizierung von Toxizität, entscheidend. Daher führen wir eine Analyse des Einflusses des soziodemographischen Kontexts innerhalb von Prompts auf die Vorhersagen großer Sprachmodelle durch. Mehrere Arbeiten haben das Potenzial und die Fallstricke von soziodemografischen Prompts erforscht, aber es fehlt an umfassender Forschung darüber, wie empfindlich LLMs auf soziodemografische Informationen reagieren und ob diese zur Leistungssteigerung genutzt werden können. Unsere Ergebnisse zeigen eine konsistente Sensitivität für alle untersuchten Modelle, wobei das Ausmaß der Variation weitgehend von dem Modell und den Datensätzen abhängt. Darüber hinaus zeigen wir, dass soziodemografische Informationen verwendet werden können, um die Zero-Shot-Leistung zu verbessern, jedoch können kleine Variationen in der Eingabeaufforderung zu signifikanten Änderungen in den Vorhersagen führen, was einen Mangel an Robustheit bestätigt.
Schließlich erweitern wir unsere Analyse der Auswirkungen des Kontexts durch Hinzufügen von Metadaten aus sozialen Medien, wie z. B. eine Beschreibung des Autors oder synthetisch generierte Themenzusammenfassungen, auf die Zero-Shot-Leistung der Stance-Erkennung in Twitter-Daten. Unsere Ergebnisse bestätigen, dass eine solche Kontextintegration die Leistung des Modells verbessern kann, aber von dem verwendeten Datensatz und Modell abhängt. Entscheidend ist, dass unsere Analyse zeigt, dass alle Kontextinformationen zwar potenziell informativ sind, LLMs aber nicht in der Lage sind, relevante von irrelevanten Informationen zu unterscheiden.
Angesichts der zunehmenden Verwendung von (großen) Sprachmodellen im Alltag ist es von entscheidender Bedeutung, sicherzustellen, dass sie in der Lage sind, Kontext zu verstehen und zu verarbeiten. Diese Arbeit bietet sowohl konzeptionelle als auch praktische Fortschritte in der Art und Weise, wie Kontext in NLP-Pipelines dargestellt, integriert und ausgewertet werden kann. Auf der Grundlage einer einheitlichen, mehrdimensionalen Sichtweise von Kontext untersucht unsere Arbeit verschiedene Möglichkeiten der Integration von Kontext in die NLP-Pipeline für die Textklassifikation und liefert Bewertungsschemata, um deren Einfluss auf die Modellausgabe zu evaluieren. Auf diese Weise verbessern wir nicht nur die Leistung bei der Erkennung von Haltungen, sondern entwickeln auch Methoden, die andere Forscher für die Klassifizierung, Generierung oder Bias-Analyse übernehmen können. Damit trägt diese Arbeit zu zukünftigen Bemühungen bei, transparentere, gerechtere und kontextbewusste NLP-Systeme für ein breites Spektrum von Anwendungen zu entwickeln.

