The Role of Linguistics in Probing Task Design

Over the past decades natural language processing has evolved from a niche research area into a fast-paced and multi-faceted discipline that attracts thousands of contributions from academia and industry and feeds into real-world applications. Despite the recent successes, natural language processing models still struggle to generalize across domains, suffer from biases and lack transparency. Aiming to get a better understanding of how and why modern NLP systems make their predictions for complex end tasks, a line of research in probing attempts to interpret the behavior of NLP models using basic probing tasks. Linguistic corpora are a natural source of such tasks, and linguistic phenomena like part of speech, syntax and role semantics are often used in probing studies.

The goal of probing is to find out what information can be easily extracted from a pre-trained NLP model or representation. To ensure that the information is extracted from the NLP model and not learned during the probing study itself, probing models are kept as simple and transparent as possible, exposing and augmenting conceptual inconsistencies between NLP models and linguistic resources. In this thesis we investigate how linguistic conceptualization can affect probing models, setups and results.

In Chapter 2 we investigate the gap between the targets of classical type-level word embedding models like word2vec, and the items of lexical resources and similarity benchmarks. We show that the lack of conceptual alignment between word embedding vocabularies and lexical resources penalizes the word embedding models in both benchmark-based and our novel resource-based evaluation scenario. We demonstrate that simple preprocessing techniques like lemmatization and POS tagging can partially mitigate the issue, leading to a better match between word embeddings and lexicons.

Linguistics often has more than one way of describing a certain phenomenon. In Chapter 3 we conduct an extensive study of the effects of lingustic formalism on probing modern pre-trained contextualized encoders like BERT. We use role semantics as an excellent example of a data-rich multi-framework phenomenon. We show that the choice of linguistic formalism can affect the results of probing studies, and deliver additional insights on the impact of dataset size, domain, and task architecture on probing.

Apart from mere labeling choices, linguistic theories might differ in the very way of conceptualizing the task. Whereas mainstream NLP has treated semantic roles as a categorical phenomenon, an alternative, prominence-based view opens new opportunities for probing. In Chapter 4 we investigate prominence-based probing models for role semantics, incl. semantic proto-roles and our novel regression-based role probe. Our results indicate that pre-trained language models like BERT might encode argument prominence. Finally, we propose an operationalization of thematic role hierarchy - a widely used linguistic tool to describe syntactic behavior of verbs, and show that thematic role hierarchies can be extracted from text corpora and transfer cross-lingually.

The results of our work demonstrate the importance of linguistic conceptualization for probing studies, and highlight the dangers and the opportunities associated with using linguistics as a meta-langauge for NLP model interpretation.

Sprache

Englisch

Alternativtitel

Die Rolle der Linguistik bei der Gestaltung von Probing Tasks

Alternatives Abstract

In den letzten Jahrzehnten hat sich die automatische Sprachverarbeitung von einem Nischenforschungsbereich zu einer dynamischen und vielschichtigen Disziplin entwickelt, die Tausende von Forschungsbeiträgen aus Akademie und Industrie anzieht und in praktische Anwendungen einfließt. Trotz der aktuellen Erfolge haben die Sprachverarbeitungsmodelle nach wie vor Schwierigkeiten bei der Generalisierung, leiden unter systematischen Fehlern und mangelnder Transparenz. Mit dem Ziel, besser zu verstehen, wie und warum moderne NLP-Systeme ihre Vorhersagen für komplexe Endaufgaben machen, versucht der Forschungsbereich Probing, das Verhalten von NLP-Modellen anhand grundlegender Probing-Tasks zu interpretieren. Linguistische Korpora sind eine ideale Quelle für solche Aufgaben, und linguistische Phänomene wie Wortarten, Syntax und Rollensemantik werden häufig in Probing-Studien verwendet.

Das Ziel des Probings ist es, herauszufinden, welche Informationen leicht aus einem vortrainierten NLP-Modell oder einer Repräsentation extrahiert werden können. Um sicherzustellen, dass die Informationen aus dem NLP-Modell extrahiert und nicht während der Probing-Studie selbst erlernt werden, werden Probing-Modelle so einfach und transparent wie möglich gehalten, wodurch konzeptionelle Inkonsistenzen zwischen NLP-Modellen und linguistischen Ressourcen deutlich werden und verstärkt werden. In dieser Dissertation wird untersucht, wie die linguistische Konzeptualisierung die Probing-Modelle, Setups und Ergebnisse beeinflussen kann.

In Kapitel 2 untersuchen wir die Lücke zwischen den Zielen klassischer Type-Level-Worteinbettungsmodelle wie word2vec und den Elementen lexikalischer Ressourcen und Ähnlichkeits-Benchmarks. Wir zeigen, dass die fehlende konzeptionelle Übereinstimmung zwischen den Worteinbettungsvokabularen und den lexikalischen Ressourcen die Worteinbettungsmodelle sowohl in Benchmark-basierten als auch in unserem neuartigen ressourcenbasierten Evaluationsszenario benachteiligt. Wir zeigen, dass einfache Vorverarbeitungstechniken wie Lemmatisierung und POS-Tagging das Problem teilweise entschärfen können, was zu einer besseren Übereinstimmung zwischen Worteinbettungen und Lexika führt.

In der Linguistik gibt es oft mehr als eine Art, ein bestimmtes Phänomen zu beschreiben. In Kapitel 3 führen wir eine ausführliche Studie über die Auswirkungen des linguistischen Formalismus auf das Sondieren moderner vortrainierter kontextualisierter Encoder wie BERT durch. Wir verwenden die Rollensemantik als hervorragendes Beispiel für ein datenreiches Multi-Framework-Phänomen. Wir zeigen, dass die Wahl des linguistischen Formalismus die Ergebnisse von Sondierungsstudien beeinflussen kann, und liefern zusätzliche Erkenntnisse über den Einfluss von Datensatzgröße, Domäne und Aufgabenarchitektur auf das Probing.

Abgesehen von der Wahl der Bezeichnungen unterscheiden sich linguistische Theorien auch in der Art und Weise, wie die Aufgabe konzeptualisiert wird. Während das Mainstream-NLP semantische Rollen als ein kategoriales Phänomen behandelt hat, eröffnet eine alternative, auf Prominenz basierende Sichtweise neue Möglichkeiten für das Probing. In Kapitel 4 untersuchen wir prominenzbasierte Probe-Modelle für Rollensemantik, einschließlich semantischer Proto-Rollen und unserer neuen regressionsbasierten Rollen-Probe. Unsere Ergebnisse deuten darauf hin, dass vortrainierte Sprachmodelle wie BERT die Argumentprominenz kodieren können. Schließlich schlagen wir eine Operationalisierung der thematischen Rollenhierarchie vor - ein weit verbreitetes linguistisches Instrument zur Beschreibung des syntaktischen Verhaltens von Verben - und zeigen, dass thematische Rollenhierarchien aus Textkorpora extrahiert und sprachübergreifend übertragen werden können.

Die Ergebnisse unserer Arbeit zeigen, wie wichtig die linguistische Konzeptualisierung für Probingstudien ist, und verdeutlichen die Gefahren und Möglichkeiten, die mit der Verwendung der Linguistik als Metasprache für die Interpretation von NLP-Modellen verbunden sind.

Fachbereich/-gebiet

20 Fachbereich Informatik > Ubiquitäre Wissensverarbeitung

DDC

000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik

400 Sprache > 400 Sprache, Linguistik

Institution

Technische Universität Darmstadt

Ort

Darmstadt