Modular and Parameter-efficient Fine-tuning of Language Models

Pfeiffer, Jonas (2023)
Modular and Parameter-efficient Fine-tuning of Language Models.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00024565
Ph.D. Thesis, Primary publication, Publisher's Version

Text
PhD_thesis_Jonas (9).pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (19MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Modular and Parameter-efficient Fine-tuning of Language Models

Language:

English

Referees:

Gurevych, Prof. Dr. Iryna ; Glavaš, Prof. Dr. Goran ; Vulić, Prof. Dr. Ivan

Date:

7 November 2023

Place of Publication:

Darmstadt

Collation:

xiv, 164 Seiten

Date of oral examination:

21 April 2023

DOI:

10.26083/tuprints-00024565

Abstract:

Transfer learning has recently become the dominant paradigm of natural language processing. Models pre-trained on unlabeled data can be fine-tuned for downstream tasks based on only a handful of examples. A long-term goal is to develop models that acquire new information at scale without incurring negative transfer and that generalize systematically to new settings. Modular deep learning has emerged as a promising solution to these challenges, by updating parameter-efficient units of computation locally and asynchronously. These units are often implemented as modules that are interlaid between layers, interpolated with pre-trained parameters, or concatenated to the inputs. Conditioned on tasks or examples, information is routed to multiple modules through a fixed or learned function, followed by an aggregation of their outputs. This property enables compositional generalization, by disentangling knowledge and recombining it in new ways.

In this thesis, we provide a unified view of modularity in natural language processing, spanning across four dimensions; specifically, we disentangle modularity into computation functions, routing functions, aggregation functions, and the training setting. Along those axes, we propose multiple contributions: a research framework which encompasses all dimensions; a novel attention-based aggregation function which combines the knowledge stored within different modules; routing mechanisms for out of distribution generalization in cross-lingual transfer scenarios; a dataset and modular training strategies for multimodal and multilingual transfer learning; a modular pre-training strategy to tackle catastrophic interference of heterogeneous data.

Alternative Abstract:

Alternative Abstract

Language

Transferlernen ist in letzter Zeit zum vorherrschenden Paradigma der Verarbeitung natürlicher Sprache geworden. Modelle, die mit unbeschrifteten Daten trainiert wurden, können auf der Grundlage von nur einer Handvoll Beispiele für die nachfolgenden Aufgaben feinabgestimmt werden. Ein langfristiges Ziel ist es, Modelle zu entwickeln, die neue Informationen in großem Umfang erwerben, ohne dass es zu einem negativen Transfer kommt, und die sich systematisch auf neue Situationen verallgemeinern. Modulares Deep Learning hat sich als vielversprechende Lösung für diese Herausforderungen herauskristallisiert, indem parameter-effiziente Berechnungseinheiten lokal und asynchron aktualisiert werden. Diese Einheiten werden häufig als Module implementiert, die zwischen den Ebenen eingefügt, mit vortrainierten Parametern interpoliert oder mit den Eingaben verkettet werden. In Abhängigkeit von Aufgaben oder Beispielen werden Informationen über eine festgelegte oder gelernte Funktion an mehrere Module weitergeleitet, gefolgt von einer Aggregation ihrer Ausgaben. Diese Eigenschaft ermöglicht eine kompositorische Generalisierung, bei der das Wissen entwirrt und auf neue Weise kombiniert wird.

In dieser Arbeit bieten wir eine einheitliche Sichtweise der Modularität in der Verarbeitung natürlicher Sprache, die sich über vier Dimensionen erstreckt; insbesondere unterteilen wir die Modularität in Berechnungsfunktionen, Routingfunktionen, Aggregationsfunktionen und die Trainingsumgebung. Entlang dieser Achsen schlagen wir mehrere Beiträge vor: einen Forschungsrahmen, der alle Dimensionen umfasst; eine neuartige, aufmerksamkeitsbasierte Aggregationsfunktion, die das in verschiedenen Modulen gespeicherte Wissen kombiniert; Routing-Mechanismen für die Generalisierung außerhalb der Verteilung in sprachübergreifenden Transferszenarien; einen Datensatz und modulare Trainingsstrategien für multimodales und mehrsprachiges Transferlernen; eine modulare Pre-Training-Strategie, um katastrophale Interferenzen heterogener Daten zu bewältigen.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-245651

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Ubiquitous Knowledge Processing

TU-Projects:

HMWK|LOEWE|emergenC TP Gurevych

Date Deposited: