Logo des Repositoriums
  • English
  • Deutsch
Anmelden
Keine TU-ID? Klicken Sie hier für mehr Informationen.
  1. Startseite
  2. Publikationen
  3. Publikationen der Technischen Universität Darmstadt
  4. Zweitveröffentlichungen
  5. InvBERT: Reconstructing Text from Contextualized Word Embeddings by inverting the BERT pipeline
 
  • Details
2024
Zweitveröffentlichung
Artikel
Verlagsversion

InvBERT: Reconstructing Text from Contextualized Word Embeddings by inverting the BERT pipeline

File(s)
Download

jcls-3572-kugler.xml
CC BY 4.0 International
Format: XML
Size: 105.94 KB
Download
Hauptpublikation
jcls-3572-kugler.pdf
CC BY 4.0 International
Format: Adobe PDF
Size: 556.45 KB
TUDa URI
tuda/12890
URN
urn:nbn:de:tuda-tuprints-289054
DOI
10.26083/tuprints-00028905
Autor:innen
Kugler, Kai ORCID 0000-0003-4487-8360
Münker, Simon ORCID 0000-0003-1850-5536
Höhmann, Johannes
Rettinger, Achim ORCID 0000-0003-4950-1167
Kurzbeschreibung (Abstract)

Digital Humanities and Computational Literary Studies apply automated methods to enable studies on large corpora which are not feasible by manual inspection alone. However, due to copyright restrictions, the availability of relevant digitized literary works is limited. Derived Text Formats (DTFs) have been proposed as a solution. Here, textual materials are transformed in such a way that copyright-critical features are removed, but that the use of certain analytical methods remains possible. Word embeddings produced by transformer-encoders are promising candidates for DTFs because they allow for state-of-the-art performance on analytical tasks. However, in this paper we demonstrate that under certain conditions the reconstruction of the original text from token representations becomes feasible. Our attempts to invert BERT suggest, that publishing the encoder together with the contextualized embeddings is critical, since it allows to generate data to train a decoder with a reconstruction accuracy sufficient to violate copyright laws.

Freie Schlagworte

contextualized word e...

derived text formats

text reconstruction

transformer encoder

publication restricti...

Sprache
Englisch
Fachbereich/-gebiet
02 Fachbereich Gesellschafts- und Geschichtswissenschaften > Institut für Sprach- und Literaturwissenschaft > Digital Philology - Neuere deutsche Literaturwissenschaft
DDC
800 Literatur > 800 Literatur, Rhetorik, Literaturwissenschaft
Institution
Universitäts- und Landesbibliothek Darmstadt
Ort
Darmstadt
Titel der Zeitschrift / Schriftenreihe
Journal of Computational Literary Studies
Jahrgang der Zeitschrift
2
Heftnummer der Zeitschrift
1
ISSN
2940-1348
Institution der Erstveröffentlichung
Universitäts- und Landesbibliothek Darmstadt
Ort der Erstveröffentlichung
Darmstadt
Publikationsjahr der Erstveröffentlichung
2024
Verlags-DOI
10.48694/jcls.3572
Zusätzliche Infomationen
Urspr. Konferenzveröffentlichung/Originally conference publication: 2nd Annual Conference of Computational Literary Studies (CCLS2023), 22.06.2023-23.06.2023, Würzburg, Germany
Ergänzende Ressourcen (Forschungsdaten)
https://gitlab.rlp.net/cl-trier/InvBERT

  • TUprints Leitlinien
  • Cookie-Einstellungen
  • Impressum
  • Datenschutzbestimmungen
  • Webseitenanalyse
Diese Webseite wird von der Universitäts- und Landesbibliothek Darmstadt (ULB) betrieben.