Logo des Repositoriums
  • English
  • Deutsch
Anmelden
Keine TU-ID? Klicken Sie hier für mehr Informationen.
  1. Startseite
  2. Publikationen
  3. Publikationen der Technischen Universität Darmstadt
  4. Zweitveröffentlichungen
  5. M2QA: Multi-domain Multilingual Question Answering
 
  • Details
2024
Zweitveröffentlichung
Konferenzveröffentlichung
Verlagsversion

M2QA: Multi-domain Multilingual Question Answering

File(s)
Download
Hauptpublikation
2024.findings-emnlp.365.pdf
CC BY 4.0 International
Format: Adobe PDF
Size: 1.24 MB
TUDa URI
tuda/12908
URN
urn:nbn:de:tuda-tuprints-289252
DOI
10.26083/tuprints-00028925
Autor:innen
Engländer, Leon
Sterz, Hannah
Poth, Clifton
Pfeiffer, Jonas ORCID 0000-0002-8634-6170
Kuznetsov, Ilia ORCID 0000-0002-6359-2774
Gurevych, Iryna ORCID 0000-0003-2187-7621
Kurzbeschreibung (Abstract)

Generalization and robustness to input variation are core desiderata of machine learning research. Language varies along several axes, most importantly, language instance (e.g. French) and domain (e.g. news). While adapting NLP models to new languages within a single domain, or to new domains within a single language, is widely studied, research in joint adaptation is hampered by the lack of evaluation datasets. This prevents the transfer of NLP systems from well-resourced languages and domains to non-dominant language-domain combinations. To address this gap, we introduce M2QA, a multi-domain multilingual question answering benchmark.M2QA includes 13,500 SQuAD 2.0-style question-answer instances in German, Turkish, and Chinese for the domains of product reviews, news, and creative writing. We use M2QA to explore cross-lingual cross-domain performance of fine-tuned models and state-of-the-art LLMs and investigate modular approaches to domain and language adaptation.We witness 1) considerable performance variations across domain-language combinations within model classes and 2) considerable performance drops between source and target language-domain combinations across all model sizes. We demonstrate that M2QA is far from solved, and new methods to effectively transfer both linguistic and domain-specific information are necessary.

Sprache
Englisch
Herausgeber:innen
Al-Onaizan, Yaser
Bansal, Mohit
Chen, Yun-Nung
Fachbereich/-gebiet
20 Fachbereich Informatik > Ubiquitäre Wissensverarbeitung
DDC
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Institution
Universitäts- und Landesbibliothek Darmstadt
Ort
Darmstadt
Veranstaltungstitel
The 2024 Conference on Empirical Methods in Natural Language Processing
Veranstaltungsort
Miami, Florida
Startdatum der Veranstaltung
12.11.2024
Enddatum der Veranstaltung
16.11.2024
Buchtitel
Findings of the Association for Computational Linguistics: EMNLP 2024
Startseite
6283
Endseite
6305
ISBN
979-8-89176-164-3
Verlag
ACL
Ort der Erstveröffentlichung
Kerrville, TX, USA
Publikationsjahr der Erstveröffentlichung
2024
Verlags-DOI
10.18653/v1/2024.findings-emnlp.365
PPN
52470760X
Zusätzliche Links (Organisation)
https://2024.emnlp.org/
Ergänzende Ressourcen (Forschungsdaten)
https://aclanthology.org/attachments/2024.findings-emnlp.365.software.zip
https://aclanthology.org/attachments/2024.findings-emnlp.365.data.zip

  • TUprints Leitlinien
  • Cookie-Einstellungen
  • Impressum
  • Datenschutzbestimmungen
  • Webseitenanalyse
Diese Webseite wird von der Universitäts- und Landesbibliothek Darmstadt (ULB) betrieben.