Logo des Repositoriums
  • English
  • Deutsch
Anmelden
Keine TU-ID? Klicken Sie hier für mehr Informationen.
  1. Startseite
  2. Publikationen
  3. Publikationen der Technischen Universität Darmstadt
  4. Zweitveröffentlichungen (aus DeepGreen)
  5. SportsTables: A New Corpus for Semantic Type Detection (Extended Version)
 
  • Details
2023
Zweitveröffentlichung
Artikel
Verlagsversion

SportsTables: A New Corpus for Semantic Type Detection (Extended Version)

File(s)
Download
Hauptpublikation
s13222-023-00457-y.pdf
CC BY 4.0 International
Format: Adobe PDF
Size: 917.49 KB
TUDa URI
tuda/12306
URN
urn:nbn:de:tuda-tuprints-281921
DOI
10.26083/tuprints-00028192
Autor:innen
Langenecker, Sven ORCID 0009-0002-2809-5331
Sturm, Christoph
Schalles, Christian
Binnig, Carsten ORCID 0000-0002-2744-7836
Kurzbeschreibung (Abstract)

Table corpora such as VizNet or TURL which contain annotated semantic types per column are important to build machine learning models for the task of automatic semantic type detection. However, there is a huge discrepancy between corpora and real-world data lakes since they contain a huge fraction of numerical data which are not present in existing corpora. Hence, in this paper, we introduce a new corpus that contains a much higher proportion of numerical columns than existing corpora. To reflect the distribution in real-world data lakes, our corpus SportsTables has on average approx. 86% numerical columns, posing new challenges to existing semantic type detection models which have mainly targeted non-numerical columns so far. To demonstrate this effect, we show in this extended version paper of [18] the results of an extensive study using four different state-of-the-art approaches for semantic type detection on our new corpus. Overall, the results demonstrate significant performance differences in predicting semantic types for textual and numerical data.

Freie Schlagworte

Semantic type detecti...

Column annotated corp...

Sprache
Englisch
Fachbereich/-gebiet
20 Fachbereich Informatik > Data and AI Systems
DDC
000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Institution
Universitäts- und Landesbibliothek Darmstadt
Ort
Darmstadt
Titel der Zeitschrift / Schriftenreihe
Datenbank-Spektrum : Zeitschrift für Datenbanktechnologien und Information Retrieval
Startseite
189
Endseite
197
Jahrgang der Zeitschrift
23
Heftnummer der Zeitschrift
3
ISSN
1610-1995
Verlag
Springer
Ort der Erstveröffentlichung
Berlin ; Heidelberg
Publikationsjahr der Erstveröffentlichung
2023
Verlags-DOI
10.1007/s13222-023-00457-y
PPN
532141091
Zusätzliche Infomationen
Issue: Best Workshop Papers of BTW 2023

  • TUprints Leitlinien
  • Cookie-Einstellungen
  • Impressum
  • Datenschutzbestimmungen
  • Webseitenanalyse
Diese Webseite wird von der Universitäts- und Landesbibliothek Darmstadt (ULB) betrieben.