Towards Learned Metadata Extraction for Data Lakes

Langenecker, Sven (2024)
Towards Learned Metadata Extraction for Data Lakes.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00027469
Ph.D. Thesis, Primary publication, Publisher's Version

Text
Dissertation_Sven_Langenecker.pdf
Copyright Information: In Copyright.
Download (7MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Towards Learned Metadata Extraction for Data Lakes

Language:

English

Referees:

Binnig, Prof. Dr. Carsten ; Papotti, Prof. PhD Paolo

Date:

7 June 2024

Place of Publication:

Darmstadt

Collation:

xxii, 218 Seiten

Date of oral examination:

4 June 2024

DOI:

10.26083/tuprints-00027469

Abstract:

In the landscape of data-driven enterprises, the concept of data lakes serves for storing and managing massive volumes of diverse data. Unlike traditional data warehousing methods characterized by rigid structures and predefined schemas, data lakes present a paradigm shift by embracing a more fluid architecture. Here, data arrives in its raw, unaltered form, preserving its inherent complexity and richness. The lack of predefined structures or standardized schemas makes it difficult to identify, find, understand, and use the relevant data sets contained in these repositories. To address this data discovery problem and enable an easy navigation, solutions for automatic metadata extraction are essential. Hence, a variety of Machine Learning (ML) based approaches for automated extracting of semantic types from table columns have recently been proposed. While initial results of these learned approaches seem promising, it is still not clear how well these approaches can generalize to new unseen data in real-world enterprise data lakes. This dissertation thus focuses on the challenge of making the task of semantic type extraction of table columns feasible for real-world enterprise data lakes. First, we studied existing approaches for semantic type extraction of table columns and evaluated how applicable they are in data lake environments to understand their limitations. Based on the findings that existing approaches are not usable out-of-the-box and always need to be adapted to the data lake where they are intended to be used, we advocate a weak supervision concept to adapt these learned semantic type detection models to the specific data lake with minimal effort. Thus, as a first contribution of this dissertation, we present a new data programming framework for semantic labeling based on the idea of weak supervision. Our new data programming framework comes with pre-designed Labeling Functions (LFs) to generate new training data that covers the new semantic types and data characteristics of the unseen data lake to which the learned semantic type extraction model is supposed to be applied. With the generated training data of our framework, the model can be re-trained/fine-tuned with minimal effort to achieve an adaption to the respective data lake and with this eliminate the barrier to apply recently learned semantic type detection approaches on enterprise data lakes. Furthermore, because the semantic labeling of numerical data is more challenging than of textual data, we present as a second contribution our novel training data generation procedure called Steered-Labeling. Steered-Labeling is integrated as a core component in our data programming framework and enables to generate high quality training data for textual and numerical table columns. The basic idea of the new procedure is to separate the labeling process into two sequential steps. In the first step, the framework labels the non-numerical columns, that are easier to label. Afterward, in the second step, the numerical columns are labeled by including the previously generated labels of the non-numeric columns, which serve as additional information. With this, the LFs achieves a much higher accuracy for numerical columns. We show by an extensive evaluation that our data programming framework with the Steered-Labeling procedure can adapt learned models to unseen data lakes with the automatically generated training data. During the experiments with our framework, we observed that the re-trained/fine-tuned end models performed worse on numeric columns than on non-numeric columns, even though the generated training data of the numerical columns is quite adequate. This is mainly because the existing models were designed, trained, and tested with datasets composed mainly of non-numerical data and therefore optimized to handle these data types. Although we used two data lakes that contain numerical columns in the evaluation of our Steered-Labeling procedure, these datasets could not be used for the design of a new model that better supports numerical columns because they are too small for this purpose. Thus, as a third contribution, we create and provide a new corpus for the task of semantic type detection of table columns called SportsTables. By scraping tables from various web pages of different sports domains, our corpus comprises tables that contain a much higher proportion of numerical columns than those in existing corpora. Furthermore, they are much larger both in the number of columns and rows. Hence, our new corpus reflects the characteristics of real-world data lakes and poses new challenges to semantic type detection models. We show through an evaluation of several recent semantic type detection models on our corpus, that they only perform robustly on textual data. To tackle the shortcomings of the existing models, we finally propose a new semantic type detection approach called Pythagoras, designed to support numerical along with non-numerical columns. To achieve this, the main idea of the new model is to use Graph Neural Networks (GNNs) together with a new graph representation of tables and their columns. This graph representation includes directed edges to aggregate necessary context information (e.g. table name, neighboring non-numerical column values) for predicting the correct semantic type of numerical columns using the GNN message passing mechanism. Thus, the model learns which contextual information is relevant for determining the semantic type. With this approach, our model can outperform all existing semantic type detection models on numerical table columns.

Alternative Abstract:

Alternative Abstract

Language

In der Systemlandschaft datengesteuerter Unternehmen dient das Konzept Data Lakes der Speicherung und Verwaltung großer Mengen unterschiedlicher Daten. Im Gegensatz zu herkömmlichen Data-Warehousing-Methoden, die durch starre Strukturen und vordefinierte Schemata gekennzeichnet sind, stellen Data Lakes einen Paradigmenwechsel dar, indem sie eine dynamischere Architektur aufweisen. Die Daten gelangen hier in ihrer rohen, unveränderten Form an und bewahren so ihre inhärente Komplexität und Reichhaltigkeit. Das Fehlen von vordefinierten Strukturen und standardisierten Schemata erschwert die Identifizierung, das Auffinden, das Verständnis und die Nutzung von relevanten Datensätzen, die in diesen Repositories enthalten sind. Um dieses Problem der Datenfindung zu lösen und eine einfache Navigation zu ermöglichen, sind Lösungen zur automatischen Extraktion von Metadaten unerlässlich. Aus diesem Grund wurde inzwischen eine Vielzahl von ML-basierten Ansätzen zur automatischen Extraktion semantischer Typen aus Tabellenspalten entworfen. Während erste Ergebnisse dieser gelernten Ansätze vielversprechend erscheinen, ist allerdings noch nicht klar, inwieweit sich diese Ansätze auf neue, ungesehene Daten in realen Data Lake Umgebungen generalisieren und anwenden lassen. Diese Dissertation konzentriert sich daher auf die Herausforderung, die Aufgabe der semantischen Extraktion von Tabellenspalten für reale Enterprise Data Lakes realisierbar zu machen. Zunächst untersuchen wir bestehende Ansätze zur semantischen Extraktion von Tabellenspalten und bewerteten ihre Anwendbarkeit in Data Lake Umgebungen, um ihre Limitierungen zu verstehen. Basierend auf der Erkenntnis, dass bestehende Ansätze nicht out-of-the-box nutzbar sind und immer an den jeweiligen Data Lake angepasst werden müssen, in dem sie eingesetzt werden sollen, schlagen wir ein weak supervision Konzept vor, um diese erlernten Modelle zur semantischen Typenerkennung mit geringem Aufwand an den spezifischen Data Lake anzupassen. Als ersten Beitrag dieser Dissertation stellen wir daher einen neues Datenprogrammierungs-Framework zur semantischen Kennzeichnung vor, basierend auf der weak supervision Idee. Unser neues Datenprogrammierungs-Framework enthält vorgefertigte LFs, mit denen neue Trainingsdaten generiert werden können, welche die neuen semantischen Typen und Datencharakteristika des ungesehenen Datensees abdecken, auf den das gelernte semantische Typenextraktionsmodell angewendet werden soll. Mit den generierten Trainingsdaten unseres Frameworks kann das Modell mit minimalem Aufwand nachtrainiert/feinabgestimmt werden, um eine Anpassung an den jeweiligen Data Lake zu erreichen und damit die Barriere gelernter semantische Typerkennungsansätze auf Enterprise Data Lakes anzuwenden zu beseitigen. Da die semantische Kennzeichnung numerischer Daten eine größere Herausforderung darstellt als die von textuellen Daten, stellen wir als zweiten Beitrag unser neuartiges Verfahren zur Erzeugung von Trainingsdaten vor, welches die Bezeichnung Steered- Labeling trägt. Steered-Labeling ist als Kernkomponente in unser Datenprogrammierungs-Framework integriert und ermöglicht die Generierung hochwertiger Trainingsdaten für textuelle und numerische Tabellenspalten. Die Grundidee des neuen Verfahrens besteht darin, den Labelprozess in zwei aufeinander folgende Schritte zu unterteilen. Im ersten Schritt labelt das System die nicht numerischen Spalten, bei denen die Bestimmung des semantischen Typens einfacher ist. Anschließend werden im zweiten Schritt die numerischen Spalten unter Einbeziehung der zuvor generierten Labels der nicht-numerischen Spalten, die als zusätzliche Information dienen, gelabelt. Auf diese Weise erreichen die LFs eine wesentlich höhere Genauigkeit bei numerischen Spalten. In einer umfangreichen Evaluierung zeigen wir, dass unser Dataprogrammierungs-Framework die gelernten Modelle an den ungesehenen Data Lake mittels der automatisch generierten Trainingsdaten anpassen kann. Bei den Experimenten mit unserem Framework haben wir festgestellt, dass die nachtrainierten/ feinabgestimmten Endmodelle bei numerischen Spalten schlechter abschneiden als bei nicht-numerischen Spalten, obwohl die generierten Trainingsdaten der numerischen Spalten ausreichend adäquat sind. Dies liegt vor allem daran, dass die vorhandenen Modelle mit Datensätzen entwickelt, trainiert und getestet wurden, die hauptsächlich aus nicht-numerischen Daten bestehen, und daher für die Verarbeitung dieser Datentypen optimiert sind. Zwar haben wir bei der Evaluierung unseres Steered-Labeling-Verfahrens zwei Data Lakes verwendet, die numerische Spalten enthalten, doch können diese Datensätze nicht für den Entwurf eines neuen Modells mit besserer Unterstützung numerischer Spalten verwendet werden, da sie für diesen Zweck zu klein sind. Aus diesem Grund ist unser dritter Beitrag die Erstellung und Bereitstellung eines neuen Korpus für die Aufgabe der semantischen Typerkennung von Tabellenspalten mit dem Namen SportsTables. Durch das Abgreifen von Tabellen von verschiedenen Webseiten aus unterschiedlichen Sportarten umfasst unser Korpus Tabellen, die einen viel höheren Anteil an numerischen Spalten enthalten als Tabellen in bestehende Korpora und sowohl in der Anzahl der Spalten als auch der Zeilen viel größer sind. Daher spiegelt unser neuer Korpus die Eigenschaften realer Data Lakes besser wider und stellt somit semantische Typenerkennungsmodelle vor neue Herausforderungen. Wir zeigen anhand einer Evaluierung von mehreren aktuellen Modellen auf unserem Korpus, dass diese nur bei textuellen Daten robust funktionieren. Um die Unzulänglichkeiten der bestehenden Modelle zu beheben, schlagen wir schließlich einen neuen Ansatz zur semantischen Typerkennung namens Pythagoras vor, der sowohl numerische als auch nicht-numerische Spalten unterstützt. Um dies zu erreichen, besteht die Hauptidee des neuen Modells darin, GNNs zusammen mit einer neuen graphischen Darstellung von Tabellen und ihren Spalten zu verwenden. Diese Graphdarstellung enthält gerichtete Kanten, um die notwendigen Kontextinformationen (z. B. Tabellenname, benachbarte nichtnumerische Spaltenwerte) für die Vorhersage des korrekten semantischen Typs numerischer Spalten unter Verwendung des GNNNachrichtenübermittlungsmechanismus bereitzustellen. Auf diese Weise lernt das Modell, welche Kontextinformationen für die Bestimmung des semantischen Typs relevant sind und unnser Modell kann mit diesem Ansatz alle bestehenden Modelle zur Erkennung semantischer Typen bei numerischen Tabellenspalten übertreffen.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-274697

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

20 Department of Computer Science > Data and AI Systems

Date Deposited:

07 Jun 2024 12:05

Last Modified: