TU Darmstadt / ULB / TUprints

Democratizing Information Access through Low Overhead Systems

Hättasch, Benjamin (2024)
Democratizing Information Access through Low Overhead Systems.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00026737
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
Dissertation_Benjamin_Haettasch_Democratizing_Information_Access.pdf
Copyright Information: In Copyright.

Download (20MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Democratizing Information Access through Low Overhead Systems
Language: English
Referees: Binnig, Prof. Dr. Carsten ; Michel, Prof. Dr. Sebastian
Date: 20 March 2024
Place of Publication: Darmstadt
Collation: xix, 286 Seiten
Date of oral examination: 11 December 2023
DOI: 10.26083/tuprints-00026737
Abstract:

Despite its importance, accessing information in storage systems or raw data is challenging or impossible for most people due to the sheer amount and heterogeneity of data as well as the overheads and complexities of existing systems. In this thesis, we propose several approaches to improve on that and therefore democratize information access.

Data-driven and AI based approaches make it possible to provide the necessary information access for many tasks at scale. Unfortunately, most existing approaches can only be built and used by IT experts and data scientists, yet the current demand for data scientists cannot be met by far. Furthermore, their application is expensive. To counter this, approaches with low overhead, i.e., without the need for large amounts of training data, manually annotating or extracting information, and extensive computation are needed. However, such systems still need to adapt to special terminology of different domains, and the individual information needs of the users. Moreover, they should be usable without extensive training; we thus aim to create ready-to-use systems that provide intuitive or familiar ways for interaction, e.g., chatbot-like natural language input or graphical user interfaces.

In this thesis, we propose a number of contributions to three important subfields of data exploration and processing: Natural Language Interfaces for Data Access & Manipulation, Personalized Summarizations of Text Collections, and Information Extraction & Integration. These approaches allow data scientists, domain experts and end users to access and manipulate information in a quick and easy way.

First, we propose two natural language interfaces for data access and manipulation. Natural language is a useful alternative interface for relational databases, since it allows users to formulate complex questions without requiring knowledge of SQL. We propose an approach based on weak supervision that augments existing deep learning techniques in order to improve the performance of models for natural language to SQL translation. Moreover, we apply the idea to build a training pipeline for conversational agents (i.e., chatbot-like systems allowing to interact with a database and perform actions like ticket booking). The pipeline uses weak supervision to generate the training data automatically from a relational database and its set of defined transactions. Our approach is data-aware, i.e., it leverages the data characteristics of the DB at runtime to optimize the dialogue flow and reduce necessary interactions. Additionally, we complement this research by presenting a meta-study on the reproducibility and availability of natural language interfaces for databases (NLIDBs) for real-world applications, and a benchmark to evaluate the linguistic robustness of NLIDBs.

Second, we work on personalized summarization and its usage for data exploration. The central idea is to produce summaries that exactly cover the current information need of the users. By creating multiple summaries or shifting the focus during the interactive creation process, these summaries can be used to explore the contents of unknown text collections. We propose an approach to create such personalized summaries at interactive speed; this is achieved by carefully sampling from the inputs. As part of our research on multi-document summary, we noticed that there is a lack of diverse evaluation corpora for this task. We therefore present a framework that can be used to automatically create new summarization corpora, and apply and validate it.

Third, we provide ways to democratize information extraction and integration. This becomes relevant when data is scattered across different sources and there is no tabular representation that already contains all information needed. Therefore, it might be necessary to integrate different structured sources, or to even extract the required information pieces from text collections first and then to organize them. To integrate existing structured data sources, we present and evaluate a novel end-to-end approach for schema matching based on neural embeddings. Finally, we tackle the automatic creation of tables from text for situations where no suitable structured source to answer an information need is available. Our proposed approach can execute SQL-like queries on text collections in an ad-hoc manner, both to directly extract facts from text documents, and to produce aggregated tables stating information that is not explicitly mentioned in the documents. Our approach works by generalizing user feedback and therefore does not need domain-specific resources for the domain adaption. It runs at interactive speed even on commodity hardware.

Overall, our approaches can provide a quality level compared to state-of-the-art approaches, but often at a fraction of the associated costs. In other fields like the table extractions, we even provide functionality that is—to our knowledge—not covered by any generic tooling available to end users. There are still many interesting challenges to solve, and the recent rise of large language models has shifted what seems possible with regard to dealing with human language once more. Yet, we hope that our contributions provide a useful step towards democratization of information access.

Alternative Abstract:
Alternative AbstractLanguage

Trotz ihrer Bedeutung ist der Zugang zu Informationen in Speichersystemen oder Rohdaten für die meisten Menschen aufgrund der schieren Menge und Heterogenität der Daten, sowie des Overheads und der Komplexität der bestehenden Systeme schwierig oder unmöglich. In dieser Arbeit schlagen wir mehrere Ansätze zur Verbesserung dieser Situation und damit zur Demokratisierung des Informationszugangs vor.

Datengetriebene und KI-basierte Ansätze machen es möglich, den notwendigen Informationszugang für viele Aufgaben skalierbar zur Verfügung zu stellen. Leider können die meisten existierenden Ansätze nur von IT-Expert*innen und Data Scientists erstellt und genutzt werden, wobei es jedoch längst nicht genug Data Scientists gibt. Zudem ist der Einsatz teuer. Um dem abzuhelfen, werden Ansätze mit geringem Overhead benötigt, d. h. ohne die Notwendigkeit großer Mengen von Trainingsdaten, manueller Annotation oder Extraktion von Informationen und umfangreicher Berechnungen. Solche Systeme müssen sich jedoch an die spezielle Terminologie verschiedener Disziplinen und den individuellen Informationsbedarf der Nutzer anpassen. Darüber hinaus sollten sie ohne umfangreiches Training nutzbar sein; wir wollen daher direkt nutzbare Systeme schaffen, die intuitive oder vertraute Interaktionsmöglichkeiten bieten, z. B. Chatbot-ähnliche natürlichsprachliche Eingaben oder grafische Benutzeroberflächen.

In dieser Arbeit schlagen wir eine Reihe von Beiträgen zu drei wichtigen Teilbereichen der Datenexploration und -verarbeitung vor: Natürlichsprachliche Schnittstellen für Datenzugriff und -manipulation, personalisierte Zusammenfassungen von Textsammlungen und Informationsextraktion und -integration. Diese Ansätze ermöglichen es Data Scientists, Fachleuten und Endanwender*innen, schnell und einfach auf Informationen zuzugreifen und sie zu bearbeiten.

Als Erstes schlagen wir zwei natürlichsprachliche Schnittstellen für den Datenzugriff und die Datenmanipulation vor. Natürliche Sprache ist eine nützliche alternative Schnittstelle für relationale Datenbanken, da sie es den Anwender*innen ermöglicht, komplexe Fragen zu formulieren, ohne dass sie Kenntnisse über SQL benötigen. Wir schlagen einen auf weak supervision basierenden Ansatz vor, der bestehende Deep-Learning-Techniken augmentiert, um die Leistung von Modellen für die Übersetzung von natürlicher Sprache zu SQL zu verbessern. Außerdem wenden wir die Idee an, um eine Trainingspipeline für conversational agents (d.h. Chatbot-ähnliche Systeme, die es ermöglichen, mit einer Datenbank zu interagieren und Aktionen wie Ticketbuchungen durchzuführen) zu konstruieren. Die Pipeline nutzt weak supervision, um die Trainingsdaten automatisch aus einer relationalen Datenbank und einer Reihe von definierten Transaktionen zu generieren. Unser Ansatz ist data-aware, d.h. er nutzt die Dateneigenschaften der DB zur Laufzeit, um den Dialogfluss zu optimieren und die notwendigen Interaktionen zu reduzieren. Darüber hinaus ergänzen wir diese Forschung, indem wir eine Metastudie über die Reproduzierbarkeit und Verfügbarkeit von natürlichsprachlichen Interfaces für Datenbanken (NLIDBs) für reale Anwendungen sowie einen Benchmark zur Bewertung der linguistischen Robustheit von NLIDBs vorstellen.

Als Zweites befassen wir uns mit personalisierten Zusammenfassungen und deren Nutzung für die Datenexploration. Die zentrale Idee ist es, Zusammenfassungen zu erstellen, die genau den aktuellen Informationsbedarf der Nutzenden abdecken. Durch die Generierung mehrerer Zusammenfassungen oder die Verschiebung des Fokus während des interaktiven Erstellungsprozesses können diese Zusammenfassungen zur Exploration des Inhalts unbekannter Textsammlungen verwendet werden. Wir schlagen einen Ansatz vor, um solche personalisierten Zusammenfassungen in interaktiver Geschwindigkeit zu erstellen; dies wird durch sorgfältiges Sampeln aus den Eingaben erreicht. Im Rahmen unserer Forschung zu Multi-Dokument-Zusammenfassung haben wir einen Mangel an diversen Evaluierungskorpora für diese Aufgabe ausgemacht. Wir stellen daher ein Framework vor, das zur automatischen Erstellung neuer Zusammenfassungskorpora verwendet werden kann, wenden es an und validieren es.

Als Drittes stellen wir Möglichkeiten zur Demokratisierung der Informationsextraktion und -integration vor. Dies wird dann relevant, wenn die Daten über verschiedene Quellen verstreut sind und es keine tabellarische Darstellung gibt, die bereits alle benötigten Informationen enthält. Daher kann es notwendig sein, verschiedene strukturierte Quellen zu integrieren oder sogar die benötigten Informationen zunächst aus Textsammlungen zu extrahieren und sie dann zu organisieren. Um bestehende strukturierte Datenquellen zu integrieren, präsentieren und evaluieren wir einen neuartigen Ende-zu-Ende-Ansatz für Schema-Matching, der auf neuronalen Embeddings basiert. Abschließend befassen wir uns mit der automatischen Erstellung von Tabellen aus Text für Situationen, in denen keine geeignete strukturierte Quelle zur Beantwortung eines Informationsbedarfs verfügbar ist. Der von uns vorgeschlagene Ansatz kann SQL-ähnliche Abfragen auf Textsammlungen ad hoc ausführen – sowohl um Fakten direkt aus Textdokumenten zu extrahieren, als auch um durch Filterung, Aggregation und Gruppierung Tabellen mit Informationen zu erstellen, die nicht explizit in den Dokumenten erwähnt werden. Unser Ansatz basiert auf der Generalisierung von Benutzerfeedback und benötigt daher keine domänenspezifischen Ressourcen für die Anpassung an die jeweilige Fachsprache. Er läuft in interaktiver Geschwindigkeit sogar auf Standard-Hardware.

Zusammengefasst können unsere Ansätze ein Qualitätsniveau bieten, das mit State-of-the-art-Ansätzen vergleichbar ist, aber das in vielen Fällen zu einem Bruchteil der damit verbundenen Kosten. In anderen Bereichen, wie z.B. bei der Extraktion von Tabellen, bieten wir sogar Funktionen, die – unseres Wissens nach – bisher von keinem generischen Tool für Endbenutzer*innen bereitgestellt werden. Es verbleiben noch viele interessante Herausforderungen und die kürzlichen Fortschritte bei großen Sprachmodellen (LLMs) hat die Grenzen des Möglichen im Umgang mit menschlicher Sprache noch einmal verschoben. Dennoch hoffen wir, dass unsere Beiträge einen nützlichen Schritt zur Demokratisierung des Informationszugangs darstellen.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-267378
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Data and AI Systems
Date Deposited: 20 Mar 2024 15:03
Last Modified: 12 Apr 2024 11:46
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/26737
PPN: 51690759X
Export:
Actions (login required)
View Item View Item