Semantically Enhanced and Minimally Supervised Models for Ontology Construction, Text Classification, and Document Recommendation

Alkhatib, Wael (2020)
Semantically Enhanced and Minimally Supervised Models for Ontology Construction, Text Classification, and Document Recommendation.
Technische Universität Darmstadt
doi: 10.25534/tuprints-00011890
Ph.D. Thesis, Primary publication

Preview

Text
2020-06-29_Alkhatib_Wael.pdf
Copyright Information: CC BY-ND 4.0 International - Creative Commons, Attribution NoDerivs.
Download (9MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Semantically Enhanced and Minimally Supervised Models for Ontology Construction, Text Classification, and Document Recommendation

Language:

English

Referees:

Steinmetz, Prof. Dr. Ralf ; Staab, Prof. Dr. Steffen

Date:

2020

Place of Publication:

Darmstadt

Date of oral examination:

10 June 2020

DOI:

10.25534/tuprints-00011890

Abstract:

The proliferation of deliverable knowledge on the web, along with the rapidly increasing number of accessible research publications, make researchers, students, and educators overwhelmed. Linked data platforms like SciGraph reduce this information overload by combining data from heterogeneous information sources and link them to ontologies that describe how these resources are related. Linked data platforms provide functionalities to improve the accessibility and discoverability of these resources. These functionalities include methods for maintaining and updating the ontologies used, for the assignment of concepts to resources as well as for providing recommendations of relevant resources. About 80% of information sources on the Internet originate in form of unstructured content. This triggers the need for automated methods that leverage the wealth of information embedded in unstructured content to realize the needed functionalities.

This thesis provides contributions concerning three building blocks of the construction of linked data platforms from unstructured information sources, namely ontology construction and enrichment, text classification, and document recommendation. The majority of ML methods used for studying these problems are characterized by the intensive reliance on complicated feature engineering, which is a tedious, time consuming, and domain-specific process. Our work is motivated by the potential of using lexical-semantic resources and deep learning to address the research challenges in the current approaches. On the one side, existing lexical-semantic resources encode various types of information about words such as their meaning and semantic relations. On the other side, deep learning methods have achieved state-of-the-art performance on challenging NLP problems, i.e., text classification and semantic relation extraction. The rise of distributed representations is the key to the breakthrough of deep learning on various NLP tasks. The focus of this work is to develop, implement, and evaluate new approaches that better leverage the semantic similarities and regularities between words in large text corpora to minimize the hand-crafted feature engineering in current approaches.

With regard to ontology construction and enrichment, we present Onto.KOM: a minimally supervised ontology learning system that uses unstructured text as input in addition to existing lexical databases. We study the effectiveness of using our approach for semantic relation classification regarding different influencing aspects, namely the input representation, the deep network structure used, and the types of semantic relations.

In the scope of multi-label text classification, our contributions lie under three main areas: First, we propose an approach for feature selection using the typed dependencies between words as a measure to select the most essential features. We compare our approach with multiple statistical and semantic-based techniques, to investigate the advantage of leveraging the semantic and syntactic relationships between words to improve the quality of selected features. Second, we analyse the performance of deep learning structures on a small dataset of long documents where traditional techniques tend to perform better. Besides, we develop a new model that uses the distributed representations of document fragments and deep learning structures. We compare the new model with a wide range of feature selection and text classification techniques. Third, we address the label imbalance problem and the lack of sufficient training samples. In this scope, we develop a training-less classifier based on lexical-semantic resources as a base for classification. We transform the classification problem into graph matching problem.

Concerning the recommendation of relevant resources, we address the problem of citation recommendation as a particular use case of document recommendation. We propose two models for combining the different heterogeneous information sources, such as the content of papers, co-authorship information, and previously cited papers to provide personalized citation recommendation.

Alternative Abstract:

Alternative Abstract

Language

Die zunehmende Anzahl im Internet von verfügbaren Ressourcen und die schnell ansteigende Zahl von zugänglichen Forschungspublikationen überfordern Forscher, Studenten und Dozenten. Linked Data Plattformen wie SciGraph reduzieren diese Informationsüberflutung, indem sie Ressourcen aus den heterogenen Quellen im Internet kombinieren und mit Ontologien verknüpfen. Ontologien beschreiben, wie Konzepte und damit verlinkte Ressourcen zusammenhängen. Linked Data Plattformen sollen Funktionen bereitstellen, um die Zugänglichkeit und Auffindbarkeit der Ressourcen zu verbessern. Diese Funktionen umfassen Methoden zur Wartung und Aktualisierung der verwendeten Ontologien, zur Zuordnung von Konzepten zu Ressourcen sowie zur Abgabe von Empfehlungen zu relevanten Ressourcen. Etwa 80% der Ressourcen im Internet kommen in Form von unstrukturierten Inhalten vor. Dies führt einem Bedarf an automatisierten Methoden, um die Fülle der in unstrukturierten Inhalten eingebetteten Informationen zu nutzen, und die benötigten Funktionen zu realisieren.

Diese Arbeit beinhaltet Beiträge zu drei Aufgaben zum Aufbau von Linked Data Plattformen aus unstrukturierten Informationsquellen, nämlich Ontologiegenerierung und -anreicherung, Textklassifizierung und Dokumentenempfehlung. Die Mehrheit der Methoden des maschinellen Lernens (ML), die bisher zur Lösung dieser Aufgaben verwendet werden, zeichnen sich durch die intensive Abhängigkeit von einem kompliziertem Feature Engineering aus. Das ist ein langwieriger, zeitaufwendiger und domänenspezifischer Prozess ist. Die Motivation unserer Arbeit liegt in dem Potenzial, lexikalisch-semantische Ressourcen und Deep Learning zur Bewältigung der Forschungsherausforderungen in den drei oben genannten Aufgaben zu nutzen. Auf der einen Seite kodieren die vorhandenen lexikalisch-semantischen Ressourcen verschiedene Arten von Informationen über Wörter wie ihre Bedeutung und ihre semantischen Beziehungen. Auf der anderen Seite haben Deep-Learning-Methoden bei anspruchsvollen NLP-Problemen, d.h. Textklassifizierung und semantische Beziehungsextraktion, Spitzenleistungen erzielt. Der Entwicklung der Distributed Representation ist der Schlüssel zum Durchbruch des Deep Learning bei verschiedenen NLP-Aufgaben. Der Schwerpunkt dieser Arbeit liegt auf der Entwicklung, Implementierung und Bewertung neuer Ansätze, die die semantischen Ähnlichkeiten und Regelmäßigkeiten zwischen Wörtern in großen Textkorpora besser nutzen, um das manuelle Feature Engineering in aktuellen Lösungsansätzen zu minimieren.

Im Hinblick auf die Generierung und die Anreicherung von Ontologien stellen wir Onto.KOM vor: ein minimal überwachtes Ontologie-Lernsystem, das neben bestehenden lexikalischen Datenbanken auch unstrukturierten Text als Eingabe verwendet. Wir untersuchen die Effektivität der Verwendung unseres Ansatzes zur semantischen Beziehungsklassifizierung hinsichtlich verschiedener Einflussaspekte, nämlich der Eingangsdarstellung, der verwendeten Netzwerkstruktur und der Arten semantischer Beziehungen.

Im Rahmen der Klassifizierung von Multilabel-Texten liegen die Beiträge in drei Hauptbereichen: Zuerst schlagen wir einen Ansatz für die Merkmalsauswahl vor, bei dem die typisierten Abhängigkeiten zwischen Wörtern als Ma{\ss} für die Auswahl der wichtigsten Merkmale verwendet werden. Wir vergleichen unseren Ansatz mit mehreren statistischen und semantischen Techniken, um den Vorteil der Nutzung der semantischen und syntaktischen Beziehungen zwischen Wörtern zur Verbesserung der Qualität ausgewählter Merkmale zu untersuchen. Zweitens, analysieren wir die Leistung von Deep Learning Strukturen anhand eines kleinen Datensatzes langer Dokumente, in dem traditionelle Techniken tendenziell besser abschneiden. Au{\ss}erdem entwickeln wir ein neues Modell, das die verteilten Darstellungen von Dokumentenfragmenten und Deep Learning Strukturen nutzt. Wir vergleichen das neue Modell mit einer Vielzahl von Techniken zur Merkmalsauswahl und Textklassifizierung. Drittens, geht es um das Problem der Label Imbalance und des Fehlens ausreichender Trainingsdaten. In diesem Rahmen entwickeln wir einen traininglosen Klassifikator, der auf lexikalisch-semantischen Ressourcen als Grundlage für die Klassifizierung basiert. Wir umwandeln das Klassifikation Problem in einen Graph Matching Problem

Hinsichtlich der Empfehlung relevanter Ressourcen gehen wir auf das Problem der Zitatempfehlung als besonderen Anwendungsfall der Dokumentenempfehlung ein. Wir schlagen zwei Modelle für die Kombination verschiedener heterogener Informationsquellen vor, wie z.B. den Inhalt von Publikationen, Co-Autoreninformationen und zuvor zitierte Papers für die Bereitstellung einer personalisierten Zitatempfehlung.

German

URN:

urn:nbn:de:tuda-tuprints-118909

Classification DDC:

000 Generalities, computers, information > 004 Computer science

Divisions:

18 Department of Electrical Engineering and Information Technology > Institute of Computer Engineering > Multimedia Communications

Date Deposited:

02 Sep 2020 12:52

Last Modified:

02 Sep 2020 12:52

URI: