TU Darmstadt / ULB / tuprints

Automatic Construction of Domain-Specific Concept Structures

Chen, Libo :
Automatic Construction of Domain-Specific Concept Structures.
[Online-Edition]
TU Darmstadt
[Ph.D. Thesis], (2006)

[img]
Preview
PDF
dis_chen_final.pdf
Available under Simple publication rights for ULB.

Download (1361Kb) | Preview
Item Type: Ph.D. Thesis
Title: Automatic Construction of Domain-Specific Concept Structures
Language: English
Abstract:

One of the greatest challenges for search engines and other search tools, which are developed to cope with the information overload, is the vocabulary mismatch problem, referring to the fact that different people usually use different vocabularies to describe the same concepts. This problem can first of all lead to unsatisfactory search results, because the keywords in search queries often do not match the indices of search engines – either the queries are too imprecise to describe users’ actual needs, or, although correctly formulated, the queries simply do not contain the keywords with which authors write their documents. There is therefore a clear need to quickly build a concept structure for each possible topic or knowledge domain of user interest, which includes the most important concepts of a specific knowledge domain and the relationships between the concepts. Such concept structures can serve to standardize vocabularies in various knowledge domains, and help to bridge the vocabulary gap between information users, information creators, and search engines. Since manual approaches often suffer from the problem of low coverage and high expense, this dissertation focuses on corpus based statistical approaches to automatically build domain-specific concept structures. These automatic approaches first select suitable text corpora to represent domains of interest, then find statistical evidence about terms in the text corpora, and finally perform statistical analysis upon the evidence to construct concept structures. There exist two main challenges in the process of automatic construction of domain-specific concept structures: First, how the concepts in a domain can be found and extracted from text corpora (we refer to all important terms in a domain as concepts). Second, how the relationships between these concepts can be effectively determined. For the task of concept extraction, we first introduce a notion of topicality to define the importance of a term, indicating how topical a term is to a specific domain. We further divide term topicality into two factors: term representativeness which indicates how well a term is capable of covering the topic area of a domain, and term specificity which indicates how specific a term is to a certain domain compared to other knowledge domains. We further present a novel approach for specificity calculation, where we not only collect information for the domain of interest, but also collect information for a set of reference domains. A statistical measure called the “Distribution Grade” is developed to compare the distribution of a term in different domains to calculate its specificity more accurately. By combining representativeness and specificity, we are able to weight and sort terms in a text corpus according to their topicalities, and choose a limited number of top ranked terms as concepts in a domain of interest. Relationship determination between concepts is usually based on a notion of common context of concepts, which is quantified by means of a similarity measure that compares the individual context of concepts with their common context. In this work, we first provide formal definitions and a detail analysis on two kinds of existing context – with one of them counting the frequency of co-occurrences of concepts in texts, and another considering the terms occurring in the neighbourhood of the concepts. We further introduce a new notion of context to overcome the limitations of previous approaches by combining evidence on both co-occurrences and neighbourhood terms. A mutual conditional probability model is presented as a general framework for formalizing the most successful similarity measures. Each type of context is then quantified by the probability model and combined to form a hybrid similarity measure to determine a “Generally Related” relationship. In addition, we also investigate the possibility of determining a “Broader/Narrower” relationship which plays an important role for building hierarchical concept structures. We show that considering the individual conditional probabilities in the mutual conditional probability model on the premise of a close “Generally Related” relationship helps to better find the “Broader/Narrower” relationship. For an automatic evaluation of our approach, we employ widely accepted and manually built concept structures as “gold standards”, and automatically compare the extracted concepts and relationships with the entries in the gold standards. Experimental results show that our approaches achieve the best performance for a wide range of candidate terms and relationships, and for different types of text collections.

Alternative Abstract:
Alternative AbstractLanguage
Eine der größten Herausforderungen für Suchmaschinen und andere Suchwergzeuge, die zur Bewältigung der hohen Informationsbelastung entwickelt werden, ist das Problem des Vokabularunterschieds (Vocabulary mismatch), was bedeutet, dass unterschiedliche Leute dazu tendieren, die gleichen Konzepte mit unterschiedlichen Termen zu beschreiben. Dieses Problem kann vor allem zu unbefriedigenden Suchergebnissen führen, da die Schlüsselwörter in Suchanfragen in vielen Fällen nicht mit den Einträgen von Suchmaschinenindizes übereinstimmen – entweder sind die Suchanfragen zu unpräzise, oder die Suchanfragen sind zwar inhaltlich richtig, aber sie enthalten nicht diejenigen Terme, mit denen Autoren ihre Texte formulieren. Es ist deswegen notwendig, für jedes mögliche Themen- oder Wissensgebiet der Benutzerinteressen mit geringen Kosten eine Konzeptstruktur aufzubauen, die die wichtigsten Konzepte einer spezifischen Wissensdomäne und die Beziehungen zwischen den Konzepten umfasst. Solche Konzeptstrukturen können vor allem dazu dienen, das Vokabular in unterschiedlichen Wissensdomänen zu standardisieren und den Vokabularunterschied zwischen Informationsbenutzern, Informationserzeugern und Suchmaschinen zu überbrücken. Da manuelle Methoden häufig unter den Problemen von niedrigem Abdeckungsgrad und hohen Kosten leiden, konzentriert sich diese Arbeit auf korpusbasierte statistische Verfahren für den automatischen Aufbau von domänenspezifischen Konzeptstrukturen. Diese automatischen Verfahren wählen zuerst passende Textkorpora zur Repräsentation der Zieldomänen, die für die Benutzer von Interesse sind. Aus diesen Textkorpora werden statistische Daten über das Auftreten der Terme ermittelt. Statistische Analysen werden schließlich auf der Basis dieser Daten durchgeführt, um Konzeptstrukturen zu konstruieren. Es bestehen zwei Hauptherausforderungen bei dem automatischen Aufbau von domänenspezifischen Konzeptstrukturen: Erstens, wie die Konzepte einer Domäne aus den Textcorpora extrahiert werden können (wobei alle wichtigen Terme in einer Domäne als „Konzepte“ bezeichnet werden). Zweitens, wie die Beziehungen zwischen diesen Konzepten effektiv bestimmt werden können. Für die Aufgabe der Konzeptextraktion führen wir zuerst einen Begriff von Topikalität ein, um die Wichtigkeit eines Terms zu definieren, die angibt, wie topikalisch ein Term zu einer Domäne ist. Wir teilen weiterhin die Topikalität in zwei Faktoren ein: die Repräsentativität, die angibt, wie gut ein Term dazu fähig ist, den Themenbereich einer Domäne abzudecken; und die Spezifität, die angibt, wie spezifisch ein Term zu einer bestimmten Domäne ist im Verglich zu anderen Wissensdomänen. Ein neues Verfahren zur Kalkulation von Spezifität wird entwickelt, wobei nicht nur die Information für die Zieldomäne, sondern auch die Information für eine Menge von Referenzdomänen berücksichtigt wird. Ein statistisches Maß – der "Verteilungsgrad" – wird entwickelt, um die Verteilungen eines Terms in den unterschiedlichen Domänen zu vergleichen, so dass die Spezifität des Terms genauer berechnet werden kann. Schließlich werden die Terme in einem Korpus nach ihren Topikalitäten gewichtet und sortiert. Eine begrenzte Anzahl von hochrangigen Termen wird als Konzepte ausgewählt. Die Beziehung zwischen zwei Konzepten wird normalerweise durch ein Ähnlichkeitsmaß berechnet, das die Kontexte der einzelnen Konzepte mit ihrem gemeinsamen Kontext vergleicht. Wir geben in dieser Arbeit zuerst formale Definitionen und eine Detailanalyse von zwei existierenden Kontexttypen. Bei dem einen Kontexttyp wird die Häufigkeit des gemeinsamen Auftreten von Konzepten in den Texten ermittelt, während bei dem anderen die Nachbarterme in der Umgebung von Konzepten berücksichtigt werden. Wir führen weiterhin eine neue Art von Kontext ein, um die Beschränkungen der existierenden Kontexttypen zu überwinden, wobei sowohl gemeinsames Auftreten als auch Nachbarterme berücksichtigt werden. Ein Modell der gegenseitig bedingten Wahrscheinlichkeit wird als ein allgemeiner Rahmen für die Formalisierung der erfolgreichsten Ähnlichkeitsmaße vorgestellt. Jeder Kontexttyp wird dann durch das Wahrscheinlichkeitsmodell quantitativ bestimmt und kombiniert, um ein hybrides Ähnlichkeitsmaß für die Bestimmung einer "Allgemein verwandt" -Beziehung zu bilden. Zusätzlich suchen wir nach einer Möglichkeit, die "Ober-Unterkonzept" -Beziehung zu bestimmen, die eine wichtige Rolle für die Konstruktion hierarchischer Konzeptstrukturen spielt. Wie wir feststellen können, lässt sich die "Ober-Unterkonzept" -Beziehung besser berechnen, wenn die einzelnen bedingten Wahrscheinlichkeiten in dem Model der gegenseitig bedingten Wahrscheinlichkeit auf der Basis einer engen "Allgemein verwandt" -Beziehung berücksichtigt werden. Für eine automatische Evaluation unserer Verfahren setzen wir bekannte und manuell aufgebaute Konzeptstrukturen ein, die als „Goldstandards“ bezeichnet werden. Wir vergleichen automatisch die extrahierten Konzepte und Beziehungen mit den Einträgen in den Goldstandards. Experimentelle Ergebnisse zeigen, dass unsere Verfahren die beste Performanz für eine große Breite von Kandidatentermen/Kandidatenbeziehungen und für unterschiedliche Datenkollektionen liefern.German
Classification DDC: 000 Allgemeines, Informatik, Informationswissenschaft > 004 Informatik
Divisions: Fachbereich Informatik
Date Deposited: 17 Oct 2008 09:22
Last Modified: 07 Dec 2012 11:51
Official URL: http://elib.tu-darmstadt.de/diss/000679
URN: urn:nbn:de:tuda-tuprints-6798
License: Simple publication rights for ULB
Referees: Neuhold, Prof. Dr. Erich J. and Hofmann, Prof. Dr. Thomas
Advisors: Neuhold, Prof. Dr. Erich J.
Refereed: 28 March 2006
URI: http://tuprints.ulb.tu-darmstadt.de/id/eprint/679
Export:

Actions (login required)

View Item View Item