TU Darmstadt / ULB / TUprints

Challenging the Invisible Web

Huang, Lieming (2003)
Challenging the Invisible Web.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

[img]
Preview
PDF
Diss_Lieming_Huang.pdf
Copyright Information: In Copyright.

Download (3MB) | Preview
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Challenging the Invisible Web
Language: English
Referees: Neuhold, Prof. Dr. Erich ; Buchmann, Prof. Dr. Alejandro
Advisors: Neuhold, Prof. Dr. Erich
Date: 16 October 2003
Place of Publication: Darmstadt
Date of oral examination: 26 September 2003
Abstract:

The revolution of the World Wide Web (WWW or Web) has set off the globalization of information publishing and access. Organizations, enterprises, and individuals produce and update data on the Web everyday. With the explosive growth of information on the WWW, it becomes more and more difficult for users to accurately find and completely retrieve what they want. Although there are hundreds of thousands of general-purpose and special-purpose search engines and search tools, most users still find it hard to retrieve information precisely. Moreover, considering the great amount of valuable information hidden in the Invisible Web that is generally inaccessible to traditional "crawlers", providing users with an effective and efficient tool for Web searching is necessary and urgent. First, this dissertation proposes an adaptive data model for meta-search engines (ADMIRE) that can be used to formally and meticulously describe the user interfaces and query capabilities of heterogeneous search engines on the Internet. Compared with related work, this model focuses more on the constraints between the terms, term modifiers, attribute order, and the impact of logical operators. Second, this dissertation presents a constraint-based query translation algorithm. When translating a query from a meta-search engine to a remote source, the mediator considers the function and position restrictions of terms, term modifiers and logical operators among the controls in the user interfaces to the underlying sources sufficiently, thus allowing the meta-search engine to utilize the query capabilities of the specific sources as far as possible. In addition, a two-phase query subsuming mechanism is put forward to compensate for the functional discrepancies between sources, in order to make a more accurate query translation. Furthermore, this dissertation presents a mechanism for constructing adaptive, dynamically generated user interfaces for meta-search engines based on the above-mentioned model. The concept of control constraint rules has been proposed and applied to the user interface construction. Depending on the state of interaction between users and system, such meta-search engines adapt their interfaces to the concrete user interfaces of differing kinds of search engines (Boolean model with differing syntax, vector-space/probabilistic model, natural language support, etc.), so as to overcome the constraints of heterogeneous search engines and utilize the functionality of the individual search engines as much as possible. Finally, this dissertation also tackles some issues on wrapper generation and result merging for Web information sources. The experiments show that an information integration system with an adaptive, dynamically generated user interface, coordinating the constraints among the heterogeneous sources, will greatly improve the effectiveness of integrated information searching, and will utilize the query capabilities of sources as far as possible. The adaptive meta-search engine architecture proposed in this dissertation has been applied to the information integration of scientific publications-oriented search engines. It can also be applied to other generic domains or specific domains of information integration, such as integrating all kinds of WWW search engines (or search tools) and online repositories with quite different user interfaces and query models. With the help of source wrapping tools, they can also be used to integrate queryable information sources delivering semi-structured or non-structured data, such as product catalogues, weather reports, software directories, and so on.

Alternative Abstract:
Alternative AbstractLanguage

Die Revolution des World Wide Web (WWW oder Web) hat weltweit die Informationspublikationen und den Zugang zu Informationen auf den Weg gebracht. Organisationen, Unternehmen und Einzelpersonen produzieren und aktualisieren täglich Informationen im Web. Angesichts der explosiven Zunahme der Informationen im Web wird es für die Benutzer immer schwieriger, exakt die Information zu finden, die sie suchen. Obgleich Hunderttausende von universellen und spezifischen Suchmaschinen und Suchwerkzeugen existieren, fällt es den meisten Benutzern noch immer schwer, gezielt Informationen zu gewinnen. Angesichts der großen Menge wertvoller Informationen, die im verborgenen Web verstecken, und daher im Allgemeinen für die traditionellen "Crawler" unzugänglich sind, ist es unerlässlich, dem Benutzer ein wirkungsvolles und leistungsfähiges Werkzeug für die Suche im Web an die Hand zu geben. Zuerst wird in dieser Dissertation ein adaptives Datenmodell für Meta-Suchmaschinen (ADMIRE) vorgestellt, das verwendet wird, um die Benutzerschnittstellen und Anfragefähigkeiten von heterogenen Suchmaschinen im Internet formal und ausführlich zu beschreiben. Im Vergleich mit verwandten Arbeiten liegt der Schwerpunkt dieses Modells auf den Constraints von bzw. zwischen Termen, Termmodifiziereren und Attributanordnungen, sowie auf dem Einfluss logischer Operatoren. Zweitens wird ein constraint-basierter Algorithmus zur Anfrageübersetzung in dieser Dissertation vorgestellt. Bei der Übertragung einer Anfrage von einer Meta-Suchmaschine auf eine entfernte Quelle berücksichtigt der Mediator die funktionellen Beschränkungen, die zwischen den Termen, Termmodiziereren und logischen Operatoren der Steuermechanismen der Benutzerschnittstellen und den zugrundeliegenden Quellen bestehen, d.h. die Meta-Suchmaschine kann die Anfragefähigkeiten der spezifischen Quellen weitestgehend ausnutzen. Zusätzlich wird ein zweiphasiger Zuordnungsmechanismus eingesetzt, der die funktionellen Unterschiede zwischen den Quellen ausgleichen und die Anfrageübersetzung präzisieren soll. Darüber hinaus wird von dieser Dissertation ein Konstruktionsmechanismus für adaptive, dynamisch generierte Benutzerschnittstellen der Meta-Suchmaschinen vorgestellt, die auf dem oben erwähnten Modell basieren. Zum Aufbau der Benutzerschnittstelle wurde das Konzept von Constraints-Regeln der Steuerung angewandt. Abhängig vom Zustand der Interaktion zwischen Benutzern und System passen diese Meta-Suchmaschinen ihre Schnittstellen den konkreten Benutzerschnittstellen der unterschiedlichen Suchmaschinen an (Boolsches Modell mit unterschiedlicher Syntax, Vektor-Raum/probabilistisches Modell, Unterstützung natürlicher Sprache usw.), um die Constraints der heterogenen Suchmaschinen zu überwinden, und weitestgehend die Funktionalität der jeweiligen Suchmaschinen auszunutzen. Zuletzt diskutiert die Dissertation einige Implementierungaspekte zur Wrapper-Erzeugung und Zusammenstellung der Ergebnisse für Web-Informationsquellen. Die Tests zeigen, dass ein Informationsintegrations-System mit adaptiver, dynamisch generierter Benutzerschnittstelle, die die Constraints zwischen heterogenen Quellen koordiniert, die Wirksamkeit der integrierten Informationssuche erhöht und die Anfragefähigkeit der Quellen weitestgehend nutzt. Die in dieser Dissertation vorgestellte adaptive Architektur der Meta-Suchmaschine wurde zur Informationsintegration von Suchmaschinen angewendet, die auf die Suche wissenschaftlicher Publikationen ausgerichtet sind. Sie eignet sich auch für andere generische oder spezifische Domänen der Informationsintegration, z.B. zur Integration der verschiedensten WWW-Suchmaschinen (oder Suchwerkzeuge) und Online-Datenbeständen mit unterschiedlichen Benutzerschnittstellen und Anfragemodellen. Mit Hilfe von Quellen-Wrapping-Werkzeugen kann die Architektur zur Integration anfragbarer Informationsquellen verwendet werden, die semi-strukturierte Daten oder nicht-strukturierte Daten liefern (z.B. Wetterberichte, Softwareverzeichnisse ,etc.).

German
Uncontrolled Keywords: Meta-search engine, data modeling, query translation, adaptive user interface construction
Alternative keywords:
Alternative keywordsLanguage
Meta-search engine, data modeling, query translation, adaptive user interface constructionEnglish
URN: urn:nbn:de:tuda-tuprints-3746
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science
Date Deposited: 17 Oct 2008 09:21
Last Modified: 08 Jul 2020 22:47
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/374
PPN:
Export:
Actions (login required)
View Item View Item