Eine der größten Herausforderungen für Suchmaschinen und andere Suchwergzeuge, die zur Bewältigung der hohen Informationsbelastung entwickelt werden, ist das Problem des Vokabularunterschieds (Vocabulary mismatch), was bedeutet, dass unterschiedliche Leute dazu tendieren, die gleichen Konzepte mit unterschiedlichen Termen zu beschreiben. Dieses Problem kann vor allem zu unbefriedigenden Suchergebnissen führen, da die Schlüsselwörter in Suchanfragen in vielen Fällen nicht mit den Einträgen von Suchmaschinenindizes übereinstimmen – entweder sind die Suchanfragen zu unpräzise, oder die Suchanfragen sind zwar inhaltlich richtig, aber sie enthalten nicht diejenigen Terme, mit denen Autoren ihre Texte formulieren. Es ist deswegen notwendig, für jedes mögliche Themen- oder Wissensgebiet der Benutzerinteressen mit geringen Kosten eine Konzeptstruktur aufzubauen, die die wichtigsten Konzepte einer spezifischen Wissensdomäne und die Beziehungen zwischen den Konzepten umfasst. Solche Konzeptstrukturen können vor allem dazu dienen, das Vokabular in unterschiedlichen Wissensdomänen zu standardisieren und den Vokabularunterschied zwischen Informationsbenutzern, Informationserzeugern und Suchmaschinen zu überbrücken. Da manuelle Methoden häufig unter den Problemen von niedrigem Abdeckungsgrad und hohen Kosten leiden, konzentriert sich diese Arbeit auf korpusbasierte statistische Verfahren für den automatischen Aufbau von domänenspezifischen Konzeptstrukturen. Diese automatischen Verfahren wählen zuerst passende Textkorpora zur Repräsentation der Zieldomänen, die für die Benutzer von Interesse sind. Aus diesen Textkorpora werden statistische Daten über das Auftreten der Terme ermittelt. Statistische Analysen werden schließlich auf der Basis dieser Daten durchgeführt, um Konzeptstrukturen zu konstruieren. Es bestehen zwei Hauptherausforderungen bei dem automatischen Aufbau von domänenspezifischen Konzeptstrukturen: Erstens, wie die Konzepte einer Domäne aus den Textcorpora extrahiert werden können (wobei alle wichtigen Terme in einer Domäne als „Konzepte“ bezeichnet werden). Zweitens, wie die Beziehungen zwischen diesen Konzepten effektiv bestimmt werden können. Für die Aufgabe der Konzeptextraktion führen wir zuerst einen Begriff von Topikalität ein, um die Wichtigkeit eines Terms zu definieren, die angibt, wie topikalisch ein Term zu einer Domäne ist. Wir teilen weiterhin die Topikalität in zwei Faktoren ein: die Repräsentativität, die angibt, wie gut ein Term dazu fähig ist, den Themenbereich einer Domäne abzudecken; und die Spezifität, die angibt, wie spezifisch ein Term zu einer bestimmten Domäne ist im Verglich zu anderen Wissensdomänen. Ein neues Verfahren zur Kalkulation von Spezifität wird entwickelt, wobei nicht nur die Information für die Zieldomäne, sondern auch die Information für eine Menge von Referenzdomänen berücksichtigt wird. Ein statistisches Maß – der "Verteilungsgrad" – wird entwickelt, um die Verteilungen eines Terms in den unterschiedlichen Domänen zu vergleichen, so dass die Spezifität des Terms genauer berechnet werden kann. Schließlich werden die Terme in einem Korpus nach ihren Topikalitäten gewichtet und sortiert. Eine begrenzte Anzahl von hochrangigen Termen wird als Konzepte ausgewählt. Die Beziehung zwischen zwei Konzepten wird normalerweise durch ein Ähnlichkeitsmaß berechnet, das die Kontexte der einzelnen Konzepte mit ihrem gemeinsamen Kontext vergleicht. Wir geben in dieser Arbeit zuerst formale Definitionen und eine Detailanalyse von zwei existierenden Kontexttypen. Bei dem einen Kontexttyp wird die Häufigkeit des gemeinsamen Auftreten von Konzepten in den Texten ermittelt, während bei dem anderen die Nachbarterme in der Umgebung von Konzepten berücksichtigt werden. Wir führen weiterhin eine neue Art von Kontext ein, um die Beschränkungen der existierenden Kontexttypen zu überwinden, wobei sowohl gemeinsames Auftreten als auch Nachbarterme berücksichtigt werden. Ein Modell der gegenseitig bedingten Wahrscheinlichkeit wird als ein allgemeiner Rahmen für die Formalisierung der erfolgreichsten Ähnlichkeitsmaße vorgestellt. Jeder Kontexttyp wird dann durch das Wahrscheinlichkeitsmodell quantitativ bestimmt und kombiniert, um ein hybrides Ähnlichkeitsmaß für die Bestimmung einer "Allgemein verwandt" -Beziehung zu bilden. Zusätzlich suchen wir nach einer Möglichkeit, die "Ober-Unterkonzept" -Beziehung zu bestimmen, die eine wichtige Rolle für die Konstruktion hierarchischer Konzeptstrukturen spielt. Wie wir feststellen können, lässt sich die "Ober-Unterkonzept" -Beziehung besser berechnen, wenn die einzelnen bedingten Wahrscheinlichkeiten in dem Model der gegenseitig bedingten Wahrscheinlichkeit auf der Basis einer engen "Allgemein verwandt" -Beziehung berücksichtigt werden. Für eine automatische Evaluation unserer Verfahren setzen wir bekannte und manuell aufgebaute Konzeptstrukturen ein, die als „Goldstandards“ bezeichnet werden. Wir vergleichen automatisch die extrahierten Konzepte und Beziehungen mit den Einträgen in den Goldstandards. Experimentelle Ergebnisse zeigen, dass unsere Verfahren die beste Performanz für eine große Breite von Kandidatentermen/Kandidatenbeziehungen und für unterschiedliche Datenkollektionen liefern. | German |