Extracting Opinion Targets from User-Generated Discourse with an Application to Recommendation Systems

Jakob, Niklas (2011)
Extracting Opinion Targets from User-Generated Discourse with an Application to Recommendation Systems.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

PDF
Diss.pdf
Copyright Information: CC BY-NC-ND 2.5 Generic - Creative Commons, Attribution, NonCommercial, NoDerivs .
Download (2MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Extracting Opinion Targets from User-Generated Discourse with an Application to Recommendation Systems

Language:

English

Referees:

Gurevych, Prof. Dr. Iryna ; Heyer, Prof. Dr. Gerhard

Date:

24 May 2011

Place of Publication:

Darmstadt

Date of oral examination:

18 May 2011

Abstract:

With the growing popularity of online shopping, most e-commerce websites nowadays offer their customers to leave feedback about their purchases. This form of customer or user interaction is also very popular among Web 2.0 websites. Online databases, e.g. of movies, offer their users incentives to participate in the content creation by giving them the opportunity to rate films and write reviews about them. Complete websites, e.g. rateitall.com, have emerged, which allow their users to rate and review virtually anything they care about. As more and more content is created and aggregated on these websites, a strong demand for automatic approaches which are capable of extracting structured information from mostly unstructured text has emerged. An automatic extraction of the opinions uttered in the thousands of user-generated texts can provide interesting data for several other tasks such as question answering, information retrieval and summarization. All of these tasks require an opinion mining system, which analyzes the individual elements of an opinion on a sentence level, i.e. the terms which express the opinion, their polarity, and what the opinion is about.

In this thesis, we present a comprehensive study of the automatic extraction of opinions with a focus on opinion targets, which is an essential step in order to enable other tasks, e.g. information retrieval or question answering on opinionated content. We analyze the state-of-the-art in opinion mining and divide it into three subtasks, one of which is the extraction of opinion targets. We perform a comparative evaluation of two unsupervised algorithms in the task of opinion target extraction on datasets of customer reviews and blog postings which span the following four different domains: digital cameras, cars, movies and web-services. We show how the identification of opinion expressions influences the opinion target extraction performance of each algorithm. We also show that a simple word distance-based heuristic significantly outperforms both unsupervised algorithms, which make their relevance decision by analyzing word frequencies in the corpus. The word distance-based heuristic reaches an F-Measure between 0.372 and 0.491 on the four datasets.

We furthermore evaluate a state-of-the-art supervised algorithm in the task of opinion target extraction and present a new approach which is based on Conditional Random Fields (CRF). Our approach outperforms the state-of-the-art baseline significantly on all four datasets reaching an F-Measure between 0.497 and 0.702. We also evaluate both algorithms in a cross-domain opinion target extraction task, since a common problem with supervised algorithms is the domain dependence of the learned model. In this setting, our CRF-based approach also outperforms the baseline on all four datasets and it outperforms the best unsupervised approach, which is by design not prone to domain dependence, on three of the four datasets mentioned above. In the cross-domain opinion target extraction task, the CRF-based approach reaches an F-Measure between 0.360 and 0.518 on the four datasets.

The extraction of opinion targets, which are referenced by anaphoric expressions, is a challenge which is frequently encountered in opinion mining at the phrase level. For the first time, we integrate anaphora resolution algorithms in a supervised opinion mining system. We perform a comparative evaluation of two algorithms, in which we require them to extract the correct antecedent of anaphoric targets. Our results indicate that one of the algorithms, which was designed for high-precision anaphora resolution, is better suited in the opinion mining setting. By extending the algorithm, which yields the best results in the off-the-shelf configuration, we yield significant improvements regarding the extraction of opinion targets on three of the four datasets.

Finally, we show how an opinion mining system can be successfully employed to improve another application. Recommendation systems are nowadays widely used in online platforms and desktop applications in order to suggest goods or pieces of art to users, which they do not know yet, but are likely to enjoy. The recommendations for a user U1 are determined by first profiling the taste and interests of all users of the recommendation system. Then the algorithm identifies other users U2 ... Un which have a similar taste as user U1, and then recommends items to U1 which the users who have a similar taste enjoyed. A user's taste and interests are typically profiled by giving him the option to rate entities, which he has consumed. As mentioned above, website operators have also given users the opportunity to leave their ratings not only on a numerical scale, but also via a free-text review. We hypothesize that these free-text reviews contain a lot of information, expressed in the users' opinions, which would allow us to model his taste and preferences on a very fine granularity. We show that, by integrating our opinion mining system as a feature provider to a state-of-the-art recommendation system, we can significantly improve the accuracy of the recommendations, which we evaluate on a dataset of movie ratings and reviews.

Alternative Abstract:

Alternative Abstract

Language

Mit der steigenden Beliebtheit des online Shoppings bieten heutzutage die meisten Betreiber von e-Commerce Webseiten ihren Kunden die Möglichkeit, ein Feedback zu den erworbenen Waren zu hinterlassen. Diese Form der Kunden- oder Benutzerinteraktion ist auf Web 2.0 Seiten stark ausgeprägt. Auf Online-Datenbanken, z.B. für Filme, werden den Nutzern verschiedene Anreize mit dem Ziel geboten, bei der Erstellung der Webseiten-Inhalte mitzumachen. Dabei wird ihnen die Möglichkeit gegeben, Filme zu bewerten und Rezensionen zu schreiben. Es sind mittlerweile Webseiten entstanden, z.B. rateitall.com, die ihren Nutzern ermöglichen Bewertungen und Rezensionen zu den vielfältigsten Themen zu schreiben. Je mehr Inhalte auf derartigen Seiten erstellt werden, desto größer wird der Bedarf an automatischen Ansätzen, die in der Lage sind, strukturierte Informationen aus den meist unstrukturierten Texten zu extrahieren. Eine automatische Extraktion der Meinungen, die in tausenden dieser benutzergenerierten Texten geäußert werden, kann interessante Daten für andere Anwendungen liefern, z.B. Question Answering, Information Retrieval oder automatische Text-Zusammenfassung. All diese Anwendungen erfordern Systeme zur Meinungsextraktion, die in der Lage sind, einzelne Elemente der Meinungen auf Satzebene zu analysieren. Diese beinhalten beispielsweise die Begriffe, welche die Meinung bilden, ihre Polarität und den Betreff der Meinung.

In dieser Dissertation untersuchen wir umfassend die automatische Meinungsextraktion mit einem Schwerpunkt auf der Extraktion von Meinungszielen, da diese ein essentieller Schritt ist, um andere Aufgaben, z.B. Information Retrieval oder Question Answering auf Meinungen durchführen zu können. Wir analysieren den Stand der Forschung im Bereich des Opinion Minings, indem wir die verwandten Arbeiten anhand dreier Teilaufgaben gruppieren. Eine davon ist die Extraktion von Meinungszielen. Wir führen eine vergleichende Studie zwischen zwei unüberwachten Algorithmen zur Extraktion von Meinungszielen durch, die wir auf Datensätzen von benutzergenerierten Rezensionen und Weblog-Postings evaluieren. Diese Datensätze beinhalten Dokumente aus vier verschiedenen Domänen: Digitalkameras, Autos, Filme und Web-Services. Wir analysieren, inwiefern die Identifikation der meinungsbildenden Begriffe die Leistung der Meinungsziel-Extraktion der einzelnen Algorithmen beeinflusst. Des Weiteren zeigen wir, dass eine einfache Heuristik, welche die Wort-Distanz innerhalb eines Satzes zur Identifikation der Meinungsziele verwendet, bessere Ergebnisse als die beiden anderen unüberwachten Algorithmen erzielt. Die Wort-Distanz-basierte Heuristik erreicht dabei ein F-Measure zwischen 0.372 und 0.491 auf den vier Datensätzen.

Ferner evaluieren wir einen Algorithmus, welcher den Stand der Forschung im Bereich der überwachten Meinungsextraktion darstellt. Wir stellen einen neuen überwachten Ansatz zur Meinungsextraktion vor, der auf Conditional Random Fields (CRF) basiert. Der von uns entwickelte Ansatz erzielt auf allen vier Datensätzen eine signifikant bessere Leistung als der Algorithmus nach dem gegenwärtigen Stand der Forschung und erreicht dabei ein F-Measure zwischen 0.497 und 0.702 bei der Extraktion der Meinungsziele. Wir evaluieren weiterhin beide Algorithmen in einem domänenübergreifenden Trainings- / Test-Szenario, da überwachte Algorithmen typischerweise ein inhärentes Problem der Domänenabhängigkeit der gelernten Modelle haben. In diesem Szenario übertrifft unser CRF-basierter Ansatz die Leistung des Baseline-Systems ebenfalls auf allen vier Datensätzen. Weiterhin vergleichen wir den CRF-basierten Ansatz mit dem besten unüberwachten Algorithmus, der Wort-Distanz-Heuristik, da unüberwachte Ansätze nicht das Problem der Domänenabhängigkeit besitzen. Dabei erzielt der CRF-basierte Ansatz auf drei der vier Datensätze eine bessere Leistung als der unüberwachte Algorithmus. In diesem domänenübergreifenden Szenario erreicht der CRF-basierte Ansatz ein F-Measure zwischen 0.360 und 0.518 auf den vier Datensätzen.

Die Extraktion von Meinungszielen, welche über Anaphern referenziert werden, ist eine Herausforderung, die häufig bei der Meinungsextraktion auf Phrasenebene angetroffen wird. Erstmalig integrieren wir Algorithmen zur Anaphernresolution in ein überwachtes System zur Meinungsextraktion. Wir führen eine Evaluation von zwei Algorithmen durch, bei der diese den korrekten Antezedenten eines anaphorischen Meinungsziels extrahieren müssen. Unsere Ergebnisse zeigen, dass einer der beiden Algorithmen, welcher zur Anaphernresolution mit hoher Präzision entworfen wurde, für eine Integration mit einem System zur Meinungsextraktion geeigneter ist. Indem wir diesen Algorithmus erweitern, der in seiner Standardkonfiguration die beste Leistung erzielt, erreichen wir signifikante Verbesserungen hinsichtlich der Ergebnisse der Extraktion der Meinungsziele auf drei der vier Datensätze.

Abschließend zeigen wir, wie ein System zur Meinungsextraktion erfolgreich verwendet werden kann, um eine andere Anwendung zu verbessern. Empfehlungssysteme werden heutzutage vielfach auf Internet-Plattformen und in Desktop-Applikationen eingesetzt, um den Benutzern Produkte oder Kunstwerke vorzuschlagen, die den Benutzern bisher unbekannt sind, aber gefallen könnten. Die Empfehlungen für einen Benutzer B1 werden berechnet, indem zuerst sein Geschmack bezüglich der Produkte oder Kunstwerke und die Geschmäcker der anderen Benutzer erfasst werden. Der Algorithmus identifiziert dann andere Benutzer B2 ... Bn, die einen ähnlichen Geschmack wie der Benutzer B1 haben. Dem Benutzer B1 werden dann Entitäten empfohlen, die denjenigen Benutzern gefallen, welche einen ähnlichen Geschmack haben. Der Geschmack eines Benutzers wird typischerweise erfasst, indem man ihm die Möglichkeit gibt, Bewertungen zu den Entitäten abzugeben, die er konsumiert hat. Wie eingangs erwähnt, geht der Trend dahin, den Benutzern die Möglichkeit zu eröffnen, ihre Bewertungen nicht nur auf einer numerischen Skala, sondern auch mittels Freitext auszudrücken. Unsere Hypothese ist, dass diese Freitext-Bewertungen viele Informationen beinhalten, welche in Form von Meinungen ausgedrückt sind, die es uns erlauben, den Geschmack eines Benutzers mit einer sehr feinen Granularität zu modellieren. Wir zeigen, dass sich durch die Integration eines Systems zur Meinungsextraktion die Genauigkeit der Vorschläge eines Empfehlungssystems signifikant verbessern lässt. Dies wurde auf einem Datensatz von Film-Bewertungen und -Reviews evaluiert.

German

Alternative keywords: