Multimodal Classification of Audiovisual Content
Multimodal Classification of Audiovisual Content
This thesis is concerned with multimodal machine learning for digital humanities. Multimodal machine learning integrates vision, speech, and language to solve a particular set of tasks, such as sentiment analysis, emotion recognition, personality recognition, and deceptive behaviour detection. The usage of other modalities benefited these tasks since human communication is multimodal by its nature. The intersection between humanities and computational methods defines the so-called digital humanities, i.e., a subset in the humanities and social sciences, which leverages digital mechanisms to conduct their research. This thesis supports the claim that using audiovisual modalities when training computational models in digital humanities can benefit the performance of any cumbersome task where annotators use audiovisual sources of information to annotate the data. We hypothesise that audiovisual content studied by some areas from humanities and social sciences, such as psychology, pedagogy, and communication sciences, can be explained and categorised by audiovisual processing techniques. These techniques can increase humanities and socials sciences researchers' productivity by bootstrapping their analysis using machine learning techniques and allowing their research to scale to more massive amounts of data. Besides that, these methods could also implement more socially aware virtual agents. This kind of technology enables a more sophisticated computer-human interaction, which can enrich commercial applications' user experience. Problems tackled by natural language processing techniques sometimes reach an upper bound due to the limitations of the knowledge present in textual information. Humans use prosody to convey meaning. Machine learning models trying to predict the sentiment present in transcribed speech can lose much information if dealing solely with the text modality. Persuasiveness prediction is another excellent example since factors beyond argumentation, such as prosody, visual appearance, and body language, can persuade people. Previous work in opinion mining and persuasiveness prediction have shown that multimodal approaches are quite successful when combining multiple modalities. However, textual transcripts and visual information might not be available due to technical constraints, so one may ask how accurately machine learning models predict people's opinion using only prosodic information. Most of the work in computational paralinguistics rely on cumbersome feature-engineering approaches, so another question is whether domain-agnostic methods work in this field. Our results show that relying on a simple recurrent neural architecture trained on Mel-Frequency Cepstral Coefficients can predict speakers' opinion. Speech is not the only channel besides the textual one that signals critical information. The visual channel is also significant. Humans can express several expressions, defined as cues under the Lens Model of Brunswik. Researchers from humanities and social sciences try to understand how relevant those signals are by manually annotating information that might be present in the facial expressions of subjects under analysis. However, these tasks are very time-consuming and prone to human errors due to fatigue or lack of training. We present that automatically extracted low and high-level features using the latest computer vision methods can explain visual data from researchers of humanities and social sciences, especially from areas like pedagogy and communication sciences. We also demonstrate that an end-to-end approach can automatically predict the psychological construct of intrinsic motivation. Another problem widely studied in political sciences is the understanding of persuasive factors in speeches and debates. For instance, Nagel et al. (2012) have evaluated which features in all three modalities (text, speech, and vision) were forming an audience's impression in the national election debate between Angela Merkel and Gerhard Schroeder. However, there is no previous work in the literature, which presents an automated approach to predict what impression a politician is forming during a debate. Our results reveal that high-level features automatically extracted in a multimodal approach can indicate what elements in political communication mould an audience's impression and are also useful for training machine learning models to predict it. We run the experiments in this thesis with data from psychology, pedagogy, and communication science research, providing empirical evidence to the raised hypothesis that audiovisual content coming from humanities and social sciences can be explained and automatically classified by audiovisual processing methods. This thesis presents new applications of multimodal machine learning in digital humanities, presenting different ways of modelling the tasks, besides reinforcing the well-known issue of fairness in artificial intelligence. In conclusion, this thesis strengthens the notion that audiovisual modalities are primary communication channels which should be carefully analysed and explored in multimodal machine learning for digital humanities.
Gegenstand dieser Dissertation sind die Möglichkeiten des multimodalen maschinellen Lernens im Bereich der Digital Humanities. Charakteristisch für multimodales maschinelles Lernen ist die integrierte Nutzung von Bild, Ton und Text zur Lösung spezifischer Aufgaben. Typische Beispiel sind Sentimentanalyse, Emotions- und Persönlichkeitserkennung oder das Aufdecken irreführenden Verhaltens. Dass verschiedene Modalitäten einbezogen werden, ist bei diesen Aufgaben nicht zuletzt deshalb von Vorteil, weil menschliche Kommunikation per se multimodal erfolgt. Die Digital Humanities, also die digitalen Geisteswissenschaften, stellen die Schnittstelle zwischen Geisteswissenschaften und digitaler Technologie dar. Es handelt sich somit um einen Teilbereich der Geistes- und Sozialwissenschaften, in dem an zentraler Stelle im Forschungsprozess digitale Verfahren und Berechnungsmethoden zum Einsatz kommen. Die Annahme, die der vorliegenden Arbeit zugrunde liegt, ist hier, dass im Bereich der Digital Humanities eine bessere Aufgabenerfüllung erreicht werden kann, wenn die verschiedenen Modalitäten einbezogen werden, sofern die Annotatoren für die Datenanalyse auf audiovisuelle Informationsquellen zurückgreifen. Dahinter steht die Überzeugung, dass die in verschiedenen geistes- und sozialwissenschaftlichen Disziplinen (z. B. Psychologie, Pädagogik, Kommunikationswissenschaften) untersuchten audiovisuellen Inhalte sich mithilfe audiovisueller Verarbeitungstechnologien besser erklären und kategorisieren lassen. Die entsprechenden technischen Verfahren erlauben eine Steigerung der Produktivität von Geistes- und Sozialwissenschaftlerinnen und -wissenschaftlern, denn durch maschinelle Lerntechniken kann der Forschungsprozess einfacher initialisiert und die Analyse auf größere Mengen an Daten ausgeweitet werden. Hinzu kommt, dass durch entsprechende Methoden die Implementierung sozial bewussterer virtueller Agenten möglich wird. Der Technologieeinsatz sorgt für eine elaboriertere Interaktion von Mensch und Computer, was bei kommerziellen Anwendungen oft zu einem besseren Nutzererlebnis führt. Fragestellungen, welche in der Computerlinguistik mit technischen Verfahren behandelt werden, stoßen regelmäßig an ihre Grenzen, weil das in Texten zum Ausdruck kommende Wissen begrenzt ist. Menschen greifen zur Bedeutungsübermittlung nämlich auch auf die Prosodie zurück. Das bedeutet, dass wesentliche Informationen verlorengehen, wenn maschinelle Lernmodelle den Versuch unternehmen, allein auf Basis der Textmodalität die Gefühlsebene zu prognostizieren, welche in transkribierter Sprache vorhanden ist. Ein anderes einschlägiges Beispiel ist die Vorhersage der Überzeugungskraft, denn für den Menschen sind hier neben der reinen Argumentation weitere Faktoren relevant. Ältere Studien zum Opinion Mining sowie Arbeiten zur Überzeugungskraft-Vorhersage belegen, dass die Erfolgswahrscheinlichkeit bei multimodalen Ansätzen höher ist, weil sie verschiedene Modalitäten verknüpfen. Es kann jedoch sein, dass die technischen Rahmenbedingungen verhindern, dass neben Transkripten von Texten auch visuelle Informationen zur Verfügung stehen. In diesem Fall stellt sich die Frage, wie gut maschinelle Lernmodelle in der Lage sind, die Überzeugungen einer Person zu prognostizieren, wenn lediglich prosodische Informationen zur Verfügung stehen. Die Mehrzahl der vorhandenen Untersuchungen im Bereich der Computerparalinguistik greift auf merkmalsentwickelte Ansätzen zurück, die sehr komplex sind. Hier stellt sich deshalb die Frage, inwiefern sich domänenunabhängige Methoden für derartige Aufgaben eignen. Aus den Ergebnissen der durchgeführten Analysen, ergibt sich, dass es möglich ist, die Meinung der Sprechenden zu prognostizieren, wenn eine einfache rekurrente neuronale Architektur mit einem Training auf Mel-Frequenz-Cepstrum-Koeffizienten kombiniert wird. Für die Übermittlung kritischer Informationen spielt neben dem Text- und Sprachkanal auch der visuelle Kanal eine entscheidende Rolle. Der Mensch kann auf diesem Weg unterschiedliche Ausdrücke übermitteln, die sich beispielsweise anhand des Linsenmodells von Brunswik in die Analyse einbeziehen lassen. Geistes- und Sozialwissenschaftlern geht es dabei darum, die Relevanz dieser Signale zu erfassen, indem der Gesichtsausdruck des Untersuchungssubjekts betrachtet und die vorhandenen Informationen manuell notiert werden. Diese Vorgehensweise ist aber nicht nur mit einem hohen Zeitaufwand verbunden, sondern zeigt auch eine gewisse Anfälligkeit für menschliche Fehler, was auf Ermüdung oder fehlendes Training zurückzuführen ist. Die vorliegende Arbeit verdeutlicht daher, wie Low- und High-Level-Features, die mit aktuellen Computer-Vision-Methoden automatisch extrahiert wurden, im Rahmen der geistes- und sozialwissenschaftlichen Forschung, etwa im Bereich der Pädagogik oder der Kommunikationswissenschaften, zum Einsatz kommen können. Zudem gibt es deutliche Hinweise, dass ein End-to-End-Ansatz eine automatische Vorhersage des psychologischen Konstrukts der intrinsischen Motivation erlaubt. Eine für viele politikwissenschaftliche Fragestellungen wichtige Aufgabe besteht schließlich darin, feststellen zu können, welche Faktoren in Reden und Debatten für Überzeugungskraft sorgen. Beispielsweise haben Nagel et al. (2012) Sekunde für Sekunde untersucht, inwiefern bei der Fernsehdebatte zwischen Angela Merkel und Gerhard Schröder die Ausprägungen der drei Modalitäten Text, Sprache und Bild die Wahrnehmung des Publikums bestimmen. Bisher kam jedoch noch kein automatisiertes Verfahren zum Einsatz, um den Eindruck vorherzusagen, der im Zuge der Debatte beim Publikum entsteht. Aufgrund der in dieser Arbeit erzielten Ergebnisse lässt sich sagen, dass multimodale Merkmale, die automatisch und in hoher Qualität auf multimodale Weise erfasst werden, erkennen lassen, welche Faktoren der politischen Kommunikation den Eindruck beim Publikum bestimmen. Sie erweisen sich zudem als hilfreich, um Machine-Learning-Modelle zu trainieren, welche dann in der Lage sind, eine automatische Prognose für den Eindruck abzugeben. Die im Rahmen dieser Arbeit durchgeführten Experimente nutzen Daten aus den Disziplinen Psychologie, Pädagogik und Kommunikationswissenschaft, um empirische Belege für die vorab definierte Hypothese zu sammeln. Insgesamt lässt sich sagen, dass der empirische Befund dafür spricht, dass audiovisuelle geistes- und sozialwissenschaftliche Inhalte mithilfe audiovisueller Analyseverfahren besser erklärt werden und eine automatische Klassifikation möglich ist. Die Arbeit diskutiert dabei innovative Anwendungsmöglichkeiten des multimodalen maschinellen Lernens im Rahmen der Digital Humanities. Das umfasst auch unterschiedliche Formen der Aufgabenmodellierung und Lösungsansätze für das bekannte Fairness-Problem der künstlichen Intelligenz. Es hat sich bestätigt, dass es sich bei audiovisuellen Modalitäten um zentrale Kanäle der Kommunikation handelt, weshalb sie im Kontext der Digital Humanities mithilfe multimodalen maschinellen Lernens detailliert analysiert und in die Interpretation integriert werden sollten.

