Gegenstand dieser Dissertation sind die Möglichkeiten des multimodalen maschinellen Lernens im Bereich der Digital Humanities. Charakteristisch für multimodales maschinelles Lernen ist die integrierte Nutzung von Bild, Ton und Text zur Lösung spezifischer Aufgaben. Typische Beispiel sind Sentimentanalyse, Emotions- und Persönlichkeitserkennung oder das Aufdecken irreführenden Verhaltens. Dass verschiedene Modalitäten einbezogen werden, ist bei diesen Aufgaben nicht zuletzt deshalb von Vorteil, weil menschliche Kommunikation per se multimodal erfolgt. Die Digital Humanities, also die digitalen Geisteswissenschaften, stellen die Schnittstelle zwischen Geisteswissenschaften und digitaler Technologie dar. Es handelt sich somit um einen Teilbereich der Geistes- und Sozialwissenschaften, in dem an zentraler Stelle im Forschungsprozess digitale Verfahren und Berechnungsmethoden zum Einsatz kommen. Die Annahme, die der vorliegenden Arbeit zugrunde liegt, ist hier, dass im Bereich der Digital Humanities eine bessere Aufgabenerfüllung erreicht werden kann, wenn die verschiedenen Modalitäten einbezogen werden, sofern die Annotatoren für die Datenanalyse auf audiovisuelle Informationsquellen zurückgreifen. Dahinter steht die Überzeugung, dass die in verschiedenen geistes- und sozialwissenschaftlichen Disziplinen (z. B. Psychologie, Pädagogik, Kommunikationswissenschaften) untersuchten audiovisuellen Inhalte sich mithilfe audiovisueller Verarbeitungstechnologien besser erklären und kategorisieren lassen. Die entsprechenden technischen Verfahren erlauben eine Steigerung der Produktivität von Geistes- und Sozialwissenschaftlerinnen und -wissenschaftlern, denn durch maschinelle Lerntechniken kann der Forschungsprozess einfacher initialisiert und die Analyse auf größere Mengen an Daten ausgeweitet werden. Hinzu kommt, dass durch entsprechende Methoden die Implementierung sozial bewussterer virtueller Agenten möglich wird. Der Technologieeinsatz sorgt für eine elaboriertere Interaktion von Mensch und Computer, was bei kommerziellen Anwendungen oft zu einem besseren Nutzererlebnis führt.
Fragestellungen, welche in der Computerlinguistik mit technischen Verfahren behandelt werden, stoßen regelmäßig an ihre Grenzen, weil das in Texten zum Ausdruck kommende Wissen begrenzt ist. Menschen greifen zur Bedeutungsübermittlung nämlich auch auf die Prosodie zurück. Das bedeutet, dass wesentliche Informationen verlorengehen, wenn maschinelle Lernmodelle den Versuch unternehmen, allein auf Basis der Textmodalität die Gefühlsebene zu prognostizieren, welche in transkribierter Sprache vorhanden ist. Ein anderes einschlägiges Beispiel ist die Vorhersage der Überzeugungskraft, denn für den Menschen sind hier neben der reinen Argumentation weitere Faktoren relevant. Ältere Studien zum Opinion Mining sowie Arbeiten zur Überzeugungskraft-Vorhersage belegen, dass die Erfolgswahrscheinlichkeit bei multimodalen Ansätzen höher ist, weil sie verschiedene Modalitäten verknüpfen. Es kann jedoch sein, dass die technischen Rahmenbedingungen verhindern, dass neben Transkripten von Texten auch visuelle Informationen zur Verfügung stehen. In diesem Fall stellt sich die Frage, wie gut maschinelle Lernmodelle in der Lage sind, die Überzeugungen einer Person zu prognostizieren, wenn lediglich prosodische Informationen zur Verfügung stehen. Die Mehrzahl der vorhandenen Untersuchungen im Bereich der Computerparalinguistik greift auf merkmalsentwickelte Ansätzen zurück, die sehr komplex sind. Hier stellt sich deshalb die Frage, inwiefern sich domänenunabhängige Methoden für derartige Aufgaben eignen. Aus den Ergebnissen der durchgeführten Analysen, ergibt sich, dass es möglich ist, die Meinung der Sprechenden zu prognostizieren, wenn eine einfache rekurrente neuronale Architektur mit einem Training auf Mel-Frequenz-Cepstrum-Koeffizienten kombiniert wird.
Für die Übermittlung kritischer Informationen spielt neben dem Text- und Sprachkanal auch der visuelle Kanal eine entscheidende Rolle. Der Mensch kann auf diesem Weg unterschiedliche Ausdrücke übermitteln, die sich beispielsweise anhand des Linsenmodells von Brunswik in die Analyse einbeziehen lassen. Geistes- und Sozialwissenschaftlern geht es dabei darum, die Relevanz dieser Signale zu erfassen, indem der Gesichtsausdruck des Untersuchungssubjekts betrachtet und die vorhandenen Informationen manuell notiert werden. Diese Vorgehensweise ist aber nicht nur mit einem hohen Zeitaufwand verbunden, sondern zeigt auch eine gewisse Anfälligkeit für menschliche Fehler, was auf Ermüdung oder fehlendes Training zurückzuführen ist. Die vorliegende Arbeit verdeutlicht daher, wie Low- und High-Level-Features, die mit aktuellen Computer-Vision-Methoden automatisch extrahiert wurden, im Rahmen der geistes- und sozialwissenschaftlichen Forschung, etwa im Bereich der Pädagogik oder der Kommunikationswissenschaften, zum Einsatz kommen können. Zudem gibt es deutliche Hinweise, dass ein End-to-End-Ansatz eine automatische Vorhersage des psychologischen Konstrukts der intrinsischen Motivation erlaubt.
Eine für viele politikwissenschaftliche Fragestellungen wichtige Aufgabe besteht schließlich darin, feststellen zu können, welche Faktoren in Reden und Debatten für Überzeugungskraft sorgen. Beispielsweise haben Nagel et al. (2012) Sekunde für Sekunde untersucht, inwiefern bei der Fernsehdebatte zwischen Angela Merkel und Gerhard Schröder die Ausprägungen der drei Modalitäten Text, Sprache und Bild die Wahrnehmung des Publikums bestimmen. Bisher kam jedoch noch kein automatisiertes Verfahren zum Einsatz, um den Eindruck vorherzusagen, der im Zuge der Debatte beim Publikum entsteht. Aufgrund der in dieser Arbeit erzielten Ergebnisse lässt sich sagen, dass multimodale Merkmale, die automatisch und in hoher Qualität auf multimodale Weise erfasst werden, erkennen lassen, welche Faktoren der politischen Kommunikation den Eindruck beim Publikum bestimmen. Sie erweisen sich zudem als hilfreich, um Machine-Learning-Modelle zu trainieren, welche dann in der Lage sind, eine automatische Prognose für den Eindruck abzugeben.
Die im Rahmen dieser Arbeit durchgeführten Experimente nutzen Daten aus den Disziplinen Psychologie, Pädagogik und Kommunikationswissenschaft, um empirische Belege für die vorab definierte Hypothese zu sammeln. Insgesamt lässt sich sagen, dass der empirische Befund dafür spricht, dass audiovisuelle geistes- und sozialwissenschaftliche Inhalte mithilfe audiovisueller Analyseverfahren besser erklärt werden und eine automatische Klassifikation möglich ist. Die Arbeit diskutiert dabei innovative Anwendungsmöglichkeiten des multimodalen maschinellen Lernens im Rahmen der Digital Humanities. Das umfasst auch unterschiedliche Formen der Aufgabenmodellierung und Lösungsansätze für das bekannte Fairness-Problem der künstlichen Intelligenz. Es hat sich bestätigt, dass es sich bei audiovisuellen Modalitäten um zentrale Kanäle der Kommunikation handelt, weshalb sie im Kontext der Digital Humanities mithilfe multimodalen maschinellen Lernens detailliert analysiert und in die Interpretation integriert werden sollten. | German |
A presente tese de doutorado trata de técnicas de aprendizagem de máquina multimodal para a área de humanidades digitais. A aprendizagem de máquina multimodal foca na integração dos três canais de comunicação: o canal visual, o canal vocal e o canal verbal. Essas técnicas já foram aplicadas para resolver problemas como análise de sentimento, reconhecimento de emoções, identificação de personalidade e detecção de comportamento fraudulento. O uso de outras modalidades beneficiou essas tarefas pelo fato de a comunicação humana ser multimodal por natureza. A interseção entre a área de humanas com o uso de métodos computacionais é o que define a disciplina de humanidades digitais. Assim sendo, uma afirmação suportada por esta tese é a de que qualquer tarefa oriunda das humanidades digitais, em que os anotadores dispõem de fontes audiovisuais de informação para anotar as amostras que estão sob análise, pode ser beneficiada ao utilizar essas modalidades adicionais para treinar seus respectivos modelos computacionais. A hipótese levantada nesta tese é a de que conteúdo audiovisual analisado e estudado em certas áreas das ciências humanas, como a psicologia, a pedagogia e as ciências da comunicação, pode ser explicado e categorizado por meio de técnicas de processamento audiovisual. Essas técnicas podem aumentar a produtividade de pesquisadores dessas áreas mediante a inicialização automática da análise manual que eles geralmente fazem utilizando técnicas de aprendizagem de máquina, permitindo, assim, uma maior escalabilidade da quantidade de dados analisados em suas pesquisas. Além disso, essas técnicas também podem ser utilizadas para implementar agentes virtuais com uma maior sociabilidade. Isso capacita uma melhor comunicação com seres humanos, fazendo este tipo de interação mais natural.
Certos problemas relacionados ao processamento de linguagem natural possuem uma limitação dado que a maioria dos métodos exploram somente informações que podem ser extraídas de fontes textuais. Seres humanos fazem uso da prosódia para transmitir o significado da mensagem que se deseja transmitir. Dessa forma, modelos de aprendizagem de máquina que tentam prever o sentimento presente em textos provenientes da transcrição de um discurso ou diálogo tendem a perder muita informação quando analisados apenas na modalidade textual. Um outro exemplo em que isso pode acontecer é na classificação automática do poder de persuasão, dado que pessoas são persuadidas por fatores que vão além da argumentação, como prosódia, linguagem corporal e aparência visual. Trabalhos relacionados a mineração de opinião e classificação de persuasão mostram que abordagens multimodais são bem sucedidas quando combinam múltiplas modalidades. Entretanto, transcrições textuais e informações visuais podem não estar disponíveis devido a problemas técnicos, então a pergunta que se vem em mente é quão preciso são esses modelos de aprendizagem de máquina ao aplicar somente informações prosódicas. A maioria dos trabalhos presentes na literatura lidando com paralinguística computacional baseia-se profundamente em abordagens que empregam feature engineering, então uma outra pergunta que vem à tona é se abordagens agnósticas de domínio de fato funcionam nessa área de aplicação. Os resultados (capítulo 3) mostram que a aplicação de uma arquitetura simples de redes neurais recorrentes treinadas com coeficientes mel cepstrais são capazes de automaticamente classificar a opinião de oradores.
A fala não é o único canal de informação além do canal textual que é significativo. O canal visual também é bastante relevante. Seres humanos conseguem expressar diferentes expressões faciais, e essas expressões podem ser consideradas como sinais dentro do Modelo de Lentes de Brunswik. Pesquisadores da área de humanas tentam entender o quão importante são esses sinais anotando manualmente informações presentes nas expressões faciais dos indivíduos sob análise. Entretanto, essas atividades consomem muito tempo e são suscetíveis a erro humano devido à fadiga e à falta de treinamento adequado. Nesta tese nós conseguimos mostrar que features de baixo e alto nível extraídas por meio de métodos de visão computacional são capazes de explicar dados visuais provenientes de pesquisadores de certas áreas das ciências humanas, como pedagogia (capítulo 4) e ciências da comunicação (capítulo 5). Além disso, nós também demonstramos que o construto psicológico de motivação intrínseca pode ser automaticamente detectado com uma abordagem end-to-end.
Um outro problema bastante estudado no âmbito das ciências políticas é o entendimento dos fatores persuasivos aplicados em discursos e debates. Nagel et al. (2012), por exemplo, avaliou para cada segundo do debate entre Angela Merkel e Gerhard Schröder quais features das três modalidades (texto, fala e visão) estavam formando a impressão da audiência assistindo ao debate. Entretanto, uma abordagem automática para prever a impressão causada na audiência durante um debate não tinha sido explorada até então. Os resultados exibem que features multimodais de alto nível extraídas automaticamente podem indicar quais elementos presentes em comunicação política formam a impressão de uma audiência além de serem úteis para treinar modelos de aprendizagem de máquina para prever automaticamente a impressão causada.
Os experimentos realizados nesta tese foram feitos em dados provenientes de projetos de pesquisa das áreas de psicologia, pedagogia e ciências da comunicação. Em suma, nós provemos evidência empírica de que conteúdo audiovisual advindo das ciências humanas podem ser explicados e classificados automaticamente por meio de técnicas de processamento audiovisual. Esta tese apresenta novas aplicações de aprendizagem de máquina multimodal no contexto das humanidades digitais, apresentando diferentes maneiras de modelar as atividades, além de reforçar o problema já conhecido de imparcialidade em inteligência artificial. Modalidades audiovisuais são canais de comunicação essenciais que devem ser cuidadosamente analisados e explorados em aprendizagem de máquina multimodal para as humanidades digitais. | Portuguese |