Multi-Label-Klassifizierung (MLC) bezeichnet die Aufgabe, eine Menge von Labels für eine gegebene Instanz vorherzusagen. Eine zentrale Herausforderung bei MLC ist die Erfassung der zugrundeliegenden Strukturen im Labelraum. Aufgrund der Komplexität des Lernens aus allen möglichen Labelkombinationen ist es bei großen MLC Datensätzen von entschei- dender Bedeutung, sowohl Skalierbarkeit als auch Vorhersagequalität zu berücksichtigen. Ein weiteres Problem, das bei der Erstellung von MLC-Systemen auftritt, ist die Frage nach dem Evaluationsmaß, welches für den Vergleich der Vorhersagequalität herangezogen werden soll. Im Gegensatz zur traditionellen Multi-Klassen-Klassifizierung werden in MLC häufig mehrere Evaluationsmaße gemeinsam eingesetzt, da jedes Maß ein anderes MLC-System präferiert. Mit anderen Worten, es ist entscheidend, die Eigenschaften der verschiedenen MLC Evalua- tionsmaße zu verstehen, um ein System zu erstellen, das gut in Bezug auf die Maße ist, an denen wir besonders interessiert sind.
In dieser Arbeit entwickeln wir Architekturen von Neuronalen Netzwerken (NN), die Labelstrukturen in großen MLC-Problemen effizient und effektiv bezüglich eines bestimmten Evaluationsmaßes ausnutzen. Obwohl NNs, die aus paarweisen Labelbeziehungen lernen, bereits länger in der Literatur verwendet werden, schlagen wir eine vergleichsweise simple Architektur vor, die eine Verlustfunktion verwendet, die Label-Abhängigkeiten ignoriert. Wir zeigen, dass unser Ansatz besser funktioniert als komplexere neuronale Netze bezüglich des Rank-Loss-Maßes, welches explizit die Anzahl der durch das Verfahren falsch sortierten Labelpaare berücksichtigt.
Ein weiteres Evaluationsmaß, das üblicherweise beachtet wird, ist Subset 0/1-Loss. Der Classifier-Chain-Ansatz (CC) ist ein erfolgreiches, aktuelles Verfahren um dieses Maß zu optimieren. Dies geschieht dadurch, dass das ursprüngliche Problem in ein sequentielles Vorhersageproblem umgewandelt wird, sodass die Aufgabe daraufhin darin besteht, eine Sequenz von Binärwerten für die Labels vorherzusagen. Im Gegensatz zur eben genannten NN-Architektur, die Labelstrukturen ignoriert, setzen wir rekurrente neuronale Netze (RNN) ein, um Sequenzstrukturen in den Labelketten auszunutzen. Die vorgeschlagenen RNNs erweisen sich gegenüber CCs als vorteilhaft bei Problemen mit einer großen Anzahl an Labels wegen Parameter-Sharing-Effekten bei RNNs und bei Problemen mit langen Labelsequenzen.
Zusätzlich zu den NNs, die auf Labelsequenzen gelernt werden, stellen wir zwei weitere neuartige NN-basierte Methoden vor. Diese Methoden projizieren sowohl Instanzen als auch Labels auf eine Art und Weise in einen gemeinsamen niedrig-dimensionalen Raum, welche die Distanz zwischen einer Instanz und ihren relevanten Labels in diesem Raum reduziert. Während das Ziel beider Lernmethoden gleich ist, nämlich das Projizieren von Instanzen und Labels in einen gemeinsamen Raum, verwenden sie unterschiedliche Zusatzinformationen über die Labelräume: Das erste vorgeschlagene Verfahren nutzt hierarchische Strukturen aus und kann insbesondere nützlich sein, wenn solche Stukturen von Experten zur Verfügung gestellt werden. Die zweite Methode nutzt latente Labelräume aus, die von den textuellen Beschreibungen der Labels gelernt werden, sodass wir das Verfahren auf allgemeinere MLC-Probleme anwenden können, für die keine expliziten Labelstrukturen vorhanden sind. Ungeachtet der Unterschiede ermöglichen uns beide Verfahren, Vorhersagen über Labels zu treffen, die während des Trainings nicht gesehen wurden. Außerdem zeigen wir, dass beide Verfahren in der Lage sind, durch Ausnutzung der Zusatzinformationen insgesamt eine bessere Vorhersagequalität zu erreichen. | German |