Multi-target Tracking beschäftigt sich mit der Problemstellung, mehrere
Objekte in einer dynamischen Szene zu verfolgen und ist für eine
Vielzahl von Anwendungen relevant. Im Straßenverkehr kann beispielsweise
die Absicht eines Fußgängers von einem Fahrzeug aus erkannt werden, um
einen unachtsamen Autofahrer zu warnen und somit Verkehrsunfälle zu
reduzieren. Ein weiteres Beispiel ist die Navigation autonomer Roboter,
die ein Verständnis der dynamischen Umgebung voraussetzt. Schließlich
können Todesopfer bei Massenpaniken durch eine automatisierte Analyse
von Menschenmassen vermieden werden.
Bei dieser Problemstellung gibt es jedoch zahlreiche Herausforderungen.
Zunächst sind visuelle Daten oft mehrdeutig. Beispielsweise können
Objekte aufgrund schlechter Kontrastverhältnisse oder bei Verdeckung
unerkannt bleiben. Des Weiteren werden durch objektähnliche Strukturen
im Hintergrund Fehldetektionen verursacht, die den Trackingalgorithmus
stören.
Eine zweite Herausforderung entsteht dann, wenn mehrere Messungen nahe
beieinander liegen. Das Auflösen der Mehrdeutigkeiten führt zu einem
kombinatorischen Problem, dessen Komplexität mit jedem Zeitschritt
rasant ansteigt. Zusätzlich sollen physikalische Rahmenbedingungen
erfüllt werden, welche sich nicht nur auf einzelne Trajektorien
erstrecken, sondern auch auf deren Zusammenspiel.
Diese Dissertation befasst sich mit dem Ansatz der Energieminimierung,
um den oben genannten Herausforderungen zu begegnen. Ausgehend von einer
Menge an Objektdetektionen wird eine Energiefunktion, welche das
vorliegende Problem umschreibt, minimiert, um eine geeignete Lösung für
eine vorgegebene Bildsequenz zu finden. Solche Tracking-by-Detection
Ansätze haben erheblich zum Fortschritt des Multi-Target-Trackings
beigetragen. Diese Arbeit baut auf diesen Grundideen auf und stellt drei
neue Methoden vor, die den Stand der Technik wie folgt erweitern:
Der erste Ansatz basiert auf der Arbeit von Berclaz et al. (2009) und
formuliert die Energie im diskreten Raum. Die zulässigen
Objektpositionen werden dabei auf ein regelmäßiges Gitter beschränkt und
die Objektverfolgung wird als ganzzahlige lineare Programmierung
formuliert. Im Gegensatz zu früheren Ansätzen beinhaltet die hier
vorgestellte Methode ein dynamisches Modell sowie zusätzliche
Zwangsbedingungen, die es erlauben, schwächere Hypothesen direkt auf der
Ebene der Trajektorien zu unterdrücken. Diese Erweiterungen verbessern
die Ergebnisse sowohl qualitativ als auch quantitativ hinsichtlich
annotierter Ground-Truth-Daten.
Der zweite technische Beitrag ist eine stetige Energiefunktion, die
durch die Diskretisierung entstehende Einschränkungen überwindet. Die
kontinuierliche Formulierung kann viele wichtige Aspekte des
Multi-Target-Trackings, wie etwa Objektlokalisierung oder
Bewegungsschätzung, exakter erfassen. Im Einzelnen werden der Datenterm
und Phänomene wie gegenseitige Kollisionen und Verdeckung, das Aus-
sehen, die Dynamik und die Langlebigkeit der Objekte als stetige,
differenzierbare Funkionen modelliert. Das daraus resultierende
nicht-konvexe Optimierungsproblem wird lokal mittels Verfahren der
konjugierten Gradienten in Kombination mit speziell angepassten Sprün-
gen minimiert. Die sorgfältigere Problembeschreibung stellt ein robustes
Verfahren zur Verfolgung mehrerer Objekte dar und zeigt
vielversprechende Ergebnisse auf besonders anspruchsvollen
Videosequenzen.
Die beiden oben genannten Ansätze fokussieren sich auf die
Rekonstruktion der Trajektorien und lassen dabei die Zuweisungsaufgabe
außer Acht. Um sowohl das Korrespondenzproblem als auch die Schätzung
der Trajektorien in einem Optimierungsproblem zu vereinen, wird im
dritten Teil dieser Dissertation eine diskret-kontinuierliche Energie
präsentiert. Aktuelle Fortschritte in der diskreten Optimierung (Delong
et al., 2012) ermöglichen es, Multi-Target-Tracking auf eine Art zu
formulieren, bei der eine diskrete Zuordnung und eine kontinuierliche
Repräsentation des Zustands in einer gemeinsamen Zielfunktion vereint
werden. Um eine effiziente Optimierung zu ermöglichen, wird die Energie
alternierend zwischen den beiden Variablenmengen lokal minimiert.
Im abschließenden Teil werden wichtige Aspekte diskutiert, die beim
Evaluieren und beim Vergleich unterschiedlicher Tracking-Methoden
auftauchen, und die nicht vernachlässigt werden sollten.
| German |