Towards LiDAR and IMU-Based Human-Centric Scene Understanding in the Context of Urban Environments
Towards LiDAR and IMU-Based Human-Centric Scene Understanding in the Context of Urban Environments
Cities worldwide are facing increasingly complex demands driven by rapid urbanization, population growth, evolving mobility, and safety requirements. These challenges impact, for example, public and private transportation, urban planning, and public safety. Addressing them requires robust technical solutions that deeply understand the dynamics of urban environments. Urban environments are complex, dynamic scenes that are fundamentally shaped by humans acting as active agents within them, e.g., as pedestrians, drivers, or vulnerable individuals navigating city spaces. In this context, scene understanding is a core problem in machine learning and computer vision. Scene understanding refers to a system’s ability to perceive, interpret, and describe the structure and dynamics of a physical environment from sensor observations such as images, LiDAR (Light Detection and Ranging), or wearable sensor data. In urban environments, scene understanding includes recognizing pedestrians, interpreting their behavior, and reasoning about how the scene is likely to evolve over time, among others. This thesis contributes to the domain of scene understanding for urban environments with novel methods rooted in machine learning and computer vision. More precisely, it advances human-centric scene understanding in urban contexts, which means understanding dynamic scenes while explicitly placing humans and their behavior at the center of the analysis.
Many approaches to human-centric scene understanding rely heavily on RGB images, which raises significant privacy concerns in public urban environments where constant visual recording is often undesirable or restricted. In contrast, LiDAR and wearable devices equipped with IMU (Inertial Measurement Unit) sensors are becoming increasingly widespread and offer a viable alternative. Unlike RGB imagery, LiDAR is inherently more robust to challenging lighting and weather conditions, while IMU sensors are completely unaffected by environmental factors. Both LiDAR and IMU are privacy-preserving by design, and combined, they provide rich structural 3D point cloud and motion information for human-centric scene understanding, without revealing visual identity cues. However, human-centric scene understanding using only LiDAR and IMU introduces several challenges: (i) Urban environments generate massive amounts of raw data far beyond what humans can feasibly annotate, limiting the use of this data for supervised learning for perception tasks such as moving object segmentation (i.e., identifying which parts of the scene are dynamic). (ii) Variations between different LiDAR sensor types or deployment setups cause domain shifts that prevent supervised models trained on one dataset from generalizing reliably to LiDAR data captured in other contexts. (iii) Multi-modal contrastive learning is, compared to the RGB domain, still underexplored for LiDAR and IMU. In the RGB domain, it has enabled joint embedding spaces between complementary modalities that greatly improve representation quality, support cross-modal retrieval, and enhance downstream tasks such as human activity recognition (HAR). (iv) Crowd simulation research has not paid much attention to learning when new agents should appear in a simulation from real-world data. It mainly focuses on realistic agent behavior policies while placing less emphasis on the combined aspect of where and when people should appear in the simulation, which is essential for realistic simulations of urban environments. In this context, this thesis presents four main contributions within the problem space arising from these challenges:
First, we propose UMOS-MOTS, an unsupervised approach for LiDAR moving object segmentation (MOS) that uses self-supervised representation learning and relaxes MOS to a multivariate time series clustering problem. In stationary LiDAR settings, UMOS-MOTS achieves performance comparable to state-of-the-art supervised methods entirely without manual labels.
Second, we propose LiOn-XA, an unsupervised domain adaptation (UDA) approach for LiDAR semantic segmentation (i.e., assigning each point in a LiDAR scan a semantic category). Recent methods show that UDA for LiDAR can be achieved using paired LiDAR and RGB images together with cross-modal learning and adversarial training. In contrast, LiOn-XA demonstrates that combining a 2D and 3D LiDAR representation for UDA can achieve performance comparable to existing approaches using LiDAR-RGB pairs.
Third, we propose DeSPITE, a multi-modal contrastive representation learning approach that learns a joint embedding space across LiDAR, IMU, skeleton pose data, and text descriptions. This approach brings benefits of multi-modal contrastive learning into the LiDAR–IMU domain, such as enabling effective pre-training for LiDAR-based HAR and improving the interpretability of IMU signals through point cloud retrievals. Furthermore, DeSPITE demonstrates for the first time that wearable IMU signals from pedestrians can be automatically linked to their corresponding LiDAR-detected appearances, laying the groundwork for multi-modal LiDAR tasks in arbitrary multi-person scenes where such a link is not established automatically.
Fourth, we propose nTPP-GMM, a combination of neural temporal point processes (nTPP) with Gaussian Mixture models (GMM) to learn the spatio-temporal patterns of when and where people appear and disappear in real scenes directly from real-world data, an aspect that has received little attention in the crowd simulation field over the past decade. The nTPP-GMM closes this gap as a learnable layer for realistic agent initialization.
Together, the contributions of this thesis are building blocks for a scalable pipeline for LiDAR and IMU-based human-centric scene understanding in the context of urban environments. As a result, our contributions and findings pave the way for future human-centric scene understanding systems that respect privacy while deeply understanding how people behave in urban spaces.
Städte weltweit stehen vor zunehmend komplexen Anforderungen, die durch rasche Urbanisierung, Bevölkerungswachstum sowie sich wandelnde Anforderungen an Mobilität und Sicherheit bedingt sind. Diese Herausforderungen betreffen beispielsweise den öffentlichen und privaten Verkehr, die Stadtplanung und die öffentliche Sicherheit. Ihre Bewältigung erfordert robuste technische Lösungen, die die Dynamik urbaner Umgebungen tiefgreifend erfassen. Urbane Umgebungen sind komplexe, dynamische Szenen, die grundlegend durch Menschen als aktive Akteure innerhalb dieser Szenen geprägt sind, etwa als Fußgänger, Fahrer oder schutzbedürftige Personen, die sich durch städtische Räume bewegen. In diesem Kontext stellt Szenenverständnis (engl. Scene Understanding) ein zentrales Problem im maschinellen Lernen (engl. Machine Learning) und im computerbasierten Sehen (engl. Computer Vision) dar. Scene Understanding beschreibt die Fähigkeit eines Systems, die Struktur und Dynamik einer physischen Umgebung auf Basis von Sensorbeobachtungen wie RGB-Bildern, LiDAR (Lichtdetektion und Entfernungsmessung, engl. Light Detection and Ranging) oder Daten tragbarer Sensoren zu erfassen, zu interpretieren und zu beschreiben. In urbanen Kontexten umfasst dies unter anderem das Erkennen von Fußgängern, die Interpretation ihres Verhaltens und die Prognose, wie sich die Szene wahrscheinlich im Laufe der Zeit entwickeln wird. Diese Dissertation leistet einen Beitrag zu diesem Forschungsfeld mit neuartigen Methoden aus dem maschinellen Lernen und computerbasierten Sehens. Konkret erweitert sie das menschzentrierte (engl. Human-Centric) Scene Understanding in urbanen Kontexten, indem sie dynamische Szenen analysiert und den Menschen und sein Verhalten explizit ins Zentrum der Analyse stellt.
Viele Ansätze für Human-Centric Scene Understanding basieren stark auf RGB-Bildern, was erhebliche Datenschutzprobleme in öffentlichen urbanen Räumen aufwirft, da eine ständige visuelle Aufzeichnung oft unerwünscht oder eingeschränkt ist. Im Gegensatz dazu werden LiDAR und tragbare Geräte mit IMU-Sensoren (engl. Inertial Measurement Unit) immer verbreiteter und bieten eine praktikable Alternative. LiDAR ist im Vergleich zu RGB-Bildern von Natur aus robuster gegenüber schwierigen Licht- und Wetterbedingungen, während IMUs vollständig unabhängig von Umwelteinflüssen sind. Beide Sensorarten sind von Haus aus datenschutzfreundlich und liefern dennoch reichhaltige Struktur- und Bewegungsinformationen für Human-Centric Scene Understanding, ohne visuelle Identitätsmerkmale offenzulegen. Die ausschließliche Nutzung von LiDAR und IMU bringt jedoch mehrere Herausforderungen mit sich: (i) Urbane Umgebungen erzeugen enorme Mengen an Rohdaten, die weit über das hinausgehen, was Menschen sinnvoll annotieren können, was den Einsatz überwachter Lernverfahren (engl. Supervised Learning) für Wahrnehmungsaufgaben wie das Erkennen sich bewegender Objekte (engl. Moving Object Segmentation, MOS) einschränkt. (ii) Unterschiede zwischen verschiedenen LiDAR-Sensortypen oder Einsatzkonfigurationen verursachen Domänenverschiebung (engl. Domain Shifts), die verhindern, dass Supervised Learning Modelle, die auf einem Datensatz trainiert wurden, zuverlässig auf LiDAR-Daten aus anderen Kontexten generalisieren. (iii) Multimodales kontrastives Lernen (engl. Multi-modal Contrastive Learning) ist im Vergleich zum RGB-Bereich für LiDAR und IMU Daten noch nicht sehr weit erforscht. Im RGB-Bereich dagegen hat es bereits erhebliche Fortschritte ermöglicht, etwa durch gemeinsame Einbettungsräume (engl. Joint Embedding Spaces) für verschiedene Modalitäten, wodurch Aufgaben wie modalitätenübergreifende Suche (engl. Cross-Modal Retrieval) und Aktivitätserkennung von Menschen (engl. Human Activity Recognition, HAR) verbessert werden. (iv) Die Forschung zur Simulation von Menschenmengen (engl. Crowd Simulation) schenkt dem Aspekt, wann und wo Menschen in einer Simulation erscheinen sollten, wenig Aufmerksamkeit. Dieser Aspekt ist für realistische Simulationen urbaner Umgebungen entscheidend, die Forschung konzentriert sich bisher aber nur sehr stark auf das Erlernen realistischer Verhaltensrichtlinien einzelner Agenten. Diese Dissertation präsentiert vier Hauptbeiträge zur Lösung dieser Herausforderungen:
Erstens stellen wir UMOS-MOTS vor, einen unüberwachten (engl. unsupervised) Ansatz für LiDAR MOS, der selbstüberwachtes Repräsentationslernen verwendet (engl. Self-Supervised Representation Learning) und MOS in ein Clustering multivariater Zeitreihen vereinfacht. In stationären LiDAR-Szenarien erreicht UMOS-MOTS eine Leistung, die mit existierenden überwachten Verfahren vergleichbar ist – und das vollständig ohne manuelle Labels.
Zweitens stellen wir LiOn-XA vor, einen unüberwachten Ansatz für Domänen Adaptation (engl. Unsupervised Domain Adaptation) bei der semantischen LiDAR-Segmentierung (engl. Semantic Segmentation), also der Zuweisung jeder Punktwolke zu einer semantischen Kategorie. LiOn-XA zeigt, dass die Kombination einer 2D- und einer 3D-LiDAR-Repräsentation für Domain Adaptation eine ähnliche Leistung wie existierend Ansätze erziehlen kann, die LiDAR-RGB-Paare verwenden.
Drittens stellen wir DeSPITE vor, ein Ansatz für multimodales kontrastives Repräsentationslernen (engl. Multi-modal Contrastive Representation Learning), der einen Joint Embedding Space für LiDAR, IMU, Skelettposendaten und Textbeschreibungen erlernt. DeSPITE überträgt die Vorteile von Multi-modal Contrastive Learning in den LiDAR–IMU-Bereich, ermöglicht effektives Vortrainieren (engl. Pre-Training) für LiDAR-basierte Human Activity Recognition und verbessert die Interpretierbarkeit von IMU-Signalen durch Retrieval von Punktwolken. Bemerkenswert ist, dass DeSPITE erstmals zeigt, dass tragbare IMU-Signale von Fußgängern automatisiert mit ihren entsprechenden LiDAR-Detektionen verknüpft werden können – eine Grundlage für datenschutzfreundliche, multimodale LiDAR-Anwendungen in komplexen Mehrpersonen-Szenen.
Viertens stellen wir nTPP-GMM vor, eine Methode, die neuronale zeitliche Punktprozesse (engl. Neural Temporal Point Processes) mit Gaußschen Mischmodellen (engl. Gaussian Mixture Models) kombiniert, um raumzeitliche Muster zu erlernen, wann und wo Menschen reale Szenen beitreten und verlassen. Diese Methode schließt eine bisher vernachlässigte Lücke im Bereich der Menschenmassensimulation (Crowd Simulation), indem sie eine neuartige lernfähige Schicht für eine realistische Agenteninitialisierung einführt.
Zusammen bilden die Beiträge dieser Dissertation die Bausteine für eine skalierbare, datenschutzfreundliche Pipeline für Human-Centric Scene Understanding in urbanen Umgebungen basierend auf LiDAR- und IMU-Daten. So ebnet diese Arbeit den Weg für zukünftige Systeme zum Human-Centric Scene Understanding, die den Datenschutz respektieren und gleichzeitig das Verhalten von Menschen in städtischen Räumen tiefgreifend verstehen.
