TU Darmstadt / ULB / TUprints

Data-driven Disease Surveillance

Kulessa, Moritz Alexander Claus (2022)
Data-driven Disease Surveillance.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00020415
Ph.D. Thesis, Primary publication, Publisher's Version

[img] Text
final_thesis.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.

Download (1MB)
Item Type: Ph.D. Thesis
Type of entry: Primary publication
Title: Data-driven Disease Surveillance
Language: English
Referees: Binnig, Prof. Dr. Carsten ; Fürnkranz, Prof. Dr. Johannes ; Spiliopoulou, Prof. Dr. Myra
Date: 2022
Place of Publication: Darmstadt
Collation: xi, 137 Seiten
Date of oral examination: 17 December 2021
DOI: 10.26083/tuprints-00020415
Abstract:

The recent and still ongoing pandemic of SARS-CoV-2 has shown that an infectious disease outbreak can have serious consequences on public health and economy. In this situation, public health officials constantly aim to control and reduce the number of infections in order to avoid overburdening health care system. Besides minimizing personal contact through political measures, a fundamental approach to contain the spread of diseases is to isolate infected individuals. The effectiveness of the latter approach strongly depends on a timely detection of the outbreak as the tracking of individuals can quickly become infeasible when the number of cases increases. Hence, a key factor in the containment of an infectious disease is the early detection of a potential larger outbreak, commonly known as outbreak detection.

For this purpose, epidemiologists rely on a variety of statistical surveillance methods in order to maintain an overview of the current situation of infections by either monitoring confirmed cases or cases with early symptoms. Mainly based on statistical hypothesis testing, these methods automatically raise an alarm if an unexpected increase in the number of infections is observed. The practical usefulness of such methods highly depends on the trade-off between the ability to detect outbreaks and the chances of raising a false alarm. However, this hypothesis-based approach to disease surveillance has several limitations. On the one hand, it is a hand-crafted approach which requires domain knowledge to set up the statistical methods, especially if early symptoms are monitored. On the other hand, outbreaks of emerging infectious diseases with different symptom patterns are likely to be missed by such a surveillance system.

In this thesis, we focus on data-driven disease surveillance and address these challenges in the following ways. To support epidemiologists in the process of defining reliable disease patterns for monitoring cases with early symptoms, we present a novel approach to discover such patterns in historic data. With respect to supervised learning, we propose a fusion classifier which can combine the output of multiple statistical methods using the univariate time series of infection counts as the only source of information. In addition, we develop algorithms based on unsupervised learning which frame the task of outbreak detection as a general anomaly detection task. This even includes the surveillance of emerging infectious diseases. Therefore, we contribute a novel framework and propose a new approach based on sum-product networks to monitor multiple disease patterns simultaneously. Our results show that data-driven approaches are ideal to assist epidemiologists by processing large amounts of data that cannot fully be understood and analyzed by humans. Most significantly, the incorporation of additional information into the surveillance through machine learning techniques shows reliable and promising results.

Alternative Abstract:
Alternative AbstractLanguage

Die jüngste und immer noch andauernde Pandemie von SARS-CoV-2 hat gezeigt, dass ein Ausbruch einer Infektionskrankheit schwerwiegende Folgen für die Bevölkerung und die Wirtschaft haben kann. In dieser Situation sind die Gesundheitsämter ständig bemüht, die Zahl der Infektionen zu kontrollieren und zu reduzieren, um eine Überlastung des Gesundheitssystems zu vermeiden. Neben der Minimierung des persönlichen Kontakts durch politische Maßnahmen ist ein wesentlicher Ansatz zur Eindämmung der Ausbreitung von Krankheiten die Identifizierung von Infizierten. Die Effektivität des letztgenannten Ansatzes hängt stark von einer rechtzeitigen Erkennung des Ausbruchs ab, da die Verfolgung von Einzelpersonen schnell undurchführbar werden kann, wenn die Zahl der Fälle zunimmt. Daher ist ein Schlüsselfaktor bei der Eindämmung einer Infektionskrankheit die frühzeitige Erkennung eines potenziellen größeren Ausbruchs, allgemein bekannt als Ausbruchserkennung.

Zu diesem Zweck stützen sich Epidemiologen auf eine Vielzahl statistischer Überwachungsmethoden. Sie ermöglichen es einen Überblick über das aktuelle Infektionsgeschehen zu erhalten, indem sie entweder bestätigte Fälle oder Fälle mit frühen Symptomen von Infektionskrankheiten überwachen. Diese Methoden, die hauptsächlich auf statistischen Hypothesentests beruhen, lösen automatisch einen Alarm aus, wenn ein unerwarteter Anstieg der Zahl der Infektionen beobachtet wird. Ihr praktischer Nutzen hängt in einem hohen Maß von der Abwägung zwischen der Fähigkeit Ausbrüche zu erkennen und der Wahrscheinlichkeit eines Fehlalarms ab. Dieser hypothesengestützte Ansatz der Krankheitsüberwachung hat jedoch mehrere Nachteile. Zum einen handelt es sich um einen sehr händisch geprägten Ansatz, der Fachwissen zur Einrichtung der statistischen Methoden erfordert, insbesondere wenn frühe Symptome überwacht werden. Zum anderen werden Ausbrüche neu auftretender Infektionskrankheiten mit unterschiedlichen Symptommustern von einem solchen Überwachungssystem wahrscheinlich übersehen.

Um diese Herausforderungen zu bewältigen, konzentrieren wir uns in dieser Arbeit auf die datengesteuerte Überwachung von Krankheiten. Um Epidemiologen bei der Definition zuverlässiger Krankheitsmuster für die Überwachung von Fällen mit frühen Symptomen zu unterstützen, präsentieren wir einen neuartigen Ansatz, mit dem solche Muster in historischen Daten erfasst werden. Im Hinblick auf das überwachte Lernen stellen wir einen Fusionsklassifikator vor, der die Ergebnisse mehrerer statistischer Methoden kombinieren kann, wobei die univariate Zeitreihe der Infektionszahlen als einzige Informationsquelle dient. Darüber hinaus entwickeln wir Algorithmen auf der Grundlage des unüberwachten Lernens, die die Aufgabe der Erkennung von Krankheitsausbrüchen als ein allgemeines Problem der Anomalieerkennung auffassen. Dies schließt auch die Überwachung neu auftretender Infektionskrankheiten ein. Hierfür stellen wir einen neuartiges Framework zur Verfügung und präsentieren einen neuen Ansatz auf der Grundlage von Sum-Product Networks, mit dem mehrere Krankheitsmuster gleichzeitigen überwacht werden können. Unsere Ergebnisse zeigen, dass datengesteuerte Ansätze ideal sind, um Epidemiologen bei der Verarbeitung großer Datenmengen zu unterstützen, die von Menschen nicht vollständig verstanden und analysiert werden können. Vor allem die Einbeziehung zusätzlicher Informationen in den Überwachungsprozess durch maschinelle Lernverfahren zeigt zuverlässige und vielversprechende Ergebnisse.

German
Status: Publisher's Version
URN: urn:nbn:de:tuda-tuprints-204152
Classification DDC: 000 Generalities, computers, information > 004 Computer science
Divisions: 20 Department of Computer Science > Data Management (2022 umbenannt in Data and AI Systems)
TU-Projects: G-BA|01VSF17034|ESEG
Date Deposited: 14 Mar 2022 13:18
Last Modified: 01 Aug 2022 07:52
URI: https://tuprints.ulb.tu-darmstadt.de/id/eprint/20415
PPN: 492793476
Export:
Actions (login required)
View Item View Item