On a deeper understanding of data-driven approaches in the current framework of wastewater treatment: looking inside the black-box

Alejo Alvarez, Luz Daniela (2021)
On a deeper understanding of data-driven approaches in the current framework of wastewater treatment: looking inside the black-box.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00013463
Ph.D. Thesis, Primary publication, Publisher's Version

Preview

Text
PhD Thesis LA off version.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (17MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

On a deeper understanding of data-driven approaches in the current framework of wastewater treatment: looking inside the black-box

Language:

English

Referees:

Lackner, Prof. Dr. Susanne ; Atkinson-Abutridy, Prof. Dr. John

Date:

2021

Place of Publication:

Darmstadt

Collation:

vii, xi, 139 Seiten

Date of oral examination:

30 July 2020

DOI:

10.26083/tuprints-00013463

Abstract:

Machine learning (ML) is one of the most rapidly growing technical fields, lying at the intersection of computer science and statistics, and at the core of artificial intelligence (AI) and data science. The effect of ML is broadly felt across a range of industries concerned with data intensive issues, such as consumer services, banking, astronomy and empirical sciences, among others. In the field of wastewater treatment, the origin of vast data generation came along with automation of wastewater treatment plants (WWTP). Additionally, an increase of the computing and storage capacity, allowed large amounts of information to be generated in the water sector coming from different sources to be stored. The information from WWTP, that is generated and recorded involves complex and heterogeneous data sources; on-line from sensors, on/off control data from pumps and equipment and off-line measurements from laboratories. Sensors are able to record measurements every few seconds, thus, generating thousands of data points daily. The data generated in laboratories in wastewater treatment is crucial to evaluate the quality of the water in any biological wastewater treatment process (bWWTP) and often to validate the sensors information. However, due to the costs and time involved, the frequency of sampling for laboratory measurements is often dramatically reduced compared to sensors. Thus, the resulting database (from sensors and laboratories), involve varying frequencies of sampling and thus a highly heterogeneous dataset. Current research on data-driven methods in wastewater treatment has focused mainly on predictive tasks, to forecast the effluent composition and performance of different bWWTP, the latter also widely studied by activated sludge models (ASM). Although the outcome could be similar with both approaches, the application and the input information to the models is very different. Data-driven approaches require enough data to perform an analysis task, they are data driven. However, the nature of ASM models is phenomenological, which aims to describe the biochemical interaction between the microbial community in the wastewater system and main pollutants in the wastewater; organic matter, nitrogen, phosphorus and other dissolved nutrients. Both approaches provide useful and important information from the process performance, however it is utmost important to distinguish and clarify the differences and goals of ASM-type models and ML-based tasks in the current framework of wastewater treatment. The main reasons that moved the wastewater treatment community to apply these methods in predictive tasks are two-fold; i) is the availability of data gathered from monitoring different bWWTP and ii) the already mentioned complexity of biological processes. The high adaptability of ML methods to dynamic systems has conducted the research community to a wide application of these methods. However, a key issue emerges from the literature. The current studies related to data-driven methods in wastewater treatment do not explicitly describe the pre-processing techniques applied, the amount of the data used for analysis, the frequency considered for the data selection and the rationale behind the selection of the dataset size. The majority of the studies use similar input parameters to those used in ASM-type models, ignoring the potential use of other parameters which are monitored in any bWWTP and not necessarily implemented in the mechanistic models; oxidation reduction potential (ORP), conductivity, turbidity, etc. Thus, yet, potentialities of data-driven methods are being ignored and on the other side, relevant information is omitted in most of the studies published. As previously stated, the diversity of data sources in wastewater treatment is clear. However, the combination of these data sources for extraction of knowledge is not yet studied in bWWTP. Hence, the main goal of this doctoral dissertation is to increase the general understanding of the state of the art ML methods in wastewater treatment focusing on; i) heterogeneous datasets analysis, ii) the suitability of data-driven methods for these datasets and iii) novel approaches to extract novel knowledge from these datasets. This work demonstrates the importance of data selection in heterogeneous datasets to extract reliable information. The outcome of different data-driven methods change dramatically with different amount of data considered in analysis. This was evidenced when a municipal WWTP was studied. To solve this problem, a methodology to extract a significant subset out of a total raw heterogeneous dataset was developed; optimizing the size of the dataset. The definition of a score-function, allowed the optimization of a subset which was comprised by a set of representative parameters or features (and observations) and then applied to build highly accurate models. Although, feature engineering is a well-developed field in data-science, not yet explored in wastewater treatment. New engineered features allowed to build highly accurate models for the prediction of complex bWWTP where data limitation was an issue. As well, an alternative methodology is proposed in this work to combine even more heterogeneous data sources to efficiently extract novel knowledge from complex bWWTP and that can be applied to similar complex bWWTP. Although the contributions of this doctoral dissertation are important, yet the main limitation of this work is the extension of the analysis to similar processes i.e. to evaluate if the knowledge gained from the processes studied are particular to these systems or similar patterns eco in comparable processes, for example, do the patterns in all municipal WWTP are similar? After showing the impact of the amount of data in different data-driven tasks. Existing data quality metrics for specific data sources in wastewater treatment (except for sensor data) need to be addressed, since are currently disconnected from the specific contextual characteristics. The need to revise data quality metrics for different sources of data in wastewater treatment is necessary, mainly when dealing with heterogeneous datasets. These issues however, are out of the focus of this work.

Alternative Abstract:

Alternative Abstract

Language

Das maschinelle Lernen (ML) ist eines der am schnellsten wachsenden technischen Gebiete, das an der Schnittstelle von Informatik und Statistik liegt und den Kern der künstlichen Intelligenz (KI) und der Datenwissenschaft bildet. Die Anwendung von ML ist in einer Reihe von Branchen, die sich mit datenintensiven Themen befassen, wie z.B. Verbraucherservice, Bankenwesen, Astronomie und empirische Wissenschaften usw., weit verbreitet. Im Bereich der Abwasserbehandlung ging der Ursprung der umfangreichen Datengenerierung mit der Automatisierung von Kläranlagen (KA) einher. Zusätzlich ermöglichte eine Erhöhung der Rechen- und Speicherkapazität die Speicherung großer Mengen an Informationen aus verschiedenen Quellen auch im Wassersektor. Die von Kläranlagen erzeugten Informationen umfassen komplexe und heterogene Datenquellen; dazu zählen Daten von Onlinesensoren, on/off Steuerungsdaten von Pumpen und Geräten und Offline-Messungen in Laboratorien. Sensoren sind in der Lage im Sekundentakt Messwerte aufzuzeichnen und so täglich tausende von Datenpunkten zu generieren. Die Labordaten sind entscheidend für die Bewertung der Wasserqualität in den biologischen Stufen einer KA und oft auch für die Validierung der Sensorinformationen. Aufgrund der Kosten und des Zeitaufwands ist die Häufigkeit der Probenahmen für Labormessungen jedoch oft drastisch reduziert. Die daraus resultierende Datenbank (aus Sensor- und Labordaten) beinhaltet daher unterschiedliche Probenahmehäufigkeiten und enthält somit einen sehr heterogenen Datensatz. Die aktuelle Forschung zu datengestützten Methoden in der Abwasserbehandlung hat sich hauptsächlich auf vorausschauende Aufgaben konzentriert, um die Abwasserzusammensetzung und die Leistung von KAs vorherzusagen, wobei letztere bisher weitgehend mit Belebtschlamm-Modellen (activated sludge models, ASM) untersucht werden. Obwohl das Ergebnis bei beiden Ansätzen ähnlich sein könnte, sind die Anwendung und die Eingabeinformationen zu den Modellen sehr unterschiedlich. Datengetriebene Ansätze benötigen genügend Daten, um eine Analyseaufgabe durchzuführen, sie sind datengetrieben. Die Natur der ASM-Modelle ist jedoch mechanistisch, d.h. sie zielen darauf ab, die biochemischen Wechselwirkungen zwischen der mikrobiellen Gemeinschaft im Abwassersystem und den Hauptschadstoffen im Abwasser - organische Substanz, Stickstoff, Phosphor und andere gelöste Stoffe - zu beschreiben. Beide Ansätze liefern nützliche und wichtige Informationen aus der Prozessleistung, es ist jedoch äußerst wichtig, die Unterschiede und Ziele von ASM-Modellen und ML-basierten Ansätzen im aktuellen Rahmen der Abwasserbehandlung zu unterscheiden und zu klären. Die Hauptgründe, warum diese Methoden bei Vorhersageaufgaben Anwendung finden sind zweifach: i) die Verfügbarkeit von Daten, die aus der Überwachung verschiedener Kläranlagen gewonnen wurden, und ii) die bereits erwähnte Komplexität der biologischen Prozesse. Die hohe Anpassungsfähigkeit von ML-Methoden an dynamische Systeme hat zu einer breiten Anwendung dieser Methoden geführt. Aus der Literatur geht jedoch eine Schlüsselfrage hervor. Die aktuellen Studien, die sich auf datengesteuerte Methoden in der Abwasserbehandlung beziehen, beschreiben nicht explizit die angewandten Datenaufbereitungsschritte, die Menge der für die Analyse verwendeten Daten, die für die Datenauswahl in Betracht gezogene Häufigkeit des Datenaufkommens und die Begründung für die Auswahl der Datensatzgröße. Die Mehrheit der Studien verwendet ähnliche Eingabeparameter wie in ASM-Modellen, wobei die potenzielle Verwendung anderer Parameter ignoriert wird, die in jeder Kläranlage überwacht und nicht unbedingt in den mechanistischen Modellen implementiert werden, z.B. Redox-Potential, Leitfähigkeit, Trübung usw. Somit werden die Möglichkeiten datengesteuerter Methoden ignoriert und andererseits werden relevante Informationen in den meisten der veröffentlichten Studien ausgelassen. Wie bereits erwähnt, ist die Vielfalt der Datenquellen in der Abwasserbehandlung offensichtlich. Die Kombination dieser Datenquellen für die Wissensextraktion wird in der Kläranlage jedoch noch nicht untersucht. Daher ist das Hauptziel dieser Dissertation die Verbesserung des allgemeinen Verständnisses des Standes der Technik von ML-Methoden in der Abwasserbehandlung mit folgenden Schwerpunkten: i) Analyse heterogener Datensätze, ii) Eignung von datengetriebenen Methoden für diese Datensätze und iii) neue Ansätze zur Extraktion neuen Wissens aus diesen Datensätzen. Diese Arbeit zeigt die Bedeutung der Datenauswahl in heterogenen Datensätzen, um zuverlässige Informationen zu extrahieren. Die Ergebnisse verschiedener datengetriebener Methoden ändern sich dramatisch, wenn unterschiedliche Datenmengen bei der Analyse berücksichtigt werden. Dies wurde bei der Untersuchung einer kommunalen Kläranlage nachgewiesen. Um dieses Problem zu lösen, wurde eine Methode zur Extraktion einer signifikanten Teilmenge aus einem gesamten heterogenen Rohdatensatz entwickelt, wobei die Größe des Datensatzes optimiert wurde. Die Definition einer Score-Funktion ermöglichte die Optimierung einer Teilmenge, die aus einer Reihe repräsentativer Parameter oder Merkmale (und Beobachtungen) bestand und dann zur Erstellung hochgenauer Modelle angewandt wurde. Obwohl das Feature-Engineering ein gut entwickeltes Gebiet der Datenwissenschaft ist, ist es in der Abwasserbehandlung noch nicht erforscht. Dank neu entwickelter Merkmale konnten hochpräzise Modelle für die Vorhersage komplexer Kläranlagen erstellt werden, bei denen Datenbeschränkungen ein Problem darstellten. Außerdem wird in dieser Arbeit eine alternative Methodik vorgeschlagen, um noch heterogenere Datenquellen zu kombinieren, um auf effiziente Weise neues Wissen aus komplexen Kläranlagendaten zu extrahieren, das auf ähnliche komplexe Fälle angewendet werden kann. Die Beiträge dieser Doktorarbeit stellen einen wichtigen Beitrag dar, jedoch mit der Einschränkung, dass in dieser Arbeit noch keine Anwendungen der Analysen auf ähnliche Systeme erfolgte. Zukünftig sollte daher beurteilt werden, ob die Erkenntnisse, die aus den untersuchten Prozessen gewonnen wurden, für diese Systeme oder für ähnliche Muster in vergleichbaren Prozessen typisch sind, z.B.: Sind bestimmte Muster in allen kommunalen Kläranlagen ähnlich?

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-134630

Classification DDC:

500 Science and mathematics > 510 Mathematics
500 Science and mathematics > 540 Chemistry
500 Science and mathematics > 570 Life sciences, biology
600 Technology, medicine, applied sciences > 620 Engineering and machine engineering

Divisions:

13 Department of Civil and Environmental Engineering Sciences > Institute IWAR > Wastewater Engineering

Date Deposited:

12 Feb 2021 09:48

Last Modified: