Robust Distributed Multi-Source Detection and Labeling in Wireless Acoustic Sensor Networks

Hamaidi, Lala Khadidja (2018)
Robust Distributed Multi-Source Detection and Labeling in Wireless Acoustic Sensor Networks.
Technische Universität Darmstadt
Ph.D. Thesis, Primary publication

Preview

Text
LalaKhadidjaHamaidi_Doktorarbeit.pdf - Accepted Version
Copyright Information: CC 1.0 Universal - Public Domain:the author relinquishes on all properities rights.
Download (5MB) | Preview

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Robust Distributed Multi-Source Detection and Labeling in Wireless Acoustic Sensor Networks

Language:

English

Referees:

Zoubir, Prof. Dr. Abdelhak ; Muma, Dr.-Ing. Michael ; Bertrand, Asst. Prof Alexander

Date:

2018

Place of Publication:

Darmstadt

Date of oral examination:

13 December 2017

Abstract:

The growing demand in complex signal processing methods associated with low-energy large scale wireless acoustic sensor networks (WASNs) urges the shift to a new information and communication technologies (ICT) paradigm. The emerging research perception aspires for an appealing wireless network communication where multiple heterogeneous devices with different interests can cooperate in various signal processing tasks (MDMT). Contributions in this doctoral thesis focus on distributed multi-source detection and labeling applied to audio enhancement scenarios pursuing an MDMT fashioned node-specific source-of-interest signal enhancement in WASNs. In fact, an accurate detection and labeling is a pre-requisite to pursue the MDMT paradigm where nodes in the WASN communicate effectively their sources-of-interest and, therefore, multiple signal processing tasks can be enhanced via cooperation.

First, a novel framework based on a dominant source model in distributed WASNs for resolving the activity detection of multiple speech sources in a reverberant and noisy environment is introduced. A preliminary rank-one multiplicative non-negative independent component analysis (M-NICA) for unique dominant energy source extraction given associated node clusters is presented. Partitional algorithms that minimize the within-cluster mean absolute deviation (MAD) and weighted MAD objectives are proposed to determine the cluster membership of the unmixed energies, and thus establish a source specific voice activity recognition.

In a second study, improving the energy signal separation to alleviate the multiple source activity discrimination task is targeted. Sparsity inducing penalties are enforced on iterative rank-one singular value decomposition layers to extract sparse right rotations. Then, sparse non-negative blind energy separation is realized using multiplicative updates. Hence, the multiple source detection problem is converted into a sparse non-negative source energy decorrelation. Sparsity tunes the supposedly non-active energy signatures to exactly zero-valued energies so that it is easier to identify active energies and an activity detector can be constructed in a straightforward manner. In a centralized scenario, the activity decision is controlled by a fusion center that delivers the binary source activity detection for every participating energy source. This strategy gives precise detection results for small source numbers. With a growing number of interfering sources, the distributed detection approach is more promising. Conjointly, a robust distributed energy separation algorithm for multiple competing sources is proposed. A robust and regularized $t_{\nu}M$-estimation of the covariance matrix of the mixed energies is employed. This approach yields a simple activity decision using only the robustly unmixed energy signatures of the sources in the WASN. The performance of the robust activity detector is validated with a distributed adaptive node-specific signal estimation method for speech enhancement. The latter enhances the quality and intelligibility of the signal while exploiting the accurately estimated multi-source voice decision patterns. In contrast to the original M-NICA for source separation, the extracted binary activity patterns with the robust energy separation significantly improve the node-specific signal estimation.

Due to the increased computational complexity caused by the additional step of energy signal separation, a new approach to solving the detection question of multi-device multi-source networks is presented. Stability selection for iterative extraction of robust right singular vectors is considered. The sub-sampling selection technique provides transparency in properly choosing the regularization variable in the Lasso optimization problem. In this way, the strongest sparse right singular vectors using a robust $\ell_1$-norm and stability selection are the set of basis vectors that describe the input data efficiently. Active/non-active source classification is achieved based on a robust Mahalanobis classifier. For this, a robust $M$-estimator of the covariance matrix in the Mahalanobis distance is utilized. Extensive evaluation in centralized and distributed settings is performed to assess the effectiveness of the proposed approach. Thus, overcoming the computationally demanding source separation scheme is possible via exploiting robust stability selection for sparse multi-energy feature extraction.

With respect to the labeling problem of various sources in a WASN, a robust approach is introduced that exploits the direction-of-arrival of the impinging source signals. A short-time Fourier transform-based subspace method estimates the angles of locally stationary wide band signals using a uniform linear array. The median of angles estimated at every frequency bin is utilized to obtain the overall angle for each participating source. The features, in this case, exploit the similarity across devices in the particular frequency bins that produce reliable direction-of-arrival estimates for each source. Reliability is defined with respect to the median across frequencies. All source-specific frequency bands that contribute to correct estimated angles are selected. A feature vector is formed for every source at each device by storing the frequency bin indices that lie within the upper and lower interval of the median absolute deviation scale of the estimated angle. Labeling is accomplished by a distributed clustering of the extracted angle-based feature vectors using consensus averaging.

Alternative Abstract:

Alternative Abstract

Language

Die steigende Nachfrage nach komplexen Signalverarbeitungsverfahren in Verbindung mit niederenergetischen, großen, drahtlosen, akustischen Sensornetzwerken, sogenannten wireless acoustic sensor networks (WASNs) treibt den Wandel zu einem neuen Paradigma der Informations -und Kommunikationstechnologien (ICT) voran. Die aufkommende Forschungsrichtung strebt eine attraktive drahtlose Netzwerkkommunikation an, bei der mehrere heterogene Geräte mit unterschiedlichen Interessen an verschiedenen Signalverarbeitungsaufgaben kooperieren können. Im Englischen wird hierfür der Begriff multiple devices cooperating in multiple tasks (MDMT) verwendet. Diese Dissertation beschäftigt sich mit der verteilten Mehrquellen-Erkennung und -Kennzeichnung zur Verbesserung von Audiosignalen, die eine MDMT-gestützte, knotenspezifische Signalverstärkung in WASNs verfolgen. Tatsächlich ist eine genaue Erkennung und Kennzeichnung eine Grundvoraussetzung, um das MDMT-Paradigma zu verfolgen, bei dem die Knoten im WASN effektiv die Quellen ihres Interesses kommunizieren und somit mehrere Signalverarbeitungsaufgaben durch Zusammenarbeit verbessert werden können.

Zu Beginn wird ein neuartiges Rahmenwerk vorgestellt, das auf einem dominanten Quellenmodell in dezentralen WASNs zur Aktivitätsdetektion mehrerer aktiver Sprachsignalquellen in einer halligen und lauten Umgebung basiert. Eine vorläufige, multiplikative, nicht-negative, unabhängige Rank-eins-Komponentenanalyse (M-NICA) zur Extraktion dominanter Energiequellen anhand der zugehörigen Knotencluster wird vorgestellt. Algorithmen, die die mittlere absolute Abweichung und gewichtete mittlere absolute Abweichung innerhalb des Clusters minimieren, werden vorgeschlagen, um die Clusterzugehörigkeit der getrennten Energien zu bestimmen und so eine quellspezifische Sprachaktivitätserkennung zu erreichen.

Des Weiteren wird eine Verbesserung der Energie-Signaltrennung zur Vereinfachung der Mehrfachquellen-Aktivitäts-Diskriminierung angestrebt. Auf iterativen Rank-eins-Singulärwert-Zerlegungsebenen werden Regularisierungsterme angewandt, die Dünnbesetztheit induzieren. Anschließend wird mittels multiplikativer Aktualisierungen eine dünnbesetzte, nicht-negative, blinde Energietrennung vollzogen. Somit wird das Problem der Mehrfachquellenerkennung in eine dünnbesetzte, nicht-negative Quellenergie-Dekorrelation umgewandelt. Dünnbesetztheit stimmt die vermeintlich nicht aktiven Energiesignaturen exakt auf Null-Energien ab, sodass es einfacher ist, aktive Energien zu identifizieren, und ein Aktivitätsdetektor unkompliziert aufgebaut werden kann. In einem zentralisierten Szenario wird die Aktivitätsentscheidung von einem Fusionszentrum gesteuert, das die binäre Quellaktivitätsdetektion für jede teilnehmende Energiequelle liefert. Diese Strategie liefert präzise Erkennungsergebnisse für eine kleine Anzahl von Quellen. Bei einer wachsenden Anzahl von Störquellen ist die verteilte Detektion vielversprechender. Gleichzeitig wird ein robuster, verteilter Energietrennungsalgorithmus für mehrere konkurrierende Quellen vorgeschlagen. Hierzu wird eine robuste und regularisierte $t_{\nu}M$-Schätzung der Kovarianzmatrix der gemischten Energien verwendet. Dieser Ansatz führt zu einer einfachen Aktivitätsentscheidung, bei der nur die robust getrennten Energiesignaturen der Quellen im WASN verwendet werden. Die Leistung des robusten Aktivitätsdetektors wird mit einem verteilten, adaptiven, knotenspezifischen Signalschätzverfahren zur Sprachverbesserung validiert. Im Gegensatz zur ursprünglichen M-NICA für die Quelltrennung verbessern die extrahierten binären Aktivitätsmuster im Zusammenspiel mit der robusten Energietrennung die knotenspezifische Signalschätzung signifikant.

Aufgrund der durch den zusätzlichen Schritt der Energiesignaltrennung verursachten, erhöhten Rechenkomplexität wird ein neuer Ansatz zur Lösung der Detektionsfrage von Mehrfachgeräte-Mehrfachquellen-Netzwerken vorgestellt. Stabilitätsselektion wird zur iterativen Extraktion robuster, rechts-singulärer Vektoren berücksichtigt. Die Unterabtastungs-Auswahlmethode sorgt für Transparenz bei der korrekten Auswahl der Regularisierungsvariablen im Lasso-Optimierungsproblem. Auf diese Weise bilden die stärksten dünnbesetzten, rechts-singulären Vektoren mit einer robusten $\ell_1$-Norm und Stabilitätsselektion die Basisvektoren, die die Eingangsdaten effizient beschreiben. Sie werden mit einer robusten, unbeaufsichtigten Methode auf der Basis einer Norm $\ell_1$ ermittelt. Die Klassifizierung der aktiven/nicht-aktiven Quellen erfolgt eines robusten Mahalanobis-Klassifikators. Hierzu wird ein robuster $M$-Schätzer der Kovarianzmatrix in der Mahalanobis-Distanz verwendet. Umfangreiche Auswertungen in zentralisierten und verteilten Szenarien werden durchgeführt, um die Effektivität des vorgeschlagenen Ansatzes zu bewerten. Die Überwindung der rechenintensiven Quellentrennung ist somit möglich, indem die robuste Stabilitätsselektion für die Extraktion von Multi-Energiemerkmalen genutzt wird.

Im Hinblick auf das Kennzeichnungsproblem verschiedener Quellen in einem WASN wird ein robuster Ansatz eingeführt, der die Einfallsrichtung der ankommenden Quellsignale ausnutzt. Ein auf der Kurzzeit-Fourier-Transformation basierendes Unterraumverfahren schätzt die Winkel von lokal stationären Breitbandsignalen mit Hilfe einer gleichförmigen linearen Sensorgruppe. Der Median der Winkel, die bei jedem Frequenzbereich geschätzt werden, wird verwendet, um den Gesamtwinkel für jede teilnehmende Quelle zu erhalten. Die Merkmale nutzen in diesem Fall die geräteübergreifende Ähnlichkeit in den jeweiligen Frequenzbereichen aus, die eine zuverlässige Schätzung der Ankunftsrichtung für jede Quelle liefern. Die Zuverlässigkeit wird in Bezug auf den Median über die Frequenzen hinweg definiert. Alle quellspezifischen Frequenzbänder, die zur korrekten Schätzung der Winkel beitragen, werden ausgewählt. Für jede Quelle wird an jedem Gerät ein Merkmalsvektor gebildet, in dem die Indizes der Frequenzbereiche gespeichert werden, die innerhalb des oberen und unteren Intervalls der mittleren absoluten Abweichungsskala des geschätzten Winkels liegen. Die Kennzeichnung erfolgt durch ein verteiltes Clustering der extrahierten winkelbasierten Merkmalsvektoren mittels Konsensmittelung.

German

URN:

urn:nbn:de:tuda-tuprints-71841

Classification DDC:

000 Generalities, computers, information > 000 Generalities
000 Generalities, computers, information > 004 Computer science
500 Science and mathematics > 510 Mathematics
600 Technology, medicine, applied sciences > 600 Technology
600 Technology, medicine, applied sciences > 620 Engineering and machine engineering

Divisions:

18 Department of Electrical Engineering and Information Technology
18 Department of Electrical Engineering and Information Technology > Wireless Sensor Networks
18 Department of Electrical Engineering and Information Technology > Institute for Telecommunications
18 Department of Electrical Engineering and Information Technology > Institute for Telecommunications > Signal Processing

Date Deposited:

26 Feb 2018 10:16

Last Modified:

09 Jul 2020 02:00

URI: