Development of Fast Machine Learning Algorithms for False Discovery Rate Control in Large-Scale High-Dimensional Data

Machkour, Jasin (2024)
Development of Fast Machine Learning Algorithms for False Discovery Rate Control in Large-Scale High-Dimensional Data.
Technische Universität Darmstadt
doi: 10.26083/tuprints-00028231
Ph.D. Thesis, Primary publication, Publisher's Version

Text
dissertation_Jasin_Machkour.pdf
Copyright Information: CC BY-SA 4.0 International - Creative Commons, Attribution ShareAlike.
Download (3MB)

Item Type:

Ph.D. Thesis

Type of entry:

Primary publication

Title:

Development of Fast Machine Learning Algorithms for False Discovery Rate Control in Large-Scale High-Dimensional Data

Language:

English

Referees:

Muma, Prof. Dr. Michael ; Palomar, Prof. Dr. Daniel P.

Date:

19 November 2024

Place of Publication:

Darmstadt

Collation:

xvi, 216 Seiten

Date of oral examination:

23 August 2024

DOI:

10.26083/tuprints-00028231

Abstract:

This dissertation develops false discovery rate (FDR) controlling machine learning algorithms for large-scale high-dimensional data. Ensuring the reproducibility of discoveries based on high-dimensional data is pivotal in numerous applications. The developed algorithms perform fast variable selection tasks in large-scale high-dimensional settings where the number of variables may be much larger than the number of samples. This includes large-scale data with up to millions of variables such as genome-wide association studies (GWAS). Theoretical finite sample FDR-control guarantees based on martingale theory have been established proving the trustworthiness of the developed methods. The practical open-source R software packages TRexSelector and tlars, which implement the proposed algorithms, have been published on the Comprehensive R Archive Network (CRAN). Extensive numerical experiments and real-world problems in biomedical and financial engineering demonstrate the performance in challenging use-cases. The first three main parts of this dissertation present the methodological and theoretical contributions, while the fourth main part contains the practical contributions.

The first main part (Chapter 3) is dedicated to the Terminating-Random Experiments (T-Rex) selector, a new fast variable selection framework for high-dimensional data. The proposed T-Rex selector controls a user-defined target FDR while maximizing the number of selected variables. This is achieved by fusing the solutions of multiple early terminated random experiments. The experiments are conducted on a combination of the candidate variables and multiple independent sets of randomly generated dummy variables. A finite sample proof of the FDR control property is provided using martingale theory. The computational complexity of the T-Rex selector grows linearly with the number of candidate variables. Furthermore, its computation time is more than two orders of magnitude faster compared to state-of-the-art benchmark methods in large-scale data settings. Therefore, the T-Rex selector scales to millions of candidate variables in a reasonable computation time. An important use-case of the T-Rex selector is determining reproducible associations between phenotypes and genotypes in GWAS, which is imperative in personalized medicine and drug discovery.

The second main part (Chapter 4) concerns dependency-aware FDR-controlling algorithms for large-scale high-dimensional data. In many biomedical and financial applications, the high-dimensional data sets often contain highly correlated candidate variables (e.g., gene expression data and stock returns). For such applications, the dependency-aware T-Rex (T-Rex+DA) framework has been developed. It extends the ordinary T-Rex framework by accounting for dependency structures among the candidate variables. This is achieved by integrating graphical models within the T-Rex framework, which allows to effectively harness the dependency structure among variables and to develop variable penalization mechanisms that guarantee FDR control.

In the third main part (Chapter 5), algorithms for joint grouped variable selection and FDR control are proposed. This approach to tackling the challenges resulting from the presence of groups of highly dependent variables in the data is different to the more conservative variable penalization approach that has been developed in the second part of this dissertation. That is, instead of finding the few true active variables among groups of highly correlated variables, the goal is to select all groups of highly correlated variables that contain at least one true active variable. In genomics research, especially for GWAS, grouped variable selection approaches are highly relevant, since one is not interested in identifying a few single-nucleotide polymorphisms (SNPs) that are associated with a disease of interest but rather the entire groups of correlated SNPs that point to relevant locations on the genome.

The fourth main part of this dissertation (Chapters 6 and 7) demonstrates the application of the developed methods to practical problems in biomedical engineering as well as financial engineering. The biomedical applications include (i) a semi-real-world GWAS, (ii) a human immunodeficiency virus type 1 (HIV-1) data set with associated drug resistance measurements, and (iii) a breast cancer data set with associated survival times of the patients. The financial engineering applications include (i) accurately tracking the S&P 500 index using a quarterly updated and rebalanced tracking portfolio that consists of few stocks and (ii) a factor analysis of S&P 500 stock returns. The common challenge of all considered applications lies in detecting the few true active variables (i.e., SNPs, mutations, genes, stocks) among many non-active variables in, among other things, large-scale high-dimensional settings.

Summarizing, this dissertation develops and analyses new fast and scalable machine learning algorithms with provable FDR-control guarantees for variable selection tasks in large-scale high-dimensional data. The developed algorithms and the associated open-source software packages have enabled making reproducible discoveries in various real-world applications ranging from biomedical to financial engineering.

Alternative Abstract:

Alternative Abstract

Language

In dieser Dissertation werden Algorithmen für maschinelles Lernen zur Kontrolle der Falschentdeckungsrate (FDR) für große hochdimensionale Daten entwickelt. Die Gewährleistung der Reproduzierbarkeit von Entdeckungen, die auf hochdimensionalen Daten basieren, ist für zahlreiche Anwendungen von zentraler Bedeutung. Die entwickelten Algorithmen führen eine schnelle Variablenauswahl in großen hochdimensionalen Daten durch, in denen die Anzahl der Variablen viel größer sein kann als die Anzahl der Stichproben. Dies beinhaltet groß angelegte Daten mit bis zu Millionen von Variablen, wie z. B. genomweite Assoziationsstudien (GWAS). Theoretische FDR-Kontrollgarantien für endliche Stichproben, die auf der Martingaltheorie beruhen, beweisen die Vertrauenswürdigkeit der entwickelten Methoden. Die praktischen Open-Source-R-Softwarepakete TRexSelector und tlars, die die vorgeschlagenen Algorithmen implementieren, wurden im Comprehensive R Archive Network (CRAN) veröffentlicht. Umfangreiche numerische Experimente und reale Probleme in der Biomedizin- und Finanztechnik demonstrieren die Leistungsfähigkeit in anspruchsvollen Anwendungsfällen. Die ersten drei Hauptteile dieser Dissertation präsentieren die methodischen und theoretischen Beiträge, während der vierte Hauptteil die praktischen Beiträge enthält.

Der erste Hauptteil (Kapitel 3) widmet sich dem Terminating-Random Experiments (T-Rex) Selektor, einem neuen schnellen Variablenselektionsverfahren für hochdimensionale Daten. Der T-Rex Selektor kontrolliert eine benutzerdefinierte Ziel-FDR und maximiert gleichzeitig die Anzahl der ausgewählten Variablen. Dies wird durch die Fusionierung der Lösungen mehrerer früh beendeter Zufallsexperimente erreicht. Die Experimente werden mit einer Kombination aus den ursprünglichen Kandidaten-Variablen und mehreren unabhängigen Sätzen von zufällig generierten Dummy-Variablen durchgeführt. Die FDR-Kontrolleigenschaft wird mit Hilfe der Martingaltheorie für endliche Stichproben bewiesen. Die Komplexität des T-Rex Selektors wächst linear mit der Anzahl der Kandidatenvariablen. Darüber hinaus ist seine Berechnungszeit im Vergleich zu modernsten Benchmark-Methoden in großen Datensätzen um mehr als zwei Größenordnungen schneller. Daher skaliert der T-Rex Selektor in einer angemessenen Rechenzeit auf Millionen von Kandidatenvariablen. Ein wichtiger Anwendungsfall des T-Rex Selektors ist die Bestimmung reproduzierbarer Assoziationen zwischen Phänotypen und Genotypen in GWAS, was für die personalisierte Medizin und die Arzneimittelentdeckung unerlässlich ist.

Der zweite Hauptteil (Kapitel 4) beschäftigt sich mit abhängigkeitssensitiven FDR-Kontrollalgorithmen für große hochdimensionale Daten. Die hochdimensionalen Daten in vielen Anwendungen der Biomedizin- und Finanztechnik enthalten oft hochkorrelierte Kandidaten-Variablen (z. B. Genexpressionsdaten und Aktienrenditen). Für solche Anwendungen wurde das abhängigkeitssensitive T-Rex (T-Rex+DA) Framework entwickelt. Es erweitert das gewöhnliche T-Rex Framework um die Berücksichtigung von Abhängigkeitsstrukturen zwischen den Kandidaten-Variablen. Dies wird durch die Integration grafischer Modelle in das T-Rex Framework erreicht. Hierdurch wird es möglich, die Abhängigkeitsstruktur zwischen den Variablen effektiv zu nutzen und Mechanismen zur Penalisierung von Variablen zu entwickeln, die zu einer garantierten FDR-Kontrolle führen.

Im dritten Hauptteil (Kapitel 5) werden Algorithmen für die Auswahl gruppierter Variablen mit gewährleisteter FDR-Kontrolle vorgeschlagen. Dieser Ansatz zur Bewältigung der Herausforderungen, die sich aus dem Vorhandensein von Gruppen hochgradig abhängiger Variablen in den Daten ergeben, unterscheidet sich von dem konservativeren Variablenbestrafungsansatz, der im zweiten Teil dieser Dissertation entwickelt wurde. Das heißt, anstatt die wenigen wirklich aktiven Variablen unter den Gruppen hochkorrelierter Variablen zu finden, besteht das Ziel darin, alle Gruppen hochkorrelierter Variablen auszuwählen, die mindestens eine wirklich aktive Variable enthalten. In der Genomforschung, insbesondere bei GWAS, sind Variablenselektionsverfahren für gruppierte Variablen von großer Bedeutung, da man nicht an der Identifizierung einiger weniger Einzelnukleotid-Polymorphismen (SNPs), die mit einer gewissen Krankheit assoziiert sind, interessiert ist, sondern an den gesamten Gruppen korrelierter SNPs, die auf relevante Stellen im Genom hinweisen.

Der vierte Hauptteil dieser Dissertation (Kapitel 6 und 7) demonstriert die Anwendung der entwickelten Methoden auf praktische Probleme sowohl in der Biomedizintechnik als auch in der Finanztechnik. Zu den biomedizinischen Anwendungen gehören (i) eine halb-reale GWAS, (ii) ein Datensatz des Humanen Immundefizienz-Virus Typ 1 (HIV-1) mit zugehörigen Messungen der Arzneimittelresistenz und (iii) ein Brustkrebs-Datensatz mit zugehörigen Überlebenszeiten der Patienten. Zu den finanztechnischen Anwendungen gehören (i) die genaue Nachverfolgung des S&P 500-Index unter Verwendung eines vierteljährlich aktualisierten und neu ausbalancierten Nachverfolgungsportfolios, das aus wenigen Aktien besteht, und (ii) eine Faktoranalyse der S&P 500-Aktienrenditen. Die gemeinsame Herausforderung aller betrachteten Anwendungen liegt in der Detektion der wenigen aktiven Variablen (d. h. SNPs, Mutationen, Gene, Aktien) unter vielen nicht aktiven Variablen in u. a. großen hochdimensionalen Datensätzen.

Zusammenfassend werden in dieser Dissertation neue schnelle und skalierbare Algorithmen des maschinellen Lernens mit nachweisbaren FDR-Kontrollgarantien für die Variablenselektion in großen hochdimensionalen Daten entwickelt und analysiert. Die entwickelten Algorithmen und Open-Source-Softwarepakete haben reproduzierbare Entdeckungen in verschiedenen Anwendungen ermöglicht, die von der Biomedizin- bis zur Finanztechnik reichen.

German

Status:

Publisher's Version

URN:

urn:nbn:de:tuda-tuprints-282317

Classification DDC:

000 Generalities, computers, information > 004 Computer science
500 Science and mathematics > 510 Mathematics
600 Technology, medicine, applied sciences > 621.3 Electrical engineering, electronics

Divisions:

18 Department of Electrical Engineering and Information Technology > Institute for Telecommunications > Robust Data Science
LOEWE > LOEWE-Zentren > emergenCITY
Zentrale Einrichtungen > University IT-Service and Computing Centre (HRZ) > Hochleistungsrechner

TU-Projects:

DFG|MU4507/1-1|REFOCUS: Robuste Sch

Date Deposited: