TY - THES A1 - Perscheid, Cindy T1 - Integrative biomarker detection using prior knowledge on gene expression data sets T1 - Integrative Biomarker-Erkennung auf Genexpressions-Daten mithilfe von biologischem Vorwissen N2 - Gene expression data is analyzed to identify biomarkers, e.g. relevant genes, which serve for diagnostic, predictive, or prognostic use. Traditional approaches for biomarker detection select distinctive features from the data based exclusively on the signals therein, facing multiple shortcomings in regards to overfitting, biomarker robustness, and actual biological relevance. Prior knowledge approaches are expected to address these issues by incorporating prior biological knowledge, e.g. on gene-disease associations, into the actual analysis. However, prior knowledge approaches are currently not widely applied in practice because they are often use-case specific and seldom applicable in a different scope. This leads to a lack of comparability of prior knowledge approaches, which in turn makes it currently impossible to assess their effectiveness in a broader context. Our work addresses the aforementioned issues with three contributions. Our first contribution provides formal definitions for both prior knowledge and the flexible integration thereof into the feature selection process. Central to these concepts is the automatic retrieval of prior knowledge from online knowledge bases, which allows for streamlining the retrieval process and agreeing on a uniform definition for prior knowledge. We subsequently describe novel and generalized prior knowledge approaches that are flexible regarding the used prior knowledge and applicable to varying use case domains. Our second contribution is the benchmarking platform Comprior. Comprior applies the aforementioned concepts in practice and allows for flexibly setting up comprehensive benchmarking studies for examining the performance of existing and novel prior knowledge approaches. It streamlines the retrieval of prior knowledge and allows for combining it with prior knowledge approaches. Comprior demonstrates the practical applicability of our concepts and further fosters the overall development and comparability of prior knowledge approaches. Our third contribution is a comprehensive case study on the effectiveness of prior knowledge approaches. For that, we used Comprior and tested a broad range of both traditional and prior knowledge approaches in combination with multiple knowledge bases on data sets from multiple disease domains. Ultimately, our case study constitutes a thorough assessment of a) the suitability of selected knowledge bases for integration, b) the impact of prior knowledge being applied at different integration levels, and c) the improvements in terms of classification performance, biological relevance, and overall robustness. In summary, our contributions demonstrate that generalized concepts for prior knowledge and a streamlined retrieval process improve the applicability of prior knowledge approaches. Results from our case study show that the integration of prior knowledge positively affects biomarker results, particularly regarding their robustness. Our findings provide the first in-depth insights on the effectiveness of prior knowledge approaches and build a valuable foundation for future research. N2 - Biomarker sind charakteristische biologische Merkmale mit diagnostischer oder prognostischer Aussagekraft. Auf der molekularen Ebene sind dies Gene mit einem krankheitsspezifischen Expressionsmuster, welche mittels der Analyse von Genexpressionsdaten identifiziert werden. Traditionelle Ansätze für diese Art von Biomarker Detection wählen Gene als Biomarker ausschließlich anhand der vorhandenen Signale im Datensatz aus. Diese Vorgehensweise zeigt jedoch Schwächen insbesondere in Bezug auf die Robustheit und tatsächliche biologische Relevanz der identifizierten Biomarker. Verschiedene Forschungsarbeiten legen nahe, dass die Berücksichtigung des biologischen Kontexts während des Selektionsprozesses diese Schwächen ausgleichen kann. Sogenannte wissensbasierte Ansätze für Biomarker Detection beziehen vorhandenes biologisches Wissen, beispielsweise über Zusammenhänge zwischen bestimmten Genen und Krankheiten, direkt in die Analyse mit ein. Die Anwendung solcher Verfahren ist in der Praxis jedoch derzeit nicht weit verbreitet, da existierende Methoden oft spezifisch für einen bestimmten Anwendungsfall entwickelt wurden und sich nur mit großem Aufwand auf andere Anwendungsgebiete übertragen lassen. Dadurch sind Vergleiche untereinander kaum möglich, was es wiederum nicht erlaubt die Effektivität von wissensbasierten Methoden in einem breiteren Kontext zu untersuchen. Die vorliegende Arbeit befasst sich mit den vorgenannten Herausforderungen für wissensbasierte Ansätze. In einem ersten Schritt legen wir formale und einheitliche Definitionen für vorhandenes biologisches Wissen sowie ihre flexible Integration in den Biomarker-Auswahlprozess fest. Der Kerngedanke unseres Ansatzes ist die automatisierte Beschaffung von biologischem Wissen aus im Internet frei verfügbaren Wissens-Datenbanken. Dies erlaubt eine Vereinfachung der Kuratierung sowie die Festlegung einer einheitlichen Definition für biologisches Wissen. Darauf aufbauend beschreiben wir generalisierte wissensbasierte Verfahren, welche flexibel auf verschiedene Anwendungsfalle anwendbar sind. In einem zweiten Schritt haben wir die Benchmarking-Plattform Comprior entwickelt, welche unsere theoretischen Konzepte in einer praktischen Anwendung realisiert. Comprior ermöglicht die schnelle Umsetzung von umfangreichen Experimenten für den Vergleich von wissensbasierten Ansätzen. Comprior übernimmt die Beschaffung von biologischem Wissen und ermöglicht dessen beliebige Kombination mit wissensbasierten Ansätzen. Comprior demonstriert damit die praktische Umsetzbarkeit unserer theoretischen Konzepte und unterstützt zudem die technische Realisierung und Vergleichbarkeit wissensbasierter Ansätze. In einem dritten Schritt untersuchen wir die Effektivität wissensbasierter Ansätze im Rahmen einer umfangreichen Fallstudie. Mithilfe von Comprior vergleichen wir die Ergebnisse traditioneller und wissensbasierter Ansätze im Kontext verschiedener Krankheiten, wobei wir für wissensbasierte Ansätze auch verschiedene Wissens-Datenbanken verwenden. Unsere Fallstudie untersucht damit a) die Eignung von ausgewählten Wissens-Datenbanken für deren Einsatz bei wissensbasierten Ansätzen, b) den Einfluss verschiedener Integrationskonzepte für biologisches Wissen auf den Biomarker-Auswahlprozess, und c) den Grad der Verbesserung in Bezug auf die Klassifikationsleistung, biologische Relevanz und allgemeine Robustheit der selektierten Biomarker. Zusammenfassend demonstriert unsere Arbeit, dass generalisierte Konzepte für biologisches Wissen und dessen vereinfachte Kuration die praktische Anwendbarkeit von wissensbasierten Ansätzen erleichtern. Die Ergebnisse unserer Fallstudie zeigen, dass die Integration von vorhandenem biologischen Wissen einen positiven Einfluss auf die selektierten Biomarker hat, insbesondere in Bezug auf ihre biologische Relevanz. Diese erstmals umfassenderen Erkenntnisse zur Effektivität von wissensbasierten Ansätzen bilden eine wertvolle Grundlage für zukünftige Forschungsarbeiten. KW - gene expression KW - biomarker detection KW - prior knowledge KW - feature selection KW - Biomarker-Erkennung KW - Merkmalsauswahl KW - Gen-Expression KW - biologisches Vorwissen Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-582418 ER - TY - THES A1 - Kraus, Sara Milena T1 - A Systems Medicine approach for heart valve diseases BT - addressing the proteomic landscape and differential expression software N2 - In Systems Medicine, in addition to high-throughput molecular data (*omics), the wealth of clinical characterization plays a major role in the overall understanding of a disease. Unique problems and challenges arise from the heterogeneity of data and require new solutions to software and analysis methods. The SMART and EurValve studies establish a Systems Medicine approach to valvular heart disease -- the primary cause of subsequent heart failure. With the aim to ascertain a holistic understanding, different *omics as well as the clinical picture of patients with aortic stenosis (AS) and mitral regurgitation (MR) are collected. Our task within the SMART consortium was to develop an IT platform for Systems Medicine as a basis for data storage, processing, and analysis as a prerequisite for collaborative research. Based on this platform, this thesis deals on the one hand with the transfer of the used Systems Biology methods to their use in the Systems Medicine context and on the other hand with the clinical and biomolecular differences of the two heart valve diseases. To advance differential expression/abundance (DE/DA) analysis software for use in Systems Medicine, we state 21 general software requirements and features of automated DE/DA software, including a novel concept for the simple formulation of experimental designs that can represent complex hypotheses, such as comparison of multiple experimental groups, and demonstrate our handling of the wealth of clinical data in two research applications DEAME and Eatomics. In user interviews, we show that novice users are empowered to formulate and test their multiple DE hypotheses based on clinical phenotype. Furthermore, we describe insights into users' general impression and expectation of the software's performance and show their intention to continue using the software for their work in the future. Both research applications cover most of the features of existing tools or even extend them, especially with respect to complex experimental designs. Eatomics is freely available to the research community as a user-friendly R Shiny application. Eatomics continued to help drive the collaborative analysis and interpretation of the proteomic profile of 75 human left myocardial tissue samples from the SMART and EurValve studies. Here, we investigate molecular changes within the two most common types of valvular heart disease: aortic valve stenosis (AS) and mitral valve regurgitation (MR). Through DE/DA analyses, we explore shared and disease-specific protein alterations, particularly signatures that could only be found in the sex-stratified analysis. In addition, we relate changes in the myocardial proteome to parameters from clinical imaging. We find comparable cardiac hypertrophy but differences in ventricular size, the extent of fibrosis, and cardiac function. We find that AS and MR show many shared remodeling effects, the most prominent of which is an increase in the extracellular matrix and a decrease in metabolism. Both effects are stronger in AS. In muscle and cytoskeletal adaptations, we see a greater increase in mechanotransduction in AS and an increase in cortical cytoskeleton in MR. The decrease in proteostasis proteins is mainly attributable to the signature of female patients with AS. We also find relevant therapeutic targets. In addition to the new findings, our work confirms several concepts from animal and heart failure studies by providing the largest collection of human tissue from in vivo collected biopsies to date. Our dataset contributing a resource for isoform-specific protein expression in two of the most common valvular heart diseases. Apart from the general proteomic landscape, we demonstrate the added value of the dataset by showing proteomic and transcriptomic evidence for increased expression of the SARS-CoV-2- receptor at pressure load but not at volume load in the left ventricle and also provide the basis of a newly developed metabolic model of the heart. N2 - In der Systemmedizin spielt zusätzlich zu den molekularen Hochdurchsatzdaten (*omics) die Fülle an klinischer Charakterisierung eine große Rolle im Gesamtverständnis einer Krankheit. Hieraus ergeben sich Probleme und Herausforderungen unter anderem in Bezug auf Softwarelösungen und Analysemethoden. Die SMART- und EurValve-Studien etablieren einen systemmedizinischen Ansatz für Herzklappenerkrankungen -- die Hauptursache für eine spätere Herzinsuffizienz. Mit dem Ziel ein ganzheitliches Verständnis zu etablieren, werden verschiedene *omics sowie das klinische Bild von Patienten mit Aortenstenosen (AS) und Mitralklappeninsuffizienz (MR) erhoben. Unsere Aufgabe innerhalb des SMART Konsortiums bestand in der Entwicklung einer IT-Plattform für Systemmedizin als Grundlage für die Speicherung, Verarbeitung und Analyse von Daten als Voraussetzung für gemeinsame Forschung. Ausgehend von dieser Plattform beschäftigt sich diese Arbeit einerseits mit dem Transfer der genutzten systembiologischen Methoden hin zu einer Nutzung im systemmedizinischen Kontext und andererseits mit den klinischen und biomolekularen Unterschieden der beiden Herzklappenerkrankungen. Um die Analysesoftware für differenzielle Expression/Abundanz, eine häufig genutzte Methode der System Biologie, für die Nutzung in der Systemmedizin voranzutreiben, erarbeiten wir 21 allgemeine Softwareanforderungen und Funktionen einer automatisierten DE/DA Software. Darunter ist ein neuartiges Konzept für die einfache Formulierung experimenteller Designs, die auch komplexe Hypothesen wie den Vergleich mehrerer experimenteller Gruppen abbilden können und demonstrieren unseren Umgang mit der Fülle klinischer Daten in zwei Forschungsanwendungen -- DEAME und Eatomics. In Nutzertests zeigen wir, dass Nutzer befähigt werden, ihre vielfältigen Hypothesen zur differenziellen Expression basierend auf dem klinischen Phänotyp zu formulieren und zu testen, auch ohne einen dedizierten Hintergrund in Bioinformatik. Darüber hinaus beschreiben wir Einblicke in den allgemeinen Eindruck der Nutzer, ihrer Erwartung an die Leistung der Software und zeigen ihre Absicht, die Software auch in der Zukunft für ihre Arbeit zu nutzen. Beide Forschungsanwendungen decken die meisten Funktionen bestehender Tools ab oder erweitern sie sogar, insbesondere im Hinblick auf komplexe experimentelle Designs. Eatomics steht der Forschungsgemeinschaft als benutzerfreundliche R Shiny-Anwendung frei zur Verfügung. \textit{Eatomics} hat weiterhin dazu beigetragen, die gemeinsame Analyse und Interpretation des Proteomprofils von 75 menschlichen linken Myokardgewebeproben aus den SMART- und EurValve-Studien voran zu treiben. Hier untersuchen wir die molekularen Veränderungen innerhalb der beiden häufigsten Arten von Herzklappenerkrankungen: AS und MR. Durch DE/DA Analysen erarbeiten wir gemeinsame und krankheitsspezifische Proteinveränderungen, insbesondere Signaturen, die nur in einer geschlechtsstratifizierten Analyse gefunden werden konnten. Darüber hinaus beziehen wir Veränderungen des Myokardproteoms auf Parameter aus der klinischen Bildgebung. Wir finden eine vergleichbare kardiale Hypertrophie, aber Unterschiede in der Ventrikelgröße, dem Ausmaß der Fibrose und der kardialen Funktion. Wir stellen fest, dass AS und MR viele gemeinsame Remodelling-Effekte zeigen, von denen die wichtigsten die Zunahme der extrazellulären Matrix und eine Abnahme des Metabolismus sind. Beide Effekte sind bei AS stärker. Zusätzlich zeigt sich eine größere Variabilität zwischen den einzelnen Patienten mit AS. Bei Muskel- und Zytoskelettanpassungen sehen wir einen stärkeren Anstieg der Mechanotransduktion bei AS und einen Anstieg des kortikalen Zytoskeletts bei MR. Die Abnahme von Proteinen der Proteostase ist vor allem der Signatur von weiblichen Patienten mit AS zuzuschreiben. Außerdem finden wir therapierelevante Proteinveränderungen. Zusätzlich zu den neuen Erkenntnissen bestätigt unsere Arbeit mehrere Konzepte aus Tierstudien und Studien zu Herzversagen durch die bislang größte Kollektion von humanem Gewebe aus in vivo Biopsien. Mit unserem Datensatz stellen wir eine Ressource für die isoformspezifische Proteinexpression bei zwei der häufigsten Herzklappenerkrankungen zur Verfügung. Abgesehen von der allgemeinen Proteomlandschaft zeigen wir den Mehrwert des Datensatzes, indem wir proteomische und transkriptomische Beweise für eine erhöhte Expression des SARS-CoV-2- Rezeptors bei Drucklast, jedoch nicht bei Volumenlast im linken Ventrikel aufzeigen und außerdem die Grundlage eines neu entwickelten metabolischen Modells des Herzens liefern. KW - Systems Medicine KW - Systemmedizin KW - Proteomics KW - Proteom KW - Heart Valve Diseases KW - Herzklappenerkrankungen KW - Differential Expression Analysis KW - Software KW - Software Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-522266 ER -