TY - THES A1 - Schwahn, Kevin T1 - Data driven approaches to infer the regulatory mechanism shaping and constraining levels of metabolites in metabolic networks T1 - Entwicklung von datengestützten Verfahren, um regulatorischen Mechanismen zu untersuchen, die die Metabolitmengen in Stoffwechselnetzwerken beeinflussen N2 - Systems biology aims at investigating biological systems in its entirety by gathering and analyzing large-scale data sets about the underlying components. Computational systems biology approaches use these large-scale data sets to create models at different scales and cellular levels. In addition, it is concerned with generating and testing hypotheses about biological processes. However, such approaches are inevitably leading to computational challenges due to the high dimensionality of the data and the differences in the dimension of data from different cellular layers. This thesis focuses on the investigation and development of computational approaches to analyze metabolite profiles in the context of cellular networks. This leads to determining what aspects of the network functionality are reflected in the metabolite levels. With these methods at hand, this thesis aims to answer three questions: (1) how observability of biological systems is manifested in metabolite profiles and if it can be used for phenotypical comparisons; (2) how to identify couplings of reaction rates from metabolic profiles alone; and (3) which regulatory mechanism that affect metabolite levels can be distinguished by integrating transcriptomics and metabolomics read-outs. I showed that sensor metabolites, identified by an approach from observability theory, are more correlated to each other than non-sensors. The greater correlations between sensor metabolites were detected both with publicly available metabolite profiles and synthetic data simulated from a medium-scale kinetic model. I demonstrated through robustness analysis that correlation was due to the position of the sensor metabolites in the network and persisted irrespectively of the experimental conditions. Sensor metabolites are therefore potential candidates for phenotypical comparisons between conditions through targeted metabolic analysis. Furthermore, I demonstrated that the coupling of metabolic reaction rates can be investigated from a purely data-driven perspective, assuming that metabolic reactions can be described by mass action kinetics. Employing metabolite profiles from domesticated and wild wheat and tomato species, I showed that the process of domestication is associated with a loss of regulatory control on the level of reaction rate coupling. I also found that the same metabolic pathways in Arabidopsis thaliana and Escherichia coli exhibit differences in the number of reaction rate couplings. I designed a novel method for the identification and categorization of transcriptional effects on metabolism by combining data on gene expression and metabolite levels. The approach determines the partial correlation of metabolites with control by the principal components of the transcript levels. The principle components contain the majority of the transcriptomic information allowing to partial out the effect of the transcriptional layer from the metabolite profiles. Depending whether the correlation between metabolites persists upon controlling for the effect of the transcriptional layer, the approach allows us to group metabolite pairs into being associated due to post-transcriptional or transcriptional regulation, respectively. I showed that the classification of metabolite pairs into those that are associated due to transcriptional or post-transcriptional regulation are in agreement with existing literature and findings from a Bayesian inference approach. The approaches developed, implemented, and investigated in this thesis open novel ways to jointly study metabolomics and transcriptomics data as well as to place metabolic profiles in the network context. The results from these approaches have the potential to provide further insights into the regulatory machinery in a biological system. N2 - Die System Biologie ist auf die Auswertung biologischer Systeme in ihrer Gesamtheit gerichtet. Dies geschieht durch das Sammeln und analysieren von großen Datensätzen der zugrundeliegenden Komponenten der Systeme. Computergestützte systembiologische Ansätze verwenden diese großen Datensätze, um Modelle zu erstellen und Hypothesen über biologische Prozesse auf verschiedenen zellularen Ebenen zu testen. Diese Ansätze führen jedoch unweigerlich zu rechnerischen Herausforderungen, da die Daten über eine hohe Dimensionalität verfügen. Des Weiteren weisen Daten, die von verschiedenen zellulären Ebenen gewonnen werden, unterschiedliche Dimensionen auf. Diese Doktorarbeit beschäftigt sich mit der Untersuchung und Entwicklung von rechnergestützten Ansätzen, um Metabolit-Profile im Zusammenhang von zellulären Netzwerken zu analysieren und um zu bestimmen, welche Aspekte der Netzwerkfunktionalität sich in den Metabolit-Messungen widerspiegeln. Die Zielsetzung dieser Arbeit ist es, die folgenden Fragen, unter Berücksichtigung der genannten Methoden, zu beantworten: (1) Wie ist die Beobachtbarkeit von biologischen Systemen in Metabolit-Profilen manifestiert und sind diese für phänotypische Vergleiche verwendbar? (2) Wie lässt sich die Kopplung von Reaktionsraten ausschließlich durch Metabolit-Profile identifizieren? (3) Welche regulatorischen Mechanismen, die Metabolit-Niveaus beeinflussen, sind unterscheidbar, wenn transkriptomische und metabolische Daten kombiniert werden? Ich konnte darlegen, dass Sensormetabolite, die durch eine Methode „observability theory“ identifiziert wurden, stärker korrelieren als Nicht-Sensoren. Die stärkere Korrelation zwischen Sensormetaboliten konnte mit öffentlich zugänglichen Daten, als auch mit synthetischen Daten aus einer Simulation mit einem mittelgroßen kinetischen Modell gezeigt werden. Durch eine Robustheitsanalyse war es mir möglich zu demonstrieren, dass die Korrelation auf die Position der Sensormetabolite im Netzwerk zurückzuführen und unabhängig von den experimentellen Bedingungen ist. Sensormetabolite sind daher geeignete Kandidaten für phänotypische Vergleiche zwischen verschiedenen Bedingungen durch gezielte metabolische Analysen. Des Weiteren ergaben meine Untersuchungen, dass die Auswertung der Kopplung von Stoffwechselreaktionsraten von einer ausschließlich datengestützten Perspektive möglich ist. Dabei muss die Annahme getroffen werden, dass Stoffwechselreaktionen mit dem Massenwirkungsgesetz beschreibbar sind. Ich konnte zeigen, dass der Züchtungsprozess mit einem Verlust der regulatorischen Kontrolle auf der Ebene der gekoppelten Reaktionsraten einhergeht. Dazu verwendete ich Metabolit-Profile von gezüchteten, als auch wilden Weizen- und Tomatenspezies. Meine Ergebnisse belegen, dass die selben Stoffwechselwege in Arabidopsis thaliana und Escherichia coli eine unterschiedliche Anzahl an gekoppelten Reaktionsraten aufweisen. Darüber hinaus habe ich eine neue Methode zur Identifizierung und Kategorisierung von transkriptionellen Effekten auf den Metabolismus entwickelt. Dies erfolgt durch die Kombination von Genexpressionsdaten und Messungen von Metaboliten. Die Methode ermittelt die partielle Korrelation zwischen Metaboliten, wobei die Hauptkomponenten der Transkriptdaten als Kontrollvariablen dienen. Dadurch kann der Einfluss der Transkription auf Metabolit-Profile herausgerechnet werden. Dieser Ansatz ermöglicht die Einteilung von Metabolitpaaren in assoziiert durch transkriptionelle oder assoziiert durch posttranskriptionelle Regulation. Die Einteilung ist abhängig davon, ob die Korrelation zwischen Metaboliten bestehen bleibt, wenn für den Einfluss der Transkription kontrolliert wird. Ich konnte nachweisen, dass die zuvor genannten Klassifizierungen von Metabolitpaaren mit existierender Literatur und den Ergebnissen einer auf bayessche Statistik basierenden Studie übereinstimmen. Die Methoden, die in dieser Doktorarbeit entwickelt, implementiert und untersucht wurden, öffnen neue Wege um metabolische und transkriptomische Daten gemeinsam auszuwerten. Sie erlauben Metabolit-Profile in den Kontext von metabolischen Netzwerken zu stellen. Die Ergebnisse haben das Potential uns weitere Einblicke in die regulatorische Maschinerie in biologischen Systemen zu gewähren. KW - systems biology KW - metabolomics KW - metabolites KW - Systembiologie KW - Metabolomik KW - Metabolite Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-423240 ER - TY - THES A1 - Schaarschmidt, Stephanie T1 - Evaluation and application of omics approaches to characterize molecular responses to abiotic stresses in plants T1 - Evaluierung und Anwendung von Omics-Methoden zur Charakterisierung von abiotischem Stress in Pflanzen auf molekularer Ebene N2 - Aufgrund des globalen Klimawandels ist die Gewährleistung der Ernährungssicherheit für eine wachsende Weltbevölkerung eine große Herausforderung. Insbesondere abiotische Stressoren wirken sich negativ auf Ernteerträge aus. Um klimaangepasste Nutzpflanzen zu entwickeln, ist ein umfassendes Verständnis molekularer Veränderungen in der Reaktion auf unterschiedlich starke Umweltbelastungen erforderlich. Hochdurchsatz- oder "Omics"-Technologien können dazu beitragen, Schlüsselregulatoren und Wege abiotischer Stressreaktionen zu identifizieren. Zusätzlich zur Gewinnung von Omics-Daten müssen auch Programme und statistische Analysen entwickelt und evaluiert werden, um zuverlässige biologische Ergebnisse zu erhalten. Ich habe diese Problemstellung in drei verschiedenen Studien behandelt und dafür zwei Omics-Technologien benutzt. In der ersten Studie wurden Transkript-Daten von den beiden polymorphen Arabidopsis thaliana Akzessionen Col-0 und N14 verwendet, um sieben Programme hinsichtlich ihrer Fähigkeit zur Positionierung und Quantifizierung von Illumina RNA Sequenz-Fragmenten („Reads“) zu evaluieren. Zwischen 92% und 99% der Reads konnten an die Referenzsequenz positioniert werden und die ermittelten Verteilungen waren hoch korreliert für alle Programme. Bei der Durchführung einer differentiellen Genexpressionsanalyse zwischen Pflanzen, die bei 20 °C oder 4 °C (Kälteakklimatisierung) exponiert wurden, ergab sich eine große paarweise Überlappung zwischen den Programmen. In der zweiten Studie habe ich die Transkriptome von zehn verschiedenen Oryza sativa (Reis) Kultivaren sequenziert. Dafür wurde die PacBio Isoform Sequenzierungstechnologie benutzt. Die de novo Referenztranskriptome hatten zwischen 38.900 bis 54.500 hoch qualitative Isoformen pro Sorte. Die Isoformen wurden kollabiert, um die Sequenzredundanz zu verringern und danach evaluiert z.B. hinsichtlich des Vollständigkeitsgrades (BUSCO), der Transkriptlänge und der Anzahl einzigartiger Transkripte pro Genloci. Für die hitze- und trockenheitstolerante Sorte N22 wurden ca. 650 einzigartige und neue Transkripte identifiziert, von denen 56 signifikant unterschiedlich in sich entwickelnden Samen unter kombiniertem Trocken- und Hitzestress exprimiert wurden. In der letzten Studie habe ich die Veränderungen in Metabolitprofilen von acht Reissorten gemessen und analysiert, die dem Stress hoher Nachttemperaturen (HNT) ausgesetzt waren und während der Trocken- und Regenzeit im Feld auf den Philippinen angebaut wurden. Es wurden jahreszeitlich bedingte Veränderungen im Metabolitspiegel sowie für agronomische Parameter identifiziert und mögliche Stoffwechselwege, die einen Ertragsrückgang unter HNT-Bedingungen verursachen, vorgeschlagen. Zusammenfassend konnte ich zeigen, dass der Vergleich der RNA-seq Programme den Pflanzenwissenschaftler*innen helfen kann, sich für das richtige Werkzeug für ihre Daten zu entscheiden. Die de novo Transkriptom-Rekonstruktion von Reissorten ohne Genomsequenz bietet einen gezielten, kosteneffizienten Ansatz zur Identifizierung neuer Gene, die durch verschiedene Stressbedingungen reguliert werden unabhängig vom Organismus. Mit dem Metabolomik-Ansatz für HNT-Stress in Reis habe ich stress- und jahreszeitenspezifische Metabolite identifiziert, die in Zukunft als molekulare Marker für die Verbesserung von Nutzpflanzen verwendet werden könnten. N2 - Due to global climate change providing food security for an increasing world population is a big challenge. Especially abiotic stressors have a strong negative effect on crop yield. To develop climate-adapted crops a comprehensive understanding of molecular alterations in the response of varying levels of environmental stresses is required. High throughput or ‘omics’ technologies can help to identify key-regulators and pathways of abiotic stress responses. In addition to obtain omics data also tools and statistical analyses need to be designed and evaluated to get reliable biological results. To address these issues, I have conducted three different studies covering two omics technologies. In the first study, I used transcriptomic data from the two polymorphic Arabidopsis thaliana accessions, namely Col-0 and N14, to evaluate seven computational tools for their ability to map and quantify Illumina single-end reads. Between 92% and 99% of the reads were mapped against the reference sequence. The raw count distributions obtained from the different tools were highly correlated. Performing a differential gene expression analysis between plants exposed to 20 °C or 4°C (cold acclimation), a large pairwise overlap between the mappers was obtained. In the second study, I obtained transcript data from ten different Oryza sativa (rice) cultivars by PacBio Isoform sequencing that can capture full-length transcripts. De novo reference transcriptomes were reconstructed resulting in 38,900 to 54,500 high-quality isoforms per cultivar. Isoforms were collapsed to reduce sequence redundancy and evaluated, e.g. for protein completeness level (BUSCO), transcript length, and number of unique transcripts per gene loci. For the heat and drought tolerant aus cultivar N22, I identified around 650 unique and novel transcripts of which 56 were significantly differentially expressed in developing seeds during combined drought and heat stress. In the last study, I measured and analyzed the changes in metabolite profiles of eight rice cultivars exposed to high night temperature (HNT) stress and grown during the dry and wet season on the field in the Philippines. Season-specific changes in metabolite levels, as well as for agronomic parameters, were identified and metabolic pathways causing a yield decline at HNT conditions suggested. In conclusion, the comparison of mapper performances can help plant scientists to decide on the right tool for their data. The de novo reconstruction of rice cultivars without a genome sequence provides a targeted, cost-efficient approach to identify novel genes responding to stress conditions for any organism. With the metabolomics approach for HNT stress in rice, I identified stress and season-specific metabolites which might be used as molecular markers for crop improvement in the future. KW - Arabidopsis thaliana KW - Oryza sativa KW - RNA-seq KW - PacBio IsoSeq KW - metabolomics KW - high night temperature KW - combined heat and drought stress KW - natural genetic variation KW - differential gene expression KW - Arabidopsis thaliana KW - Oryza sativa KW - PacBio IsoSeq KW - RNA-seq KW - kombinierter Hitze- und Trockenstress KW - erhöhte Nachttemperaturen KW - Differenzielle Genexpression KW - Metabolomik KW - natürliche genetische Variation Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-509630 ER -