TY - JOUR A1 - Edlich-Muth, Christian A1 - Muraya, Moses M. A1 - Altmann, Thomas A1 - Selbig, Joachim T1 - Phenomic prediction of maize hybrids JF - Biosystems : journal of biological and information processing sciences N2 - Phenomic experiments are carried out in large-scale plant phenotyping facilities that acquire a large number of pictures of hundreds of plants simultaneously. With the aid of automated image processing, the data are converted into genotype-feature matrices that cover many consecutive days of development. Here, we explore the possibility of predicting the biomass of the fully grown plant from early developmental stage image-derived features. We performed phenomic experiments on 195 inbred and 382 hybrid maizes varieties and followed their progress from 16 days after sowing (DAS) to 48 DAS with 129 image-derived features. By applying sparse regression methods, we show that 73% of the variance in hybrid fresh weight of fully-grown plants is explained by about 20 features at the three-leaf-stage or earlier. Dry weight prediction explained over 90% of the variance. When phenomic features of parental inbred lines were used as predictors of hybrid biomass, the proportion of variance explained was 42 and 45%, for fresh weight and dry weight models consisting of 35 and 36 features, respectively. These models were very robust, showing only a small amount of variation in performance over the time scale of the experiment. We also examined mid-parent heterosis in phenomic features. Feature heterosis displayed a large degree of variance which resulted in prediction performance that was less robust than models of either parental or hybrid predictors. Our results show that phenomic prediction is a viable alternative to genomic and metabolic prediction of hybrid performance. In particular, the utility of early-stage parental lines is very encouraging. (C) 2016 Elsevier Ireland Ltd. All rights reserved. KW - Hybrid prediction KW - LASSO KW - Regression KW - Maize KW - Phenomics Y1 - 2016 U6 - https://doi.org/10.1016/j.biosystems.2016.05.008 SN - 0303-2647 SN - 1872-8324 VL - 146 SP - 102 EP - 109 PB - Elsevier CY - Oxford ER - TY - THES A1 - Giorgi, Federico Manuel T1 - Expression-based reverse engineering of plant transcriptional networks T1 - Expressionsbasierte Rekonstruktion von pflanzlichen Transkriptionsnetzwerken N2 - Regulation of gene transcription plays a major role in mediating cellular responses and physiological behavior in all known organisms. The finding that similar genes are often regulated in a similar manner (co-regulated or "co-expressed") has directed several "guilt-by-association" approaches in order to reverse-engineer the cellular transcriptional networks using gene expression data as a compass. This kind of studies has been considerably assisted in the recent years by the development of high-throughput transcript measurement platforms, specifically gene microarrays and next-generation sequencing. In this thesis, I describe several approaches for improving the extraction and interpretation of the information contained in microarray based gene expression data, through four steps: (1) microarray platform design, (2) microarray data normalization, (3) gene network reverse engineering based on expression data and (4) experimental validation of expression-based guilt-by-association inferences. In the first part test case is shown aimed at the generation of a microarray for Thellungiella salsuginea, a salt and drought resistant close relative to the model plant Arabidopsis thaliana; the transcripts of this organism are generated on the combination of publicly available ESTs and newly generated ad-hoc next-generation sequencing data. Since the design of a microarray platform requires the availability of highly reliable and non-redundant transcript models, these issues are addressed consecutively, proposing several different technical solutions. In the second part I describe how inter-array correlation artifacts are generated by the common microarray normalization methods RMA and GCRMA, together with the technical and mathematical characteristics underlying the problem. A solution is proposed in the form of a novel normalization method, called tRMA. The third part of the thesis deals with the field of expression-based gene network reverse engineering. It is shown how different centrality measures in reverse engineered gene networks can be used to distinguish specific classes of genes, in particular essential genes in Arabidopsis thaliana, and how the use of conditional correlation can add a layer of understanding over the information flow processes underlying transcript regulation. Furthermore, several network reverse engineering approaches are compared, with a particular focus on the LASSO, a linear regression derivative rarely applied before in global gene network reconstruction, despite its theoretical advantages in robustness and interpretability over more standard methods. The performance of LASSO is assessed through several in silico analyses dealing with the reliability of the inferred gene networks. In the final part, LASSO and other reverse engineering methods are used to experimentally identify novel genes involved in two independent scenarios: the seed coat mucilage pathway in Arabidopsis thaliana and the hypoxic tuber development in Solanum tuberosum. In both cases an interesting method complementarity is shown, which strongly suggests a general use of hybrid approaches for transcript expression-based inferences. In conclusion, this work has helped to improve our understanding of gene transcription regulation through a better interpretation of high-throughput expression data. Part of the network reverse engineering methods described in this thesis have been included in a tool (CorTo) for gene network reverse engineering and annotated visualization from custom transcription datasets. N2 - Die Regulation der Gentranskription spielt eine wichtige Rolle bei der Steuerung des physiologischen Verhaltens in allen Organismen. Dass ähnliche Gene oft in gleicher Weise reguliert werden (koreguliert oder koexpimiert), hat zu diversen „guilt-by-association“-Ansätzen zur Rekonstruktion von zellulären Transkriptionsnetzwerken geführt, die Genexpressionsdaten zur Orientierung nutzen. Studien dieser Art wurden in den letzten Jahren durch die Entwicklung von Hochdurchsatzmessungen von Transkriptmengen mittels Mikroarrays und ‚Next Generation‘ Sequenziertechniken stark gefördert. In der vorliegenden Arbeit werden verschiedene Ansätze zur Verbesserung der Extraktion und Interpretation von Mikroarray-basierten Genexpressionsdaten in vier Schritten beschrieben: (1) Mikroarray-Sonden-Design, (2) Mikroarray Datennormalisierung, (3) Rekonstruktion von Gennetzwerken unter Verwendung von Expressionsdaten und (4) experimentelle Überprüfung von expressionsbasierten „guilt-by-association“ Schlussfolgerungen. Im ersten Teil wird ein Beispiel zur Erstellung eines Mikroarrays für Thelungiella salsuginea gezeigt, einem salz- und trockenresistenten Verwandten von Arabidopsis thaliana. Zur Rekonstruktion der Transkripte wurden sowohl öffentliche ESTs (‚expressed sequence tags‘) als auch neu erzeugte ‚Next Generation‘ Sequenzierdaten genutzt. Da das Design von Mikroarrays speziesspezifische, nicht-redundante Transkriptmodelle erfordert, werden diese Aufgaben nacheinander abgearbeitet und verschiedene technische Lösungsmöglichkeiten aufgezeigt. Im zweiten Teil wird beschrieben, wie übliche Mikroarray-Normalisierungsverfahren wie RMA und GCRMA zu Korrelationsartefakten führen können. Technische sowie mathematische Hintergründe werden erläutert und zur Lösung des Problems wird mit tRMA eine neue Normalisierungsmethode vorgestellt. Der dritte Teil der Arbeit beschäftigt sich der expressionsbasierten Rekonstruktion von Gennetzwerken. Es wird demonstriert, wie dabei verschiedene „Zentralitäten“ bei zur Unterscheidung von spezifischen Genklassen, hier beispielhaft essentielle Gene von Arabidopsis thaliana, genutzt werden können und wie die Verwendung von konditioneller Korrelation tieferes Verständnis des der Transkriptionsregulation zugrundeliegenden Informationsflusses ermöglicht. Weiterhin werden Ansätze zur Netzwerkrekonstruktion verglichen. Besonderes Augenmerk liegt dabei auf der LASSO Technik, einer Art linearer Regression, die trotz ihren theoretischen Vorteilen in Robustheit und Interpretierbarkeit gegenüber Standardmethoden bisher selten zur Rekonstruktion von globalen Gennetzwerken genutzt wurde. Die Leistungsfähigkeit von LASSO wird durch in silico Analysen der Zuverlässigkeit der erstellten Gennetzwerke gemessen. Im letzten Teil der Arbeit wurden LASSO und andere Rekonstruktionsmethoden genutzt um experimentell neue Gene der folgenden zwei Szenarien zu identifizieren: im Samenschleim von Arabidopsis thaliana und während der Knollenentwicklung von Solanum tuberosum unter Sauerstoffmangel. In beiden Fällen wird eine interessante Methodenkomplementarität gezeigt, nach welcher eine Mischung mehrerer Ansätze zu empfehlen ist um Schlüsse aufgrund von Transkriptexpression zu ziehen. Zusammenfassend zielt diese Arbeit darauf ab, das Verständnis der Regulation von Gentranskriptionsnetzwerken durch bessere Interpretation von Hochdurchsatzexpressionsdaten zu verbessern. Ein Teil der in dieser Arbeit beschriebenen Methoden wurden im Programm CorTo zur Gennetzwerkrekonstruktion und annotierten Visualisierung von benutzerdefinierten Transkriptionsdaten verarbeitet. KW - Koexpression KW - Microarrays KW - Essentialität KW - Transkriptionsnetzwerke KW - LASSO KW - Coexpression KW - microarrays KW - essentiality KW - networks KW - LASSO Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-56760 ER -