TY - THES A1 - Durek, Pawel T1 - Comparative analysis of molecular interaction networks : the interplay between spatial and functional organizing principles T1 - Vergleichende Analyse molekularer Interaktionsnetzwerke : der Zusammenhang von räumlichen und funktionellen Organisationsprinzipien N2 - The study of biological interaction networks is a central theme in systems biology. Here, we investigate common as well as differentiating principles of molecular interaction networks associated with different levels of molecular organization. They include metabolic pathway maps, protein-protein interaction networks as well as kinase interaction networks. First, we present an integrated analysis of metabolic pathway maps and protein-protein interaction networks (PIN). It has long been established that successive enzymatic steps are often catalyzed by physically interacting proteins forming permanent or transient multi-enzyme complexes. Inspecting high-throughput PIN data, it has been shown recently that, indeed, enzymes involved in successive reactions are generally more likely to interact than other protein pairs. In this study, we expanded this line of research to include comparisons of the respective underlying network topologies as well as to investigate whether the spatial organization of enzyme interactions correlates with metabolic efficiency. Analyzing yeast data, we detected long-range correlations between shortest paths between proteins in both network types suggesting a mutual correspondence of both network architectures. We discovered that the organizing principles of physical interactions between metabolic enzymes differ from the general PIN of all proteins. While physical interactions between proteins are generally dissortative, enzyme interactions were observed to be assortative. Thus, enzymes frequently interact with other enzymes of similar rather than different degree. Enzymes carrying high flux loads are more likely to physically interact than enzymes with lower metabolic throughput. In particular, enzymes associated with catabolic pathways as well as enzymes involved in the biosynthesis of complex molecules were found to exhibit high degrees of physical clustering. Single proteins were identified that connect major components of the cellular metabolism and hence might be essential for the structural integrity of several biosynthetic systems. Besides metabolic aspects of PINs, we investigated the characteristic topological properties of protein interactions involved in signaling and regulatory functions mediated by kinase interactions. Characteristic topological differences between PINs associated with metabolism, and those describing phosphorylation networks were revealed and shown to reflect the different modes of biological operation of both network types. The construction of phosphorylation networks is based on the identification of specific kinase-target relations including the determination of the actual phosphorylation sites (P-sites). The computational prediction of P-sites as well as the identification of involved kinases still suffers from insufficient accuracies and specificities of the underlying prediction algorithms, and the experimental identification in a genome-scale manner is not (yet) doable. Computational prediction methods have focused primarily on extracting predictive features from the local, one-dimensional sequence information surrounding P-sites. However the recognition of such motifs by the respective kinases is a spatial event. Therefore, we characterized the spatial distributions of amino acid residue types around P-sites and extracted signature 3D-profiles. We then tested the added value of spatial information on the prediction performance. When compared to sequence-only based predictors, a consistent performance gain was obtained. The availability of reliable training data of experimentally determined P-sites is critical for the development of computational prediction methods. As part of this thesis, we provide an assessment of false-positive rates of phosphoproteomic data. N2 - Ein zentrales Thema der Systembiologie ist die Untersuchung biologischer Interaktionsnetzwerke. In der vorliegenden Arbeit wurden gemeinsame sowie differenzierende Prinzipien molekularer Interaktionsnetzwerke untersucht, die sich durch unterschiedliche Ebenen der molekulareren Organisation auszeichnen. Zu den untersuchten Interaktionsnetzwerken gehörten Netzwerke, die auf metabolischen Wechselwirkungen, physikalischen Wechselwirkungen zwischen Proteinen und Kinase-Interaktionen aufbauen. Zunächst wird eine integrativen Analyse der metabolischen Pfade und Protein Interaktionsnetzwerke vorgestellt. Es wird seit schon seit langem angenommen, dass aufeinander folgende enzymatische Schritte oft durch permanente oder transiente Multienzymkomplexe, die auf physikalischen Wechselwirkungen der involvierten Proteine basieren, katalysiert werden. Diese Annahme konnte durch die Auswertung von Ergebnissen aus Hochdurchsatz-Experimenten bestätigt werden. Demnach treten aufeinander folgende Enzyme häufiger in physikalische Wechselwirkung als zufällige Enzympaare. Die vorliegende Arbeit geht in ihrer Analyse weiter, in dem die Topologien der zugrundeliegenden Netzwerke, die auf metabolischen und physikalischen Wechselwirkungen basieren verglichen werden und der Zusammenhang zwischen der räumlichen Organisation der Enzyme und der metabolischen Effizienz gesucht wird. Ausgehend von Interaktionsdaten aus Hefe hat die Analyse der auf metabolischen und physikalischen Wechselwirkungen aufbauenden Interaktionswege eine weitgehende Korrelation der Distanzen aufgezeigt und somit eine wechselseitige Übereinstimmung der Architekturen nahegelegt. Allerdings folgen physikalische Wechselwirkungen zwischen metabolischen Enzymen anderen organisatorischen Regeln als Proteininteraktionen im allgemeinem PIN, das alle Proteininteraktionen enthält. Während Proteininteraktionen im allgemeinen PIN sich dissortativ verhalten, sind physikalische Enzyminteraktionen assortativ, d.h. dass die Anzahl der Interaktionen benachbarter Proteine im allgemeinem Netzwerk negativ und im metabolischen Netzwerk positiv korreliert. Ferner scheinen Enzyme von höherem metabolischen Durchsatz häufiger in Wechselwirkungen involviert zu sein. Enzyme der zentralen katabolischen Prozesse sowie der Biosynthese komplexer Membranlipide zeigen dabei einen besonders hohen Verknüpfungsgrad und eine dichte Clusterbildung. Einzelne Proteine wurden identifiziert, die die Hauptkomponenten des zellulären Metabolismus verbinden und so die Integrität verschiedener biosynthetischer Systeme essenziell beeinflussen könnten. Neben dem metabolischen Aspekt der PIN wurde auch der Aspekt der Regulation sowie der Signaltransduktion, der Kinase-Interaktionen, näher analysiert. Dabei wurden charakteristische topologische Unterschiede der mit dem Metabolismus und der Phosphorylierung assoziierten PIN gefunden, die die unterschiedlichen Aufgaben beider Netzwerke widerspiegeln. Die Rekonstruktion von Phosphorylierungs-Netzwerken basiert im Wesentlichen auf der Vorhersage von Kinase-Zielprotein Relationen und kann deshalb immer noch an der nicht genügenden Vorhersagegüte der angewandten Vorhersage-Algorithmen während der Bestimmung von Phosphorylierungsstellen (P-Stellen) und der dazugehörigen Kinasen leiden. Auch die experimentelle, genomweite Bestimmung der P-Stellen ist (noch) nicht durchführbar. Bisherige computergestützte Vorhersagemethoden beruhten für gewöhnlich auf der Auswertung charakteristischer Merkmale der lokalen, die P-Stelle umgebenden Proteinsequenz. Dieser Ansatz wird durch die Verwendung räumlicher 3D-Information in der vorliegenden Arbeit erweitert. Hierbei wird die Verteilung der Aminosäuren um die P-Stelle berechnet und spezifische 3D-Signaturen zur Vorhersage extrahiert. Beim Vergleich mit sequenz-basierten Vorhersagemethoden konnte eine konsistente Verbesserung der Vorhersage durch die Einbeziehung räumlicher Information gezeigt werden. Weiterhin wird in der vorliegenden Arbeit auch der Frage nach der Fehlerrate der experimentellen Phosphoprotein-Daten nachgegangen und ihre Verlässlichkeit bewertet. Die Verfügbarkeit eines verlässlichen Datensatzes ist bei der Entwicklung einer Vorhersagemethode ein entscheidendes Kriterium. KW - Proteinphosphorylation KW - Systembiologie KW - Netzwerke KW - metabolisch KW - phosphorylation KW - systemsbiology KW - networks KW - metabolic Y1 - 2008 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-31439 ER - TY - THES A1 - Giorgi, Federico Manuel T1 - Expression-based reverse engineering of plant transcriptional networks T1 - Expressionsbasierte Rekonstruktion von pflanzlichen Transkriptionsnetzwerken N2 - Regulation of gene transcription plays a major role in mediating cellular responses and physiological behavior in all known organisms. The finding that similar genes are often regulated in a similar manner (co-regulated or "co-expressed") has directed several "guilt-by-association" approaches in order to reverse-engineer the cellular transcriptional networks using gene expression data as a compass. This kind of studies has been considerably assisted in the recent years by the development of high-throughput transcript measurement platforms, specifically gene microarrays and next-generation sequencing. In this thesis, I describe several approaches for improving the extraction and interpretation of the information contained in microarray based gene expression data, through four steps: (1) microarray platform design, (2) microarray data normalization, (3) gene network reverse engineering based on expression data and (4) experimental validation of expression-based guilt-by-association inferences. In the first part test case is shown aimed at the generation of a microarray for Thellungiella salsuginea, a salt and drought resistant close relative to the model plant Arabidopsis thaliana; the transcripts of this organism are generated on the combination of publicly available ESTs and newly generated ad-hoc next-generation sequencing data. Since the design of a microarray platform requires the availability of highly reliable and non-redundant transcript models, these issues are addressed consecutively, proposing several different technical solutions. In the second part I describe how inter-array correlation artifacts are generated by the common microarray normalization methods RMA and GCRMA, together with the technical and mathematical characteristics underlying the problem. A solution is proposed in the form of a novel normalization method, called tRMA. The third part of the thesis deals with the field of expression-based gene network reverse engineering. It is shown how different centrality measures in reverse engineered gene networks can be used to distinguish specific classes of genes, in particular essential genes in Arabidopsis thaliana, and how the use of conditional correlation can add a layer of understanding over the information flow processes underlying transcript regulation. Furthermore, several network reverse engineering approaches are compared, with a particular focus on the LASSO, a linear regression derivative rarely applied before in global gene network reconstruction, despite its theoretical advantages in robustness and interpretability over more standard methods. The performance of LASSO is assessed through several in silico analyses dealing with the reliability of the inferred gene networks. In the final part, LASSO and other reverse engineering methods are used to experimentally identify novel genes involved in two independent scenarios: the seed coat mucilage pathway in Arabidopsis thaliana and the hypoxic tuber development in Solanum tuberosum. In both cases an interesting method complementarity is shown, which strongly suggests a general use of hybrid approaches for transcript expression-based inferences. In conclusion, this work has helped to improve our understanding of gene transcription regulation through a better interpretation of high-throughput expression data. Part of the network reverse engineering methods described in this thesis have been included in a tool (CorTo) for gene network reverse engineering and annotated visualization from custom transcription datasets. N2 - Die Regulation der Gentranskription spielt eine wichtige Rolle bei der Steuerung des physiologischen Verhaltens in allen Organismen. Dass ähnliche Gene oft in gleicher Weise reguliert werden (koreguliert oder koexpimiert), hat zu diversen „guilt-by-association“-Ansätzen zur Rekonstruktion von zellulären Transkriptionsnetzwerken geführt, die Genexpressionsdaten zur Orientierung nutzen. Studien dieser Art wurden in den letzten Jahren durch die Entwicklung von Hochdurchsatzmessungen von Transkriptmengen mittels Mikroarrays und ‚Next Generation‘ Sequenziertechniken stark gefördert. In der vorliegenden Arbeit werden verschiedene Ansätze zur Verbesserung der Extraktion und Interpretation von Mikroarray-basierten Genexpressionsdaten in vier Schritten beschrieben: (1) Mikroarray-Sonden-Design, (2) Mikroarray Datennormalisierung, (3) Rekonstruktion von Gennetzwerken unter Verwendung von Expressionsdaten und (4) experimentelle Überprüfung von expressionsbasierten „guilt-by-association“ Schlussfolgerungen. Im ersten Teil wird ein Beispiel zur Erstellung eines Mikroarrays für Thelungiella salsuginea gezeigt, einem salz- und trockenresistenten Verwandten von Arabidopsis thaliana. Zur Rekonstruktion der Transkripte wurden sowohl öffentliche ESTs (‚expressed sequence tags‘) als auch neu erzeugte ‚Next Generation‘ Sequenzierdaten genutzt. Da das Design von Mikroarrays speziesspezifische, nicht-redundante Transkriptmodelle erfordert, werden diese Aufgaben nacheinander abgearbeitet und verschiedene technische Lösungsmöglichkeiten aufgezeigt. Im zweiten Teil wird beschrieben, wie übliche Mikroarray-Normalisierungsverfahren wie RMA und GCRMA zu Korrelationsartefakten führen können. Technische sowie mathematische Hintergründe werden erläutert und zur Lösung des Problems wird mit tRMA eine neue Normalisierungsmethode vorgestellt. Der dritte Teil der Arbeit beschäftigt sich der expressionsbasierten Rekonstruktion von Gennetzwerken. Es wird demonstriert, wie dabei verschiedene „Zentralitäten“ bei zur Unterscheidung von spezifischen Genklassen, hier beispielhaft essentielle Gene von Arabidopsis thaliana, genutzt werden können und wie die Verwendung von konditioneller Korrelation tieferes Verständnis des der Transkriptionsregulation zugrundeliegenden Informationsflusses ermöglicht. Weiterhin werden Ansätze zur Netzwerkrekonstruktion verglichen. Besonderes Augenmerk liegt dabei auf der LASSO Technik, einer Art linearer Regression, die trotz ihren theoretischen Vorteilen in Robustheit und Interpretierbarkeit gegenüber Standardmethoden bisher selten zur Rekonstruktion von globalen Gennetzwerken genutzt wurde. Die Leistungsfähigkeit von LASSO wird durch in silico Analysen der Zuverlässigkeit der erstellten Gennetzwerke gemessen. Im letzten Teil der Arbeit wurden LASSO und andere Rekonstruktionsmethoden genutzt um experimentell neue Gene der folgenden zwei Szenarien zu identifizieren: im Samenschleim von Arabidopsis thaliana und während der Knollenentwicklung von Solanum tuberosum unter Sauerstoffmangel. In beiden Fällen wird eine interessante Methodenkomplementarität gezeigt, nach welcher eine Mischung mehrerer Ansätze zu empfehlen ist um Schlüsse aufgrund von Transkriptexpression zu ziehen. Zusammenfassend zielt diese Arbeit darauf ab, das Verständnis der Regulation von Gentranskriptionsnetzwerken durch bessere Interpretation von Hochdurchsatzexpressionsdaten zu verbessern. Ein Teil der in dieser Arbeit beschriebenen Methoden wurden im Programm CorTo zur Gennetzwerkrekonstruktion und annotierten Visualisierung von benutzerdefinierten Transkriptionsdaten verarbeitet. KW - Koexpression KW - Microarrays KW - Essentialität KW - Transkriptionsnetzwerke KW - LASSO KW - Coexpression KW - microarrays KW - essentiality KW - networks KW - LASSO Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-56760 ER - TY - JOUR A1 - Breuer, David A1 - Nowak, Jacqueline A1 - Ivakov, Alexander A1 - Somssich, Marc A1 - Persson, Staffan A1 - Nikoloski, Zoran T1 - System-wide organization of actin cytoskeleton determines organelle transport in hypocotyl plant cells JF - Proceedings of the National Academy of Sciences of the United States of America N2 - The actin cytoskeleton is an essential intracellular filamentous structure that underpins cellular transport and cytoplasmic streaming in plant cells. However, the system-level properties of actin-based cellular trafficking remain tenuous, largely due to the inability to quantify key features of the actin cytoskeleton. Here, we developed an automated image-based, network-driven framework to accurately segment and quantify actin cytoskeletal structures and Golgi transport. We show that the actin cytoskeleton in both growing and elongated hypocotyl cells has structural properties facilitating efficient transport. Our findings suggest that the erratic movement of Golgi is a stable cellular phenomenon that might optimize distribution efficiency of cell material. Moreover, we demonstrate that Golgi transport in hypocotyl cells can be accurately predicted from the actin network topology alone. Thus, our framework provides quantitative evidence for system-wide coordination of cellular transport in plant cells and can be readily applied to investigate cytoskeletal organization and transport in other organisms. KW - actin KW - cytoskeleton KW - Golgi KW - image processing KW - networks Y1 - 2017 U6 - https://doi.org/10.1073/pnas.1706711114 SN - 0027-8424 VL - 114 SP - E5741 EP - E5749 PB - National Acad. of Sciences CY - Washington ER -