TY - THES A1 - Schütte, Moritz T1 - Evolutionary fingerprints in genome-scale networks T1 - Evolutionäre Spuren in genomskaligen Netzwerken N2 - Mathematical modeling of biological phenomena has experienced increasing interest since new high-throughput technologies give access to growing amounts of molecular data. These modeling approaches are especially able to test hypotheses which are not yet experimentally accessible or guide an experimental setup. One particular attempt investigates the evolutionary dynamics responsible for today's composition of organisms. Computer simulations either propose an evolutionary mechanism and thus reproduce a recent finding or rebuild an evolutionary process in order to learn about its mechanism. The quest for evolutionary fingerprints in metabolic and gene-coexpression networks is the central topic of this cumulative thesis based on four published articles. An understanding of the actual origin of life will probably remain an insoluble problem. However, one can argue that after a first simple metabolism has evolved, the further evolution of metabolism occurred in parallel with the evolution of the sequences of the catalyzing enzymes. Indications of such a coevolution can be found when correlating the change in sequence between two enzymes with their distance on the metabolic network which is obtained from the KEGG database. We observe that there exists a small but significant correlation primarily on nearest neighbors. This indicates that enzymes catalyzing subsequent reactions tend to be descended from the same precursor. Since this correlation is relatively small one can at least assume that, if new enzymes are no "genetic children" of the previous enzymes, they certainly be descended from any of the already existing ones. Following this hypothesis, we introduce a model of enzyme-pathway coevolution. By iteratively adding enzymes, this model explores the metabolic network in a manner similar to diffusion. With implementation of an Gillespie-like algorithm we are able to introduce a tunable parameter that controls the weight of sequence similarity when choosing a new enzyme. Furthermore, this method also defines a time difference between successive evolutionary innovations in terms of a new enzyme. Overall, these simulations generate putative time-courses of the evolutionary walk on the metabolic network. By a time-series analysis, we find that the acquisition of new enzymes appears in bursts which are pronounced when the influence of the sequence similarity is higher. This behavior strongly resembles punctuated equilibrium which denotes the observation that new species tend to appear in bursts as well rather than in a gradual manner. Thus, our model helps to establish a better understanding of punctuated equilibrium giving a potential description at molecular level. From the time-courses we also extract a tentative order of new enzymes, metabolites, and even organisms. The consistence of this order with previous findings provides evidence for the validity of our approach. While the sequence of a gene is actually subject to mutations, its expression profile might also indirectly change through the evolutionary events in the cellular interplay. Gene coexpression data is simply accessible by microarray experiments and commonly illustrated using coexpression networks where genes are nodes and get linked once they show a significant coexpression. Since the large number of genes makes an illustration of the entire coexpression network difficult, clustering helps to show the network on a metalevel. Various clustering techniques already exist. However, we introduce a novel one which maintains control of the cluster sizes and thus assures proper visual inspection. An application of the method on Arabidopsis thaliana reveals that genes causing a severe phenotype often show a functional uniqueness in their network vicinity. This leads to 20 genes of so far unknown phenotype which are however suggested to be essential for plant growth. Of these, six indeed provoke such a severe phenotype, shown by mutant analysis. By an inspection of the degree distribution of the A.thaliana coexpression network, we identified two characteristics. The distribution deviates from the frequently observed power-law by a sharp truncation which follows after an over-representation of highly connected nodes. For a better understanding, we developed an evolutionary model which mimics the growth of a coexpression network by gene duplication which underlies a strong selection criterion, and slight mutational changes in the expression profile. Despite the simplicity of our assumption, we can reproduce the observed properties in A.thaliana as well as in E.coli and S.cerevisiae. The over-representation of high-degree nodes could be identified with mutually well connected genes of similar functional families: zinc fingers (PF00096), flagella, and ribosomes respectively. In conclusion, these four manuscripts demonstrate the usefulness of mathematical models and statistical tools as a source of new biological insight. While the clustering approach of gene coexpression data leads to the phenotypic characterization of so far unknown genes and thus supports genome annotation, our model approaches offer explanations for observed properties of the coexpression network and furthermore substantiate punctuated equilibrium as an evolutionary process by a deeper understanding of an underlying molecular mechanism. N2 - Die biologische Zelle ist ein sehr kompliziertes Gebilde. Bei ihrer Betrachtung gilt es, das Zusammenspiel von Tausenden bis Millionen von Genen, Regulatoren, Proteinen oder Molekülen zu beschreiben und zu verstehen. Durch enorme Verbesserungen experimenteller Messgeräte gelingt es mittlerweile allerdings in geringer Zeit enorme Datenmengen zu messen, seien dies z.B. die Entschlüsselung eines Genoms oder die Konzentrationen der Moleküle in einer Zelle. Die Systembiologie nimmt sich dem Problem an, aus diesem Datenmeer ein quantitatives Verständnis für die Gesamtheit der Wechselwirkungen in der Zelle zu entwickeln. Dabei stellt die mathematische Modellierung und computergestützte Analyse ein eminent wichtiges Werkzeug dar, lassen sich doch am Computer in kurzer Zeit eine Vielzahl von Fällen testen und daraus Hypothesen generieren, die experimentell verifiziert werden können. Diese Doktorarbeit beschäftigt sich damit, wie durch mathematische Modellierung Rückschlüsse auf die Evolution und deren Mechanismen geschlossen werden können. Dabei besteht die Arbeit aus zwei Teilen. Zum Einen wurde ein Modell entwickelt, dass die Evolution des Stoffwechsels nachbaut. Der zweite Teil beschäftigt sich mit der Analyse von Genexpressionsdaten, d.h. der Stärke mit der ein bestimmtes Gen in ein Protein umgewandelt, "exprimiert", wird. Der Stoffwechsel bezeichnet die Gesamtheit der chemischen Vorgänge in einem Organismus; zum Einen werden Nahrungsstoffe für den Organismus verwertbar zerlegt, zum Anderen aber auch neue Stoffe aufgebaut. Da für nahezu jede chemische Reaktion ein katalysierendes Enzym benötigt wird, ist davon auszugehen, dass sich der Stoffwechsel parallel zu den Enzymen entwickelt hat. Auf dieser Annahme basiert das entwickelte Modell zur Enzyme-Stoffwechsel-Koevolution. Von einer Anfangsmenge von Enzymen und Molekülen ausgehend, die etwa in einer primitiven Atmosphäre vorgekommen sind, werden sukzessive Enzyme und die nun katalysierbaren Reaktionen hinzugefügt, wodurch die Stoffwechselkapazität anwächst. Die Auswahl eines neuen Enzyms geschieht dabei in Abhängigkeit von der Ähnlichkeit mit bereits vorhandenen und ist so an den evolutionären Vorgang der Mutation angelehnt: je ähnlicher ein neues Enzym zu den vorhandenen ist, desto schneller kann es hinzugefügt werden. Dieser Vorgang wird wiederholt, bis der Stoffwechsel die heutige Form angenommen hat. Interessant ist vor allem der zeitliche Verlauf dieser Evolution, der mittels einer Zeitreihenanalyse untersucht wird. Dabei zeigt sich, dass neue Enzyme gebündelt in Gruppen kurzer Zeitfolge auftreten, gefolgt von Intervallen relativer Stille. Dasselbe Phänomen kennt man von der Evolution neuer Arten, die ebenfalls gebündelt auftreten, und wird Punktualismus genannt. Diese Arbeit liefert somit ein besseres Verständnis dieses Phänomens durch eine Beschreibung auf molekularer Ebene. Im zweiten Projekt werden Genexpressionsdaten von Pflanzen analysiert. Einerseits geschieht dies mit einem eigens entwickelten Cluster-Algorithmus. Hier läßt sich beobachten, dass Gene mit einer ähnlichen Funktion oft auch ein ähnliches Expressionsmuster aufweisen. Das Clustering liefert einige Genkandidaten, deren Funktion bisher unbekannt war, von denen aber nun vermutet werden konnte, dass sie enorm wichtig für das Wachstum der Pflanze sind. Durch Experimente von Pflanzen mit und ohne diese Gene zeigte sich, dass sechs neuen Genen dieses essentielle Erscheinungsbild zugeordnet werden kann. Weiterhin wurden Netzwerke der Genexpressionsdaten einer Pflanze, eines Pilzes und eines Bakteriums untersucht. In diesen Netzwerken werden zwei Gene verbunden, falls sie ein sehr ähnliches Expressionsprofil aufweisen. Nun zeigten diese Netzwerke sehr ähnliche und charakteristische Eigenschaften auf. Im Rahmen dieser Arbeit wurde daher ein weiteres evolutionäres Modell entwickelt, das die Expressionsprofile anhand von Duplikation, Mutation und Selektion beschreibt. Obwohl das Modell auf sehr simplen Eigenschaften beruht, spiegelt es die beobachteten Eigenschaften sehr gut wider, und es läßt sich der Schluss ziehen, dass diese als Resultat der Evolution betrachtet werden können. Die Ergebnisse dieser Arbeiten sind als Doktorarbeit in kumulativer Form bestehend aus vier veröffentlichten Artikeln vereinigt. KW - Systembiologie KW - Modellierung KW - Evolution KW - Stoffwechsel KW - Gen-Koexpression KW - Systems Biology KW - Modeling KW - Evolution KW - Metabolism KW - Gene co-expression Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-57483 ER - TY - THES A1 - Reusser, Dominik Edwin T1 - Combining smart model diagnostics and effective data collection for snow catchments T1 - Zeitlich aufgelöste Modelldiagnose und kosteneffektive Messungen für Schneeeinzugsgebiete N2 - Complete protection against flood risks by structural measures is impossible. Therefore flood prediction is important for flood risk management. Good explanatory power of flood models requires a meaningful representation of bio-physical processes. Therefore great interest exists to improve the process representation. Progress in hydrological process understanding is achieved through a learning cycle including critical assessment of an existing model for a given catchment as a first step. The assessment will highlight deficiencies of the model, from which useful additional data requirements are derived, giving a guideline for new measurements. These new measurements may in turn lead to improved process concepts. The improved process concepts are finally summarized in an updated hydrological model. In this thesis I demonstrate such a learning cycle, focusing on the advancement of model evaluation methods and more cost effective measurements. For a successful model evaluation, I propose that three questions should be answered: 1) when is a model reproducing observations in a satisfactory way? 2) If model results deviate, of what nature is the difference? And 3) what are most likely the relevant model components affecting these differences? To answer the first two questions, I developed a new method to assess the temporal dynamics of model performance (or TIGER - TIme series of Grouped Errors). This method is powerful in highlighting recurrent patterns of insufficient model behaviour for long simulation periods. I answered the third question with the analysis of the temporal dynamics of parameter sensitivity (TEDPAS). For calculating TEDPAS, an efficient method for sensitivity analysis is necessary. I used such an efficient method called Fourier Amplitude Sensitivity Test, which has a smart sampling scheme. Combining the two methods TIGER and TEDPAS provided a powerful tool for model assessment. With WaSiM-ETH applied to the Weisseritz catchment as a case study, I found insufficient process descriptions for the snow dynamics and for the recession during dry periods in late summer and fall. Focusing on snow dynamics, reasons for poor model performance can either be a poor representation of snow processes in the model, or poor data on snow cover, or both. To obtain an improved data set on snow cover, time series of snow height and temperatures were collected with a cost efficient method based on temperature measurements on multiple levels at each location. An algorithm was developed to simultaneously estimate snow height and cold content from these measurements. Both, snow height and cold content are relevant quantities for spring flood forecasting. Spatial variability was observed at the local and the catchment scale with an adjusted sampling design. At the local scale, samples were collected on two perpendicular transects of 60 m length and analysed with geostatistical methods. The range determined from fitted theoretical variograms was within the range of the sampling design for 80% of the plots. No patterns were found, that would explain the random variability and spatial correlation at the local scale. At the watershed scale, locations of the extensive field campaign were selected according to a stratified sample design to capture the combined effects of elevation, aspect and land use. The snow height is mainly affected by the plot elevation. The expected influence of aspect and land use was not observed. To better understand the deficiencies of the snow module in WaSiM-ETH, the same approach, a simple degree day model was checked for its capability to reproduce the data. The degree day model was capable to explain the temporal variability for plots with a continuous snow pack over the entire snow season, if parameters were estimated for single plots. However, processes described in the simple model are not sufficient to represent multiple accumulation-melt-cycles, as observed for the lower catchment. Thus, the combined spatio-temporal variability at the watershed scale is not captured by the model. Further tests on improved concepts for the representation of snow dynamics at the Weißeritz are required. From the data I suggest to include at least rain on snow and redistribution by wind as additional processes to better describe spatio-temporal variability. Alternatively an energy balance snow model could be tested. Overall, the proposed learning cycle is a useful framework for targeted model improvement. The advanced model diagnostics is valuable to identify model deficiencies and to guide field measurements. The additional data collected throughout this work helps to get a deepened understanding of the processes in the Weisseritz catchment. N2 - Modelle zur Hochwasservorhersage und –warnung basieren auf einer bio-physikalisch Repräsentation der relevanten hydrologischen Prozesse. Eine Verbesserungen der Beschreibung dieser Prozesse kann zuverlässigere Vorhersagen ermöglichen. Dazu wird die Benutzung eines Lernzykluses bestehend aus einer kritische Beurteilung eines existierenden Modells, der Erhebung zusätzlicher Daten, der Bildung eines vertieften Verständnis und einer Überarbeitung des Modells vorgeschlagen. In dieser Arbeit wird ein solcher Lernzyklus aufgegriffen, wobei der Schwerpunkt auf einer verbesserten Modellanalyse und kosteneffizientere Messungen liegt. Für eine erfolgreiche Modellbeurteilung sind drei Fragen zu beantworten: 1) Wann reproduziert ein Modell die beobachteten Werte in einer zufriedenstellenden Weise (nicht)? 2) Wie lassen sich die Abweichungen charakterisieren? und 3) welches sind die Modellkomponenten, die diese Abweichungen bedingen? Um die ersten beiden Fragen zu beantworten, wird eine neue Methode zur Beurteilung des zeitlichen Verlaufs der Modellgüte vorgestellt. Eine wichtige Stärke ist, dass wiederholende Muster ungenügender Modellgüte auch für lange Simulationsläufe einfach identifiziert werden können. Die dritte Frage wird durch die Analyse des zeitlichen Verlaufs der Parametersensitivität beantwortet. Eine Kombination der beiden Methoden zur Beantwortung aller drei Fragen stellt ein umfangreiches Werkzeug für die Analyse hydrologischer Modelle zur Verfügung. Als Fallstudie wurde WaSiM-ETH verwendet, um das Einzugsgebiet der wilden Weißeritz zu modellieren. Die Modellanalyse von WaSiM-ETH hat ergeben, dass die Schneedynamik und die Rezession während trockener Perioden im Spätsommer und Herbst, für eine Beschreibung der Prozesse an der Weißeritz nicht geeignet sind. Die Erhebung zusätzlicher Daten zum besseren Verständnis der Schneedynamik bildet den nächste Schritt im Lernzyklus. Daten über Schneetemperaturen und Schneehöhen wurden mit Hilfe eines neuen, preisgünstigen Verfahrens erhoben. Dazu wurde die Temperatur an jedem Standort mit unterschiedlichen Abständen zum Boden gemessen und mit einem neuen Algorithmus in Schneehöhe und Kältegehalt umgerechnet. Die Schneehöhe und Kältegehalt sind wichtige Größen für die Vorhersage von Frühjahrshochwassern. Die räumliche Variabilität der Schneedecke auf der Einzugsgebietsskala wurde entsprechend der Landnutzung, der Höhenzone und der Ausrichtung stratifiziert untersucht, wobei lediglich der Einfluss der Höhe nachgewiesen werden konnte, während Ausrichtung und Landnutzung keinen statistisch signifikanten Einfluss hatten. Um die Defizite des WaSiM-ETH Schneemodules für die Beschreibung der Prozesse im Weißeritzeinzugsgebiets besser zu verstehen, wurde der gleiche konzeptionelle Ansatz als eigenständiges, kleines Modell benutzt, um die Dynamik in den Schneedaten zu reproduzieren. Während dieses Grad-Tag-Modell in der Lage war, den zeitlichen Verlauf für Flächen mit einer kontinuierlichen Schneedecke zu reproduzieren, konnte die Dynamik für Flächen mit mehreren Akkumulations- und Schmelzzyklen im unteren Einzugsgebiet vom Modell nicht abgebildet werden. Vorschläge zur Verbesserung des Modells werden in der Arbeit gemacht. Zusammenfassend hat sich das Lernzyklus-Konzept als nützlich erwiesen, um gezielt an einer Modellverbesserung zu arbeiten. Die differenzierte Modelldiagnose ist wertvoll, um Defizite im Modellkonzept zu identifizieren. Die während dieser Studie erhobenen Daten sind geeignet, um ein verbessertes Verständnis der Schnee-Prozesse an der Weißeritz zu erlangen. KW - Hydrologie KW - Modellierung KW - Modell Diagnose KW - Schnee KW - Sensitivitätsanalyse KW - hydrology KW - modelling KW - model diagnostics KW - snow KW - sensitivity analysis Y1 - 2011 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-52574 ER -