TY - THES A1 - Benson, Lawrence T1 - Efficient state management with persistent memory N2 - Efficiently managing large state is a key challenge for data management systems. Traditionally, state is split into fast but volatile state in memory for processing and persistent but slow state on secondary storage for durability. Persistent memory (PMem), as a new technology in the storage hierarchy, blurs the lines between these states by offering both byte-addressability and low latency like DRAM as well persistence like secondary storage. These characteristics have the potential to cause a major performance shift in database systems. Driven by the potential impact that PMem has on data management systems, in this thesis we explore their use of PMem. We first evaluate the performance of real PMem hardware in the form of Intel Optane in a wide range of setups. To this end, we propose PerMA-Bench, a configurable benchmark framework that allows users to evaluate the performance of customizable database-related PMem access. Based on experimental results obtained with PerMA-Bench, we discuss findings and identify general and implementation-specific aspects that influence PMem performance and should be considered in future work to improve PMem-aware designs. We then propose Viper, a hybrid PMem-DRAM key-value store. Based on PMem-aware access patterns, we show how to leverage PMem and DRAM efficiently to design a key database component. Our evaluation shows that Viper outperforms existing key-value stores by 4–18x for inserts while offering full data persistence and achieving similar or better lookup performance. Next, we show which changes must be made to integrate PMem components into larger systems. By the example of stream processing engines, we highlight limitations of current designs and propose a prototype engine that overcomes these limitations. This allows our prototype to fully leverage PMem's performance for its internal state management. Finally, in light of Optane's discontinuation, we discuss how insights from PMem research can be transferred to future multi-tier memory setups by the example of Compute Express Link (CXL). Overall, we show that PMem offers high performance for state management, bridging the gap between fast but volatile DRAM and persistent but slow secondary storage. Although Optane was discontinued, new memory technologies are continuously emerging in various forms and we outline how novel designs for them can build on insights from existing PMem research. N2 - Die effiziente Verwaltung großer Zustände ist eine zentrale Herausforderung für Datenverwaltungssysteme. Traditionell wird der Zustand in einen schnellen, aber flüchtigen Zustand im Speicher für die Verarbeitung und einen persistenten, aber langsamen Zustand im Sekundärspeicher für die Speicherung unterteilt. Persistenter Speicher (PMem), eine neue Technologie in der Speicherhierarchie, lässt die Grenzen zwischen diesen Zuständen verschwimmen, indem er sowohl Byte-Adressierbarkeit und geringe Latenz wie DRAM als auch Persistenz wie Sekundärspeicher bietet. Diese Eigenschaften haben das Potenzial, die Leistung von Datenbanksystemen grundlegend zu verändern. Aufgrund der potenziellen Auswirkungen, die PMem auf Datenverwaltungssysteme hat, untersuchen wir in dieser Arbeit ihre Verwendung von PMem. Zunächst evaluieren wir die Leistung von echter PMem-Hardware in Form von Intel Optane in einer Vielzahl von Konfigurationen. Zu diesem Zweck stellen wir PerMA-Bench vor, ein konfigurierbares Benchmark-Framework, mit dem Benutzer die Leistung von anpassbaren datenbankbezogenen PMem-Zugriffen untersuchen können. Auf der Grundlage der mit PerMA-Bench erzielten experimentellen Ergebnisse diskutieren wir unsere Erkenntnisse und identifizieren allgemeine und implementierungsspezifische Aspekte, die die PMem-Leistung beeinflussen und in zukünftigen Arbeiten berücksichtigt werden sollten, um PMem-fähige Designs zu verbessern. Anschließend präsentieren wir Viper, einen hybriden PMem-DRAM Key-Value-Store. Basierend auf PMem-bewussten Zugriffsmustern zeigen wir, wie PMem und DRAM effizient genutzt werden können, um eine wichtige Datenbankkomponente zu entwickeln. Unsere Evaluierung zeigt, dass Viper bestehende Key-Value-Stores bei Einfügungen um 4- bis 18-mal übertrifft, während er gleichzeitig vollständige Datenpersistenz bietet und ähnliche oder bessere Lookup-Leistung erzielt. Als nächstes zeigen wir, welche Änderungen vorgenommen werden müssen, um PMem-Komponenten in größere Systeme zu integrieren. Am Beispiel von Datenstromverarbeitungssystemen zeigen wir die Einschränkungen aktueller Designs auf und stellen einen Prototyp eines Systems vor, das diese Einschränkungen überwindet. Dadurch kann unser Prototyp die Leistung von PMem für die interne Zustandsverwaltung voll ausnutzen. Schließlich erörtern wir angesichts der Abkündigung von Optane, wie Erkenntnisse aus der PMem-Forschung am Beispiel von Compute Express Link (CXL) auf künftige mehrstufige Speicher-Setups übertragen werden können. Insgesamt zeigen wir, dass PMem eine hohe Leistungsfähigkeit für die Zustandsverwaltung bietet und die Lücke zwischen schnellem, aber flüchtigem DRAM und beständigem, aber langsamem Sekundärspeicher schließt. Obwohl Optane eingestellt wurde, entstehen ständig neue Speichertechnologien in verschiedenen Formen, und wir skizzieren, wie neuartige Entwürfe für sie auf den Erkenntnissen aus der bestehenden PMem-Forschung aufbauen können. KW - persistent memory KW - pmem KW - database KW - data management KW - state management KW - Datenverwaltung KW - Datenbank KW - persistenter Speicher KW - pmem KW - Zustandsverwaltung Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-625637 ER - TY - JOUR A1 - Bender, Benedict A1 - Bertheau, Clementine A1 - Körppen, Tim A1 - Lauppe, Hannah A1 - Gronau, Norbert T1 - A proposal for future data organization in enterprise systems BT - an analysis of established database approaches JF - Information systems and e-business management N2 - The digital transformation sets new requirements to all classes of enterprise systems in companies. ERP systems in particular, which represent the dominant class of enterprise systems, are struggling to meet the new requirements at all levels of the architecture. Therefore, there is an urgent need to reconsider the overall architecture of the systems and address the root of the related issues. Given that many restrictions ERP pose on their adaptability are related to the standardization of data, the database layer of ERP systems is addressed. Since database serve as the foundation for data storage and retrieval, they limit the flexibility of enterprise systems and the chance to adapt to new requirements accordingly. So far, relational databases are widely used. Using a systematic literature approach, recent requirements for ERP systems were identified. Prominent database approaches were assessed against the 23 requirements identified. The results reveal the strengths and weaknesses of recent database approaches. To this end, the results highlight the demand to combine multiple database approaches to fulfill recent business requirements. From a conceptual point of view, this paper supports the idea of federated databases which are interoperable to fulfill future requirements and support business operation. This research forms the basis for renewal of the current generation of ERP systems and proposes to ERP vendors to use different database concepts in the future. KW - database KW - enterprise system KW - ERP system KW - requirements KW - problems KW - future Y1 - 2022 U6 - https://doi.org/10.1007/s10257-022-00555-6 SN - 1617-9846 SN - 1617-9854 VL - 20 SP - 441 EP - 494 PB - Springer CY - Heidelberg ER - TY - THES A1 - Koßmann, Jan T1 - Unsupervised database optimization BT - efficient index selection & data dependency-driven query optimization N2 - The amount of data stored in databases and the complexity of database workloads are ever- increasing. Database management systems (DBMSs) offer many configuration options, such as index creation or unique constraints, which must be adapted to the specific instance to efficiently process large volumes of data. Currently, such database optimization is complicated, manual work performed by highly skilled database administrators (DBAs). In cloud scenarios, manual database optimization even becomes infeasible: it exceeds the abilities of the best DBAs due to the enormous number of deployed DBMS instances (some providers maintain millions of instances), missing domain knowledge resulting from data privacy requirements, and the complexity of the configuration tasks. Therefore, we investigate how to automate the configuration of DBMSs efficiently with the help of unsupervised database optimization. While there are numerous configuration options, in this thesis, we focus on automatic index selection and the use of data dependencies, such as functional dependencies, for query optimization. Both aspects have an extensive performance impact and complement each other by approaching unsupervised database optimization from different perspectives. Our contributions are as follows: (1) we survey automated state-of-the-art index selection algorithms regarding various criteria, e.g., their support for index interaction. We contribute an extensible platform for evaluating the performance of such algorithms with industry-standard datasets and workloads. The platform is well-received by the community and has led to follow-up research. With our platform, we derive the strengths and weaknesses of the investigated algorithms. We conclude that existing solutions often have scalability issues and cannot quickly determine (near-)optimal solutions for large problem instances. (2) To overcome these limitations, we present two new algorithms. Extend determines (near-)optimal solutions with an iterative heuristic. It identifies the best index configurations for the evaluated benchmarks. Its selection runtimes are up to 10 times lower compared with other near-optimal approaches. SWIRL is based on reinforcement learning and delivers solutions instantly. These solutions perform within 3 % of the optimal ones. Extend and SWIRL are available as open-source implementations. (3) Our index selection efforts are complemented by a mechanism that analyzes workloads to determine data dependencies for query optimization in an unsupervised fashion. We describe and classify 58 query optimization techniques based on functional, order, and inclusion dependencies as well as on unique column combinations. The unsupervised mechanism and three optimization techniques are implemented in our open-source research DBMS Hyrise. Our approach reduces the Join Order Benchmark’s runtime by 26 % and accelerates some TPC-DS queries by up to 58 times. Additionally, we have developed a cockpit for unsupervised database optimization that allows interactive experiments to build confidence in such automated techniques. In summary, our contributions improve the performance of DBMSs, support DBAs in their work, and enable them to contribute their time to other, less arduous tasks. N2 - Sowohl die Menge der in Datenbanken gespeicherten Daten als auch die Komplexität der Datenbank-Workloads steigen stetig an. Datenbankmanagementsysteme bieten viele Konfigurationsmöglichkeiten, zum Beispiel das Anlegen von Indizes oder die Definition von Unique Constraints. Diese Konfigurations-möglichkeiten müssen für die spezifische Datenbankinstanz angepasst werden, um effizient große Datenmengen verarbeiten zu können. Heutzutage wird die komplizierte Datenbankoptimierung manuell von hochqualifizierten Datenbankadministratoren vollzogen. In Cloud-Szenarien ist die manuelle Daten-bankoptimierung undenkbar: Die enorme Anzahl der verwalteten Systeme (einige Anbieter verwalten Millionen von Instanzen), das fehlende Domänenwissen durch Datenschutzanforderungen und die Kom-plexität der Konfigurationsaufgaben übersteigen die Fähigkeiten der besten Datenbankadministratoren. Aus diesen Gründen betrachten wir, wie die Konfiguration von Datenbanksystemen mit der Hilfe von Unsupervised Database Optimization effizient automatisiert werden kann. Während viele Konfigura-tionsmöglichkeiten existieren, konzentrieren wir uns auf die automatische Indexauswahl und die Nutzung von Datenabhängigkeiten, zum Beispiel Functional Dependencies, für die Anfrageoptimierung. Beide Aspekte haben großen Einfluss auf die Performanz und ergänzen sich gegenseitig, indem sie Unsupervised Database Optimization aus verschiedenen Perspektiven betrachten. Wir leisten folgende Beiträge: (1) Wir untersuchen dem Stand der Technik entsprechende automatisierte Indexauswahlalgorithmen hinsichtlich verschiedener Kriterien, zum Beispiel bezüglich ihrer Berücksichtigung von Indexinteraktionen. Wir stellen eine erweiterbare Plattform zur Leistungsevaluierung solcher Algorithmen mit Industriestandarddatensätzen und -Workloads zur Verfügung. Diese Plattform wird von der Forschungsgemeinschaft aktiv verwendet und hat bereits zu weiteren Forschungsarbeiten geführt. Mit unserer Plattform leiten wir die Stärken und Schwächen der untersuchten Algorithmen ab. Wir kommen zu dem Schluss, dass bestehende Lösung häufig Skalierungsschwierigkeiten haben und nicht in der Lage sind, schnell (nahezu) optimale Lösungen für große Problemfälle zu ermitteln. (2) Um diese Einschränkungen zu bewältigen, stellen wir zwei neue Algorithmen vor. Extend ermittelt (nahezu) optimale Lösungen mit einer iterativen Heuristik. Das Verfahren identifiziert die besten Indexkonfigurationen für die evaluierten Benchmarks und seine Laufzeit ist bis zu 10-mal geringer als die Laufzeit anderer nahezu optimaler Ansätze. SWIRL basiert auf Reinforcement Learning und ermittelt Lösungen ohne Wartezeit. Diese Lösungen weichen maximal 3 % von den optimalen Lösungen ab. Extend und SWIRL sind verfügbar als Open-Source-Implementierungen. (3) Ein Mechanismus, der mittels automatischer Workload-Analyse Datenabhängigkeiten für die Anfrageoptimierung bestimmt, ergänzt die vorigen Beiträge. Wir beschreiben und klassifizieren 58 Techniken, die auf Functional, Order und Inclusion Dependencies sowie Unique Column Combinations basieren. Der Analysemechanismus und drei Optimierungstechniken sind in unserem Open-Source-Forschungsdatenbanksystem Hyrise implementiert. Der Ansatz reduziert die Laufzeit des Join Order Benchmark um 26 % und erreicht eine bis zu 58-fache Beschleunigung einiger TPC-DS-Anfragen. Darüber hinaus haben wir ein Cockpit für Unsupervised Database Optimization entwickelt. Dieses Cockpit ermöglicht interaktive Experimente, um Vertrauen in automatisierte Techniken zur Datenbankoptimie-rung zu schaffen. Zusammenfassend lässt sich festhalten, dass unsere Beiträge die Performanz von Datenbanksystemen verbessern, Datenbankadministratoren in ihrer Arbeit unterstützen und ihnen ermöglichen, ihre Zeit anderen, weniger mühsamen, Aufgaben zu widmen. KW - Datenbank KW - Datenbanksysteme KW - database KW - DBMS KW - Hyrise KW - index selection KW - database systems KW - RL KW - reinforcement learning KW - query optimization KW - data dependencies KW - functional dependencies KW - order dependencies KW - unique column combinations KW - inclusion dependencies KW - funktionale Abhängigkeiten KW - Anfrageoptimierung KW - Query-Optimierung KW - extend KW - SWIRL KW - unsupervised KW - database optimization KW - self-driving KW - autonomous Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-589490 ER - TY - JOUR A1 - Li, Chen A1 - Stoma, Svetlana A1 - Lotta, Luca A. A1 - Warner, Sophie A1 - Albrecht, Eva A1 - Allione, Alessandra A1 - Arp, Pascal P. A1 - Broer, Linda A1 - Buxton, Jessica L. A1 - Boeing, Heiner A1 - Langenberg, Claudia A1 - Codd, Veryan T1 - Genome-wide association analysis in humans links nucleotide metabolism to leukocyte telomere length JF - American Journal of Human Genetics N2 - Leukocyte telomere length (LTL) is a heritable biomarker of genomic aging. In this study, we perform a genome-wide meta-analysis of LTL by pooling densely genotyped and imputed association results across large-scale European-descent studies including up to 78,592 individuals. We identify 49 genomic regions at a false dicovery rate (FDR) < 0.05 threshold and prioritize genes at 31, with five highlighting nucleotide metabolism as an important regulator of LTL. We report six genome-wide significant loci in or near SENP7, MOB1B, CARMIL1 , PRRC2A, TERF2, and RFWD3, and our results support recently identified PARP1, POT1, ATM, and MPHOSPH6 loci. Phenome-wide analyses in >350,000 UK Biobank participants suggest that genetically shorter telomere length increases the risk of hypothyroidism and decreases the risk of thyroid cancer, lymphoma, and a range of proliferative conditions. Our results replicate previously reported associations with increased risk of coronary artery disease and lower risk for multiple cancer types. Our findings substantially expand current knowledge on genes that regulate LTL and their impact on human health and disease. KW - Mendelian randomization KW - risk KW - variants KW - disease KW - cancer KW - loci KW - database KW - genes KW - heart KW - gwas Y1 - 2019 VL - 106 IS - 3 PB - Elsevier CY - Amsterdam ER - TY - GEN A1 - Li, Chen A1 - Stoma, Svetlana A1 - Lotta, Luca A. A1 - Warner, Sophie A1 - Albrecht, Eva A1 - Allione, Alessandra A1 - Arp, Pascal P. A1 - Broer, Linda A1 - Buxton, Jessica L. A1 - Boeing, Heiner A1 - Langenberg, Claudia A1 - Codd, Veryan T1 - Genome-wide association analysis in humans links nucleotide metabolism to leukocyte telomere length T2 - Postprints der Universität Potsdam : Mathematisch-Naturwissenschaftliche Reihe N2 - Leukocyte telomere length (LTL) is a heritable biomarker of genomic aging. In this study, we perform a genome-wide meta-analysis of LTL by pooling densely genotyped and imputed association results across large-scale European-descent studies including up to 78,592 individuals. We identify 49 genomic regions at a false dicovery rate (FDR) < 0.05 threshold and prioritize genes at 31, with five highlighting nucleotide metabolism as an important regulator of LTL. We report six genome-wide significant loci in or near SENP7, MOB1B, CARMIL1 , PRRC2A, TERF2, and RFWD3, and our results support recently identified PARP1, POT1, ATM, and MPHOSPH6 loci. Phenome-wide analyses in >350,000 UK Biobank participants suggest that genetically shorter telomere length increases the risk of hypothyroidism and decreases the risk of thyroid cancer, lymphoma, and a range of proliferative conditions. Our results replicate previously reported associations with increased risk of coronary artery disease and lower risk for multiple cancer types. Our findings substantially expand current knowledge on genes that regulate LTL and their impact on human health and disease. T3 - Zweitveröffentlichungen der Universität Potsdam : Mathematisch-Naturwissenschaftliche Reihe - 1205 KW - Mendelian randomization KW - risk KW - variants KW - disease KW - cancer KW - loci KW - database KW - genes KW - heart KW - gwas Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-526843 SN - 1866-8372 IS - 3 ER - TY - JOUR A1 - Havinga, Reinout A1 - Kool, Anneleen A1 - Achille, Frederic A1 - Bavcon, Joze A1 - Berg, Christian A1 - Bonomi, Costantino A1 - Burkart, Michael A1 - De Meyere, Dirk A1 - Havstrom, Mats A1 - Kessler, Paul A1 - Knickmann, Barbara A1 - Koester, Nils A1 - Martinez, Remy A1 - Ostgaard, Havard A1 - Ravnjak, Blanka A1 - Scheen, Anne-Cathrine A1 - Smith, Pamela A1 - Smith, Paul A1 - Socher, Stephanie A. A1 - Vange, Vibekke T1 - The Index Seminum: Seeds of change for seed exchange JF - Taxon N2 - Botanic gardens have been exchanging seeds through seed catalogues for centuries. In many gardens, these catalogues remain an important source of plant material. Living collections have become more relevant for genetic analysis and derived research, since genomics of non-model organisms heavily rely on living material. The range of species that is made available annually on all seed lists combined, provides an unsurpassed source of instantly accessible plant material for research collections. Still, the Index Seminum has received criticism in the past few decades. The current exchange model dictates that associated data is manually entered into each database. The amount of time involved and the human errors occurring in this process are difficult to justify when the data was initially produced as a report from another database. The authors propose that an online marketplace for seed exchange should be established, with enhanced search possibilities and downloadable accession data in a standardised format. Such online service should preferably be supervised and coordinated by Botanic Gardens Conservation International (BGCI). This manuscript is the outcome of a workshop on July 9th, 2015, at the European botanic gardens congress "Eurogard VII" in Paris, where the first two authors invited members of the botanic garden community to discuss how the anachronistic Index Seminum can be transformed into an improved and modern tool for seed exchange. KW - database KW - Index Seminum KW - information technology KW - living collections management KW - Nagoya-protocol KW - seed exchange Y1 - 2016 U6 - https://doi.org/10.12705/652.9 SN - 0040-0262 SN - 1996-8175 VL - 65 SP - 333 EP - 336 PB - International Association for Plant Taxonomy CY - Bratislava ER - TY - GEN A1 - Kumar, Kevin K. A1 - Goodwin, Cody R. A1 - Uhouse, Michael A. A1 - Bornhorst, Julia A1 - Schwerdtle, Tanja A1 - Aschner, Michael A. A1 - McLean, John A. A1 - Bowman, Aaron B. T1 - Untargeted metabolic profiling identifies interactions between Huntington's disease and neuronal manganese status N2 - Manganese (Mn) is an essential micronutrient for development and function of the nervous system. Deficiencies in Mn transport have been implicated in the pathogenesis of Huntington's disease (HD), an autosomal dominant neurodegenerative disorder characterized by loss of medium spiny neurons of the striatum. Brain Mn levels are highest in striatum and other basal ganglia structures, the most sensitive brain regions to Mn neurotoxicity. Mouse models of HD exhibit decreased striatal Mn accumulation and HD striatal neuron models are resistant to Mn cytotoxicity. We hypothesized that the observed modulation of Mn cellular transport is associated with compensatory metabolic responses to HD pathology. Here we use an untargeted metabolomics approach by performing ultraperformance liquid chromatography-ion mobility-mass spectrometry (UPLC-IM-MS) on control and HD immortalized mouse striatal neurons to identify metabolic disruptions under three Mn exposure conditions, low (vehicle), moderate (non-cytotoxic) and high (cytotoxic). Our analysis revealed lower metabolite levels of pantothenic acid, and glutathione (GSH) in HD striatal cells relative to control cells. HD striatal cells also exhibited lower abundance and impaired induction of isobutyryl carnitine in response to increasing Mn exposure. In addition, we observed induction of metabolites in the pentose shunt pathway in HD striatal cells after high Mn exposure. These findings provide metabolic evidence of an interaction between the HD genotype and biologically relevant levels of Mn in a striatal cell model with known HD by Mn exposure interactions. The metabolic phenotypes detected support existing hypotheses that changes in energetic processes underlie the pathobiology of both HD and Mn neurotoxicity. T3 - Zweitveröffentlichungen der Universität Potsdam : Mathematisch-Naturwissenschaftliche Reihe - 232 KW - cells KW - coenzyme-a KW - database KW - energy-metabolism KW - glutathione KW - hallervorden-spatz-syndrome KW - mobility-mass spectrometry KW - model KW - neurodegeneration KW - neurotoxicity Y1 - 2015 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-94314 SP - 363 EP - 370 ER - TY - JOUR A1 - Kumar, Kevin K. A1 - Goodwin, Cody R. A1 - Uhouse, Michael A. A1 - Bornhorst, Julia A1 - Schwerdtle, Tanja A1 - Aschner, Michael A. A1 - McLean, John A. A1 - Bowman, Aaron B. T1 - Untargeted metabolic profiling identifies interactions between Huntington's disease and neuronal manganese status JF - Metallomics N2 - Manganese (Mn) is an essential micronutrient for development and function of the nervous system. Deficiencies in Mn transport have been implicated in the pathogenesis of Huntington's disease (HD), an autosomal dominant neurodegenerative disorder characterized by loss of medium spiny neurons of the striatum. Brain Mn levels are highest in striatum and other basal ganglia structures, the most sensitive brain regions to Mn neurotoxicity. Mouse models of HD exhibit decreased striatal Mn accumulation and HD striatal neuron models are resistant to Mn cytotoxicity. We hypothesized that the observed modulation of Mn cellular transport is associated with compensatory metabolic responses to HD pathology. Here we use an untargeted metabolomics approach by performing ultraperformance liquid chromatography-ion mobility-mass spectrometry (UPLC-IM-MS) on control and HD immortalized mouse striatal neurons to identify metabolic disruptions under three Mn exposure conditions, low (vehicle), moderate (non-cytotoxic) and high (cytotoxic). Our analysis revealed lower metabolite levels of pantothenic acid, and glutathione (GSH) in HD striatal cells relative to control cells. HD striatal cells also exhibited lower abundance and impaired induction of isobutyryl carnitine in response to increasing Mn exposure. In addition, we observed induction of metabolites in the pentose shunt pathway in HD striatal cells after high Mn exposure. These findings provide metabolic evidence of an interaction between the HD genotype and biologically relevant levels of Mn in a striatal cell model with known HD by Mn exposure interactions. The metabolic phenotypes detected support existing hypotheses that changes in energetic processes underlie the pathobiology of both HD and Mn neurotoxicity. KW - hallervorden-spatz-syndrome KW - mobility-mass spectrometry KW - energy-metabolism KW - coenzyme-a KW - model KW - neurotoxicity KW - glutathione KW - database KW - cells KW - neurodegeneration Y1 - 2015 U6 - https://doi.org/10.1039/C4MT00223G SN - 1756-591X SN - 1756-5901 VL - 7 SP - 363 EP - 370 PB - RSC Publ. CY - Cambridge ER - TY - THES A1 - Riaño-Pachón, Diego Mauricio T1 - Identification of transcription factor genes in plants T1 - Identifizierung von Transkriptionsfaktorgenen in Pflanzen N2 - In order to function properly, organisms have a complex control mechanism, in which a given gene is expressed at a particular time and place. One way to achieve this control is to regulate the initiation of transcription. This step requires the assembly of several components, i.e., a basal/general machinery common to all expressed genes, and a specific/regulatory machinery, which differs among genes and is the responsible for proper gene expression in response to environmental or developmental signals. This specific machinery is composed of transcription factors (TFs), which can be grouped into evolutionarily related gene families that possess characteristic protein domains. In this work we have exploited the presence of protein domains to create rules that serve for the identification and classification of TFs. We have modelled such rules as a bipartite graph, where families and protein domains are represented as nodes. Connections between nodes represent that a protein domain should (required rule) or should not (forbidden rule) be present in a protein to be assigned into a TF family. Following this approach we have identified putative complete sets of TFs in plant species, whose genome is completely sequenced: Cyanidioschyzon merolae (red algae), Chlamydomonas reinhardtii (green alga), Ostreococcus tauri (green alga), Physcomitrella patens (moss), Arabidopsis thaliana (thale cress), Populus trichocarpa (black cottonwood) and Oryza sativa (rice). The identification of the complete sets of TFs in the above-mentioned species, as well as additional information and reference literature are available at http://plntfdb.bio.uni-potsdam.de/. The availability of such sets allowed us performing detailed evolutionary studies at different levels, from a single family to all TF families in different organisms in a comparative genomics context. Notably, we uncovered preferential expansions in different lineages, paving the way to discover the specific biological roles of these proteins under different conditions. For the basic leucine zipper (bZIP) family of TFs we were able to infer that in the most recent common ancestor (MRCA) of all green plants there were at least four bZIP genes functionally involved in oxidative stress and unfolded protein responses that are bZIP-mediated processes in all eukaryotes, but also in light-dependent regulations. The four founder genes amplified and diverged significantly, generating traits that benefited the colonization of new environments. Currently, following the approach described above, up to 57 TF and 11 TR families can be identified, which are among the most numerous transcription regulatory families in plants. Three families of putative TFs predate the split between rhodophyta (red algae) and chlorophyta (green algae), i.e., G2-like, PLATZ, and RWPRK, and may have been of particular importance for the evolution of eukaryotic photosynthetic organisms. Nine additional families, i.e., ABI3/VP1, AP2-EREBP, ARR-B, C2C2-CO-like, C2C2-Dof, PBF-2-like/Whirly, Pseudo ARR-B, SBP, and WRKY, predate the split between green algae and streptophytes. The identification of putative complete list of TFs has also allowed the delineation of lineage-specific regulatory families. The families SBP, bHLH, SNF2, MADS, WRKY, HMG, AP2-EREBP and FHA significantly differ in size between algae and land plants. The SBP family of TFs is significantly larger in C. reinhardtii, compared to land plants, and appears to have been lost in the prasinophyte O. tauri. The families bHLH, SNF2, MADS, WRKY, HMG, AP2-EREBP and FHA preferentially expanded with the colonisation of land, and might have played an important role in this great moment in evolution. Later, after the split of bryophytes and tracheophytes, the families MADS, AP2-EREBP, NAC, AUX/IAA, PHD and HRT have significantly larger numbers in the lineage leading to seed plants. We identified 23 families that are restricted to land plants and that might have played an important role in the colonization of this new habitat. Based on the list of TFs in different species we have started to develop high-throughput experimental platforms (in rice and C. reinhardtii) to monitor gene expression changes of TF genes under different genetic, developmental or environmental conditions. In this work we present the monitoring of Arabidopsis thaliana TFs during the onset of senescence, a process that leads to cell and tissue disintegration in order to redistribute nutrients (e.g. nitrogen) from leaves to reproductive organs. We show that the expression of 185 TF genes changes when leaves develop from half to fully expanded leaves and finally enter partial senescence. 76% of these TFs are down-regulated during senescence, the remaining are up-regulated. The identification of TFs in plants in a comparative genomics setup has proven fruitful for the understanding of evolutionary processes and contributes to the elucidation of complex developmental programs. N2 - Organismen weisen einen komplexen Steuerungsmechanismus auf, bei dem die Aktivität eines Gens räumlich und zeitlich reguliert wird. Eine Möglichkeit der Kontrolle der Genaktivität ist Regulation der Initiation der Transkription. Eine Voraussetzung für die Transkriptionsinitiation ist die Zusammenlagerung verschiedener Komponenten: eine allgemeine Maschinerie, die für alle exprimierten Gene gleich ist und eine spezifische Maschinerie, die sich von Gen zu Gen unterscheidet und die für die korrekte Genexpression in Abhängigkeit der Entwicklung und von Umweltsignalen verantwortlich ist. Diese spezifische Maschinerie besteht aus Transkriptionsfaktoren (TFs), welche in evolutionär verwandte Genefamilien eingeteilt werden können, die charakteristische Proteindomänen aufweisen. In dieser Arbeit habe ich die Proteindomänen genutzt, um Regeln aufzustellen, die die Identifizierung und Klassifizierung von TFs erlauben. Solche Regeln wurden als Graphen modelliert, in denen die Familien und Proteindomänen als Knoten repräsentiert wurden. Verbindungen zwischen den Knoten bedeuten, dass eine Proteindomäne in einem Protein entweder vorhanden sein sollte oder nicht vorhanden sein darf, damit das Protein einer TF-Familie zugeordnet wird. Mit Hilfe dieses Ansatzes wurden vermutlich vollständige Datensätze von TFs in Pflanzenspezies generiert, deren Genom komplett sequenziert wurde: C. merolae, C. reinhardtii, O. tauri, P. patens, A. thaliana, P. trichocarpa and O. sativa. Diese kompletten TF-Sätze sowie weitergehende Informationen und Literaturhinweise wurden unter der Internetadresse http://plntfdb.bio.uni-potsdam.de/ öffentlich zugänglich gemacht. Die Datensätze erlaubten es, detailliertere evolutionäre Studien mit unterschiedlichen Schwerpunkten durchzuführen. Diese reichten von der Analyse einzelner Familien bis hin zum genomweiten Vergleich aller TF-Familien in verschiedenen Organismen. Als Resultat besonders erwähnenswert ist, dass bevorzugt einige bestimmte TF-Familien in verschiedenen Spezies expandierten. Diese Studien ebnen den Weg, um die spezifische biologische Rolle dieser Proteine unter verschiedenen Bedingungen zu ergründen. Für die wichtige TF-Familie bZIP konnte gezeigt werden, dass der letzte gemeinsame Vorfahr aller Grünpflanzen mindestens vier bZIP Gene hatte, die funktionell in die Antwort auf oxidativen Stress eingebunden waren. Aus den vier Gründergene entstand durch Genverdopplung und –differenzierung eine große Familie, die Eigenschaften hervorbrachte, die die Besiedelung neuer Lebensräume ermöglichten. Mit Hilfe des oben beschriebenen Ansatzes können derzeit aus der Vielzahl der Transkriptionsregulatorfamilien in Pflanzen bis zu 57 TF und 11 TR Familien identifiziert werden. Drei Familien mutmaßlicher TFs markieren die Trennung zwischen Rhodophyta (Rotalgen) und Chlorophyta (Grünalgen): G2-like, PLATZ und RWPRK. Diese könnten eine besondere Rolle bei der Evolution eukaryotischer photosynthetisch aktiver Organismen gespielt haben. Neun zusätzliche Familien (ABI3/VP1, AP2-EREBP, ARR-B, C2C2-CO-like, C2C2-Dof, PBF-2-like/Whirly, Pseudo ARR-B, SBP und WRKY) kennzeichnen die Trennung zwischen Grünalgen und Streptophyten. Die Identifizierung putativer kompletter Listen an TFs erlaubte auch die Identifizierung abtammungsspezifischer regulatorischer Familien. Die Familien SBP, bHLH, SNF2, MADS, WRKY, HMG, AP2-EREBP und FHA unterscheiden sich signifikant in ihrer Größe zwischen Algen und Landpflanzen. Die SBP Familie ist in C. reinhardtii signifikant größer als in Landpflanzen. In der Parasinophyte O. tauri scheint diese Familie verloren gegangen zu sein. Die Familien bHLH, SNF2, MADS, WRKY, HMG, AP2-EREBP und FHA expandierten präferenziell mit der Kolonialisation an Land. Sie könnten eine wichte Rolle während dieses einschneidenden Ereignisses der Evolution gespielt haben. Später, nach der Trennung von Bryophyten und Tracheophyten sind die Familien MADS, AP2-EREBP, NAC, AUX/IAA, PHD und HRT stärker in den Linien, die zu Samenpflanzen führten, gewachsen. 23 TF-Familien wurden identifiziert, die es nur in Landpflanzen gibt. Sie könnten eine besondere Rolle bei der Besiedelung des neuen Lebensraum gespielt haben. Aufbauend auf die Transkriptionsfaktordatensätze, die in dieser Arbeit erstellt wurden, wurde mittlerweile damit begonnen, experimentelle Hochdurchsatz-Plattformen zu entwickeln (für Reis und für C. reinhardtii), um Änderungen in der Genaktivität der TF-Gene unter verschiedenen genetischen, Entwicklungs- oder Umweltbedingungen zu untersuchen. In dieser Arbeit wird die Analyse von TFs aus A. thaliana im Verlauf der Seneszenz vorgestellt. Seneszenz ist ein Prozess, der zur Zell- und Gewebeauflösung führt, um Nährstoffe aus den Blättern für den Transport in reproduktive Organe freizusetzen. Es wird gezeigt, dass sich die Expression von 187 TF Gene verändert, wenn sich die Blätter voll entfalten und schließlich teilweise in den Prozess der Seneszenz eintreten. 76% der TFs waren runterreguliert, die übrigen waren hochreguliert. KW - Transkriptionfaktorgenen KW - Regulation KW - Evolution KW - Datenbank KW - Pflanzen KW - transcription factor genes KW - regulation KW - evolution KW - plants KW - database Y1 - 2008 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-27009 ER - TY - THES A1 - Steinhauser, Dirk T1 - Inferring hypotheses from complex profile data - by means of CSB.DB, a comprehensive systems-biology database T1 - Generierung von Hypothesen aus komplexen Profildaten mittels CSB.DB, a comprehensive systems-biology database N2 - The past decades are characterized by various efforts to provide complete sequence information of genomes regarding various organisms. The availability of full genome data triggered the development of multiplex high-throughput assays allowing simultaneous measurement of transcripts, proteins and metabolites. With genome information and profiling technologies now in hand a highly parallel experimental biology is offering opportunities to explore and discover novel principles governing biological systems. Understanding biological complexity through modelling cellular systems represents the driving force which today allows shifting from a component-centric focus to integrative and systems level investigations. The emerging field of systems biology integrates discovery and hypothesis-driven science to provide comprehensive knowledge via computational models of biological systems. Within the context of evolving systems biology, investigations were made in large-scale computational analyses on transcript co-response data through selected prokaryotic and plant model organisms. CSB.DB - a comprehensive systems-biology database - (http://csbdb.mpimp-golm.mpg.de/) was initiated to provide public and open access to the results of biostatistical analyses in conjunction with additional biological knowledge. The database tool CSB.DB enables potential users to infer hypothesis about functional interrelation of genes of interest and may serve as future basis for more sophisticated means of elucidating gene function. The co-response concept and the CSB.DB database tool were successfully applied to predict operons in Escherichia coli by using the chromosomal distance and transcriptional co-responses. Moreover, examples were shown which indicate that transcriptional co-response analysis allows identification of differential promoter activities under different experimental conditions. The co-response concept was successfully transferred to complex organisms with the focus on the eukaryotic plant model organism Arabidopsis thaliana. The investigations made enabled the discovery of novel genes regarding particular physiological processes and beyond, allowed annotation of gene functions which cannot be accessed by sequence homology. GMD - the Golm Metabolome Database - was initiated and implemented in CSB.DB to integrated metabolite information and metabolite profiles. This novel module will allow addressing complex biological questions towards transcriptional interrelation and extent the recent systems level quest towards phenotyping. N2 - Die vergangenen Jahrzehnte waren gekennzeichnet durch umfangreiche Bemühungen, die Genomsequenz verschiedener Organismen vollständig zu entschlüsseln. Die Verfügbarkeit vollständiger genomischer Daten löste die Entwicklung von modernen Hochdurchsatzmethoden aus, welche die gleichzeitige Messung von verschiedenen Transkripten, Proteinen und Metaboliten erlauben. Mittels genomischer Informationen und Hochdurchsatztechnologien erlaubt eine hoch parallelisierte experimentelle Biologie die Erforschung von Gesetzmäßigkeiten, welchen biologischen Systemen zugrunde liegen. Das Verständnis biologischer Komplexität durch Modellierung zellulärer Systeme repräsentiert die treibende Kraft, welche heutzutage den Element-zentrierten Focus auf integrative und ganzheitliche Untersuchungen lenkt. Das sich entwickelnde Feld der Systembiologie integriert Entdeckungs- und Hypothesen-getriebene Wissenschaft um ein umfangreiches Wissen durch Computermodelle biologischer Systeme bereitzustellen. Im Kontext der sich neu entwickelnden Systembiologie investierte ich in umfangreiche Computeranalysen zur Transkript Co-Response bezüglich ausgewählter prokaryotischer und pflanzlicher eukaryotischer Organismen. CSB.DB - a comprehensive systems-biology database - (http://csbdb.mpimp-golm.mpg.de/) wurde initiiert, um freien Zugang zu den biostatistischen Ergebnissen als auch zu weiterem biologischem Wissen zu bieten. Die Datenbank CSB.DB ermöglicht potentiellen Anwendern die Hypothesengenerierung bezüglich der funktionalen Wechselbeziehungen von Genen von Interesse und kann zukünftig die Grundlage für einen fortgeschrittenen Weg der Zuordnung von Genfunktionen darstellen. Unter Verwendung chromosomaler Distanzen und Transkript Co-Response konnte das Konzept und CSB.DB angewandt werden, um bakterielle Operons in Escherichia coli erfolgreich vorherzusagen. Darüber hinaus werden Beispiele gezeigt, die andeuten, dass die Transkript Co-Response Analyse eine Identifizierung differentieller Promoteraktivität in verschiedenen experimentellen Bedingungen ermöglicht. Das Co-Response Konzept wurde, mit dem Schwerpunkt auf die eukaryotische Modellpflanze Arabidopsis thaliana, erfolgreich auf komplexere Organismen angewandt. Die durchgeführten Untersuchungen ermöglichten die Identifizierung neuer Gene hinsichtlich physiologischer Prozesse und darüber hinaus die Zuweisung von Genfunktionen, welche nicht durch Sequenzhomologie ermöglicht werden kann. GMD - The Golm Metabolome Database - wurde initiiert und in CSB.DB implementiert, um Metaboliten Informationen als auch Metaboliten Profile zu integrieren. Dieses neue Modul ermöglicht die Ausrichtung auf komplexere biologische Fragen und erweitert die derzeitige systembiologische Fragestellung in Richtung Phänotypus-Zuordnung. T2 - Inferring hypotheses from complex profile data - by means of CSB.DB, a comprehensive systems-biology database KW - Datenbank KW - Korrelation KW - Korrelationsanalyse KW - Escherichia coli KW - Saccharomyces cerevisiae KW - Ackerschmalwand KW - Operon KW - Brassinosteroide KW - Transkript KW - database KW - correlation KW - co-response KW - metabolite KW - transcript Y1 - 2004 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-2467 ER -