Refine
Has Fulltext
- yes (5)
Document Type
- Doctoral Thesis (5) (remove)
Is part of the Bibliography
- yes (5) (remove)
Keywords
- gene expression (5) (remove)
Gene expression data is analyzed to identify biomarkers, e.g. relevant genes, which serve for diagnostic, predictive, or prognostic use. Traditional approaches for biomarker detection select distinctive features from the data based exclusively on the signals therein, facing multiple shortcomings in regards to overfitting, biomarker robustness, and actual biological relevance. Prior knowledge approaches are expected to address these issues by incorporating prior biological knowledge, e.g. on gene-disease associations, into the actual analysis. However, prior knowledge approaches are currently not widely applied in practice because they are often use-case specific and seldom applicable in a different scope. This leads to a lack of comparability of prior knowledge approaches, which in turn makes it currently impossible to assess their effectiveness in a broader context.
Our work addresses the aforementioned issues with three contributions. Our first contribution provides formal definitions for both prior knowledge and the flexible integration thereof into the feature selection process. Central to these concepts is the automatic retrieval of prior knowledge from online knowledge bases, which allows for streamlining the retrieval process and agreeing on a uniform definition for prior knowledge. We subsequently describe novel and generalized prior knowledge approaches that are flexible regarding the used prior knowledge and applicable to varying use case domains. Our second contribution is the benchmarking platform Comprior. Comprior applies the aforementioned concepts in practice and allows for flexibly setting up comprehensive benchmarking studies for examining the performance of existing and novel prior knowledge approaches. It streamlines the retrieval of prior knowledge and allows for combining it with prior knowledge approaches. Comprior demonstrates the practical applicability of our concepts and further fosters the overall development and comparability of prior knowledge approaches. Our third contribution is a comprehensive case study on the effectiveness of prior knowledge approaches. For that, we used Comprior and tested a broad range of both traditional and prior knowledge approaches in combination with multiple knowledge bases on data sets from multiple disease domains. Ultimately, our case study constitutes a thorough assessment of a) the suitability of selected knowledge bases for integration, b) the impact of prior knowledge being applied at different integration levels, and c) the improvements in terms of classification performance, biological relevance, and overall robustness.
In summary, our contributions demonstrate that generalized concepts for prior knowledge and a streamlined retrieval process improve the applicability of prior knowledge approaches. Results from our case study show that the integration of prior knowledge positively affects biomarker results, particularly regarding their robustness. Our findings provide the first in-depth insights on the effectiveness of prior knowledge approaches and build a valuable foundation for future research.
Die Strahlentherapie ist neben der Chemotherapie und einer operativen Entfernung die stärkste Waffe für die Bekämpfung bösartiger Tumore in der Krebsmedizin. Nach Herz-Kreislauf-Erkrankungen ist Krebs die zweithäufigste Todesursache in der westlichen Welt, wobei Prostatakrebs heutzutage die häufigste, männliche Krebserkrankung darstellt. Trotz technologischer Fortschritte der radiologischen Verfahren kann es noch viele Jahre nach einer Radiotherapie zu einem Rezidiv kommen, was zum Teil auf die hohe Resistenzfähigkeit einzelner, entarteter Zellen des lokal vorkommenden Tumors zurückgeführt werden kann. Obwohl die moderne Strahlenbiologie viele Aspekte der Resistenzmechanismen näher beleuchtet hat, bleiben Fragestellungen, speziell über das zeitliche Ansprechen eines Tumors auf ionisierende Strahlung, größtenteils unbeantwortet, da systemweite Untersuchungen nur begrenzt vorliegen. Als Zellmodelle wurden vier Prostata-Krebszelllinien (PC3, DuCaP, DU-145, RWPE-1) mit unterschiedlichen Strahlungsempfindlichkeiten kultiviert und auf ihre Überlebensfähigkeit nach ionisierender Bestrahlung durch einen Trypanblau- und MTT-Vitalitätstest geprüft. Die proliferative Kapazität wurde mit einem Koloniebildungstest bestimmt. Die PC3 Zelllinie, als Strahlungsresistente, und die DuCaP Zelllinie, als Strahlungssensitive, zeigten dabei die größten Differenzen bezüglich der Strahlungsempfindlichkeit. Auf Grundlage dieser Ergebnisse wurden die beiden Zelllinien ausgewählt, um anhand ihrer transkriptomweiten Genexpressionen, eine Identifizierung potentieller Marker für die Prognose der Effizienz einer Strahlentherapie zu ermöglichen. Weiterhin wurde mit der PC3 Zelllinie ein Zeitreihenexperiment durchgeführt, wobei zu 8 verschiedenen Zeitpunkten nach Bestrahlung mit 1 Gy die mRNA mittels einer Hochdurchsatz-Sequenzierung quantifiziert wurde, um das dynamisch zeitversetzte Genexpressionsverhalten auf Resistenzmechanismen untersuchen zu können. Durch das Setzen eines Fold Change Grenzwertes in Verbindung mit einem P-Wert < 0,01 konnten aus 10.966 aktiven Genen 730 signifikant differentiell exprimierte Gene bestimmt werden, von denen 305 stärker in der PC3 und 425 stärker in der DuCaP Zelllinie exprimiert werden. Innerhalb dieser 730 Gene sind viele stressassoziierte Gene wiederzufinden, wie bspw. die beiden Transmembranproteingene CA9 und CA12. Durch Berechnung eines Netzwerk-Scores konnten aus den GO- und KEGG-Datenbanken interessante Kategorien und Netzwerke abgeleitet werden, wobei insbesondere die GO-Kategorien Aldehyd-Dehydrogenase [NAD(P)+] Aktivität (GO:0004030) und der KEGG-Stoffwechselweg der O-Glykan Biosynthese (hsa00512) als relevante Netzwerke auffällig wurden. Durch eine weitere Interaktionsanalyse konnten zwei vielversprechende Netzwerke mit den Transkriptionsfaktoren JUN und FOS als zentrale Elemente identifiziert werden. Zum besseren Verständnis des dynamisch zeitversetzten Ansprechens der strahlungsresistenten PC3 Zelllinie auf ionisierende Strahlung, konnten anhand der 10.840 exprimierten Gene und ihrer Expressionsprofile über 8 Zeitpunkte interessante Einblicke erzielt werden. Während es innerhalb von 30 min (00:00 - 00:30) nach Bestrahlung zu einer schnellen Runterregulierung der globalen Genexpression kommt, folgen in den drei darauffolgenden Zeitabschnitten (00:30 - 01:03; 01:03 - 02:12; 02:12 - 04:38) spezifische Expressionserhöhungen, die eine Aktivierung schützender Netzwerke, wie die Hochregulierung der DNA-Reparatursysteme oder die Arretierung des Zellzyklus, auslösen. In den abschließenden drei Zeitbereichen (04:38 - 09:43; 09:43 - 20:25; 20:25 - 42:35) liegt wiederum eine Ausgewogenheit zwischen Induzierung und Supprimierung vor, wobei die absoluten Genexpressionsveränderungen ansteigen. Beim Vergleich der Genexpressionen kurz vor der Bestrahlung mit dem letzten Zeitpunkt (00:00 - 42:53) liegen mit 2.670 die meisten verändert exprimierten Gene vor, was einer massiven, systemweiten Genexpressionsänderung entspricht. Signalwege wie die ATM-Regulierung des Zellzyklus und der Apoptose, des NRF2-Signalwegs nach oxidativer Stresseinwirkung und die DNA-Reparaturmechanismen der homologen Rekombination, des nicht-homologen End Joinings, der MisMatch-, der Basen-Exzision- und der Strang-Exzision-Reparatur spielen bei der zellulären Antwort eine tragende Rolle. Äußerst interessant sind weiterhin die hohen Aktivitäten RNA-gesteuerter Ereignisse, insbesondere von small nucleolar RNAs und Pseudouridin-Prozessen. Demnach scheinen diese RNA-modifizierenden Netzwerke einen bisher unbekannten funktionalen und schützenden Einfluss auf das Zellüberleben nach ionisierender Bestrahlung zu haben. All diese schützenden Netzwerke mit ihren zeitspezifischen Interaktionen sind essentiell für das Zellüberleben nach Einwirkung von oxidativem Stress und zeigen ein komplexes aber im Einklang befindliches Zusammenspiel vieler Einzelkomponenten zu einem systemweit ablaufenden Programm.
The cell interior is a highly packed environment in which biological macromolecules evolve and function. This crowded media has effects in many biological processes such as protein-protein binding, gene regulation, and protein folding. Thus, biochemical reactions that take place in such crowded conditions differ from diluted test tube conditions, and a considerable effort has been invested in order to understand such differences.
In this work, we combine different computationally tools to disentangle the effects of molecular crowding on biochemical processes. First, we propose a lattice model to study the implications of molecular crowding on enzymatic reactions. We provide a detailed picture of how crowding affects binding and unbinding events and how the separate effects of crowding on binding equilibrium act together. Then, we implement a lattice model to study the effects of molecular crowding on facilitated diffusion. We find that obstacles on the DNA impair facilitated diffusion. However, the extent of this effect depends on how dynamic obstacles are on the DNA. For the scenario in which crowders are only present in the bulk solution, we find that at some conditions presence of crowding agents can enhance specific-DNA binding. Finally, we make use of structure-based techniques to look at the impact of the presence of crowders on the folding a protein. We find that polymeric crowders have stronger effects on protein stability than spherical crowders. The strength of this effect increases as the polymeric crowders become longer. The methods we propose here are general and can also be applied to more complicated systems.
Recent high-throughput technologies enable the acquisition of a variety of complementary data and imply regulatory networks on the systems biology level. A common approach to the reconstruction of such networks is the cluster analysis which is based on a similarity measure. We use the information theoretic concept of the mutual information, that has been originally defined for discrete data, as a measure of similarity and propose an extension to a commonly applied algorithm for its calculation from continuous biological data. We compare our approach to previously existing algorithms. We develop a performance optimised software package for the application of the mutual information to large-scale datasets. Furthermore, we design and implement a web-based service for the analysis of integrated data measured with different technologies. Application to biological data reveals biologically relevant groupings and reconstructed signalling networks show agreements with physiological findings.
Comparative study of gene expression during the differentiation of white and brown preadipocytes
(2002)
Introduction Mammals have two types of adipose tissue: the lipid storing white adipose tissue and the brown adipose tissue characterised by its capacity for non-shivering thermogenesis. White and brown adipocytes have the same origin in mesodermal stem cells. Yet nothing is known so far about the commitment of precursor cells to the white and brown adipose lineage. Several experimental approaches indicate that they originate from the differentiation of two distinct types of precursor cells, white and brown preadipocytes. Based on this hypothesis, the aim of this study was to analyse the gene expression of white and brown preadipocytes in a systematic approach. Experimental approach The white and brown preadipocytes to compare were obtained from primary cell cultures of preadipocytes from the Djungarian dwarf hamster. Representational difference analysis was used to isolate genes potentially differentially expressed between the two cell types. The thus obtained cDNA libraries were spotted on microarrays for a large scale gene expression analysis in cultured preadipocytes and adipocytes and in tissue samples. Results 4 genes with higher expression in white preadipocytes (3 members of the complement system and a fatty acid desaturase) and 8 with higher expression in brown preadipocytes were identified. From the latter 3 coded for structural proteins (fibronectin, metargidin and a actinin 4), 3 for proteins involved in transcriptional regulation (necdin, vigilin and the small nuclear ribonucleoprotein polypeptide A) and 2 are of unknown function. Cluster analysis was applied to the gene expression data in order to characterise them and led to the identification of four major typical expression profiles: genes up-regulated during differentiation, genes down-regulated during differentiation, genes higher expressed in white preadipocytes and genes higher expressed in brown preadipocytes. Conclusion This study shows that white and brown preadipocytes can be distinguished by different expression levels of several genes. These results draw attention to interesting candidate genes for the determination of white and brown preadipocytes (necdin, vigilin and others) and furthermore indicate that potential importance of several functional groups in the differentiation of white and brown preadipocytes, mainly the complement system and extracellular matrix.