TY - THES A1 - Gutsch, Martin T1 - Model-based analysis of climate change impacts on the productivity of oak-pine forests in Brandenburg T1 - Modell-basierte Analyse der Auswirkungen des Klimawandels auf die Produktivität von Eichen-Kiefern-Mischbeständen in Brandenburg N2 - The relationship between climate and forest productivity is an intensively studied subject in forest science. This Thesis is embedded within the general framework of future forest growth under climate change and its implications for the ongoing forest conversion. My objective is to investigate the future forest productivity at different spatial scales (from a single specific forest stand to aggregated information across Germany) with focus on oak-pine forests in the federal state of Brandenburg. The overarching question is: how are the oak-pine forests affected by climate change described by a variety of climate scenarios. I answer this question by using a model based analysis of tree growth processes and responses to different climate scenarios with emphasis on drought events. In addition, a method is developed which considers climate change uncertainty of forest management planning. As a first 'screening' of climate change impacts on forest productivity, I calculated the change in net primary production on the base of a large set of climate scenarios for different tree species and the total area of Germany. Temperature increases up to 3 K lead to positive effects on the net primary production of all selected tree species. But, in water-limited regions this positive net primary production trend is dependent on the length of drought periods which results in a larger uncertainty regarding future forest productivity. One of the regions with the highest uncertainty of net primary production development is the federal state of Brandenburg. To enhance the understanding and ability of model based analysis of tree growth sensitivity to drought stress two water uptake approaches in pure pine and mixed oak-pine stands are contrasted. The first water uptake approach consists of an empirical function for root water uptake. The second approach is more mechanistic and calculates the differences of soil water potential along a soil-plant-atmosphere continuum. I assumed the total root resistance to vary at low, medium and high total root resistance levels. For validation purposes three data sets on different tree growth relevant time scales are used. Results show that, except the mechanistic water uptake approach with high total root resistance, all transpiration outputs exceeded observed values. On the other hand high transpiration led to a better match of observed soil water content. The strongest correlation between simulated and observed annual tree ring width occurred with the mechanistic water uptake approach and high total root resistance. The findings highlight the importance of severe drought as a main reason for small diameter increment, best supported by the mechanistic water uptake approach with high root resistance. However, if all aspects of the data sets are considered no approach can be judged superior to the other. I conclude that the uncertainty of future productivity of water-limited forest ecosystems under changing environmental conditions is linked to simulated root water uptake. Finally my study aimed at the impacts of climate change combined with management scenarios on an oak-pine forest to evaluate growth, biomass and the amount of harvested timber. The pine and the oak trees are 104 and 9 years old respectively. Three different management scenarios with different thinning intensities and different climate scenarios are used to simulate the performance of management strategies which explicitly account for the risks associated with achieving three predefined objectives (maximum carbon storage, maximum harvested timber, intermediate). I found out that in most cases there is no general management strategy which fits best to different objectives. The analysis of variance in the growth related model outputs showed an increase of climate uncertainty with increasing climate warming. Interestingly, the increase of climate-induced uncertainty is much higher from 2 to 3 K than from 0 to 2 K. N2 - Diese Arbeit befasst sich mit der Modellierung der Produktivität von Eichen-Kiefern Mischbeständen mit besonderem Fokus auf das Bundesland Brandenburg. Es werden drei Hauptfragen bearbeitet: a) wie verhält sich die Produktivität der beiden Baumarten im Vergleich zu den beiden anderen Hauptbaumarten Fichte und Buche im gesamtdeutschen Vergleich unter verschiedenen Klimaszenarien, b) wie wichtig ist der Prozess der Wasseraufnahme über die Wurzeln bei der Modellierung der Produktivität unter Bedingungen von Trockenjahren, c) wie lassen sich Unsicherheiten durch Bewirtschaftung und Klimaszenarien in der Modellierung der Eichen-Kiefern Mischbestände und bei nachfolgenden Entscheidungsprozessen berücksichtigen? Der methodische Schwerpunkt der Arbeit liegt auf der Modellierung. Im ersten Teil der Arbeit werden mit Hilfe von verschiedenen unabhängigen Umweltvariablen des Klimas und des Bodens Wirkungsbeziehungen zur Produktivität ermittelt, die Aussagen zur Veränderung der Produktivität in Abhängigkeit dieser Umweltvariablen erlauben. Damit können verschiedene Regionen in Deutschland auf ihre Sensitivität der Produktivität gegenüber verschiedenen Klimaszenarien hin untersucht werden. Im zweiten Teil werden innerhalb eines prozess-basierten Waldwachstumsmodell 4C zwei unterschiedliche Ansätze der Wasseraufnahme über die Wurzeln analysiert. Dabei werden Messdaten zur Transpiration, zu Bodenwassergehalten und zu Durchmesserzuwächsen auf Basis von Jahrringchronologien zur Überprüfung herangezogen. Der erste Ansatz ist eine empirisch abgeleitete Gleichung, die die Wasseraufnahme in Abhängigkeit des Wassergehalts beschreibt. Der zweite Ansatz berücksichtigt die unterschiedlichen Druckpotenziale sowie einzelne Widerstände entlang des Wasserflusses vom Boden über die Pflanze in die Atmosphäre. Im dritten Teil der Arbeit wird das Waldwachstumsmodell angewendet und eine Auswahlmethodik vorgestellt, die Entscheidungen bei Unsicherheit erlaubt. Dabei werden die vorhandenen Unsicherheiten, hervorgerufen durch Bewirtschaftung und Klima, in den Prozess der Entscheidungsfindung quantitativ mit einbezogen. Drei verschiedene Bewirtschaftungsstrategien, die unterschiedliche Durchforstungsstärken beinhalten, werden simuliert und ihr Erreichen von drei vorher festgelegten Ziele (maximale Kohlenstoffspeicherung im Bestand, maximale Holzernte, moderates Ziel hinsichtlich Kohlenstoffspeicherung und Holzernte) untersucht. Bezogen auf die erste Frage ergibt die Arbeit zwei wesentliche Ergebnisse. Eine Temperaturerhöhung bis zu drei Kelvin bis 2060 führt zu positiven Ergebnissen in der Produktivität von Eichen-, Kiefern-, Buchen- und Fichtenbeständen. Allerdings ist in niederschlagsarmen Regionen, wie im nordostdeutschen Tiefland, dieser positive Trend stark abhängig von der Länge der Trockenperioden innerhalb der Vegetationszeit. Demzufolge ist die Produktivitätsveränderung der vier Baumarten im Land Brandenburg mit der höchsten Unsicherheit im Vergleich zu den anderen Bundesländern verbunden. Zur zweiten Frage gibt die Arbeit zwei wesentliche Ergebnisse. Im Vergleich mit den Messdaten auf unterschiedlicher zeitlicher und physiologischer Ebene kann kein Ansatz ermittelt werden, der jeweils das bessere Ergebnis erzielt. Im Vergleich von Transpiration, Bodenwassergehalt und Trockenjahren ergeben sich zwar etwas bessere Ergebnisse für den prozess-basierten gegenüber dem empirischen Ansatz, doch sind diese sehr stark abhängig vom angenommenen Wurzelwiderstand. Dieser ist schwer zu bestimmen und verhindert bisher eine breite Anwendung des Ansatzes innerhalb der Waldwachstumsmodelle. Hier ist weiterer Forschungsbedarf vorhanden um bei der Modellierung der Auswirkungen von Trockenjahren auf die Produktivität die Modellunsicherheit zu verringern. Für die letzte Frage ergeben sich ebenso interessante Ergebnisse. Keine Durchforstungsstrategie kann alle drei Zielstellungen erfüllen. Die Methodik erlaubt aber ein großes Maß an Objektivität beim Vergleich der unterschiedlichen Bewirtschaftungsstrategien unter der Unsicherheit der Klimaszenarien. Die Varianz, bezogen auf Ergebnisse zur Bestandesbiomasse, Holzernte und zum jährlichen Holzzuwachs, steigt mit steigender Klimaerwärmung. Dabei ist der Anstieg in der Varianz größer bei einem Temperaturanstieg von zwei Kelvin auf drei Kelvin als von null Kelvin auf zwei Kelvin. Das heißt, Auswirkungen einer Klimaerwärmung verlaufen hier nicht linear. KW - climate change KW - forest management KW - forest growth modelling KW - scenario analysis KW - water uptake KW - Klimawandel KW - Klimaauswirkung KW - Forstwirtschaft KW - Waldbewirtschaftung KW - Waldwachstumsmodellierung KW - Unsicherheit Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-97241 ER - TY - THES A1 - Brune, Sascha T1 - Modelling continental rift dynamics T1 - Modellierung kontinentaler Riftdynamik N2 - Continental rift systems open up unique possibilities to study the geodynamic system of our planet: geodynamic localization processes are imprinted in the morphology of the rift by governing the time-dependent activity of faults, the topographic evolution of the rift or by controlling whether a rift is symmetric or asymmetric. Since lithospheric necking localizes strain towards the rift centre, deformation structures of previous rift phases are often well preserved and passive margins, the end product of continental rifting, retain key information about the tectonic history from rift inception to continental rupture. Current understanding of continental rift evolution is based on combining observations from active rifts with data collected at rifted margins. Connecting these isolated data sets is often accomplished in a conceptual way and leaves room for subjective interpretation. Geodynamic forward models, however, have the potential to link individual data sets in a quantitative manner, using additional constraints from rock mechanics and rheology, which allows to transcend previous conceptual models of rift evolution. By quantifying geodynamic processes within continental rifts, numerical modelling allows key insight to tectonic processes that operate also in other plate boundary settings, such as mid ocean ridges, collisional mountain chains or subduction zones. In this thesis, I combine numerical, plate-tectonic, analytical, and analogue modelling approaches, whereas numerical thermomechanical modelling constitutes the primary tool. This method advanced rapidly during the last two decades owing to dedicated software development and the availability of massively parallel computer facilities. Nevertheless, only recently the geodynamical modelling community was able to capture 3D lithospheric-scale rift dynamics from onset of extension to final continental rupture. The first chapter of this thesis provides a broad introduction to continental rifting, a summary of the applied rift modelling methods and a short overview of previews studies. The following chapters, which constitute the main part of this thesis feature studies on plate boundary dynamics in two and three dimension followed by global scale analyses (Fig. 1). Chapter II focuses on 2D geodynamic modelling of rifted margin formation. It highlights the formation of wide areas of hyperextended crustal slivers via rift migration as a key process that affected many rifted margins worldwide. This chapter also contains a study of rift velocity evolution, showing that rift strength loss and extension velocity are linked through a dynamic feed-back. This process results in abrupt accelerations of the involved plates during rifting illustrating for the first time that rift dynamics plays a role in changing global-scale plate motions. Since rift velocity affects key processes like faulting, melting and lower crustal flow, this study also implies that the slow-fast velocity evolution should be imprinted in rifted margin structures. Chapter III relies on 3D Cartesian rift models in order to investigate various aspects of rift obliquity. Oblique rifting occurs if the extension direction is not orthogonal to the rift trend. Using 3D lithospheric-scale models from rift initialisation to breakup I could isolate a characteristic evolution of dominant fault orientations. Further work in Chapter III addresses the impact of rift obliquity on the strength of the rift system. We illustrate that oblique rifting is mechanically preferred over orthogonal rifting, because the brittle yielding requires a lower tectonic force. This mechanism elucidates rift competition during South Atlantic rifting, where the more oblique Equatorial Atlantic Rift proceeded to breakup while the simultaneously active but less oblique West African rift system became a failed rift. Finally this Chapter also investigates the impact of a previous rift phase on current tectonic activity in the linkage area of the Kenyan with Ethiopian rift. We show that the along strike changes in rift style are not caused by changes in crustal rheology. Instead the rift linkage pattern in this area can be explained when accounting for the thinned crust and lithosphere of a Mesozoic rift event. Chapter IV investigates rifting from the global perspective. A first study extends the oblique rift topic of the previous chapter to global scale by investigating the frequency of oblique rifting during the last 230 million years. We find that approximately 70% of all ocean-forming rift segments involved an oblique component of extension where obliquities exceed 20°. This highlights the relevance of 3D approaches in modelling, surveying, and interpretation of many rifted margins. In a final study, we propose a link between continental rift activity, diffuse CO2 degassing and Mesozoic/Cenozoic climate changes. We used recent CO2 flux measurements in continental rifts to estimate worldwide rift-related CO2 release, which we based on the global extent of rifts through time. The first-order correlation to paleo-atmospheric CO2 proxy data suggests that rifts constitute a major element of the global carbon cycle. N2 - Kontinentale Grabensysteme eröffnen einzigartige Einsichten in das geodynamische System unseres Planeten: Geodynamische Lokalisierungs-prozesse prägen die Morphologie von Riftsystemen, indem sie die zeitabhängige Aktivität von Störungen, die topographische Entwicklung des Rifts oder dessen Symmetrieentwicklung kontrollieren. Da die Verformung oft in Richtung des Riftzentrums lokalisiert, sind die Deformationsstrukturen früherer Riftphasen meist gut erhalten und passive Ränder, die Endprodukte kontinentalen Riftings, beinhalten wichtige Informationen über die tektonische Geschichte vom Riftbeginn bis zum kontinentalen Zerbrechen. Unser gegenwärtiges Verständnis der Riftentwicklung basiert auf der Kombination von Beobachtungen in aktiven Rifts mit Informationen, die an passiven Kontinental-rändern gesammelt wurden. Die Einbindung dieser isolierten Datensätze erfolgt oft konzeptionell und lässt Raum für subjektive Interpretationen. Geodynamische Vorwärtsmodelle haben jedoch das Potenzial, einzelne Datensätze quantitativ zu verknüpfen, wobei zusätzliche Informationen aus der Gesteinsmechanik und Rheologie verwendet werden, die es ermöglichen, frühere konzeptionelle Riftmodelle weiter zu entwickeln. In dieser Arbeit kombiniere ich numerische, plattentektonische, analytische und analoge Modellierungsansätze, wobei die numerische thermomechanische Modellierung das primäre Werkzeug darstellt. Diese Methode hat sich in den letzten zwei Jahrzehnten aufgrund dedizierter Softwareentwicklung und der Verfügbarkeit von massiv parallelisierten Supercomputern sehr schnell entwickelt. Dennoch gelang es der geodynamischen Modellierungsgemeinschaft erst vor kurzem, die dreidimensionale lithosphärenskalige Riftentwicklung vom Beginn der Dehnung bis zum endgültigen Zerbrechen eines Kontinents zu erfassen. Meine Habilitationsschrift beinhaltet eine Einführung in kontinentale Rifttektonik, eine Zusammenfassung der angewendeten Modellierungsmethoden und einen kurzen Überblick über Vorstudien. In dem Hauptteil dieser Arbeit werden Untersuchungen auf Plattenrandskala in zwei und drei Dimensionen durchgeführt, gefolgt von globalen Analysen der Riftentwicklung. Dabei beschreibe ich die Bildung extrem ausgedehnter kontinentaler Kruste, die an vielen gerifteten Kontinentalrändern beobachtet wurde, die Rückkopplung zwischen Riftdynamik und Plattenbewegungen, der Wirkung von Riftschrägheit und tektonischer Vererbung auf die Riftarchitektur sowie den Einfluss von Riftsystemen auf CO2-Entgasung in Bezug auf die paläoklimatische Entwicklung der Erde seit dem Zerbrechen Pangäas. KW - rifting KW - modelling KW - plate tectonics KW - geodynamics KW - Grabenbruch KW - Modellierung KW - Plattentektonik KW - Geodynamik Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-432364 ER - TY - THES A1 - Cheng, Lung-Pan T1 - Human actuation T1 - Menschlicher Aktuator N2 - Ever since the conception of the virtual reality headset in 1968, many researchers have argued that the next step in virtual reality is to allow users to not only see and hear, but also feel virtual worlds. One approach is to use mechanical equipment to provide haptic feedback, e.g., robotic arms, exoskeletons and motion platforms. However, the size and the weight of such mechanical equipment tends to be proportional to its target’s size and weight, i.e., providing human-scale haptic feedback requires human-scale equipment, often restricting them to arcades and lab environments. The key idea behind this dissertation is to bypass mechanical equipment by instead leveraging human muscle power. We thus create software systems that orchestrate humans in doing such mechanical labor—this is what we call human actuation. A potential benefit of such systems is that humans are more generic, flexible, and versatile than machines. This brings a wide range of haptic feedback to modern virtual reality systems. We start with a proof-of-concept system—Haptic Turk, focusing on delivering motion experiences just like a motion platform. All Haptic Turk setups consist of a user who is supported by one or more human actuators. The user enjoys an interactive motion simulation such as a hang glider experience, but the motion is generated by those human actuators who manually lift, tilt, and push the user’s limbs or torso. To get the timing and force right, timed motion instructions in a format familiar from rhythm games are generated by the system. Next, we extend the concept of human actuation from 3-DoF to 6-DoF virtual reality where users have the freedom to walk around. TurkDeck tackles this problem by orchestrating a group of human actuators to reconfigure a set of passive props on the fly while the user is progressing in the virtual environment. TurkDeck schedules human actuators by their distances from the user, and instructs them to reconfigure the props to the right place on the right time using laser projection and voice output. Our studies in Haptic Turk and TurkDeck showed that human actuators enjoyed the experience but not as much as users. To eliminate the need of dedicated human actuators, Mutual Turk makes everyone a user by exchanging mechanical actuation between two or more users. Mutual Turk’s main functionality is that it orchestrates the users so as to actuate props at just the right moment and with just the right force to produce the correct feedback in each other's experience. Finally, we further eliminate the need of another user, making human actuation applicable to single-user experiences. iTurk makes the user constantly reconfigure and animate otherwise passive props. This allows iTurk to provide virtual worlds with constantly varying or even animated haptic effects, even though the only animate entity present in the system is the user. Our demo experience features one example each of iTurk’s two main types of props, i.e., reconfigurable props (the foldable board from TurkDeck) and animated props (the pendulum). We conclude this dissertation by summarizing the findings of our explorations and pointing out future directions. We discuss the development of human actuation compare to traditional machine actuation, the possibility of combining human and machine actuators and interaction models that involve more human actuators. N2 - Seit der Konzeption des Virtual-Reality-Headsets im Jahr 1968 argumentieren Forscher, der nächste Schritt in der virtuellen Realität ist nicht nur zu sehen und zu hören, sondern in virtuelle Welten auch fühlen zu können. Ein Ansatz solch haptisches Feedback zu geben ist die Verwendung mechanischer Ausrüstung, etwa Roboterarme, Exoskelette und Bewegungsplattformen. Jedoch sind die Größe und das Gewicht solcher Ausrüstung proportional zur Größe und Gewicht der Person, d. h. haptisches Feedback für einen Menschen erfordert Ausrüstung mit Größe und Gewicht eines Menschen. Dieses Ausmaß an Gerätschaften ist oft limitiert auf Arkaden oder Laborumgebungen. Der Schlüsselgedanke dieser Dissertation besteht darin, mechanische Geräte zu umgehen und stattdessen menschliche Muskelkraft zu nutzen. Wir erstellen Softwaresystem, die Menschen bei mechanischen Arbeiten orchestrieren, um anderen Menschen haptisches Feedback zu geben. Dies nennen wir „Human Actuation“ – menschliche Aktuierung. Ein möglicher Vorteil solcher Systeme ist es, dass Menschen generischer, flexibler und vielseitiger sind als gängige mechanische Ausrüstung. Dies bringt eine neue Bandbreite von haptischen Feedbackmöglichkeiten in moderne Virtual-Reality-Systeme. Wir beginnen mit einem Proof-of-Concept-System– Haptic Turk, mit Schwerpunkt auf die Bewegungserlebnisse, die eine solche menschliche Bewegungsplattform liefert. Alle Haptic Turk Konfigurationen bestehen aus einem Nutzer, sowie einem oder mehreren Menschen, die den Nutzer unterstützen, den Aktuatoren. Der Nutzer genießt eine interaktive Bewegungssimulation wie zum Beispiel die Simulation eines Hängegleiters, jedoch wird die Bewegung von Menschen erzeugt, die die Gliedmaßen des Benutzers manuell heben, kippen und drücken. Um das Timing einzuhalten, folgen Sie den Anweisungen des Systems. Ein aus Rhythmusspielen bekanntes Format wird dabei dynamisch von dem System erzeugt. Als nächstes erweitern wir das Konzept von „Human Actuation“ um 3-DoF auf 6-DoF Virtual Reality. Das heißt, Nutzer haben nun die Freiheit in der virtuellen Welt umherzugehen. TurkDeck löst dieses Problem, indem es eine Gruppe menschlicher Aktuatoren orchestriert, die eine Reihe von Requisiten rekonfigurieren, die der Nutzer fühlen kann, während er sich in der virtuellen Umgebung fortbewegt. TurkDeck plant die Positionierung der Menschen und weist sie zur richtigen Zeit an, die Requisiten an den richtigen Ort zu stellen. TurkDeck erreicht dies mit Hilfe von Laserprojektion und einer Anweisung gebender synthetischen Stimme. Unsere Studien zu Haptic Turk und TurkDeck zeigen, dass menschliche Aktuatoren ihre Erfahrung zwar genießen, jedoch in dem Ausmaß wie der Nutzer selbst. Um menschliche Aktuatoren mehr einzubeziehen macht Mutual Turk aus jedem Aktuator einen Nutzer, d.h. mehrere Nutzer geben sich gegenseitig haptisches Feedback. Die Hauptfunktion von Mutual Turk besteht darin, dass es seine Nutzer so orchestriert, dass sie die richtigen Requisiten im richtigen Moment und im richtigen Ausmaß betätigen, um so das richtige Feedback in der Erfahrung des Anderen zu erzeugen. Schlussendlich eliminieren wir die Notwendigkeit anderer Nutzer gänzlich und ermöglichen Erfahrungen für Einzelnutzer. iTurk lässt seinen Nutzer passive Requisiten neu konfigurieren und animieren. Dadurch kann iTurk virtuelle Welten mit stetig wechselnden Möglichkeiten bereitstellen oder sogar haptische Effekte generieren, obwohl jede Bewegung im System vom Nutzer selbst ausgelöst wird. Unsere Demo-Applikation verfügt über je ein Beispiel der von iTurk ermöglichten zwei Haupttypen von Requisiten - rekonfigurierbare Requisiten (eine faltbare Tafel aus TurkDeck) und animierter Requisiten (ein Pendel). Wir schließen die Dissertation mit Verweisen auf mögliche Forschungsrichtungen ab, die sich durch die präsentierten Systeme ergeben. Wir diskutieren „Human Actuation“ sowohl im Vergleich zu herkömmlichen mechanischen Geräten, aber auch in der Kombination, da sich mechanische Geräte und Menschen gegenseitig ergänzen können. Zudem erkunden wir mögliche Interaktionsmodelle, die sich durch das Einbeziehen von menschlichen Aktuatoren ergeben. KW - haptic feedback KW - Virtual Reality KW - motion and force KW - props KW - haptisches Feedback KW - virtuelle Realität KW - Bewegung KW - Requisit Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-418371 ER - TY - THES A1 - Rohloff, Tobias T1 - Learning analytics at scale BT - supporting learning and teaching in MOOCs with data-driven insights N2 - Digital technologies are paving the way for innovative educational approaches. The learning format of Massive Open Online Courses (MOOCs) provides a highly accessible path to lifelong learning while being more affordable and flexible than face-to-face courses. Thereby, thousands of learners can enroll in courses mostly without admission restrictions, but this also raises challenges. Individual supervision by teachers is barely feasible, and learning persistence and success depend on students' self-regulatory skills. Here, technology provides the means for support. The use of data for decision-making is already transforming many fields, whereas in education, it is still a young research discipline. Learning Analytics (LA) is defined as the measurement, collection, analysis, and reporting of data about learners and their learning contexts with the purpose of understanding and improving learning and learning environments. The vast amount of data that MOOCs produce on the learning behavior and success of thousands of students provides the opportunity to study human learning and develop approaches addressing the demands of learners and teachers. The overall purpose of this dissertation is to investigate the implementation of LA at the scale of MOOCs and to explore how data-driven technology can support learning and teaching in this context. To this end, several research prototypes have been iteratively developed for the HPI MOOC Platform. Hence, they were tested and evaluated in an authentic real-world learning environment. Most of the results can be applied on a conceptual level to other MOOC platforms as well. The research contribution of this thesis thus provides practical insights beyond what is theoretically possible. In total, four system components were developed and extended: (1) The Learning Analytics Architecture: A technical infrastructure to collect, process, and analyze event-driven learning data based on schema-agnostic pipelining in a service-oriented MOOC platform. (2) The Learning Analytics Dashboard for Learners: A tool for data-driven support of self-regulated learning, in particular to enable learners to evaluate and plan their learning activities, progress, and success by themselves. (3) Personalized Learning Objectives: A set of features to better connect learners' success to their personal intentions based on selected learning objectives to offer guidance and align the provided data-driven insights about their learning progress. (4) The Learning Analytics Dashboard for Teachers: A tool supporting teachers with data-driven insights to enable the monitoring of their courses with thousands of learners, identify potential issues, and take informed action. For all aspects examined in this dissertation, related research is presented, development processes and implementation concepts are explained, and evaluations are conducted in case studies. Among other findings, the usage of the learner dashboard in combination with personalized learning objectives demonstrated improved certification rates of 11.62% to 12.63%. Furthermore, it was observed that the teacher dashboard is a key tool and an integral part for teaching in MOOCs. In addition to the results and contributions, general limitations of the work are discussed—which altogether provide a solid foundation for practical implications and future research. N2 - Digitale Technologien sind Wegbereiter für innovative Bildungsansätze. Das Lernformat der Massive Open Online Courses (MOOCs) bietet einen einfachen und globalen Zugang zu lebenslangem Lernen und ist oft kostengünstiger und flexibler als klassische Präsenzlehre. Dabei können sich Tausende von Lernenden meist ohne Zulassungsbeschränkung in Kurse einschreiben, wodurch jedoch auch Herausforderungen entstehen. Eine individuelle Betreuung durch Lehrende ist kaum möglich und das Durchhaltevermögen und der Lernerfolg hängen von selbstregulatorischen Fähigkeiten der Lernenden ab. Hier bietet Technologie die Möglichkeit zur Unterstützung. Die Nutzung von Daten zur Entscheidungsfindung transformiert bereits viele Bereiche, aber im Bildungswesen ist dies noch eine junge Forschungsdisziplin. Als Learning Analytics (LA) wird das Messen, Erfassen, Analysieren und Auswerten von Daten über Lernende und ihren Lernkontext verstanden, mit dem Ziel, das Lernen und die Lernumgebungen zu verstehen und zu verbessern. Die riesige Menge an Daten, die MOOCs über das Lernverhalten und den Lernerfolg produzieren, bietet die Möglichkeit, das menschliche Lernen zu studieren und Ansätze zu entwickeln, die den Anforderungen von Lernenden und Lehrenden gerecht werden. Der Schwerpunkt dieser Dissertation liegt auf der Implementierung von LA für die Größenordnung von MOOCs und erforscht dabei, wie datengetriebene Technologie das Lernen und Lehren in diesem Kontext unterstützen kann. Zu diesem Zweck wurden mehrere Forschungsprototypen iterativ für die HPI-MOOC-Plattform entwickelt. Daher wurden diese in einer authentischen und realen Lernumgebung getestet und evaluiert. Die meisten Ergebnisse lassen sich auf konzeptioneller Ebene auch auf andere MOOC-Plattformen übertragen, wodurch der Forschungsbeitrag dieser Arbeit praktische Erkenntnisse über das theoretisch Mögliche hinaus liefert. Insgesamt wurden vier Systemkomponenten entwickelt und erweitert: (1) Die LA-Architektur: Eine technische Infrastruktur zum Sammeln, Verarbeiten und Analysieren von ereignisgesteuerten Lerndaten basierend auf einem schemaagnostischem Pipelining in einer serviceorientierten MOOC-Plattform. (2) Das LA-Dashboard für Lernende: Ein Werkzeug zur datengesteuerten Unterstützung der Selbstregulierung, insbesondere um Lernende in die Lage zu versetzen, ihre Lernaktivitäten, ihren Fortschritt und ihren Lernerfolg selbst zu evaluieren und zu planen. (3) Personalisierte Lernziele: Eine Reihe von Funktionen, um den Lernerfolg besser mit persönlichen Absichten zu verknüpfen, die auf ausgewählten Lernzielen basieren, um Leitlinien anzubieten und die bereitgestellten datengetriebenen Einblicke über den Lernfortschritt darauf abzustimmen. (4) Das LA-Dashboard für Lehrende: Ein Hilfsmittel, das Lehrkräfte mit datengetriebenen Erkenntnissen unterstützt, um ihre Kurse mit Tausenden von Lernenden zu überblicken, mögliche Probleme zu erkennen und fundierte Maßnahmen zu ergreifen. Für alle untersuchten Aspekte dieser Dissertation werden verwandte Forschungsarbeiten vorgestellt, Entwicklungsprozesse und Implementierungskonzepte erläutert und Evaluierungen in Fallstudien durchgeführt. Unter anderem konnte durch den Einsatz des Dashboards für Lernende in Kombination mit personalisierten Lernzielen verbesserte Zertifizierungsraten von 11,62% bis 12,63% nachgewiesen werden. Außerdem wurde beobachtet, dass das Dashboard für Lehrende ein entscheidendes Werkzeug und ein integraler Bestandteil für die Lehre in MOOCs ist. Neben den Ergebnissen und Beiträgen werden generelle Einschränkungen der Arbeit diskutiert, die insgesamt eine fundierte Grundlage für praktische Implikationen und zukünftige Forschungsvorhaben schaffen. KW - Learning Analytics KW - MOOCs KW - Self-Regulated Learning KW - E-Learning KW - Service-Oriented Architecture KW - Online Learning Environments Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-526235 ER - TY - THES A1 - Prasse, Paul T1 - Pattern recognition for computer security T1 - Mustererkennung für Computersicherheit BT - discriminative models for email spam campaign and malware detection BT - diskriminative Modelle zur Erkennung von Email Spam-Kampagnen und Malware N2 - Computer Security deals with the detection and mitigation of threats to computer networks, data, and computing hardware. This thesis addresses the following two computer security problems: email spam campaign and malware detection. Email spam campaigns can easily be generated using popular dissemination tools by specifying simple grammars that serve as message templates. A grammar is disseminated to nodes of a bot net, the nodes create messages by instantiating the grammar at random. Email spam campaigns can encompass huge data volumes and therefore pose a threat to the stability of the infrastructure of email service providers that have to store them. Malware -software that serves a malicious purpose- is affecting web servers, client computers via active content, and client computers through executable files. Without the help of malware detection systems it would be easy for malware creators to collect sensitive information or to infiltrate computers. The detection of threats -such as email-spam messages, phishing messages, or malware- is an adversarial and therefore intrinsically difficult problem. Threats vary greatly and evolve over time. The detection of threats based on manually-designed rules is therefore difficult and requires a constant engineering effort. Machine-learning is a research area that revolves around the analysis of data and the discovery of patterns that describe aspects of the data. Discriminative learning methods extract prediction models from data that are optimized to predict a target attribute as accurately as possible. Machine-learning methods hold the promise of automatically identifying patterns that robustly and accurately detect threats. This thesis focuses on the design and analysis of discriminative learning methods for the two computer-security problems under investigation: email-campaign and malware detection. The first part of this thesis addresses email-campaign detection. We focus on regular expressions as a syntactic framework, because regular expressions are intuitively comprehensible by security engineers and administrators, and they can be applied as a detection mechanism in an extremely efficient manner. In this setting, a prediction model is provided with exemplary messages from an email-spam campaign. The prediction model has to generate a regular expression that reveals the syntactic pattern that underlies the entire campaign, and that a security engineers finds comprehensible and feels confident enough to use the expression to blacklist further messages at the email server. We model this problem as two-stage learning problem with structured input and output spaces which can be solved using standard cutting plane methods. Therefore we develop an appropriate loss function, and derive a decoder for the resulting optimization problem. The second part of this thesis deals with the problem of predicting whether a given JavaScript or PHP file is malicious or benign. Recent malware analysis techniques use static or dynamic features, or both. In fully dynamic analysis, the software or script is executed and observed for malicious behavior in a sandbox environment. By contrast, static analysis is based on features that can be extracted directly from the program file. In order to bypass static detection mechanisms, code obfuscation techniques are used to spread a malicious program file in many different syntactic variants. Deobfuscating the code before applying a static classifier can be subjected to mostly static code analysis and can overcome the problem of obfuscated malicious code, but on the other hand increases the computational costs of malware detection by an order of magnitude. In this thesis we present a cascaded architecture in which a classifier first performs a static analysis of the original code and -based on the outcome of this first classification step- the code may be deobfuscated and classified again. We explore several types of features including token $n$-grams, orthogonal sparse bigrams, subroutine-hashings, and syntax-tree features and study the robustness of detection methods and feature types against the evolution of malware over time. The developed tool scans very large file collections quickly and accurately. Each model is evaluated on real-world data and compared to reference methods. Our approach of inferring regular expressions to filter emails belonging to an email spam campaigns leads to models with a high true-positive rate at a very low false-positive rate that is an order of magnitude lower than that of a commercial content-based filter. Our presented system -REx-SVMshort- is being used by a commercial email service provider and complements content-based and IP-address based filtering. Our cascaded malware detection system is evaluated on a high-quality data set of almost 400,000 conspicuous PHP files and a collection of more than 1,00,000 JavaScript files. From our case study we can conclude that our system can quickly and accurately process large data collections at a low false-positive rate. N2 - Computer-Sicherheit beschäftigt sich mit der Erkennung und der Abwehr von Bedrohungen für Computer-Netze, Daten und Computer-Hardware. In dieser Dissertation wird die Leistungsfähigkeit von Modellen des maschinellen Lernens zur Erkennung von Bedrohungen anhand von zwei konkreten Fallstudien analysiert. Im ersten Szenario wird die Leistungsfähigkeit von Modellen zur Erkennung von Email Spam-Kampagnen untersucht. E-Mail Spam-Kampagnen werden häufig von leicht zu bedienenden Tools erzeugt. Diese Tools erlauben es dem Benutzer, mit Hilfe eines Templates (z.B. einer regulären Grammatik) eine Emailvorlage zu definieren. Ein solches Template kann z.B. auf die Knoten eines Botnetzes verteilt werden. Dort werden Nachrichten mit diesem Template generiert und an verschiedene Absender verschickt. Die damit entstandenen E-Mail Spam-Kampagnen können riesige Datenmengen produzieren und somit zu einer Gefahr für die Stabilität der Infrastruktur von E-Mail-Service-Providern werden. Im zweiten Szenario wird die Leistungsfähigkeit von Modellen zur Erkennung von Malware untersucht. Malware bzw. Software, die schadhaften Programmcode enthält, kann Web-Server und Client-Computer über aktive Inhalte und Client-Computer über ausführbare Dateien beeinflussen. Somit kann die die reguläre und legitime Nutzung von Diensten verhindert werden. Des Weiteren kann Malware genutzt werden, um sensible Informationen zu sammeln oder Computer zu infiltrieren. Die Erkennung von Bedrohungen, die von E-Mail-Spam-Mails, Phishing-E-Mails oder Malware ausgehen, gestaltet sich schwierig. Zum einen verändern sich Bedrohungen von Zeit zu Zeit, zum anderen werden E-Mail-Spam-Mails oder Malware so modifiziert, dass sie von aktuellen Erkennungssystemen nicht oder nur schwer zu erkennen sind. Erkennungssysteme, die auf manuell erstellten Regeln basieren, sind deshalb wenig effektiv, da sie ständig administriert werden müssen. Sie müssen kontinuierlich gewartet werden, um neue Regeln (für veränderte oder neu auftretende Bedrohungen) zu erstellen und alte Regeln anzupassen bzw. zu löschen. Maschinelles Lernen ist ein Forschungsgebiet, das sich mit der Analyse von Daten und der Erkennung von Mustern beschäftigt, um bestimmte Aspekte in Daten, wie beispielsweise die Charakteristika von Malware, zu beschreiben. Mit Hilfe der Methoden des Maschinellen Lernens ist es möglich, automatisiert Muster in Daten zu erkennen. Diese Muster können genutzt werden, um Bedrohung gezielt und genau zu erkennen. Im ersten Teil wird ein Modell zur automatischen Erkennung von E-Mail-Spam-Kampag\-nen vorgestellt. Wir verwenden reguläre Ausdrücke als syntaktischen Rahmen, um E-Mail-Spam-Kampagnen zu beschreiben und E-Mails die zu einer E-Mail-Spam-Kampagne gehören zu identifizieren. Reguläre Ausdrücke sind intuitiv verständlich und können einfach von Administratoren genutzt werden, um E-Mail-Spam-Kampagnen zu beschreiben. Diese Arbeit stellt ein Modell vor, das für eine gegebene E-Mail-Spam-Kampagne einen regulären Ausdruck vorhersagt. In dieser Arbeit stellen wir ein Verfahren vor, um ein Modell zu bestimmen, das reguläre Ausdrücke vorhersagt, die zum Einen die Gesamtheit aller E-Mails in einer Spam-Kampagne abbilden und zum Anderen so verständlich aufgebaut sind, dass ein Systemadministrator eines E-Mail Servers diesen verwendet. Diese Problemstellung wird als ein zweistufiges Lernproblem mit strukturierten Ein- und Ausgaberäumen modelliert, welches mit Standardmethoden des Maschinellen Lernens gelöst werden kann. Hierzu werden eine geeignete Verlustfunktion, sowie ein Dekodierer für das resultierende Optimierungsproblem hergeleitet. Der zweite Teil behandelt die Analyse von Modellen zur Erkennung von Java-Script oder PHP-Dateien mit schadhaften Code. Viele neu entwickelte Malwareanalyse-Tools nutzen statische, dynamische oder eine Mischung beider Merkmalsarten als Eingabe, um Modelle zur Erkennung von Malware zu bilden. Um dynamische Merkmale zu extrahieren, wird eine Software oder ein Teil des Programmcodes in einer gesicherten Umgebung ausgeführt und das Verhalten (z.B. Speicherzugriffe oder Funktionsaufrufe) analysiert. Bei der statischen Analyse von Skripten und Software werden Merkmale direkt aus dem Programcode extrahiert. Um Erkennungsmechanismen, die nur auf statischen Merkmalen basieren, zu umgehen, wird der Programmcode oft maskiert. Die Maskierung von Programmcode wird genutzt, um einen bestimmten schadhaften Programmcode in vielen syntaktisch unterschiedlichen Varianten zu erzeugen. Der originale schadhafte Programmcode wird dabei erst zur Laufzeit generiert. Wird der Programmcode vor dem Anwenden eines Vorhersagemodells demaskiert, spricht man von einer vorwiegend statischen Programmcodeanalyse. Diese hat den Vorteil, dass enthaltener Schadcode einfacher zu erkennen ist. Großer Nachteil dieses Ansatzes ist die erhöhte Laufzeit durch das Demaskieren der einzelnen Dateien vor der Anwendung des Vorhersagemodells. In dieser Arbeit wird eine mehrstufige Architektur präsentiert, in der ein Klassifikator zunächst eine Vorhersage auf Grundlage einer statischen Analyse auf dem originalen Programmcode trifft. Basierend auf dieser Vorhersage wird der Programcode in einem zweiten Schritt demaskiert und erneut ein Vorhersagemodell angewendet. Wir betrachten dabei eine Vielzahl von möglichen Merkmalstypen, wie $n$-gram Merkmale, orthogonal sparse bigrams, Funktions-Hashes und Syntaxbaum Merkmale. Zudem wird in dieser Dissertation untersucht, wie robust die entwickelten Erkennungsmodelle gegenüber Veränderungen von Malware über die Zeit sind. Das vorgestellte Verfahren ermöglicht es, große Datenmengen mit hoher Treffergenauigkeit nach Malware zu durchsuchen. Alle in dieser Dissertation vorgestellten Modelle wurden auf echten Daten evaluiert und mit Referenzmethoden verglichen. Das vorgestellte Modell zur Erkennung von E-Mail-Spam-Kampagnen hat eine hohe richtig-positive Rate und eine sehr kleine falsch-positiv Rate die niedriger ist, als die eines kommerziellen E-Mail-Filters. Das Modell wird von einem kommerziellen E-Mail Service Provider während des operativen Geschäfts genutzt, um eingehende und ausgehende E-Mails eines E-Mails-Servers zu überprüfen. Der Ansatz zur Malwareerkennung wurde auf einem Datensatz mit rund 400.000 verdächtigen PHP Dateien und einer Sammlung von mehr als 1.000.000 Java-Script Dateien evaluiert. Die Fallstudie auf diesen Daten zeigt, dass das vorgestellte System schnell und mit hoher Genauigkeit riesige Datenmengen mit wenigen Falsch-Alarmen nach Malware durchsuchen kann. KW - malware detection KW - structured output prediction KW - pattern recognition KW - computer security KW - email spam detection KW - maschninelles Lernen KW - Computersicherheit KW - strukturierte Vorhersage KW - Klassifikation KW - Vorhersage KW - Spam KW - Malware Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-100251 ER - TY - THES A1 - Wittenbecher, Clemens T1 - Linking whole-grain bread, coffee, and red meat to the risk of type 2 diabetes T1 - Der Einfluss von Vollkornbrot, Kaffee, und rotem Fleisch auf das Typ 2 Diabetesrisiko BT - using metabolomics networks to infer potential biological mechanisms BT - Verwendung von Metabolomics-Netzwerken, um auf biologische Mechanismen zu schließen N2 - Background: Consumption of whole-grain, coffee, and red meat were consistently related to the risk of developing type 2 diabetes in prospective cohort studies, but potentially underlying biological mechanisms are not well understood. Metabolomics profiles were shown to be sensitive to these dietary exposures, and at the same time to be informative with respect to the risk of type 2 diabetes. Moreover, graphical network-models were demonstrated to reflect the biological processes underlying high-dimensional metabolomics profiles. Aim: The aim of this study was to infer hypotheses on the biological mechanisms that link consumption of whole-grain bread, coffee, and red meat, respectively, to the risk of developing type 2 diabetes. More specifically, it was aimed to consider network models of amino acid and lipid profiles as potential mediators of these risk-relations. Study population: Analyses were conducted in the prospective EPIC-Potsdam cohort (n = 27,548), applying a nested case-cohort design (n = 2731, including 692 incident diabetes cases). Habitual diet was assessed with validated semiquantitative food-frequency questionnaires. Concentrations of 126 metabolites (acylcarnitines, phosphatidylcholines, sphingomyelins, amino acids) were determined in baseline-serum samples. Incident type 2 diabetes cases were assed and validated in an active follow-up procedure. The median follow-up time was 6.6 years. Analytical design: The methodological approach was conceptually based on counterfactual causal inference theory. Observations on the network-encoded conditional independence structure restricted the space of possible causal explanations of observed metabolomics-data patterns. Given basic directionality assumptions (diet affects metabolism; metabolism affects future diabetes incidence), adjustment for a subset of direct neighbours was sufficient to consistently estimate network-independent direct effects. Further model-specification, however, was limited due to missing directionality information on the links between metabolites. Therefore, a multi-model approach was applied to infer the bounds of possible direct effects. All metabolite-exposure links and metabolite-outcome links, respectively, were classified into one of three categories: direct effect, ambiguous (some models indicated an effect others not), and no-effect. Cross-sectional and longitudinal relations were evaluated in multivariable-adjusted linear regression and Cox proportional hazard regression models, respectively. Models were comprehensively adjusted for age, sex, body mass index, prevalence of hypertension, dietary and lifestyle factors, and medication. Results: Consumption of whole-grain bread was related to lower levels of several lipid metabolites with saturated and monounsaturated fatty acids. Coffee was related to lower aromatic and branched-chain amino acids, and had potential effects on the fatty acid profile within lipid classes. Red meat was linked to lower glycine levels and was related to higher circulating concentrations of branched-chain amino acids. In addition, potential marked effects of red meat consumption on the fatty acid composition within the investigated lipid classes were identified. Moreover, potential beneficial and adverse direct effects of metabolites on type 2 diabetes risk were detected. Aromatic amino acids and lipid metabolites with even-chain saturated (C14-C18) and with specific polyunsaturated fatty acids had adverse effects on type 2 diabetes risk. Glycine, glutamine, and lipid metabolites with monounsaturated fatty acids and with other species of polyunsaturated fatty acids were classified as having direct beneficial effects on type 2 diabetes risk. Potential mediators of the diet-diabetes links were identified by graphically overlaying this information in network models. Mediation analyses revealed that effects on lipid metabolites could potentially explain about one fourth of the whole-grain bread effect on type 2 diabetes risk; and that effects of coffee and red meat consumption on amino acid and lipid profiles could potentially explain about two thirds of the altered type 2 diabetes risk linked to these dietary exposures. Conclusion: An algorithm was developed that is capable to integrate single external variables (continuous exposures, survival time) and high-dimensional metabolomics-data in a joint graphical model. Application to the EPIC-Potsdam cohort study revealed that the observed conditional independence patterns were consistent with the a priori mediation hypothesis: Early effects on lipid and amino acid metabolism had the potential to explain large parts of the link between three of the most widely discussed diabetes-related dietary exposures and the risk of developing type 2 diabetes. N2 - Hintergrund: Evidenz aus prospektiven Kohortenstudien belegt, dass der gewohnheitsmäßige Verzehr von Vollkorn, Kaffee und rotem Fleisch mit dem Risiko an Typ 2 Diabetes zu erkranken assoziiert ist. Dieser Risikobeziehung eventuell zugrunde liegende Mechanismen sind allerdings noch weitgehend unklar. Des Weiteren wurde gezeigt, dass Metabolitenprofile im Blut durch die oben genannten Ernährungs-expositionen beeinflusst werden und außerdem in Zusammenhang mit dem Typ 2 Diabetesrisiko stehen. Zusätzlich wurde beschrieben, dass grafische Netzwerkmodelle von Metabolitenprofilen die zugrunde liegenden Stoffwechselprozesse gut abbilden. Zielstellung: Das Ziel dieser Arbeit war es, Hypothesen bezüglich biologischer Mechanismen zu generieren, die die Assoziationen des Vollkornverzehrs, des Kaffeekonsums und des Fleischverzehrs mit dem Typ 2 Diabetesrisiko erklären könnten. Im speziellen sollten Aminosäure- und Lipidprofile als mögliche Mediatoren des Risikozusammenhangs untersucht werden. Studienpopulation: Analysen wurden auf Grundlage von Daten aus der prospektiven EPIC-Potsdam Kohortenstudie (n=27,548) durchgeführt, wobei ein Fall-Kohorten-Design verwendet wurde (n=2317, darunter 692 inzidente Typ 2 Diabetesfälle). Ernährungsgewohnheiten wurden mit einem validierten, semiquantitativen Verzehrshäufigkeitsfragebogen erfasst. Die Konzentrationen von 126 Metaboliten (Aminosäuren, Acylcarnitine, Sphingomyeline und Phosphatidylcholine) wurden zur Basiserhebung genommen Blutproben gemessen. Inzidente Typ 2 Diabetesfälle wurden im Rahmen einer aktiven Folgeerhebung detektiert und verifiziert. Die mediane Dauer des berücksichtigten prospektiven Erhebungszeitraums lag für diese Studie bei 6,6 Jahren. Aufbau der Analysen: Die theoretische Grundlage für den methodischen Ansatz dieser Arbeit bildete die kontrafaktische Theorie der Kausalinferenz. Die in Netzwerken kodierte konditionale Unabhängigkeitsstruktur wurde genutzt, um den Raum möglicher Modelle zu begrenzen, die die beobachteten Zusammenhänge zwischen den Metaboliten erklären könnten. Unter Annahme weniger grundlegender Effektrichtungen (von der Ernährung auf die Netzwerke gerichtete Effekte; von den Netzwerken auf das Diabetesrisiko gerichtete Effekte) genügt die Adjustierung für eine Teilmenge der direkten Nachbarn im Netzwerk, um netzwerkunabhängige direkte Effekte konsistent zu schätzen. Eine weitere Spezifizierung der Modelle war allerdings aufgrund fehlender Richtungsinformationen zu den Metaboliten-abhängigkeiten nicht möglich. Deshalb wurde ein Multi-Modellierungsansatz gewählt, um die Grenzen möglicher Effekte zu schlussfolgern. Alle möglichen Ernährungs-Metaboliten-Beziehungen und Metaboliten-Typ 2 Diabetesrisiko-Beziehungen wurden dadurch in eine der folgenden drei Kategorien klassifiziert: Direkter Effekt, Unklar, Kein Effekt. Querschnittsbeziehungen wurden in multivariabel adjustierten linearen Regressionsmodellen untersucht. Longitudinale Zusammenhänge wurden mit Cox-Regressionsmodellen geschätzt. Alle Modelle wurden für Alter, Geschlecht, Body-Mass-Index, prävalente Hypertonie, Ernährungs- und Lebensstilfaktoren und die Einnahme von Medikamenten adjustiert. Ergebnisse: Der Verzehr von Vollkornbrot stand im Zusammenhang mit niedrigeren Konzentrationen gesättigter und einfach ungesättigter Fettsäuren. Kaffee stand in Beziehung zu niedrigeren Konzentrationen verzweigtkettiger und aromatischer Aminosäuren und hatte potentielle Effekte auf das Fettsäureprofil in den Lipidmetaboliten. Rotes Fleisch zeigte einen Zusammenhang mit niedrigeren Glyzinspiegeln und mit höheren Konzentrationen verzweigtkettiger Aminosäuren. Außerdem stand das Fettsäureprofil in den verschieden Gruppen von Lipidmetaboliten in Zusammenhang mit dem Fleischverzehr. Des Weiteren wurden potentielle Effekte der Metabolite auf das Typ 2 Diabetesrisiko gefunden. Aromatische Aminosäuren und Lipidmetabolite mit geradzahligen, gesättigten (C14-C16) und mit spezifischen mehrfach ungesättigten Fettsäureseitenketten standen mit einem erhöhten Typ 2 Diabetesrisiko in Beziehung. Glyzin, Glutamin und Lipidmetabolite mit einfach ungesättigten und anderen mehrfach ungesättigten Fettsäureseitenketten zeigten einen günstigen Zusammenhang mit dem Diabetesrisiko. Mögliche Mediatoren der Beziehung der Ernährungsexpositionen wurden identifiziert, indem diese Informationen in gemeinsamen grafischen Modellen integriert wurden. Mediationsanalysen zeigten, dass die möglichen Effekte von Vollkornverzehr auf die Lipidmetabolite ungefähr ein Viertel des günstigen Einflusses von Vollkornverzehr auf das Diabetesrisikos erklären könnten. Die möglichen Effekte von Kaffeekonsum und von Fleischverzehr auf Aminosäuren und Lipidmetabolite könnten jeweils ungefähr zwei Drittel der Zusammenhänge mit dem Diabetesrisiko erklären. Schlussfolgerung: Grundlage für die Ergebnisse dieser Arbeit war die Entwicklung eines Algorithmus, der externe Faktoren (kontinuierlich Expositionsvariablen, Ereigniszeit-Daten) und hochdimensionale Metabolitenprofile in einem gemeinsamen grafischen Modell integriert. Die Anwendung dieses Algorithmus auf Daten aus der EPIC-Potsdam Kohortenstudie hat gezeigt, dass die beobachteten konditionalen Unabhängigkeitsstrukturen mit der a priori Mediationshypothese konsistent waren. Der frühe Einfluss auf den Aminosäure- und Lipidstoffwechsel könnte die beobachteten Zusammenhänge zwischen drei wichtigen Ernährungsfaktoren und dem Risiko an Typ 2 Diabetes zu erkranken zu großen Teilen erklären. KW - type 2 diabetes KW - nutrition KW - lipid metabolism KW - metabolomics KW - epidemiology KW - networks KW - graphical models KW - mediation analysis KW - red meat KW - whole-grain KW - Diabetes mellitus Typ 2 KW - Ernährung KW - Fettstoffwechsel KW - Metabolomics KW - Epidemiologie KW - Netzwerke KW - grafische Modelle KW - Mediationsanalyse KW - rotes Fleisch KW - Vollkorn KW - Kaffee KW - coffee Y1 - 2017 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-404592 ER - TY - THES A1 - Perscheid, Cindy T1 - Integrative biomarker detection using prior knowledge on gene expression data sets T1 - Integrative Biomarker-Erkennung auf Genexpressions-Daten mithilfe von biologischem Vorwissen N2 - Gene expression data is analyzed to identify biomarkers, e.g. relevant genes, which serve for diagnostic, predictive, or prognostic use. Traditional approaches for biomarker detection select distinctive features from the data based exclusively on the signals therein, facing multiple shortcomings in regards to overfitting, biomarker robustness, and actual biological relevance. Prior knowledge approaches are expected to address these issues by incorporating prior biological knowledge, e.g. on gene-disease associations, into the actual analysis. However, prior knowledge approaches are currently not widely applied in practice because they are often use-case specific and seldom applicable in a different scope. This leads to a lack of comparability of prior knowledge approaches, which in turn makes it currently impossible to assess their effectiveness in a broader context. Our work addresses the aforementioned issues with three contributions. Our first contribution provides formal definitions for both prior knowledge and the flexible integration thereof into the feature selection process. Central to these concepts is the automatic retrieval of prior knowledge from online knowledge bases, which allows for streamlining the retrieval process and agreeing on a uniform definition for prior knowledge. We subsequently describe novel and generalized prior knowledge approaches that are flexible regarding the used prior knowledge and applicable to varying use case domains. Our second contribution is the benchmarking platform Comprior. Comprior applies the aforementioned concepts in practice and allows for flexibly setting up comprehensive benchmarking studies for examining the performance of existing and novel prior knowledge approaches. It streamlines the retrieval of prior knowledge and allows for combining it with prior knowledge approaches. Comprior demonstrates the practical applicability of our concepts and further fosters the overall development and comparability of prior knowledge approaches. Our third contribution is a comprehensive case study on the effectiveness of prior knowledge approaches. For that, we used Comprior and tested a broad range of both traditional and prior knowledge approaches in combination with multiple knowledge bases on data sets from multiple disease domains. Ultimately, our case study constitutes a thorough assessment of a) the suitability of selected knowledge bases for integration, b) the impact of prior knowledge being applied at different integration levels, and c) the improvements in terms of classification performance, biological relevance, and overall robustness. In summary, our contributions demonstrate that generalized concepts for prior knowledge and a streamlined retrieval process improve the applicability of prior knowledge approaches. Results from our case study show that the integration of prior knowledge positively affects biomarker results, particularly regarding their robustness. Our findings provide the first in-depth insights on the effectiveness of prior knowledge approaches and build a valuable foundation for future research. N2 - Biomarker sind charakteristische biologische Merkmale mit diagnostischer oder prognostischer Aussagekraft. Auf der molekularen Ebene sind dies Gene mit einem krankheitsspezifischen Expressionsmuster, welche mittels der Analyse von Genexpressionsdaten identifiziert werden. Traditionelle Ansätze für diese Art von Biomarker Detection wählen Gene als Biomarker ausschließlich anhand der vorhandenen Signale im Datensatz aus. Diese Vorgehensweise zeigt jedoch Schwächen insbesondere in Bezug auf die Robustheit und tatsächliche biologische Relevanz der identifizierten Biomarker. Verschiedene Forschungsarbeiten legen nahe, dass die Berücksichtigung des biologischen Kontexts während des Selektionsprozesses diese Schwächen ausgleichen kann. Sogenannte wissensbasierte Ansätze für Biomarker Detection beziehen vorhandenes biologisches Wissen, beispielsweise über Zusammenhänge zwischen bestimmten Genen und Krankheiten, direkt in die Analyse mit ein. Die Anwendung solcher Verfahren ist in der Praxis jedoch derzeit nicht weit verbreitet, da existierende Methoden oft spezifisch für einen bestimmten Anwendungsfall entwickelt wurden und sich nur mit großem Aufwand auf andere Anwendungsgebiete übertragen lassen. Dadurch sind Vergleiche untereinander kaum möglich, was es wiederum nicht erlaubt die Effektivität von wissensbasierten Methoden in einem breiteren Kontext zu untersuchen. Die vorliegende Arbeit befasst sich mit den vorgenannten Herausforderungen für wissensbasierte Ansätze. In einem ersten Schritt legen wir formale und einheitliche Definitionen für vorhandenes biologisches Wissen sowie ihre flexible Integration in den Biomarker-Auswahlprozess fest. Der Kerngedanke unseres Ansatzes ist die automatisierte Beschaffung von biologischem Wissen aus im Internet frei verfügbaren Wissens-Datenbanken. Dies erlaubt eine Vereinfachung der Kuratierung sowie die Festlegung einer einheitlichen Definition für biologisches Wissen. Darauf aufbauend beschreiben wir generalisierte wissensbasierte Verfahren, welche flexibel auf verschiedene Anwendungsfalle anwendbar sind. In einem zweiten Schritt haben wir die Benchmarking-Plattform Comprior entwickelt, welche unsere theoretischen Konzepte in einer praktischen Anwendung realisiert. Comprior ermöglicht die schnelle Umsetzung von umfangreichen Experimenten für den Vergleich von wissensbasierten Ansätzen. Comprior übernimmt die Beschaffung von biologischem Wissen und ermöglicht dessen beliebige Kombination mit wissensbasierten Ansätzen. Comprior demonstriert damit die praktische Umsetzbarkeit unserer theoretischen Konzepte und unterstützt zudem die technische Realisierung und Vergleichbarkeit wissensbasierter Ansätze. In einem dritten Schritt untersuchen wir die Effektivität wissensbasierter Ansätze im Rahmen einer umfangreichen Fallstudie. Mithilfe von Comprior vergleichen wir die Ergebnisse traditioneller und wissensbasierter Ansätze im Kontext verschiedener Krankheiten, wobei wir für wissensbasierte Ansätze auch verschiedene Wissens-Datenbanken verwenden. Unsere Fallstudie untersucht damit a) die Eignung von ausgewählten Wissens-Datenbanken für deren Einsatz bei wissensbasierten Ansätzen, b) den Einfluss verschiedener Integrationskonzepte für biologisches Wissen auf den Biomarker-Auswahlprozess, und c) den Grad der Verbesserung in Bezug auf die Klassifikationsleistung, biologische Relevanz und allgemeine Robustheit der selektierten Biomarker. Zusammenfassend demonstriert unsere Arbeit, dass generalisierte Konzepte für biologisches Wissen und dessen vereinfachte Kuration die praktische Anwendbarkeit von wissensbasierten Ansätzen erleichtern. Die Ergebnisse unserer Fallstudie zeigen, dass die Integration von vorhandenem biologischen Wissen einen positiven Einfluss auf die selektierten Biomarker hat, insbesondere in Bezug auf ihre biologische Relevanz. Diese erstmals umfassenderen Erkenntnisse zur Effektivität von wissensbasierten Ansätzen bilden eine wertvolle Grundlage für zukünftige Forschungsarbeiten. KW - gene expression KW - biomarker detection KW - prior knowledge KW - feature selection KW - Biomarker-Erkennung KW - Merkmalsauswahl KW - Gen-Expression KW - biologisches Vorwissen Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-582418 ER -