Refine
Has Fulltext
- yes (2)
Document Type
- Doctoral Thesis (1)
- Master's Thesis (1)
Is part of the Bibliography
- yes (2)
Keywords
- Datenbank (1)
- Feature Engineering (1)
- database (1)
- feature engineering (1)
- machine learning (1)
- machinelles Lernen (1)
- personalised medicine (1)
- personalisierte Medizin (1)
- predictive analysis (1)
- prädiktive Analyse (1)
Institute
Since half a century, cytometry has been a major scientific discipline in the field of cytomics - the study of system’s biology at single cell level. It enables the investigation of physiological processes, functional characteristics and rare events with proteins by analysing multiple parameters on an individual cell basis. In the last decade, mass cytometry has been established which increased the parallel measurement to up to 50 proteins. This has shifted the analysis strategy from conventional consecutive manual gates towards multi-dimensional data processing. Novel algorithms have been developed to tackle these high-dimensional protein combinations in the data. They are mainly based on clustering or non-linear dimension reduction techniques, or both, often combined with an upstream downsampling procedure. However, these tools have obstacles either in comprehensible interpretability, reproducibility, computational complexity or in comparability between samples and groups.
To address this bottleneck, a reproducible, semi-automated cytometric data mining workflow PRI (pattern recognition of immune cells) is proposed which combines three main steps: i) data preparation and storage; ii) bin-based combinatorial variable engineering of three protein markers, the so called triploTs, and subsequent sectioning of these triploTs in four parts; and iii) deployment of a data-driven supervised learning algorithm, the cross-validated elastic-net regularized logistic regression, with these triploT sections as input variables. As a result, the selected variables from the models are ranked by their prevalence, which potentially have discriminative value. The purpose is to significantly facilitate the identification of meaningful subpopulations, which are most distinguish between two groups. The proposed workflow PRI is exemplified by a recently published public mass cytometry data set. The authors found a T cell subpopulation which is discriminative between effective and ineffective treatment of breast carcinomas in mice. With PRI, that subpopulation was not only validated, but was further narrowed down as a particular Th1 cell population. Moreover, additional insights of combinatorial protein expressions are revealed in a traceable manner. An essential element in the workflow is the reproducible variable engineering. These variables serve as basis for a clearly interpretable visualization, for a structured variable exploration and as input layers in neural network constructs.
PRI facilitates the determination of marker levels in a semi-continuous manner. Jointly with the combinatorial display, it allows a straightforward observation of correlating patterns, and thus, the dominant expressed markers and cell hierarchies. Furthermore, it enables the identification and complex characterization of discriminating subpopulations due to its reproducible and pseudo-multi-parametric pattern presentation. This endorses its applicability as a tool for unbiased investigations on cell subsets within multi-dimensional cytometric data sets.
Jeden Tag werden unzählige Mengen an medizinischen Patientendaten in Krankenhäusern und Arztpraxen digital gespeichert. Für Forschungszwecke werden diese Daten bisher größtenteils nicht verwendet. Ziel dieser Arbeit ist es täglich anfallende anonymisierte Patientendaten, die aus einer Praxis für ganzheitliche Innere Medizin stammen, zu analysieren. Aufgrund mangelnder Kooperation seitens des Anbieters der Praxissoftware konnten die Patientendaten nicht automatisch extrahiert werden. Daher wurde eine Auswahl an Diagnosen und anthropometrischen Parametern manuell in eine Datenbank übertragen. Informationen über die Behandlung wurden dabei nicht berücksichtigt. Data-Mining Verfahren ermöglichen die Forschung auf der Grundlage von alltäglichen Patientendaten. Durch die Anwendung maschinellen Lernens kann Präventionsmedizin und die Überwachung von Behandlungsverläufen unterstützt werden.
Das Potenzial der Analyse dieser sonst weitgehend ungenutzten Daten wird anhand von Untersuchungen zur Komorbidität verdeutlicht. Dabei zeigt sich, dass einerseits das Metabolische Syndrom und dessen Komponenten zusammen mit Krebserkrankungen ein Cluster bilden und andererseits psychosomatische Störungen vermehrt mit Autoimmunerkrankungen der Schilddrüse auftreten. Außerdem wird eine noch nicht schulmedizinisch anerkannte Stoffwechselerkrankung, die Hämopyrrollaktamurie (HPU) untersucht. Diese lässt sich durch eine vermehrte Ausscheidung von Pyrrolen im Urin nachweisen. Bezüglich der Patienten bei denen ein HPU-Test vorliegt, weisen 84 % einen erhöhten Titer auf. Diese Beobachtung steht im Widerspruch zur vorherigen Annahme, dass in etwa 10 % der Bevölkerung von HPU betroffen sind.
Präventives Handeln ermöglicht es Gesundheit zu erhalten. Zu diesem Zweck ist es notwen- dig Krankheiten möglichst früh zu erkennen. In dieser Studie können Entscheidungsbaum-Modelle die Hashimoto Thyreoiditis mit einer Genauigkeit von 87.5 % bei einem Patienten diagnostizieren. Defizite durch die fehlenden Informationen über die medikamentöse Behandlung werden anhand des Modells zur Vorhersage von Hypothyreoiditis (Genauigkeit von 60.9 %) aufgezeigt.
Mit Hilfe von STATIS, das auf einer Erweiterung der Hauptkomponentenanalyse basiert, die es ermöglicht mehrere Tabellen simultan zu vergleichen, wurde der Behandlungsverlauf von 20 Patienten über einen Zeitraum von fünf Jahren überwacht. Anhand von Hypertonie wird gezeigt, dass sich sich die Patenten bezüglich Ihrer Laborwerte voneinander unterscheiden und sich Muster für Krankheiten erkennen lassen.
Diese Arbeit demonstriert den Nutzen, der durch die vermehrte Analyse alltäglicher hochdimensionaler und heterogener Daten erbracht werden kann.