TY - THES A1 - Panzer, Marcel T1 - Design of a hyper-heuristics based control framework for modular production systems T1 - Design eines auf Hyperheuristiken basierenden Steuerungsframeworks für modulare Produktionssysteme N2 - Volatile supply and sales markets, coupled with increasing product individualization and complex production processes, present significant challenges for manufacturing companies. These must navigate and adapt to ever-shifting external and internal factors while ensuring robustness against process variabilities and unforeseen events. This has a pronounced impact on production control, which serves as the operational intersection between production planning and the shop- floor resources, and necessitates the capability to manage intricate process interdependencies effectively. Considering the increasing dynamics and product diversification, alongside the need to maintain constant production performances, the implementation of innovative control strategies becomes crucial. In recent years, the integration of Industry 4.0 technologies and machine learning methods has gained prominence in addressing emerging challenges in production applications. Within this context, this cumulative thesis analyzes deep learning based production systems based on five publications. Particular attention is paid to the applications of deep reinforcement learning, aiming to explore its potential in dynamic control contexts. Analysis reveal that deep reinforcement learning excels in various applications, especially in dynamic production control tasks. Its efficacy can be attributed to its interactive learning and real-time operational model. However, despite its evident utility, there are notable structural, organizational, and algorithmic gaps in the prevailing research. A predominant portion of deep reinforcement learning based approaches is limited to specific job shop scenarios and often overlooks the potential synergies in combined resources. Furthermore, it highlights the rare implementation of multi-agent systems and semi-heterarchical systems in practical settings. A notable gap remains in the integration of deep reinforcement learning into a hyper-heuristic. To bridge these research gaps, this thesis introduces a deep reinforcement learning based hyper- heuristic for the control of modular production systems, developed in accordance with the design science research methodology. Implemented within a semi-heterarchical multi-agent framework, this approach achieves a threefold reduction in control and optimisation complexity while ensuring high scalability, adaptability, and robustness of the system. In comparative benchmarks, this control methodology outperforms rule-based heuristics, reducing throughput times and tardiness, and effectively incorporates customer and order-centric metrics. The control artifact facilitates a rapid scenario generation, motivating for further research efforts and bridging the gap to real-world applications. The overarching goal is to foster a synergy between theoretical insights and practical solutions, thereby enriching scientific discourse and addressing current industrial challenges. N2 - Volatile Beschaffungs- und Absatzmärkte sowie eine zunehmende Produktindividualisierung konfrontieren Fertigungsunternehmen mit beträchtlichen Herausforderungen. Diese erfordern eine Anpassung der Produktion an sich ständig wechselnde externe Einflüsse und eine hohe Prozessrobustheit gegenüber unvorhersehbaren Schwankungen. Ein Schlüsselelement in diesem Kontext ist die Produktionssteuerung, die als operative Schnittstelle zwischen der Produktions- planung und den Fertigungsressourcen fungiert und eine effiziente Handhabung zahlreicher Prozessinterdependenzen sicherstellen muss. Angesichts dieser gesteigerten Produktionsdynamik und Produktvielfalt rücken innovative Steuerungsansätze in den Vordergrund. In jüngerer Zeit wurden daher verstärkt Industrie-4.0-Ansätze und Methoden des maschinellen Lernens betrachtet. Im Kontext der aktuellen Forschung analysiert die vorliegende kumulative Arbeit Deep-Learning basierte Produktionssysteme anhand von fünf Publikationen. Hierbei wird ein besonderes Augenmerk auf die Anwendungen des Deep Reinforcement Learning gelegt, um dessen Potenzial zu ergründen. Die Untersuchungen zeigen, dass das Deep Reinforcement Learning in vielen Produktionsanwendungen sowohl herkömmlichen Ansätzen als auch an- deren Deep-Learning Werkzeugen überlegen ist. Diese Überlegenheit ergibt sich vor allem aus dem interaktiven Lernprinzip und der direkten Interaktion mit der Umwelt, was es für die dynamische Produktionssteuerung besonders geeignet macht. Dennoch werden strukturelle, organisatorische und algorithmische Forschungslücken identifiziert. Die überwiegende Mehrheit der untersuchten Ansätze fokussiert sich auf Werkstattfertigungen und vernachlässigt dabei potenzielle Prozesssynergien modularer Produktionssysteme. Ferner zeigt sich, dass Multi- Agenten- und Mehr-Ebenen-Systeme sowie die Kombination verschiedener algorithmischer Ansätze nur selten zur Anwendung kommen. Um diese Forschungslücken zu adressieren, wird eine auf Deep Reinforcement Learning basierende Hyper-Heuristik für die Steuerung modularer Produktionssysteme vorgestellt, die nach der Design Science Research Methodology entwickelt wird. Ein semi-heterarchisches Multi-Agenten-System ermöglicht eine dreifache Reduktion der Steuerungs- und Optimierungs- komplexität und gewährleistet gleichzeitig eine hohe Systemadaptabilität und -robustheit. In Benchmarks übertrifft das Steuerungskonzept regelbasierte Ansätze, minimiert Durchlaufzeiten und Verspätungen und berücksichtigt kunden- sowie auftragsorientierte Kennzahlen. Die ent- wickelte Steuerungsmethodik ermöglicht einen schnellen Szenarienentwurf, um dadurch weitere Forschungsbemühungen zu stimulieren und die bestehende Transferlücke zur Realität weiter zu überbrücken. Das Ziel dieser Forschungsarbeit ist es, eine Synergie zwischen theoretischen Erkenntnissen und Praxis-relevanten Lösungen zu schaffen, um sowohl den wissenschaftlichen Diskurs zu bereichern als auch Antworten auf aktuelle industrielle Herausforderungen zu bieten. KW - modular production KW - deep learning KW - modulare Produktion KW - Produktionssteuerung KW - Deep Learning KW - Reinforcement Learning KW - Simulation KW - production control KW - reinforcement learning KW - simulation Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-633006 ER - TY - THES A1 - Maier, Corinna T1 - Bayesian data assimilation and reinforcement learning for model-informed precision dosing in oncology T1 - Bayes’sche Datenassimilation und Reinforcement Learning für die modellinformierte Präzisionsdosierung in der Onkologie N2 - While patients are known to respond differently to drug therapies, current clinical practice often still follows a standardized dosage regimen for all patients. For drugs with a narrow range of both effective and safe concentrations, this approach may lead to a high incidence of adverse events or subtherapeutic dosing in the presence of high patient variability. Model-informedprecision dosing (MIPD) is a quantitative approach towards dose individualization based on mathematical modeling of dose-response relationships integrating therapeutic drug/biomarker monitoring (TDM) data. MIPD may considerably improve the efficacy and safety of many drug therapies. Current MIPD approaches, however, rely either on pre-calculated dosing tables or on simple point predictions of the therapy outcome. These approaches lack a quantification of uncertainties and the ability to account for effects that are delayed. In addition, the underlying models are not improved while applied to patient data. Therefore, current approaches are not well suited for informed clinical decision-making based on a differentiated understanding of the individually predicted therapy outcome. The objective of this thesis is to develop mathematical approaches for MIPD, which (i) provide efficient fully Bayesian forecasting of the individual therapy outcome including associated uncertainties, (ii) integrate Markov decision processes via reinforcement learning (RL) for a comprehensive decision framework for dose individualization, (iii) allow for continuous learning across patients and hospitals. Cytotoxic anticancer chemotherapy with its major dose-limiting toxicity, neutropenia, serves as a therapeutically relevant application example. For more comprehensive therapy forecasting, we apply Bayesian data assimilation (DA) approaches, integrating patient-specific TDM data into mathematical models of chemotherapy-induced neutropenia that build on prior population analyses. The value of uncertainty quantification is demonstrated as it allows reliable computation of the patient-specific probabilities of relevant clinical quantities, e.g., the neutropenia grade. In view of novel home monitoring devices that increase the amount of TDM data available, the data processing of sequential DA methods proves to be more efficient and facilitates handling of the variability between dosing events. By transferring concepts from DA and RL we develop novel approaches for MIPD. While DA-guided dosing integrates individualized uncertainties into dose selection, RL-guided dosing provides a framework to consider delayed effects of dose selections. The combined DA-RL approach takes into account both aspects simultaneously and thus represents a holistic approach towards MIPD. Additionally, we show that RL can be used to gain insights into important patient characteristics for dose selection. The novel dosing strategies substantially reduce the occurrence of both subtherapeutic and life-threatening neutropenia grades in a simulation study based on a recent clinical study (CEPAC-TDM trial) compared to currently used MIPD approaches. If MIPD is to be implemented in routine clinical practice, a certain model bias with respect to the underlying model is inevitable, as the models are typically based on data from comparably small clinical trials that reflect only to a limited extent the diversity in real-world patient populations. We propose a sequential hierarchical Bayesian inference framework that enables continuous cross-patient learning to learn the underlying model parameters of the target patient population. It is important to note that the approach only requires summary information of the individual patient data to update the model. This separation of the individual inference from population inference enables implementation across different centers of care. The proposed approaches substantially improve current MIPD approaches, taking into account new trends in health care and aspects of practical applicability. They enable progress towards more informed clinical decision-making, ultimately increasing patient benefits beyond the current practice. N2 - Obwohl Patienten sehr unterschiedlich auf medikamentöse Therapien ansprechen, werden in der klinischen Praxis häufig noch standardisierte Dosierungsschemata angewendet. Bei Arzneimitteln mit engen therapeutischen Fenstern zwischen minimal wirksamen und toxischen Konzentrationen kann dieser Ansatz bei hoher interindividueller Variabilität zu häufigem Auftreten von Toxizitäten oder subtherapeutischen Konzentrationen führen. Die modellinformierte Präzisionsdosierung (MIPD) ist ein quantitativer Ansatz zur Dosisindividualisierung, der auf der mathematischen Modellierung von Dosis-Wirkungs-Beziehungen beruht und Daten aus dem therapeutischen Drug/Biomarker-Monitoring (TDM) einbezieht. Die derzeitigen MIPD-Ansätze verwenden entweder Dosierungstabellen oder einfache Punkt-Vorhersagen des Therapieverlaufs. Diesen Ansätzen fehlt eine Quantifizierung der Unsicherheiten, verzögerte Effekte werden nicht berücksichtigt und die zugrunde liegenden Modelle werden im Laufe der Anwendung nicht verbessert. Daher sind die derzeitigen Ansätze nicht ideal für eine fundierte klinische Entscheidungsfindung auf Grundlage eines differenzierten Verständnisses des individuell vorhergesagten Therapieverlaufs. Das Ziel dieser Arbeit ist es, mathematische Ansätze für das MIPD zu entwickeln, die (i) eine effiziente, vollständig Bayes’sche Vorhersage des individuellen Therapieverlaufs einschließlich der damit verbundenen Unsicherheiten ermöglichen, (ii) Markov-Entscheidungsprozesse mittels Reinforcement Learning (RL) in einen umfassenden Entscheidungsrahmen zur Dosisindividualisierung integrieren, und (iii) ein kontinuierliches Lernen zwischen Patienten erlauben. Die antineoplastische Chemotherapie mit ihrer wichtigen dosislimitierenden Toxizität, der Neutropenie, dient als therapeutisch relevantes Anwendungsbeispiel. Für eine umfassendere Therapievorhersage wenden wir Bayes’sche Datenassimilationsansätze (DA) an, um TDM-Daten in mathematische Modelle der Chemotherapie-induzierten Neutropenie zu integrieren. Wir zeigen, dass die Quantifizierung von Unsicherheiten einen großen Mehrwert bietet, da sie eine zuverlässige Berechnung der Wahrscheinlichkeiten relevanter klinischer Größen, z.B. des Neutropeniegrades, ermöglicht. Im Hinblick auf neue Home-Monitoring-Geräte, die die Anzahl der verfügbaren TDM-Daten erhöhen, erweisen sich sequenzielle DA-Methoden als effizienter und erleichtern den Umgang mit der Unsicherheit zwischen Dosierungsereignissen. Basierend auf Konzepten aus DA und RL, entwickeln wir neue Ansätze für MIPD. Während die DA-geleitete Dosierung individualisierte Unsicherheiten in die Dosisauswahl integriert, berücksichtigt die RL-geleitete Dosierung verzögerte Effekte der Dosisauswahl. Der kombinierte DA-RL-Ansatz vereint beide Aspekte und stellt somit einen ganzheitlichen Ansatz für MIPD dar. Zusätzlich zeigen wir, dass RL Informationen über die für die Dosisauswahl relevanten Patientencharakteristika liefert. Der Vergleich zu derzeit verwendeten MIPD Ansätzen in einer auf einer klinischen Studie (CEPAC-TDM-Studie) basierenden Simulationsstudie zeigt, dass die entwickelten Dosierungsstrategien das Auftreten subtherapeutischer Konzentrationen sowie lebensbedrohlicher Neutropenien drastisch reduzieren. Wird MIPD in der klinischen Routine eingesetzt, ist eine gewisse Modellverzerrung unvermeidlich. Die Modelle basieren in der Regel auf Daten aus vergleichsweise kleinen klinischen Studien, die die Heterogenität realer Patientenpopulationen nur begrenzt widerspiegeln. Wir schlagen einen sequenziellen hierarchischen Bayes’schen Inferenzrahmen vor, der ein kontinuierliches patientenübergreifendes Lernen ermöglicht, um die zugrunde liegenden Modellparameter der Ziel-Patientenpopulation zu erlernen. Zur Aktualisierung des Modells erfordert dieser Ansatz lediglich zusammenfassende Informationen der individuellen Patientendaten, was eine Umsetzung über verschiedene Versorgungszentren hinweg erlaubt. Die vorgeschlagenen Ansätze verbessern die derzeitigen MIPD-Ansätze erheblich, wobei neue Trends in der Gesundheitsversorgung und Aspekte der praktischen Anwendbarkeit berücksichtigt werden. Damit stellen sie einen Fortschritt in Richtung einer fundierteren klinischen Entscheidungsfindung dar. KW - data assimilation KW - Datenassimilation KW - reinforcement learning KW - model-informed precision dosing KW - pharmacometrics KW - oncology KW - modellinformierte Präzisionsdosierung KW - Onkologie KW - Pharmakometrie KW - Reinforcement Learning Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-515870 ER -