TY - GEN A1 - Malchow, Martin A1 - Bauer, Matthias A1 - Meinel, Christoph T1 - Embedded smart home — remote lab MOOC with optional real hardware experience for over 4000 students T2 - Proceedings of 2018 IEEE Global Engineering Education Conference (EDUCON) N2 - MOOCs (Massive Open Online Courses) become more and more popular for learners of all ages to study further or to learn new subjects of interest. The purpose of this paper is to introduce a different MOOC course style. Typically, video content is shown teaching the student new information. After watching a video, self-test questions can be answered. Finally, the student answers weekly exams and final exams like the self test questions. Out of the points that have been scored for weekly and final exams a certificate can be issued. Our approach extends the possibility to receive points for the final score with practical programming exercises on real hardware. It allows the student to do embedded programming by communicating over GPIO pins to control LEDs and measure sensor values. Additionally, they can visualize values on an embedded display using web technologies, which are an essential part of embedded and smart home devices to communicate with common APIs. Students have the opportunity to solve all tasks within the online remote lab and at home on the same kind of hardware. The evaluation of this MOOCs indicates the interesting design for students to learn an engineering technique with new technology approaches in an appropriate, modern, supporting and motivating way of teaching. KW - E-Learning KW - MOOC Remote Lab KW - Distance Learning KW - Embedded Programming KW - Smart Home Education Y1 - 2018 SN - 978-1-5386-2957-4 U6 - https://doi.org/10.1109/EDUCON.2018.8363353 SN - 2165-9567 SP - 1104 EP - 1111 PB - IEEE CY - New York ER - TY - GEN A1 - Malchow, Martin A1 - Bauer, Matthias A1 - Meinel, Christoph T1 - Enhance Learning in a Video Lecture Archive with Annotations T2 - Proceedings of OF 2018 IEEE Global Engineering Education Conference (EDUCON) N2 - When students watch learning videos online, they usually need to watch several hours of video content. In the end, not every minute of a video is relevant for the exam. Additionally, students need to add notes to clarify issues of a lecture. There are several possibilities to enhance the metadata of a video, e.g. a typical way to add user-specific information to an online video is a comment functionality, which allows users to share their thoughts and questions with the public. In contrast to common video material which can be found online, lecture videos are used for exam preparation. Due to this difference, the idea comes up to annotate lecture videos with markers and personal notes for a better understanding of the taught content. Especially, students learning for an exam use their notes to refresh their memories. To ease this learning method with lecture videos, we introduce the annotation feature in our video lecture archive. This functionality supports the students with keeping track of their thoughts by providing an intuitive interface to easily add, modify or remove their ideas. This annotation function is integrated in the video player. Hence, scrolling to a separate annotation area on the website is not necessary. Furthermore, the annotated notes can be exported together with the slide content to a PDF file, which can then be printed easily. Lecture video annotations support and motivate students to learn and watch videos from an E-Learning video archive. KW - E-Learning KW - Lecture Video Archive KW - Video annotations KW - E-Learning exam preparation Y1 - 2018 SN - 978-1-5386-2957-4 SN - 2165-9567 SP - 849 EP - 856 PB - IEEE CY - New York ER - TY - THES A1 - Malchow, Martin T1 - Nutzerunterstützung und -Motivation in E-Learning Vorlesungsarchiven und MOOCs N2 - In den letzten Jahren ist die Aufnahme und Verbreitung von Videos immer einfacher geworden. Daher sind die Relevanz und Beliebtheit zur Aufnahme von Vorlesungsvideos in den letzten Jahren stark angestiegen. Dies führt zu einem großen Datenbestand an Vorlesungsvideos in den Video-Vorlesungsarchiven der Universitäten. Durch diesen wachsenden Datenbestand wird es allerdings für die Studenten immer schwieriger, die relevanten Videos eines Vorlesungsarchivs aufzufinden. Zusätzlich haben viele Lerninteressierte durch ihre alltägliche Arbeit und familiären Verpflichtungen immer weniger Zeit sich mit dem Lernen zu beschäftigen. Ein weiterer Aspekt, der das Lernen im Internet erschwert, ist, dass es durch soziale Netzwerke und anderen Online-Plattformen vielfältige Ablenkungsmöglichkeiten gibt. Daher ist das Ziel dieser Arbeit, Möglichkeiten aufzuzeigen, welche das E-Learning bieten kann, um Nutzer beim Lernprozess zu unterstützen und zu motivieren. Das Hauptkonzept zur Unterstützung der Studenten ist das präzise Auffinden von Informationen in den immer weiter wachsenden Vorlesungsvideoarchiven. Dazu werden die Vorlesungen im Voraus analysiert und die Texte der Vorlesungsfolien mit verschiedenen Methoden indexiert. Daraufhin können die Studenten mit der Suche oder dem Lecture-Butler Lerninhalte entsprechend Ihres aktuellen Wissensstandes auffinden. Die möglichen verwendeten Technologien für das Auffinden wurden, sowohl technisch, als auch durch Studentenumfragen erfolgreich evaluiert. Zur Motivation von Studenten in Vorlesungsarchiven werden diverse Konzepte betrachtet und die Umsetzung evaluiert, die den Studenten interaktiv in den Lernprozess einbeziehen. Neben Vorlesungsarchiven existieren sowohl im privaten als auch im dienstlichen Weiterbildungsbereich die in den letzten Jahren immer beliebter werdenden MOOCs. Generell sind die Abschlussquoten von MOOCs allerdings mit durchschnittlich 7% eher gering. Daher werden Motivationslösungen für MOOCs im Bereich von eingebetteten Systemen betrachtet, die in praktischen Programmierkursen Anwendung finden. Zusätzlich wurden Kurse evaluiert, welche die Programmierung von eingebetteten Systemen behandeln. Die Verfügbarkeit war bei Kursen von bis zu 10.000 eingeschriebenen Teilnehmern hierbei kein schwerwiegendes Problem. Die Verwendung von eingebetteten Systemen in Programmierkursen sind bei den Studenten in der praktischen Umsetzung auf sehr großes Interesse gestoßen. Y1 - 2019 ER - TY - GEN A1 - Loster, Michael A1 - Naumann, Felix A1 - Ehmueller, Jan A1 - Feldmann, Benjamin T1 - CurEx BT - a system for extracting, curating, and exploring domain-specific knowledge graphs from text T2 - Proceedings of the 27th ACM International Conference on Information and Knowledge Management N2 - The integration of diverse structured and unstructured information sources into a unified, domain-specific knowledge base is an important task in many areas. A well-maintained knowledge base enables data analysis in complex scenarios, such as risk analysis in the financial sector or investigating large data leaks, such as the Paradise or Panama papers. Both the creation of such knowledge bases, as well as their continuous maintenance and curation involves many complex tasks and considerable manual effort. With CurEx, we present a modular system that allows structured and unstructured data sources to be integrated into a domain-specific knowledge base. In particular, we (i) enable the incremental improvement of each individual integration component; (ii) enable the selective generation of multiple knowledge graphs from the information contained in the knowledge base; and (iii) provide two distinct user interfaces tailored to the needs of data engineers and end-users respectively. The former has curation capabilities and controls the integration process, whereas the latter focuses on the exploration of the generated knowledge graph. Y1 - 2018 SN - 978-1-4503-6014-2 U6 - https://doi.org/10.1145/3269206.3269229 SP - 1883 EP - 1886 PB - Association for Computing Machinery CY - New York ER - TY - THES A1 - Loster, Michael T1 - Knowledge base construction with machine learning methods T1 - Aufbau von Wissensbasen mit Methoden des maschinellen Lernens N2 - Modern knowledge bases contain and organize knowledge from many different topic areas. Apart from specific entity information, they also store information about their relationships amongst each other. Combining this information results in a knowledge graph that can be particularly helpful in cases where relationships are of central importance. Among other applications, modern risk assessment in the financial sector can benefit from the inherent network structure of such knowledge graphs by assessing the consequences and risks of certain events, such as corporate insolvencies or fraudulent behavior, based on the underlying network structure. As public knowledge bases often do not contain the necessary information for the analysis of such scenarios, the need arises to create and maintain dedicated domain-specific knowledge bases. This thesis investigates the process of creating domain-specific knowledge bases from structured and unstructured data sources. In particular, it addresses the topics of named entity recognition (NER), duplicate detection, and knowledge validation, which represent essential steps in the construction of knowledge bases. As such, we present a novel method for duplicate detection based on a Siamese neural network that is able to learn a dataset-specific similarity measure which is used to identify duplicates. Using the specialized network architecture, we design and implement a knowledge transfer between two deduplication networks, which leads to significant performance improvements and a reduction of required training data. Furthermore, we propose a named entity recognition approach that is able to identify company names by integrating external knowledge in the form of dictionaries into the training process of a conditional random field classifier. In this context, we study the effects of different dictionaries on the performance of the NER classifier. We show that both the inclusion of domain knowledge as well as the generation and use of alias names results in significant performance improvements. For the validation of knowledge represented in a knowledge base, we introduce Colt, a framework for knowledge validation based on the interactive quality assessment of logical rules. In its most expressive implementation, we combine Gaussian processes with neural networks to create Colt-GP, an interactive algorithm for learning rule models. Unlike other approaches, Colt-GP uses knowledge graph embeddings and user feedback to cope with data quality issues of knowledge bases. The learned rule model can be used to conditionally apply a rule and assess its quality. Finally, we present CurEx, a prototypical system for building domain-specific knowledge bases from structured and unstructured data sources. Its modular design is based on scalable technologies, which, in addition to processing large datasets, ensures that the modules can be easily exchanged or extended. CurEx offers multiple user interfaces, each tailored to the individual needs of a specific user group and is fully compatible with the Colt framework, which can be used as part of the system. We conduct a wide range of experiments with different datasets to determine the strengths and weaknesses of the proposed methods. To ensure the validity of our results, we compare the proposed methods with competing approaches. N2 - Moderne Wissensbasen enthalten und organisieren das Wissen vieler unterschiedlicher Themengebiete. So speichern sie neben bestimmten Entitätsinformationen auch Informationen über deren Beziehungen untereinander. Kombiniert man diese Informationen, ergibt sich ein Wissensgraph, der besonders in Anwendungsfällen hilfreich sein kann, in denen Entitätsbeziehungen von zentraler Bedeutung sind. Neben anderen Anwendungen, kann die moderne Risikobewertung im Finanzsektor von der inhärenten Netzwerkstruktur solcher Wissensgraphen profitieren, indem Folgen und Risiken bestimmter Ereignisse, wie z.B. Unternehmensinsolvenzen oder betrügerisches Verhalten, auf Grundlage des zugrundeliegenden Netzwerks bewertet werden. Da öffentliche Wissensbasen oft nicht die notwendigen Informationen zur Analyse solcher Szenarien enthalten, entsteht die Notwendigkeit, spezielle domänenspezifische Wissensbasen zu erstellen und zu pflegen. Diese Arbeit untersucht den Erstellungsprozess von domänenspezifischen Wissensdatenbanken aus strukturierten und unstrukturierten Datenquellen. Im speziellen befasst sie sich mit den Bereichen Named Entity Recognition (NER), Duplikaterkennung sowie Wissensvalidierung, die wesentliche Prozessschritte beim Aufbau von Wissensbasen darstellen. Wir stellen eine neuartige Methode zur Duplikaterkennung vor, die auf Siamesischen Neuronalen Netzwerken basiert und in der Lage ist, ein datensatz-spezifisches Ähnlichkeitsmaß zu erlernen, welches wir zur Identifikation von Duplikaten verwenden. Unter Verwendung einer speziellen Netzwerkarchitektur entwerfen und setzen wir einen Wissenstransfer zwischen Deduplizierungsnetzwerken um, der zu erheblichen Leistungsverbesserungen und einer Reduktion der benötigten Trainingsdaten führt. Weiterhin schlagen wir einen Ansatz zur Erkennung benannter Entitäten (Named Entity Recognition (NER)) vor, der in der Lage ist, Firmennamen zu identifizieren, indem externes Wissen in Form von Wörterbüchern in den Trainingsprozess eines Conditional Random Field Klassifizierers integriert wird. In diesem Zusammenhang untersuchen wir die Auswirkungen verschiedener Wörterbücher auf die Leistungsfähigkeit des NER-Klassifikators und zeigen, dass sowohl die Einbeziehung von Domänenwissen als auch die Generierung und Verwendung von Alias-Namen zu einer signifikanten Leistungssteigerung führt. Zur Validierung der in einer Wissensbasis enthaltenen Fakten stellen wir mit COLT ein Framework zur Wissensvalidierung vor, dass auf der interaktiven Qualitätsbewertung von logischen Regeln basiert. In seiner ausdrucksstärksten Implementierung kombinieren wir Gauß'sche Prozesse mit neuronalen Netzen, um so COLT-GP, einen interaktiven Algorithmus zum Erlernen von Regelmodellen, zu erzeugen. Im Gegensatz zu anderen Ansätzen verwendet COLT-GP Knowledge Graph Embeddings und Nutzer-Feedback, um Datenqualitätsprobleme des zugrunde liegenden Wissensgraphen zu behandeln. Das von COLT-GP erlernte Regelmodell kann sowohl zur bedingten Anwendung einer Regel als auch zur Bewertung ihrer Qualität verwendet werden. Schließlich stellen wir mit CurEx, ein prototypisches System zum Aufbau domänenspezifischer Wissensbasen aus strukturierten und unstrukturierten Datenquellen, vor. Sein modularer Aufbau basiert auf skalierbaren Technologien, die neben der Verarbeitung großer Datenmengen auch die einfache Austausch- und Erweiterbarkeit einzelner Module gewährleisten. CurEx bietet mehrere Benutzeroberflächen, die jeweils auf die individuellen Bedürfnisse bestimmter Benutzergruppen zugeschnitten sind. Darüber hinaus ist es vollständig kompatibel zum COLT-Framework, was als Teil des Systems verwendet werden kann. Wir führen eine Vielzahl von Experimenten mit unterschiedlichen Datensätzen durch, um die Stärken und Schwächen der vorgeschlagenen Methoden zu ermitteln. Zudem vergleichen wir die vorgeschlagenen Methoden mit konkurrierenden Ansätzen, um die Validität unserer Ergebnisse sicherzustellen. KW - machine learning KW - deep kernel learning KW - knowledge base construction KW - knowledge base KW - knowledge graph KW - deduplication KW - siamese neural networks KW - duplicate detection KW - entity resolution KW - transfer learning KW - knowledge transfer KW - entity linking KW - knowledge validation KW - logic rules KW - named entity recognition KW - curex KW - Curex KW - Deduplikation KW - Deep Kernel Learning KW - Duplikaterkennung KW - Entitätsverknüpfung KW - Entitätsauflösung KW - Wissensbasis KW - Konstruktion von Wissensbasen KW - Wissensgraph KW - Wissenstransfer KW - Wissensvalidierung KW - logische Regeln KW - maschinelles Lernen KW - named entity recognition KW - Siamesische Neuronale Netzwerke KW - Transferlernen Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-501459 ER - TY - THES A1 - Lorson, Annalena T1 - Understanding early stage evolution of digital innovation units in manufacturing companies T1 - Verständnis der frühphasigen Entwicklung digitaler Innovationseinheiten in Fertigungsunternehmen N2 - The dynamic landscape of digital transformation entails an impact on industrial-age manufacturing companies that goes beyond product offerings, changing operational paradigms, and requiring an organization-wide metamorphosis. An initiative to address the given challenges is the creation of Digital Innovation Units (DIUs) – departments or distinct legal entities that use new structures and practices to develop digital products, services, and business models and support or drive incumbents’ digital transformation. With more than 300 units in German-speaking countries alone and an increasing number of scientific publications, DIUs have become a widespread phenomenon in both research and practice. This dissertation examines the evolution process of DIUs in the manufacturing industry during their first three years of operation, through an extensive longitudinal single-case study and several cross-case syntheses of seven DIUs. Building on the lenses of organizational change and development, time, and socio-technical systems, this research provides insights into the fundamentals, temporal dynamics, socio-technical interactions, and relational dynamics of a DIU’s evolution process. Thus, the dissertation promotes a dynamic understanding of DIUs and adds a two-dimensional perspective to the often one-dimensional view of these units and their interactions with the main organization throughout the startup and growth phases of a DIU. Furthermore, the dissertation constructs a phase model that depicts the early stages of DIU evolution based on these findings and by incorporating literature from information systems research. As a result, it illustrates the progressive intensification of collaboration between the DIU and the main organization. After being implemented, the DIU sparks initial collaboration and instigates change within (parts of) the main organization. Over time, it adapts to the corporate environment to some extent, responding to changing circumstances in order to contribute to long-term transformation. Temporally, the DIU drives the early phases of cooperation and adaptation in particular, while the main organization triggers the first major evolutionary step and realignment of the DIU. Overall, the thesis identifies DIUs as malleable organizational structures that are crucial for digital transformation. Moreover, it provides guidance for practitioners on the process of building a new DIU from scratch or optimizing an existing one. N2 - Die digitale Transformation produzierender Unternehmen geht über die bloße Veränderung des Produktangebots hinaus; sie durchdringt operative Paradigmen und erfordert eine umfassende, unternehmensweite Metamorphose. Eine Initiative, den damit verbundenen Herausforderungen zu begegnen, ist der Aufbau einer Digital Innovation Unit (DIU) (zu deutsch: digitale Innovationseinheit) – eine Abteilung oder separate rechtliche Einheit, die neue organisationale Strukturen und Arbeitspraktiken nutzt, um digitale Produkte, Dienstleistungen und Geschäftsmodelle zu entwickeln und die digitale Transformation von etabliertenUnternehmen zu unterstützen oder voranzutreiben. Mit mehr als 300 Einheitenallein im deutschsprachigen Raum und einer wachsenden Zahl wissenschaftlicher Publikationen sind DIUs sowohl in der Forschung als auch in der Praxis ein weit verbreitetes Phänomen. Auf Basis einer umfassenden Längsschnittstudie und mehrerer Querschnittsanalysen von sieben Fertigungsunternehmen und ihren DIUs untersucht diese Dissertation den Entwicklungsprozess von DIUs in den ersten drei Betriebsjahren. Gestützt auf theoretische Perspektiven zu organisatorischem Wandel, Zeit und sozio-technischen Systemen bietet sie Einblicke in die Grundlagen, die zeitlichen Dynamiken, die sozio-technischen Interaktionen und die Beziehungsdynamiken des Entwicklungsprozesses von DIUs. Die Dissertation erweitert somit das dynamische Verständnis von DIUs und fügt der oft eindimensionalen Sichtweise auf diese Einheiten und ihre Interaktionen mit der Hauptorganisation eine zweidimensionale Perspektive entlang der Gründungs- und Wachstumsphasen einer DIU hinzu. Darüber hinaus konstruiert die Dissertation ein Phasenmodell, das die frühen Phasen der DIU-Entwicklung auf der Grundlage dieser Erkenntnisse und unter Einbeziehung von Literatur aus der Wirtschaftsinformatikforschung abbildet. Es veranschaulicht die schrittweise Intensivierung der Zusammenarbeit zwischen der DIU und der Hauptorganisation. Nach ihrer Implementierung initiiert die DIU die anfängliche Zusammenarbeit und stößt Veränderungen innerhalb (von Teilen) der Hauptorganisation an. Im Laufe der Zeit passt sich die DIU bis zu einem gewissen Grad dem Unternehmensumfeld an und reagiert auf sich verändernde Umstände, um zu einer langfristigen Veränderung beizutragen. Zeitlich gesehen treibt die DIU vor allem die frühen Phasen der Zusammenarbeit und Anpassung voran, während die Hauptorganisation den ersten großen Entwicklungsschritt und die Neuausrichtung der DIU auslöst. Insgesamt identifiziert die Dissertation DIUs als anpassungsfähige Organisationsstrukturen, die für die digitale Transformation entscheidend sind. Darüber hinaus bietet sie Praktikern einen Leitfaden für den Aufbau einer neuen oder die Optimierung einer bestehenden DIU. KW - digital transformation KW - digital innovation units KW - evolution of digital innovation units KW - manufacturing companies KW - digitale Transformation KW - digitale Innovationseinheit KW - Entwicklung digitaler Innovationseinheiten KW - Fertigungsunternehmen Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-639141 ER - TY - JOUR A1 - Lorenz, Anja A1 - Bock, Stefanie A1 - Schulte-Ostermann, Juleka ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Challenges and proposals for introducing digital certificates in higher education infrastructures JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - Questions about the recognition of MOOCs within and outside higher education were already being raised in the early 2010s. Today, recognition decisions are still made more or less on a case-by-case basis. However, digital certification approaches are now emerging that could automate recognition processes. The technical development of the required machinereadable documents and infrastructures is already well advanced in some cases. The DigiCerts consortium has developed a solution based on a collective blockchain. There are ongoing and open discussions regarding the particular technology, but the institutional implementation of digital certificates raises further questions. A number of workshops have been held at the Institute for Interactive Systems at Technische Hochschule Lübeck, which have identified the need for new responsibilities for issuing certificates. It has also become clear that all members of higher education institutions need to develop skills in the use of digital certificates. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624701 SP - 263 EP - 270 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - THES A1 - Lopes, Pedro T1 - Interactive Systems Based on Electrical Muscle Stimulation N2 - How can interactive devices connect with users in the most immediate and intimate way? This question has driven interactive computing for decades. Throughout the last decades, we witnessed how mobile devices moved computing into users’ pockets, and recently, wearables put computing in constant physical contact with the user’s skin. In both cases moving the devices closer to users allowed devices to sense more of the user, and thus act more personal. The main question that drives our research is: what is the next logical step? Some researchers argue that the next generation of interactive devices will move past the user’s skin and be directly implanted inside the user’s body. This has already happened in that we have pacemakers, insulin pumps, etc. However, we argue that what we see is not devices moving towards the inside of the user’s body, but rather towards the body’s biological “interface” they need to address in order to perform their function. To implement our vision, we created a set of devices that intentionally borrow parts of the user’s body for input and output, rather than adding more technology to the body. In this dissertation we present one specific flavor of such devices, i.e., devices that borrow the user’s muscles. We engineered I/O devices that interact with the user by reading and controlling muscle activity. To achieve the latter, our devices are based on medical-grade signal generators and electrodes attached to the user’s skin that send electrical impulses to the user’s muscles; these impulses then cause the user’s muscles to contract. While electrical muscle stimulation (EMS) devices have been used to regenerate lost motor functions in rehabilitation medicine since the 1960s, in this dissertation, we propose a new perspective: EMS as a means for creating interactive systems. We start by presenting seven prototypes of interactive devices that we have created to illustrate several benefits of EMS. These devices form two main categories: (1) Devices that allow users eyes-free access to information by means of their proprioceptive sense, such as the value of a variable in a computer system, a tool, or a plot; (2) Devices that increase immersion in virtual reality by simulating large forces, such as wind, physical impact, or walls and heavy objects. Then, we analyze the potential of EMS to build interactive systems that miniaturize well and discuss how they leverage our proprioceptive sense as an I/O modality. We proceed by laying out the benefits and disadvantages of both EMS and mechanical haptic devices, such as exoskeletons. We conclude by sketching an outline for future research on EMS by listing open technical, ethical and philosophical questions that we left unanswered. N2 - Wie können interaktive Geräte auf unmittelbare und eng verknüpfte Weise mit dem Nutzer kommunizieren? Diese Frage beschäftigt die Forschung im Bereich Computer Interaktion seit Jahrzehnten. Besonders in den letzten Jahren haben wir miterlebt, wie Nutzer interaktive Geräte dauerhaft bei sich führen, im Falle von sogenannten Wearables sogar als Teil der Kleidung oder als Accessoires. In beiden Fällen sind die Geräte näher an den Nutzer gerückt, wodurch sie mehr Informationen vom Nutzer sammeln können und daher persönlicher erscheinen. Die Hauptfrage, die unsere Forschung antreibt, ist: Was ist der nächste logische Schritt in der Entwicklung interaktiver Geräte? Mache Wissenschaftler argumentieren, dass die Haut nicht mehr die Barriere für die nächste Generation von interaktiven Geräten sein wird, sondern dass diese direkt in den Körper der Nutzer implantiert werden. Zum Teil ist dies auch bereits passiert, wie Herzschrittmacher oder Insulinpumpen zeigen. Wir argumentieren jedoch, dass Geräte sich in Zukunft nicht zwingend innerhalb des Körpers befinden müssen, sondern sich an der richtigen „Schnittstelle“ befinden sollen, um die Funktion des Gerätes zu ermöglichen. Um diese Entwicklung voranzutreiben haben wir Geräte entwickelt, die Teile des Körpers selbst als Ein- und Ausgabe-Schnittstelle verwenden, anstatt weitere Geräte an den Körper anzubringen. In dieser Dissertation zeigen wir eine bestimmte Art dieser Geräte, nämlich solche, die Muskeln verwenden. Wir haben Ein-/Ausgabegeräte gebaut, die mit dem Nutzer interagieren indem sie Muskelaktivität erkennen und kontrollieren. Um Muskelaktivität zu kontrollieren benutzen wir Signalgeber von medizinischer Qualität, die mithilfe von auf die Haut geklebten Elektroden elektrische Signale an die Muskeln des Nutzers senden. Diese Signale bewirken dann eine Kontraktion des Muskels. Geräte zur elektrischen Muskelstimulation (EMS) werden seit den 1960er-Jahren zur Regeneration von motorischen Funktionen verwendet. In dieser Dissertation schlagen wir jedoch einen neuen Ansatz vor: elektrische Muskelstimulation als Kommunikationskanal zwischen Mensch und interaktiven Computersysteme. Zunächst stellen wir unsere sieben interaktiven Prototypen vor, welche die zahlreichen Vorteile von EMS demonstrieren. Diese Geräte können in zwei Hauptkategorien unterteilt werden: (1) Geräte, die Nutzern Zugang zu Information direkt über ihre propriozeptive Wahrnehmung geben ohne einen visuellen Reiz. Diese Informationen können zum Beispiel Variablen, Diagramme oder die Handhabung von Werkzeugen beinhalten. (2) Des Weiteren zeigen wir Geräte, welche die Immersion in virtuelle Umgebungen erhöhen indem sie physikalische Kräfte wie Wind, physischen Kontakt, Wände oder schwere Objekte, simulieren. Wir analysieren in dieser Arbeit außerdem das Potential von EMS für miniaturisierte interaktive Systeme und diskutieren, wie solche EMS Systeme die propriozeptive Wahrnehmung wirksam als Ein-/Ausgabemodalität nutzen können. Dazu stellen wir die Vor- und Nachteile von EMS und mechanisch-haptischen Geräten, wie zum Beispiel Exoskeletten, gegenüber. Zum Abschluss skizzieren wir zukünftige Richtungen in der Erforschung von interaktiven EMS Systemen, indem wir bislang offen gebliebene technische, ethische und philosophische Fragen aufzeigen. KW - electrical muscle stimulation KW - wearables KW - virtual reality KW - Wearable KW - elektrische Muskelstimulation KW - virtuelle Realität Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-421165 ER - TY - THES A1 - Lindinger, Jakob T1 - Variational inference for composite Gaussian process models T1 - Variationelle Inferenz für zusammengesetzte Gauß-Prozess Modelle N2 - Most machine learning methods provide only point estimates when being queried to predict on new data. This is problematic when the data is corrupted by noise, e.g. from imperfect measurements, or when the queried data point is very different to the data that the machine learning model has been trained with. Probabilistic modelling in machine learning naturally equips predictions with corresponding uncertainty estimates which allows a practitioner to incorporate information about measurement noise into the modelling process and to know when not to trust the predictions. A well-understood, flexible probabilistic framework is provided by Gaussian processes that are ideal as building blocks of probabilistic models. They lend themself naturally to the problem of regression, i.e., being given a set of inputs and corresponding observations and then predicting likely observations for new unseen inputs, and can also be adapted to many more machine learning tasks. However, exactly inferring the optimal parameters of such a Gaussian process model (in a computationally tractable manner) is only possible for regression tasks in small data regimes. Otherwise, approximate inference methods are needed, the most prominent of which is variational inference. In this dissertation we study models that are composed of Gaussian processes embedded in other models in order to make those more flexible and/or probabilistic. The first example are deep Gaussian processes which can be thought of as a small network of Gaussian processes and which can be employed for flexible regression. The second model class that we study are Gaussian process state-space models. These can be used for time-series modelling, i.e., the task of being given a stream of data ordered by time and then predicting future observations. For both model classes the state-of-the-art approaches offer a trade-off between expressive models and computational properties (e.g. speed or convergence properties) and mostly employ variational inference. Our goal is to improve inference in both models by first getting a deep understanding of the existing methods and then, based on this, to design better inference methods. We achieve this by either exploring the existing trade-offs or by providing general improvements applicable to multiple methods. We first provide an extensive background, introducing Gaussian processes and their sparse (approximate and efficient) variants. We continue with a description of the models under consideration in this thesis, deep Gaussian processes and Gaussian process state-space models, including detailed derivations and a theoretical comparison of existing methods. Then we start analysing deep Gaussian processes more closely: Trading off the properties (good optimisation versus expressivity) of state-of-the-art methods in this field, we propose a new variational inference based approach. We then demonstrate experimentally that our new algorithm leads to better calibrated uncertainty estimates than existing methods. Next, we turn our attention to Gaussian process state-space models, where we closely analyse the theoretical properties of existing methods.The understanding gained in this process leads us to propose a new inference scheme for general Gaussian process state-space models that incorporates effects on multiple time scales. This method is more efficient than previous approaches for long timeseries and outperforms its comparison partners on data sets in which effects on multiple time scales (fast and slowly varying dynamics) are present. Finally, we propose a new inference approach for Gaussian process state-space models that trades off the properties of state-of-the-art methods in this field. By combining variational inference with another approximate inference method, the Laplace approximation, we design an efficient algorithm that outperforms its comparison partners since it achieves better calibrated uncertainties. N2 - Bei Vorhersagen auf bisher ungesehenen Datenpunkten liefern die meisten maschinellen Lernmethoden lediglich Punktprognosen. Dies kann problematisch sein, wenn die Daten durch Rauschen verfälscht sind, z. B. durch unvollkommene Messungen, oder wenn der abgefragte Datenpunkt sich stark von den Daten unterscheidet, mit denen das maschinelle Lernmodell trainiert wurde. Mithilfe probabilistischer Modellierung (einem Teilgebiet des maschinellen Lernens) werden die Vorhersagen der Methoden auf natürliche Weise durch Unsicherheiten ergänzt. Dies erlaubt es, Informationen über Messunsicherheiten in den Modellierungsprozess mit einfließen zu lassen, sowie abzuschätzen, bei welchen Vorhersagen dem Modell vertraut werden kann. Grundlage vieler probabilistischer Modelle bilden Gaußprozesse, die gründlich erforscht und äußerst flexibel sind und daher häufig als Bausteine für größere Modelle dienen. Für Regressionsprobleme, was heißt, von einem Datensatz bestehend aus Eingangsgrößen und zugehörigen Messungen auf wahrscheinliche Messwerte für bisher ungesehene Eingangsgrößen zu schließen, sind Gaußprozesse hervorragend geeignet. Zusätzlich können sie an viele weitere Aufgabenstellungen des maschinellen Lernens angepasst werden. Die Bestimmung der optimalen Parameter eines solchen Gaußprozessmodells (in einer annehmbaren Zeit) ist jedoch nur für Regression auf kleinen Datensätzen möglich. In allen anderen Fällen muss auf approximative Inferenzmethoden zurückgegriffen werden, wobei variationelle Inferenz die bekannteste ist. In dieser Dissertation untersuchen wir Modelle, die Gaußprozesse eingebettet in andere Modelle enthalten, um Letztere flexibler und/oder probabilistisch zu machen. Das erste Beispiel hierbei sind tiefe Gaußprozesse, die man sich als kleines Netzwerk von Gaußprozessen vorstellen kann und die für flexible Regression eingesetzt werden können. Die zweite Modellklasse, die wir genauer analysieren ist die der Gaußprozess-Zustandsraummodelle. Diese können zur Zeitreihenmodellierung verwendet werden, das heißt, um zukünftige Datenpunkte auf Basis eines nach der Zeit geordneten Eingangsdatensatzes vorherzusagen. Für beide genannten Modellklassen bieten die modernsten Ansatze einen Kompromiss zwischen expressiven Modellen und wunschenswerten rechentechnischen Eigenschaften (z. B. Geschwindigkeit oder Konvergenzeigenschaften). Desweiteren wird für die meisten Methoden variationelle Inferenz verwendet. Unser Ziel ist es, die Inferenz für beide Modellklassen zu verbessern, indem wir zunächst ein tieferes Verständnis der bestehenden Ansätze erlangen und darauf aufbauend bessere Inferenzverfahren entwickeln. Indem wir die bestehenden Kompromisse der heutigen Methoden genauer untersuchen, oder dadurch, dass wir generelle Verbesserungen anbieten, die sich auf mehrere Modelle anwenden lassen, erreichen wir dieses Ziel. Wir beginnen die Thesis mit einer umfassender Einführung, die den notwendigen technischen Hintergrund zu Gaußprozessen sowie spärlichen (approximativen und effizienten) Gaußprozessen enthält. Anschließend werden die in dieser Thesis behandelten Modellklassen, tiefe Gaußprozesse und Gaußprozess-Zustandsraummodelle, eingeführt, einschließlich detaillierter Herleitungen und eines theoretischen Vergleichs existierender Methoden. Darauf aufbauend untersuchen wir zuerst tiefe Gaußprozesse genauer und entwickeln dann eine neue Inferenzmethode. Diese basiert darauf, die wünschenswerten Eigenschaften (gute Optimierungseigenschaften gegenüber Expressivität) der modernsten Ansätze gegeneinander abzuwägen. Anschließend zeigen wir experimentell, dass unser neuer Algorithmus zu besser kalibrierten Unsicherheitsabschätzungen als bei bestehenden Methoden führt. Als Nächstes wenden wir uns Gaußprozess-Zustandsraummodelle zu, wo wir zuerst die theoretischen Eigenschaften existierender Ansätze genau analysieren. Wir nutzen das dabei gewonnene Verständnis, um ein neues Inferenzverfahren für Gaußprozess-Zustandsraummodelle einzuführen, welches Effekte auf verschiedenen Zeitskalen berücksichtigt. Für lange Zeitreihen ist diese Methode effizienter als bisherige Ansätze. Darüber hinaus übertrifft sie ihre Vergleichspartner auf Datensätzen, bei denen Effekte auf mehreren Zeitskalen (sich schnell und langsam verändernde Signale) auftreten. Zuletzt schlagen wir ein weiteres neues Inferenzverfahren für Gaußprozess-Zustandsraummodelle vor, das die Eigenschaften der aktuellsten Methoden auf diesem Gebiet gegeneinander abwägt. Indem wir variationelle Inferenz mit einem weiteren approximativen Inferenzverfahren, der Laplace- Approximation, kombinieren, entwerfen wir einen effizienten Algorithmus der seine Vergleichspartner dadurch übertrifft, dass er besser kalibrierte Unsicherheitsvorhersagen erzielt. KW - probabilistic machine learning KW - Gaussian processes KW - variational inference KW - deep Gaussian processes KW - Gaussian process state-space models KW - Gauß-Prozess Zustandsraummodelle KW - Gauß-Prozesse KW - tiefe Gauß-Prozesse KW - probabilistisches maschinelles Lernen KW - variationelle Inferenz Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-604441 ER - TY - GEN A1 - Limberger, Daniel A1 - Gropler, Anne A1 - Buschmann, Stefan A1 - Döllner, Jürgen Roland Friedrich A1 - Wasty, Benjamin T1 - OpenLL BT - an API for Dynamic 2D and 3D Labeling T2 - 22nd International Conference Information Visualisation (IV) N2 - Today's rendering APIs lack robust functionality and capabilities for dynamic, real-time text rendering and labeling, which represent key requirements for 3D application design in many fields. As a consequence, most rendering systems are barely or not at all equipped with respective capabilities. This paper drafts the unified text rendering and labeling API OpenLL intended to complement common rendering APIs, frameworks, and transmission formats. For it, various uses of static and dynamic placement of labels are showcased and a text interaction technique is presented. Furthermore, API design constraints with respect to state-of-the-art text rendering techniques are discussed. This contribution is intended to initiate a community-driven specification of a free and open label library. KW - visualization KW - labeling KW - real-time rendering Y1 - 2018 SN - 978-1-5386-7202-0 U6 - https://doi.org/10.1109/iV.2018.00039 SP - 175 EP - 181 PB - IEEE CY - New York ER - TY - THES A1 - Limberger, Daniel T1 - Concepts and techniques for 3D-embedded treemaps and their application to software visualization T1 - Konzepte und Techniken für 3D-eingebettete Treemaps und ihre Anwendung auf Softwarevisualisierung N2 - This thesis addresses concepts and techniques for interactive visualization of hierarchical data using treemaps. It explores (1) how treemaps can be embedded in 3D space to improve their information content and expressiveness, (2) how the readability of treemaps can be improved using level-of-detail and degree-of-interest techniques, and (3) how to design and implement a software framework for the real-time web-based rendering of treemaps embedded in 3D. With a particular emphasis on their application, use cases from software analytics are taken to test and evaluate the presented concepts and techniques. Concerning the first challenge, this thesis shows that a 3D attribute space offers enhanced possibilities for the visual mapping of data compared to classical 2D treemaps. In particular, embedding in 3D allows for improved implementation of visual variables (e.g., by sketchiness and color weaving), provision of new visual variables (e.g., by physically based materials and in situ templates), and integration of visual metaphors (e.g., by reference surfaces and renderings of natural phenomena) into the three-dimensional representation of treemaps. For the second challenge—the readability of an information visualization—the work shows that the generally higher visual clutter and increased cognitive load typically associated with three-dimensional information representations can be kept low in treemap-based representations of both small and large hierarchical datasets. By introducing an adaptive level-of-detail technique, we cannot only declutter the visualization results, thereby reducing cognitive load and mitigating occlusion problems, but also summarize and highlight relevant data. Furthermore, this approach facilitates automatic labeling, supports the emphasis on data outliers, and allows visual variables to be adjusted via degree-of-interest measures. The third challenge is addressed by developing a real-time rendering framework with WebGL and accumulative multi-frame rendering. The framework removes hardware constraints and graphics API requirements, reduces interaction response times, and simplifies high-quality rendering. At the same time, the implementation effort for a web-based deployment of treemaps is kept reasonable. The presented visualization concepts and techniques are applied and evaluated for use cases in software analysis. In this domain, data about software systems, especially about the state and evolution of the source code, does not have a descriptive appearance or natural geometric mapping, making information visualization a key technology here. In particular, software source code can be visualized with treemap-based approaches because of its inherently hierarchical structure. With treemaps embedded in 3D, we can create interactive software maps that visually map, software metrics, software developer activities, or information about the evolution of software systems alongside their hierarchical module structure. Discussions on remaining challenges and opportunities for future research for 3D-embedded treemaps and their applications conclude the thesis. N2 - Diese Doktorarbeit behandelt Konzepte und Techniken zur interaktiven Visualisierung hierarchischer Daten mit Hilfe von Treemaps. Sie untersucht (1), wie Treemaps im 3D-Raum eingebettet werden können, um ihre Informationsinhalte und Ausdrucksfähigkeit zu verbessern, (2) wie die Lesbarkeit von Treemaps durch Techniken wie Level-of-Detail und Degree-of-Interest verbessert werden kann, und (3) wie man ein Software-Framework für das Echtzeit-Rendering von Treemaps im 3D-Raum entwirft und implementiert. Dabei werden Anwendungsfälle aus der Software-Analyse besonders betont und zur Verprobung und Bewertung der Konzepte und Techniken verwendet. Hinsichtlich der ersten Herausforderung zeigt diese Arbeit, dass ein 3D-Attributraum im Vergleich zu klassischen 2D-Treemaps verbesserte Möglichkeiten für die visuelle Kartierung von Daten bietet. Insbesondere ermöglicht die Einbettung in 3D eine verbesserte Umsetzung von visuellen Variablen (z.B. durch Skizzenhaftigkeit und Farbverwebungen), die Bereitstellung neuer visueller Variablen (z.B. durch physikalisch basierte Materialien und In-situ-Vorlagen) und die Integration visueller Metaphern (z.B. durch Referenzflächen und Darstellungen natürlicher Phänomene) in die dreidimensionale Darstellung von Treemaps. Für die zweite Herausforderung – die Lesbarkeit von Informationsvisualisierungen – zeigt die Arbeit, dass die allgemein höhere visuelle Unübersichtlichkeit und die damit einhergehende, erhöhte kognitive Belastung, die typischerweise mit dreidimensionalen Informationsdarstellungen verbunden sind, in Treemap-basierten Darstellungen sowohl kleiner als auch großer hierarchischer Datensätze niedrig gehalten werden können. Durch die Einführung eines adaptiven Level-of-Detail-Verfahrens lassen sich nicht nur die Visualisierungsergebnisse übersichtlicher gestalten, die kognitive Belastung reduzieren und Verdeckungsprobleme verringern, sondern auch relevante Daten zusammenfassen und hervorheben. Darüber hinaus erleichtert dieser Ansatz eine automatische Beschriftung, unterstützt die Hervorhebung von Daten-Ausreißern und ermöglicht die Anpassung von visuellen Variablen über Degree-of-Interest-Maße. Die dritte Herausforderung wird durch die Entwicklung eines Echtzeit-Rendering-Frameworks mit WebGL und akkumulativem Multi-Frame-Rendering angegangen. Das Framework hebt mehrere Hardwarebeschränkungen und Anforderungen an die Grafik-API auf, verkürzt die Reaktionszeiten auf Interaktionen und vereinfacht qualitativ hochwertiges Rendering. Gleichzeitig wird der Implementierungsaufwand für einen webbasierten Einsatz von Treemaps geringgehalten. Die vorgestellten Visualisierungskonzepte und -techniken werden für Anwendungsfälle in der Softwareanalyse eingesetzt und evaluiert. In diesem Bereich haben Daten über Softwaresysteme, insbesondere über den Zustand und die Evolution des Quellcodes, keine anschauliche Erscheinung oder natürliche geometrische Zuordnung, so dass die Informationsvisualisierung hier eine Schlüsseltechnologie darstellt. Insbesondere Softwarequellcode kann aufgrund seiner inhärenten hierarchischen Struktur mit Hilfe von Treemap-basierten Ansätzen visualisiert werden. Mit in 3D-eingebetteten Treemaps können wir interaktive Softwarelagekarten erstellen, die z.B. Softwaremetriken, Aktivitäten von Softwareentwickler*innen und Informationen über die Evolution von Softwaresystemen in ihrer hierarchischen Modulstruktur abbilden und veranschaulichen. Diskussionen über verbleibende Herausforderungen und Möglichkeiten für zukünftige Forschung zu 3D-eingebetteten Treemaps und deren Anwendungen schließen die Arbeit ab. KW - treemaps KW - software visualization KW - software analytics KW - web-based rendering KW - degree-of-interest techniques KW - labeling KW - 3D-embedding KW - interactive visualization KW - progressive rendering KW - hierarchical data KW - 3D-Einbettung KW - Interessengrad-Techniken KW - hierarchische Daten KW - interaktive Visualisierung KW - Beschriftung KW - progressives Rendering KW - Softwareanalytik KW - Softwarevisualisierung KW - Treemaps KW - Web-basiertes Rendering Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-632014 ER - TY - JOUR A1 - Limanowski, Jakub A1 - Lopes, Pedro A1 - Keck, Janis A1 - Baudisch, Patrick A1 - Friston, Karl A1 - Blankenburg, Felix T1 - Action-dependent processing of touch in the human parietal operculum and posterior insula JF - Cerebral Cortex N2 - Somatosensory input generated by one's actions (i.e., self-initiated body movements) is generally attenuated. Conversely, externally caused somatosensory input is enhanced, for example, during active touch and the haptic exploration of objects. Here, we used functional magnetic resonance imaging (fMRI) to ask how the brain accomplishes this delicate weighting of self-generated versus externally caused somatosensory components. Finger movements were either self-generated by our participants or induced by functional electrical stimulation (FES) of the same muscles. During half of the trials, electrotactile impulses were administered when the (actively or passively) moving finger reached a predefined flexion threshold. fMRI revealed an interaction effect in the contralateral posterior insular cortex (pIC), which responded more strongly to touch during self-generated than during FES-induced movements. A network analysis via dynamic causal modeling revealed that connectivity from the secondary somatosensory cortex via the pIC to the supplementary motor area was generally attenuated during self-generated relative to FES-induced movements-yet specifically enhanced by touch received during self-generated, but not FES-induced movements. Together, these results suggest a crucial role of the parietal operculum and the posterior insula in differentiating self-generated from externally caused somatosensory information received from one's moving limb. KW - active touch KW - dynamic causal modeling KW - insula KW - parietal operculum KW - somatosensation Y1 - 2019 U6 - https://doi.org/10.1093/cercor/bhz111 SN - 1047-3211 SN - 1460-2199 VL - 30 IS - 2 SP - 607 EP - 617 PB - Oxford University Press CY - Oxford ER - TY - GEN A1 - Lewkowicz, Daniel A1 - Wohlbrandt, Attila A1 - Böttinger, Erwin T1 - Economic impact of clinical decision support interventions based on electronic health records T2 - Postprints der Universität Potsdam : Reihe der Digital Engineering Fakultät N2 - Background Unnecessary healthcare utilization, non-adherence to current clinical guidelines, or insufficient personalized care are perpetual challenges and remain potential major cost-drivers for healthcare systems around the world. Implementing decision support systems into clinical care is promised to improve quality of care and thereby yield substantial effects on reducing healthcare expenditure. In this article, we evaluate the economic impact of clinical decision support (CDS) interventions based on electronic health records (EHR). Methods We searched for studies published after 2014 using MEDLINE, CENTRAL, WEB OF SCIENCE, EBSCO, and TUFTS CEA registry databases that encompass an economic evaluation or consider cost outcome measures of EHR based CDS interventions. Thereupon, we identified best practice application areas and categorized the investigated interventions according to an existing taxonomy of front-end CDS tools. Results and discussion Twenty-seven studies are investigated in this review. Of those, twenty-two studies indicate a reduction of healthcare expenditure after implementing an EHR based CDS system, especially towards prevalent application areas, such as unnecessary laboratory testing, duplicate order entry, efficient transfusion practice, or reduction of antibiotic prescriptions. On the contrary, order facilitators and undiscovered malfunctions revealed to be threats and could lead to new cost drivers in healthcare. While high upfront and maintenance costs of CDS systems are a worldwide implementation barrier, most studies do not consider implementation cost. Finally, four included economic evaluation studies report mixed monetary outcome results and thus highlight the importance of further high-quality economic evaluations for these CDS systems. Conclusion Current research studies lack consideration of comparative cost-outcome metrics as well as detailed cost components in their analyses. Nonetheless, the positive economic impact of EHR based CDS interventions is highly promising, especially with regard to reducing waste in healthcare. T3 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät - 5 KW - Economic evaluation KW - Electronic health record KW - Clinical decision support KW - Behavioral economics Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-501376 IS - 5 ER - TY - JOUR A1 - Lewkowicz, Daniel A1 - Wohlbrandt, Attila A1 - Böttinger, Erwin T1 - Economic impact of clinical decision support interventions based on electronic health records JF - BMC Health Services Research N2 - Background Unnecessary healthcare utilization, non-adherence to current clinical guidelines, or insufficient personalized care are perpetual challenges and remain potential major cost-drivers for healthcare systems around the world. Implementing decision support systems into clinical care is promised to improve quality of care and thereby yield substantial effects on reducing healthcare expenditure. In this article, we evaluate the economic impact of clinical decision support (CDS) interventions based on electronic health records (EHR). Methods We searched for studies published after 2014 using MEDLINE, CENTRAL, WEB OF SCIENCE, EBSCO, and TUFTS CEA registry databases that encompass an economic evaluation or consider cost outcome measures of EHR based CDS interventions. Thereupon, we identified best practice application areas and categorized the investigated interventions according to an existing taxonomy of front-end CDS tools. Results and discussion Twenty-seven studies are investigated in this review. Of those, twenty-two studies indicate a reduction of healthcare expenditure after implementing an EHR based CDS system, especially towards prevalent application areas, such as unnecessary laboratory testing, duplicate order entry, efficient transfusion practice, or reduction of antibiotic prescriptions. On the contrary, order facilitators and undiscovered malfunctions revealed to be threats and could lead to new cost drivers in healthcare. While high upfront and maintenance costs of CDS systems are a worldwide implementation barrier, most studies do not consider implementation cost. Finally, four included economic evaluation studies report mixed monetary outcome results and thus highlight the importance of further high-quality economic evaluations for these CDS systems. Conclusion Current research studies lack consideration of comparative cost-outcome metrics as well as detailed cost components in their analyses. Nonetheless, the positive economic impact of EHR based CDS interventions is highly promising, especially with regard to reducing waste in healthcare. KW - Economic evaluation KW - Electronic health record KW - Clinical decision support KW - Behavioral economics Y1 - 2020 U6 - https://doi.org/10.1186/s12913-020-05688-3 SN - 1472-6963 VL - 20 PB - BioMed Central CY - London ER - TY - JOUR A1 - Lewkowicz, Daniel A1 - Böttinger, Erwin A1 - Siegel, Martin T1 - Economic evaluation of digital therapeutic care apps for unsupervised treatment of low back pain BT - Monte Carlo Simulation JF - JMIR mhealth and uhealth N2 - Background: Digital therapeutic care (DTC) programs are unsupervised app-based treatments that provide video exercises and educational material to patients with nonspecific low back pain during episodes of pain and functional disability. German statutory health insurance can reimburse DTC programs since 2019, but evidence on efficacy and reasonable pricing remains scarce. This paper presents a probabilistic sensitivity analysis (PSA) to evaluate the efficacy and cost-utility of a DTC app against treatment as usual (TAU) in Germany. Objective: The aim of this study was to perform a PSA in the form of a Monte Carlo simulation based on the deterministic base case analysis to account for model assumptions and parameter uncertainty. We also intend to explore to what extent the results in this probabilistic analysis differ from the results in the base case analysis and to what extent a shortage of outcome data concerning quality-of-life (QoL) metrics impacts the overall results. Methods: The PSA builds upon a state-transition Markov chain with a 4-week cycle length over a model time horizon of 3 years from a recently published deterministic cost-utility analysis. A Monte Carlo simulation with 10,000 iterations and a cohort size of 10,000 was employed to evaluate the cost-utility from a societal perspective. Quality-adjusted life years (QALYs) were derived from Veterans RAND 6-Dimension (VR-6D) and Short-Form 6-Dimension (SF-6D) single utility scores. Finally, we also simulated reducing the price for a 3-month app prescription to analyze at which price threshold DTC would result in being the dominant strategy over TAU in Germany. Results: The Monte Carlo simulation yielded on average a euro135.97 (a currency exchange rate of EUR euro1=US $1.069 is applicable) incremental cost and 0.004 incremental QALYs per person and year for the unsupervised DTC app strategy compared to in-person physiotherapy in Germany. The corresponding incremental cost-utility ratio (ICUR) amounts to an additional euro34,315.19 per additional QALY. DTC yielded more QALYs in 54.96% of the iterations. DTC dominates TAU in 24.04% of the iterations for QALYs. Reducing the app price in the simulation from currently euro239.96 to euro164.61 for a 3-month prescription could yield a negative ICUR and thus make DTC the dominant strategy, even though the estimated probability of DTC being more effective than TAU is only 54.96%. Conclusions: Decision-makers should be cautious when considering the reimbursement of DTC apps since no significant treatment effect was found, and the probability of cost-effectiveness remains below 60% even for an infinite willingness-to-pay threshold. More app-based studies involving the utilization of QoL outcome parameters are urgently needed to account for the low and limited precision of the available QoL input parameters, which are crucial to making profound recommendations concerning the cost-utility of novel apps. KW - cost-utility analysis KW - cost KW - probabilistic sensitivity analysis KW - Monte Carlo simulation KW - low back pain KW - pain KW - economic KW - cost-effectiveness KW - Markov model KW - digital therapy KW - digital health app KW - mHealth KW - mobile health KW - health app KW - mobile app KW - orthopedic KW - QUALY KW - DALY KW - quality-adjusted life years KW - disability-adjusted life years KW - time horizon KW - veteran KW - statistics Y1 - 2023 U6 - https://doi.org/10.2196/44585 SN - 2291-5222 VL - 11 PB - JMIR Publications CY - Toronto ER - TY - THES A1 - Lazaridou, Konstantina T1 - Revealing hidden patterns in political news and social media with machine learning T1 - Aufdecken versteckter Muster in politischen Nachrichten und sozialen Medien mit Hilfe von maschinellem Lernen N2 - As part of our everyday life we consume breaking news and interpret it based on our own viewpoints and beliefs. We have easy access to online social networking platforms and news media websites, where we inform ourselves about current affairs and often post about our own views, such as in news comments or social media posts. The media ecosystem enables opinions and facts to travel from news sources to news readers, from news article commenters to other readers, from social network users to their followers, etc. The views of the world many of us have depend on the information we receive via online news and social media. Hence, it is essential to maintain accurate, reliable and objective online content to ensure democracy and verity on the Web. To this end, we contribute to a trustworthy media ecosystem by analyzing news and social media in the context of politics to ensure that media serves the public interest. In this thesis, we use text mining, natural language processing and machine learning techniques to reveal underlying patterns in political news articles and political discourse in social networks. Mainstream news sources typically cover a great amount of the same news stories every day, but they often place them in a different context or report them from different perspectives. In this thesis, we are interested in how distinct and predictable newspaper journalists are, in the way they report the news, as a means to understand and identify their different political beliefs. To this end, we propose two models that classify text from news articles to their respective original news source, i.e., reported speech and also news comments. Our goal is to capture systematic quoting and commenting patterns by journalists and news commenters respectively, which can lead us to the newspaper where the quotes and comments are originally published. Predicting news sources can help us understand the potential subjective nature behind news storytelling and the magnitude of this phenomenon. Revealing this hidden knowledge can restore our trust in media by advancing transparency and diversity in the news. Media bias can be expressed in various subtle ways in the text and it is often challenging to identify these bias manifestations correctly, even for humans. However, media experts, e.g., journalists, are a powerful resource that can help us overcome the vague definition of political media bias and they can also assist automatic learners to find the hidden bias in the text. Due to the enormous technological advances in artificial intelligence, we hypothesize that identifying political bias in the news could be achieved through the combination of sophisticated deep learning modelsxi and domain expertise. Therefore, our second contribution is a high-quality and reliable news dataset annotated by journalists for political bias and a state-of-the-art solution for this task based on curriculum learning. Our aim is to discover whether domain expertise is necessary for this task and to provide an automatic solution for this traditionally manually-solved problem. User generated content is fundamentally different from news articles, e.g., messages are shorter, they are often personal and opinionated, they refer to specific topics and persons, etc. Regarding political and socio-economic news, individuals in online communities make use of social networks to keep their peers up-to-date and to share their own views on ongoing affairs. We believe that social media is also an as powerful instrument for information flow as the news sources are, and we use its unique characteristic of rapid news coverage for two applications. We analyze Twitter messages and debate transcripts during live political presidential debates to automatically predict the topics that Twitter users discuss. Our goal is to discover the favoured topics in online communities on the dates of political events as a way to understand the political subjects of public interest. With the up-to-dateness of microblogs, an additional opportunity emerges, namely to use social media posts and leverage the real-time verity about discussed individuals to find their locations. That is, given a person of interest that is mentioned in online discussions, we use the wisdom of the crowd to automatically track her physical locations over time. We evaluate our approach in the context of politics, i.e., we predict the locations of US politicians as a proof of concept for important use cases, such as to track people that are national risks, e.g., warlords and wanted criminals. N2 - Als festen Bestandteil unseres täglichen Lebens konsumieren wir aktuelle Nachrichten und interpretieren sie basierend auf unseren eigenen Ansichten und Überzeugungen. Wir haben einfachen Zugang zu sozialen Netzwerken und Online-Nachrichtenportalen, auf denen wir uns über aktuelle Angelegenheiten informieren und eigene Ansichten teilen, wie zum Beispiel mit Nachrichtenkommentaren oder Social-Media-Posts. Das Medien-Ökosystem ermöglicht es zum Beispiel, dass Meinungen und Fakten von Nachrichtenquellen zu Lesern, von Kommentatoren zu anderen Lesern oder von Nutzern sozialer Netzwerke zu ihren Anhängern gelangen. Die Weltsicht hängt für viele von uns von Informationen ab, die wir über Online-Nachrichten und soziale Medien erhalten. Hierfür ist es wichtig genaue, zuverlässige und objektive Inhalte zuzusichern, um die Demokratie und Wahrheit im Web gewährleisten zu können. Um zu einem vertrauenswürdigen Medien-Ökosystem beizutragen, analysieren wir Nachrichten und soziale Medien im politischen Kontext und stellen sicher, dass die Medien dem öffentlichen Interesse dienen. In dieser Arbeit verwenden wir Techniken der Computerlinguistik, des maschinellen Lernens und des Text Minings, um zugrunde liegende Muster in politischen Nachrichtenartikel und im politischen Diskurs in sozialen Netzwerken aufzudecken. Mainstream-Nachrichtenquellen decken täglich üb­li­cher­wei­se eine große Anzahl derselben Nachrichten ab, aber sie stellen diese oft in einem anderen Kontext dar oder berichten aus unterschiedlichen Sichtweisen. In dieser Arbeit wird untersucht, wie individuell und vorhersehbar Zeitungsjournalisten in der Art der Berichterstattung sind, um die unterschiedlichen politischen Überzeugungen zu identifizieren und zu verstehen. Zu diesem Zweck schlagen wir zwei Modelle vor, die Text aus Nachrichtenartikeln klassifizieren und ihrer jeweiligen ursprünglichen Nachrichtenquelle zuordnen, insbesondere basierend auf Zitaten und Nachrichtenkommentaren. Unser Ziel ist es, systematische Zitierungs- und Kommentierungsmuster von Journalisten bzw. Nachrichtenkommentatoren zu erfassen, was uns zu der Zeitung führen kann, in der die Zitate und Kommentare ursprünglich veröffentlicht wurden. Die Vorhersage von Nachrichtenquellen kann uns helfen, die potenziell subjektive Natur hinter dem “Storytelling” und dem Ausmaß dieses Phänomens zu verstehen. Das enthüllen jenes verborgenen Wissens kann unser Vertrauen in die Medien wiederherstellen, indem es Transparenz und Vielfalt in den Nachrichten fördert. Politische Tendenzen in der Medienberichterstattung können textuell auf verschiedene subtile Arten ausgedrückt werden und es ist selbst für Menschen oft schwierig deren Manifestierung korrekt zu identifizieren. Medienexperten wie Journalisten, sind jedoch eine gute Ressource, die uns helfen kann, die vage Definition der politischen Medien Bias zu überwinden und sie können ebenfalls dabei helfen automatischen Modellen beizubringen, versteckten Bias im Text aufzudecken. Aufgrund der enormen technologischen Fortschritte im Bereich der künstlichen Intelligenz nehmen wir an, dass die Identifizierung politischer Vorurteile in den Nachrichten durch die Kombination aus ausgefeilten Deep-Learning-Modellen und Fachkenntnissen erreicht werden kann. Daher ist unser zweiter Beitrag ein qualitativ hochwertiger und zuverlässiger Nachrichtendatensatz, der von Journalisten in Bezug auf politischen Bias annotiert wurde und ein hochmoderner Algorithmus zur Lösung dieser Aufgabe, der auf dem Prinzip des “curriculum learning” basiert. Unser Ziel ist es herauszufinden, ob Domänenwissen für diese Aufgabe erforderlich ist und eine automatische Lösung für dieses traditionell manuell bearbeitete Problem bereitzustellen. Nutzergenerierte Inhalte unterscheiden sich grundlegend von Nachrichtenartikeln. Zum Beispiel sind Botschaften oft kürzer, persönlich und dogmatisch und sie beziehen sich oft auf spezifische Themen und Personen. In Bezug auf politische und sozioökonomische Nachrichten verwenden Individuen oft soziale Netzwerke, um andere Nutzer in ihrer In­te­r­es­sens­grup­pe auf dem Laufenden zu halten und ihre persönlichen Ansichten über aktuelle Angelegenheiten zu teilen. Wir glauben, dass soziale Medien auch ein gleichermaßen leistungsfähiges Instrument für den Informationsfluss sind wie Online-Zeitungen. Daher verwenden wir ihre einzigartige Eigenschaft der schnellen Berichterstattung für zwei Anwendungen. Wir analysieren Twitter-Nachrichten und Transkripte von politischen Live-Debatten zur Präsidentschaftswahl um Themen zu klassifizieren, die von der Nutzergemeinde diskutiert werden. Unser Ziel ist es die bevorzugten Themen zu identifizieren, die in Online-Gemeinschaften zu den Terminen politischer Ereignisse diskutiert werden um die Themen von öffentlichem Interesse zu verstehen. Durch die Aktualität von Microblogs ergibt sich die zusätzliche Möglichkeit Beiträge aus sozialen Medien zu nutzen um Echtzeit-Informationen über besprochene Personen zu finden und ihre physischen Positionen zu bestimmen. Das heißt, bei einer Person von öffentlichem Interesse, die in Online-Diskussionen erwähnt wird, verwenden wir die Schwarmintelligenz der Nutzerbasis, um ihren Standort im Verlauf der Zeit automatisch zu verfolgen. Wir untersuchen unseren Ansatz im politischen Kontext, indem wir die Standorte von US-Politikern während des Präsidentschaftswahlkampfes voraussagen. Mit diesem Ansatz bieten wir eine Machbarkeitsstudie für andere wichtige Anwendungsfälle, beispielsweise um Menschen zu verfolgen, die ein nationales Risiko darstellen, wie Kriegsherren und gesuchte Kriminelle. KW - media bias KW - news KW - politics KW - machine learning KW - maschinelles Lernen KW - Medien Bias KW - Nachrichten KW - Politik Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-502734 ER - TY - JOUR A1 - Langseth, Inger A1 - Jacobsen, Dan Yngve A1 - Haugsbakken, Halvdan T1 - MOOCs for Flexible and Lifelong Learning in Higher Education BT - The Struggle from within Loosely Coupled Organizations? JF - EMOOCs 2021 N2 - In this paper, we take a closer look at the development of Massive Open Online Courses (MOOC) in Norway. We want to contribute to nuancing the image of a sound and sustainable policy for flexible and lifelong learning at national and institutional levels and point to some critical areas of improvement in higher education institutions (HEI). 10 semistructured qualitative interviews were carried out in the autumn 2020 at ten different HE institutions across Norway. The informants were strategically selected among employees involved in MOOC-technology, MOOCproduction and MOOC-support over a period of time stretching from 2010–2020. A main finding is that academics engaged in MOOCs find that their entrepreneurial ideas and results, to a large extent, are overlooked at higher institutional levels, and that progress is frustratingly slow. So far, there seems to be little common understanding of the MOOC-concept and the disruptive and transformative effect that MOOC-technology may have at HEIs. At national levels, digital strategies, funding and digital infrastructure are mainly provided in governmental silos. We suggest that governmental bodies and institutional stake holders pay more attention to entrepreneurial MOOC-initiatives to develop sustainability in flexible and lifelong learning in HEIs. This involves connecting the generous funding of digital projects to the provision of a national portal and platform for Open Access to education. To facilitate sustainable lifelong learning in and across HEIs, more quality control to enhance the legitimacy of MOOC certificates and micro-credentials is also a necessary measure. Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-516930 SN - 978-3-86956-512-5 VL - 2021 SP - 63 EP - 78 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Lambers, Leen A1 - Born, Kristopher A1 - Kosiol, Jens A1 - Strüber, Daniel A1 - Taentzer, Gabriele T1 - Granularity of conflicts and dependencies in graph transformation systems BT - a two-dimensional approach JF - Journal of Logical and Algebraic Methods in Programming N2 - Conflict and dependency analysis (CDA) is a static analysis for the detection of conflicting and dependent rule applications in a graph transformation system. The state-of-the-art CDA technique, critical pair analysis, provides all potential conflicts and dependencies in minimal context as critical pairs, for each pair of rules. Yet, critical pairs can be hard to understand; users are mainly interested in core information about conflicts and dependencies occurring in various combinations. In this paper, we present an approach to conflicts and dependencies in graph transformation systems based on two dimensions of granularity. The first dimension refers to the overlap considered between the rules of a given rule pair; the second one refers to the represented amount of context information about transformations in which the conflicts occur. We introduce a variety of new conflict notions, in particular, conflict atoms, conflict reasons, and minimal conflict reasons, relate them to the existing conflict notions of critical pairs and initial conflicts, and position all of these notions within our granularity approach. Finally, we introduce dual concepts for dependency analysis. As we discuss in a running example, our approach paves the way for an improved CDA technique. (C) 2018 Elsevier Inc. All rights reserved. KW - Graph transformation (double pushout approach) KW - Parallel independence KW - Critical pair analysis (CPA) Y1 - 2018 U6 - https://doi.org/10.1016/j.jlamp.2018.11.004 SN - 2352-2208 VL - 103 SP - 105 EP - 129 PB - Elsevier CY - New York ER - TY - THES A1 - Lagodzinski, Julius Albert Gregor T1 - Counting homomorphisms over fields of prime order T1 - Zählen von Homomorphismen über Körper mit Primzahlordnung N2 - Homomorphisms are a fundamental concept in mathematics expressing the similarity of structures. They provide a framework that captures many of the central problems of computer science with close ties to various other fields of science. Thus, many studies over the last four decades have been devoted to the algorithmic complexity of homomorphism problems. Despite their generality, it has been found that non-uniform homomorphism problems, where the target structure is fixed, frequently feature complexity dichotomies. Exploring the limits of these dichotomies represents the common goal of this line of research. We investigate the problem of counting homomorphisms to a fixed structure over a finite field of prime order and its algorithmic complexity. Our emphasis is on graph homomorphisms and the resulting problem #_{p}Hom[H] for a graph H and a prime p. The main research question is how counting over a finite field of prime order affects the complexity. In the first part of this thesis, we tackle the research question in its generality and develop a framework for studying the complexity of counting problems based on category theory. In the absence of problem-specific details, results in the language of category theory provide a clear picture of the properties needed and highlight common ground between different branches of science. The proposed problem #Mor^{C}[B] of counting the number of morphisms to a fixed object B of C is abstract in nature and encompasses important problems like constraint satisfaction problems, which serve as a leading example for all our results. We find explanations and generalizations for a plethora of results in counting complexity. Our main technical result is that specific matrices of morphism counts are non-singular. The strength of this result lies in its algebraic nature. First, our proofs rely on carefully constructed systems of linear equations, which we know to be uniquely solvable. Second, by exchanging the field that the matrix is defined by to a finite field of order p, we obtain analogous results for modular counting. For the latter, cancellations are implied by automorphisms of order p, but intriguingly we find that these present the only obstacle to translating our results from exact counting to modular counting. If we restrict our attention to reduced objects without automorphisms of order p, we obtain results analogue to those for exact counting. This is underscored by a confluent reduction that allows this restriction by constructing a reduced object for any given object. We emphasize the strength of the categorial perspective by applying the duality principle, which yields immediate consequences for the dual problem of counting the number of morphisms from a fixed object. In the second part of this thesis, we focus on graphs and the problem #_{p}Hom[H]. We conjecture that automorphisms of order p capture all possible cancellations and that, for a reduced graph H, the problem #_{p}Hom[H] features the complexity dichotomy analogue to the one given for exact counting by Dyer and Greenhill. This serves as a generalization of the conjecture by Faben and Jerrum for the modulus 2. The criterion for tractability is that H is a collection of complete bipartite and reflexive complete graphs. From the findings of part one, we show that the conjectured dichotomy implies dichotomies for all quantum homomorphism problems, in particular counting vertex surjective homomorphisms and compactions modulo p. Since the tractable cases in the dichotomy are solved by trivial computations, the study of the intractable cases remains. As an initial problem in a series of reductions capable of implying hardness, we employ the problem of counting weighted independent sets in a bipartite graph modulo prime p. A dichotomy for this problem is shown, stating that the trivial cases occurring when a weight is congruent modulo p to 0 are the only tractable cases. We reduce the possible structure of H to the bipartite case by a reduction to the restricted homomorphism problem #_{p}Hom^{bip}[H] of counting modulo p the number of homomorphisms between bipartite graphs that maintain a given order of bipartition. This reduction does not have an impact on the accessibility of the technical results, thanks to the generality of the findings of part one. In order to prove the conjecture, it suffices to show that for a connected bipartite graph that is not complete, #_{p}Hom^{bip}[H] is #_{p}P-hard. Through a rigorous structural study of bipartite graphs, we establish this result for the rich class of bipartite graphs that are (K_{3,3}\{e}, domino)-free. This overcomes in particular the substantial hurdle imposed by squares, which leads us to explore the global structure of H and prove the existence of explicit structures that imply hardness. N2 - Homomorphismen sind ein grundlegendes Konzept der Mathematik, das die Ähnlichkeit von Strukturen ausdrückt. Sie bieten einen Rahmen, der viele der zentralen Probleme der Informatik umfasst und enge Verbindungen zu verschiedenen Wissenschaftsbereichen aufweist. Aus diesem Grund haben sich in den letzten vier Jahrzehnten viele Studien mit der algorithmischen Komplexität von Homomorphismusproblemen beschäftigt. Trotz ihrer Allgemeingültigkeit wurden Komplexitätsdichotomien häufig für nicht-uniforme Homomorphismusprobleme nachgewiesen, bei denen die Zielstruktur fixiert ist. Die Grenzen dieser Dichotomien zu erforschen, ist das gemeinsame Ziel dieses Forschungskalküls. Wir untersuchen das Problem und seine algorithmische Komplexität, Homomorphismen zu einer festen Struktur über einem endlichen Körper mit Primzahlordnung zu zählen. Wir konzentrieren uns auf Graphenhomomorphismen und das daraus resultierende Problem #_{p}Hom[H] für einen Graphen H und eine Primzahl p. Die Hauptforschungsfrage ist, wie das Zählen über einem endlichen Körper mit Primzahlordnung die Komplexität beeinflusst. Im ersten Teil wird die Forschungsfrage in ihrer Allgemeinheit behandelt und ein Rahmen für die Untersuchung der Komplexität von Zählproblemen auf der Grundlage der Kategorientheorie entwickelt. Losgelöst von problemspezifischen Details liefern die Ergebnisse in der Sprache der Kategorientheorie ein klares Bild der benötigten Eigenschaften und zeigen Gemeinsamkeiten zwischen verschiedenen Wissenschaftsgebieten auf. Das vorgeschlagene Problem #Mor^{C}[B] des Zählens der Anzahl von Morphismen zu einem festen Objekt B von C ist abstrakter Natur und umfasst wichtige Probleme wie Constraint Satisfaction Problems, die als leitendes Beispiel für alle unsere Ergebnisse dienen. Wir finden Erklärungen und Verallgemeinerungen für eine Vielzahl von Ergebnissen in der Komplexitätstheorie von Zählproblemen. Unser wichtigstes technisches Ergebnis ist, dass bestimmte Matrizen von Morphismenzahlen nicht singulär sind. Die Stärke dieses Ergebnisses liegt in seiner algebraischen Natur. Erstens basieren unsere Beweise auf sorgfältig konstruierten linearen Gleichungssystemen, von denen wir wissen, dass sie eindeutig lösbar sind. Zweitens, indem wir den Körper, über dem die Matrix definiert ist, durch einen endlichen Körper der Ordnung p ersetzen, erhalten wir analoge Ergebnisse für das modulare Zählen. Für letztere sind Annullierungen durch Automorphismen der Ordnung p impliziert, aber faszinierenderweise stellen diese das einzige Hindernis für die Übertragung unserer Ergebnisse von der exakten auf die modulare Zählung dar. Wenn wir unsere Aufmerksamkeit auf reduzierte Objekte ohne Automorphismen der Ordnung p beschränken, erhalten wir Ergebnisse, die zu denen des exakten Zählens analog sind. Dies wird durch eine konfluente Reduktion unterstrichen, die für jedes beliebige Objekt ein reduziertes Objekt konstruiert. Wir heben die Stärke der kategorialen Perspektive durch die Anwendung des Dualitätsprinzips hervor, das direkte Konsequenzen für das duale Problem des Zählens der Anzahl der Morphismen von einem fixen Objekts aus liefert. Im zweiten Teil konzentrieren wir uns auf Graphen und das Problem #_{p}Hom[H]. Wir stellen die Vermutung auf, dass Automorphismen der Ordnung p alle möglichen Annullierungen erklären und dass das Problem #_{p}Hom[H] für einen reduzierten Graphen H eine Komplexitätsdichotomie analog zu der aufweist, die von Dyer und Greenhill für das exakte Zählen bewiesen wurde. Dies stellt eine Verallgemeinerung der Vermutung von Faben und Jerrum für den Modulus 2 dar. Das Kriterium für die effiziente Lösbarkeit ist, dass H lediglich aus vollständigen bipartiten und reflexiven vollständigen Graphen besteht. Basierend auf den Ergebnisse des ersten Teils zeigen wir, dass die Vermutung Dichotomien für alle Quantenhomomorphismenprobleme impliziert, insbesondere für das Zählen modulo p von Homomorphismen surjektiv auf Knoten und von Verdichtungen. Da die effizient lösbaren Fälle in der Dichotomie durch triviale Berechnungen gelöst werden, bleibt es, die unlösbaren Fälle zu untersuchen. Als erstes Problem in einer Reihe von Reduktionen, deren Ziel es ist, Härte zu implizieren, verwenden wir das Problem des Zählens gewichteter unabhängiger Mengen in einem bipartiten Graphen modulo p. Für dieses Problem beweisen wir eine Dichotomie, die besagt, dass nur die trivialen Fälle effizient lösbar sind. Diese treten auf, wenn ein Gewicht kongruent modulo p zu 0 ist. Durch eine Reduktion auf das eingeschränkte Homomorphismusproblem #_{p}Hom^{bip}[H] reduzieren wir die mögliche Struktur von H auf den bipartiten Fall. Hierbei handelt es sich um das Problem des Zählens modulo p der Homomorphismen zwischen bipartiten Graphen, die eine gegebene Ordnung der Bipartition erhalten. Dank der Allgemeingültigkeit der Ergebnisse des ersten Teils hat diese Reduktion keinen Einfluss auf die Verfügbarkeit der technischen Ergebnisse. Für einen Beweis der Vermutung genügt es zu zeigen, dass #_{p}Hom^{bip}[H] für einen zusammenhängenden und nicht vollständigen bipartiten Graphen #_{p}P-schwer ist. Durch eine rigorose Untersuchung der Struktur von bipartiten Graphen beweisen wir dieses Ergebnis für die umfangreiche Klasse von bipartiten Graphen, die (K_{3,3}\{e}, domino)-frei sind. Dies überwindet insbesondere die substantielle Hürde, die durch Quadrate gegeben ist und uns dazu veranlasst, die globale Struktur von H zu untersuchen und die Existenz expliziter Strukturen zu beweisen, die Härte implizieren. KW - complexity theory KW - (modular) counting KW - relational structures KW - categories KW - homomorphisms KW - Zählen KW - Kategorien KW - Komplexitätstheorie KW - Homomorphismen KW - relationale Strukturen Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-646037 ER - TY - JOUR A1 - Ladleif, Jan A1 - Weske, Mathias T1 - Which event happened first? BT - Deferred choice on blockchain using oracles JF - Frontiers in blockchain N2 - First come, first served: Critical choices between alternative actions are often made based on events external to an organization, and reacting promptly to their occurrence can be a major advantage over the competition. In Business Process Management (BPM), such deferred choices can be expressed in process models, and they are an important aspect of process engines. Blockchain-based process execution approaches are no exception to this, but are severely limited by the inherent properties of the platform: The isolated environment prevents direct access to external entities and data, and the non-continual runtime based entirely on atomic transactions impedes the monitoring and detection of events. In this paper we provide an in-depth examination of the semantics of deferred choice, and transfer them to environments such as the blockchain. We introduce and compare several oracle architectures able to satisfy certain requirements, and show that they can be implemented using state-of-the-art blockchain technology. KW - business processes KW - business process management KW - deferred choice KW - workflow patterns KW - blockchain KW - smart contracts KW - oracles KW - formal semantics Y1 - 2021 U6 - https://doi.org/10.3389/fbloc.2021.758169 SN - 2624-7852 VL - 4 SP - 1 EP - 16 PB - Frontiers in Blockchain CY - Lausanne, Schweiz ER - TY - GEN A1 - Ladleif, Jan A1 - Weske, Mathias T1 - Which Event Happened First? Deferred Choice on Blockchain Using Oracles T2 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät N2 - First come, first served: Critical choices between alternative actions are often made based on events external to an organization, and reacting promptly to their occurrence can be a major advantage over the competition. In Business Process Management (BPM), such deferred choices can be expressed in process models, and they are an important aspect of process engines. Blockchain-based process execution approaches are no exception to this, but are severely limited by the inherent properties of the platform: The isolated environment prevents direct access to external entities and data, and the non-continual runtime based entirely on atomic transactions impedes the monitoring and detection of events. In this paper we provide an in-depth examination of the semantics of deferred choice, and transfer them to environments such as the blockchain. We introduce and compare several oracle architectures able to satisfy certain requirements, and show that they can be implemented using state-of-the-art blockchain technology. T3 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät - 11 KW - business processes KW - business process management KW - deferred choice KW - workflow patterns KW - blockchain KW - smart contracts KW - oracles KW - formal semantics Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-550681 VL - 4 SP - 1 EP - 16 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - THES A1 - Ladleif, Jan T1 - Enforceability aspects of smart contracts on blockchain networks T1 - Aspekte der Durchsetzung von Smart Contracts in Blockchain-Netzwerken N2 - Smart contracts promise to reform the legal domain by automating clerical and procedural work, and minimizing the risk of fraud and manipulation. Their core idea is to draft contract documents in a way which allows machines to process them, to grasp the operational and non-operational parts of the underlying legal agreements, and to use tamper-proof code execution alongside established judicial systems to enforce their terms. The implementation of smart contracts has been largely limited by the lack of an adequate technological foundation which does not place an undue amount of trust in any contract party or external entity. Only recently did the emergence of Decentralized Applications (DApps) change this: Stored and executed via transactions on novel distributed ledger and blockchain networks, powered by complex integrity and consensus protocols, DApps grant secure computation and immutable data storage while at the same time eliminating virtually all assumptions of trust. However, research on how to effectively capture, deploy, and most of all enforce smart contracts with DApps in mind is still in its infancy. Starting from the initial expression of a smart contract's intent and logic, to the operation of concrete instances in practical environments, to the limits of automatic enforcement---many challenges remain to be solved before a widespread use and acceptance of smart contracts can be achieved. This thesis proposes a model-driven smart contract management approach to tackle some of these issues. A metamodel and semantics of smart contracts are presented, containing concepts such as legal relations, autonomous and non-autonomous actions, and their interplay. Guided by the metamodel, the notion and a system architecture of a Smart Contract Management System (SCMS) is introduced, which facilitates smart contracts in all phases of their lifecycle. Relying on DApps in heterogeneous multi-chain environments, the SCMS approach is evaluated by a proof-of-concept implementation showing both its feasibility and its limitations. Further, two specific enforceability issues are explored in detail: The performance of fully autonomous tamper-proof behavior with external off-chain dependencies and the evaluation of temporal constraints within DApps, both of which are essential for smart contracts but challenging to support in the restricted transaction-driven and closed environment of blockchain networks. Various strategies of implementing or emulating these capabilities, which are ultimately applicable to all kinds of DApp projects independent of smart contracts, are presented and evaluated. N2 - Teilweise automatisierte und autonom ausgeführte Verträge, sogenannte Smart Contracts, versprechen eine fundamentale Reform des Rechtswesens. Sie minimieren repetitive Büroarbeit sowie Betrugs- und Manipulationspotentiale. Verträge müssen dafür in einer Form verfasst werden, die es Computern erlaubt, die operativen und nichtoperativen Vertragsbestandteile zu lesen und zu verarbeiten. Durch die Nutzung fälschungssicherer Ausführungsumgebungen zusammen mit der bestehenden Rechtsordnung können sie dann durchgesetzt werden. Eine solche Ausführungsumgebung muss sicherstellen, dass ein Smart Contract von keinem Vertragspartner oder Dritten kontrolliert werden kann. Erst in letzter Zeit setzt die aufkommende Blockchain-Technologie hier neue Impulse: Dezentralisierte Anwendungen, sogenannte DApps, deren Quelltext und Zustand auf einer Blockchain gespeichert sind, stellen eine Umgebung bereit, in der Daten und Berechnungen verfälschungssicher gehalten und ausgeführt werden können. Dabei muss kein Vertrauen in eine bestimmte Person oder Instanz aufgebracht werden. Wie genau Smart Contracts effektiv mit DApps erfasst, eingesetzt, und vor allem durchgesetzt werden können ist jedoch noch offen. Von der initialen Erfassung des Vertrags als Smart Contract, über die Verwaltung in praktischen Szenarien, bis hin zu den Grenzen der Automatisierung: Viele Herausforderungen müssen gelöst werden, bevor eine breite Nutzung von Smart Contracts erreicht werden kann. In dieser Arbeit wird ein modellgetriebener Ansatz vorgeschlagen, um Smart Contracts zu verwalten und auszuführen. Es werden ein Metamodell und Semantik präsentiert, welche Konzepte wie rechtliche Beziehungen und autonome und nichtautonome Aktionen sowie deren Zusammenspiel formalisieren. Auf Basis des Metamodells wird eine generische Softwarearchitekture eines Smart Contract Management System (SCMS) aufgebaut, welches alle Phasen im Lebenszyklus eines Smart Contracts unterstützt. Ein besonderes Augenmerk liegt hierbei auf der Ausführungsebene, in der Umgebungen mit mehreren heterogenen Blockchain-Netzwerken zur selben Zeit beachtet werden. Eine prototypische Implementierung zeigt die Realisierbarkeit wichtiger Aspekte des Vorschlags. Desweiteren werden zwei Aspekte im Detail betrachtet, die aufgrund der beschränkten und auf Transaktionen basierenden Ausführungsumgebung der DApps besonders herausfordernd sind: Die Unterstützung vollständig autonomer und fälschungssicherer Logik unter Einbeziehung außerhalb der Blockchain gehaltener Daten, sowie die Auswertung zeitlicher Fristen. Es werden verschiedene Lösungsstrategien, welche auch in anderen Szenarien genutzt werden können, eingeführt und evaluiert. KW - enforceability KW - smart contracts KW - blockchain KW - business process management KW - decentralized applications KW - Blockchain KW - Geschäftsprozessmanagement KW - Dezentrale Applikationen KW - Durchsetzbarkeit KW - Smart Contracts Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-519088 ER - TY - JOUR A1 - Kühne, Katharina A1 - Herbold, Erika A1 - Bendel, Oliver A1 - Zhou, Yuefang A1 - Fischer, Martin H. T1 - “Ick bin een Berlina” BT - dialect proficiency impacts a robot’s trustworthiness and competence evaluation JF - Frontiers in robotics and AI N2 - Background: Robots are increasingly used as interaction partners with humans. Social robots are designed to follow expected behavioral norms when engaging with humans and are available with different voices and even accents. Some studies suggest that people prefer robots to speak in the user’s dialect, while others indicate a preference for different dialects. Methods: Our study examined the impact of the Berlin dialect on perceived trustworthiness and competence of a robot. One hundred and twenty German native speakers (Mage = 32 years, SD = 12 years) watched an online video featuring a NAO robot speaking either in the Berlin dialect or standard German and assessed its trustworthiness and competence. Results: We found a positive relationship between participants’ self-reported Berlin dialect proficiency and trustworthiness in the dialect-speaking robot. Only when controlled for demographic factors, there was a positive association between participants’ dialect proficiency, dialect performance and their assessment of robot’s competence for the standard German-speaking robot. Participants’ age, gender, length of residency in Berlin, and device used to respond also influenced assessments. Finally, the robot’s competence positively predicted its trustworthiness. Discussion: Our results inform the design of social robots and emphasize the importance of device control in online experiments. KW - competence KW - dialect KW - human-robot interaction KW - robot voice KW - social robot KW - trust Y1 - 2024 U6 - https://doi.org/10.3389/frobt.2023.1241519 SN - 2296-9144 VL - 10 PB - Frontiers Media S.A. CY - Lausanne ER - TY - GEN A1 - Kötzing, Timo A1 - Lagodzinski, Julius Albert Gregor A1 - Lengler, Johannes A1 - Melnichenko, Anna T1 - Destructiveness of Lexicographic Parsimony Pressure and Alleviation by a Concatenation Crossover in Genetic Programming T2 - Parallel Problem Solving from Nature – PPSN XV N2 - For theoretical analyses there are two specifics distinguishing GP from many other areas of evolutionary computation. First, the variable size representations, in particular yielding a possible bloat (i.e. the growth of individuals with redundant parts). Second, the role and realization of crossover, which is particularly central in GP due to the tree-based representation. Whereas some theoretical work on GP has studied the effects of bloat, crossover had a surprisingly little share in this work. We analyze a simple crossover operator in combination with local search, where a preference for small solutions minimizes bloat (lexicographic parsimony pressure); the resulting algorithm is denoted Concatenation Crossover GP. For this purpose three variants of the wellstudied Majority test function with large plateaus are considered. We show that the Concatenation Crossover GP can efficiently optimize these test functions, while local search cannot be efficient for all three variants independent of employing bloat control. Y1 - 2018 SN - 978-3-319-99259-4 SN - 978-3-319-99258-7 U6 - https://doi.org/10.1007/978-3-319-99259-4_4 SN - 0302-9743 SN - 1611-3349 VL - 11102 SP - 42 EP - 54 PB - Springer CY - Cham ER - TY - JOUR A1 - Kötzing, Timo A1 - Krejca, Martin Stefan T1 - First-hitting times under drift JF - Theoretical computer science N2 - For the last ten years, almost every theoretical result concerning the expected run time of a randomized search heuristic used drift theory, making it the arguably most important tool in this domain. Its success is due to its ease of use and its powerful result: drift theory allows the user to derive bounds on the expected first-hitting time of a random process by bounding expected local changes of the process - the drift. This is usually far easier than bounding the expected first-hitting time directly. Due to the widespread use of drift theory, it is of utmost importance to have the best drift theorems possible. We improve the fundamental additive, multiplicative, and variable drift theorems by stating them in a form as general as possible and providing examples of why the restrictions we keep are still necessary. Our additive drift theorem for upper bounds only requires the process to be lower-bounded, that is, we remove unnecessary restrictions like a finite, discrete, or bounded state space. As corollaries, the same is true for our upper bounds in the case of variable and multiplicative drift. By bounding the step size of the process, we derive new lower-bounding multiplicative and variable drift theorems. Last, we also state theorems that are applicable when the process has a drift of 0, by using a drift on the variance of the process. KW - First-hitting time KW - Random process KW - Drift Y1 - 2019 U6 - https://doi.org/10.1016/j.tcs.2019.08.021 SN - 0304-3975 SN - 1879-2294 VL - 796 SP - 51 EP - 69 PB - Elsevier CY - Amsterdam ER - TY - GEN A1 - Kötzing, Timo A1 - Krejca, Martin Stefan T1 - First-Hitting times under additive drift T2 - Parallel Problem Solving from Nature – PPSN XV, PT II N2 - For the last ten years, almost every theoretical result concerning the expected run time of a randomized search heuristic used drift theory, making it the arguably most important tool in this domain. Its success is due to its ease of use and its powerful result: drift theory allows the user to derive bounds on the expected first-hitting time of a random process by bounding expected local changes of the process - the drift. This is usually far easier than bounding the expected first-hitting time directly. Due to the widespread use of drift theory, it is of utmost importance to have the best drift theorems possible. We improve the fundamental additive, multiplicative, and variable drift theorems by stating them in a form as general as possible and providing examples of why the restrictions we keep are still necessary. Our additive drift theorem for upper bounds only requires the process to be nonnegative, that is, we remove unnecessary restrictions like a finite, discrete, or bounded search space. As corollaries, the same is true for our upper bounds in the case of variable and multiplicative drift. Y1 - 2018 SN - 978-3-319-99259-4 SN - 978-3-319-99258-7 U6 - https://doi.org/10.1007/978-3-319-99259-4_8 SN - 0302-9743 SN - 1611-3349 VL - 11102 SP - 92 EP - 104 PB - Springer CY - Cham ER - TY - GEN A1 - Kötzing, Timo A1 - Krejca, Martin Stefan T1 - First-Hitting times for finite state spaces T2 - Parallel Problem Solving from Nature – PPSN XV, PT II N2 - One of the most important aspects of a randomized algorithm is bounding its expected run time on various problems. Formally speaking, this means bounding the expected first-hitting time of a random process. The two arguably most popular tools to do so are the fitness level method and drift theory. The fitness level method considers arbitrary transition probabilities but only allows the process to move toward the goal. On the other hand, drift theory allows the process to move into any direction as long as it move closer to the goal in expectation; however, this tendency has to be monotone and, thus, the transition probabilities cannot be arbitrary. We provide a result that combines the benefit of these two approaches: our result gives a lower and an upper bound for the expected first-hitting time of a random process over {0,..., n} that is allowed to move forward and backward by 1 and can use arbitrary transition probabilities. In case that the transition probabilities are known, our bounds coincide and yield the exact value of the expected first-hitting time. Further, we also state the stationary distribution as well as the mixing time of a special case of our scenario. Y1 - 2018 SN - 978-3-319-99259-4 SN - 978-3-319-99258-7 U6 - https://doi.org/10.1007/978-3-319-99259-4_7 SN - 0302-9743 SN - 1611-3349 VL - 11102 SP - 79 EP - 91 PB - Springer CY - Cham ER - TY - JOUR A1 - Kunft, Andreas A1 - Katsifodimos, Asterios A1 - Schelter, Sebastian A1 - Bress, Sebastian A1 - Rabl, Tilmann A1 - Markl, Volker T1 - An Intermediate Representation for Optimizing Machine Learning Pipelines JF - Proceedings of the VLDB Endowment N2 - Machine learning (ML) pipelines for model training and validation typically include preprocessing, such as data cleaning and feature engineering, prior to training an ML model. Preprocessing combines relational algebra and user-defined functions (UDFs), while model training uses iterations and linear algebra. Current systems are tailored to either of the two. As a consequence, preprocessing and ML steps are optimized in isolation. To enable holistic optimization of ML training pipelines, we present Lara, a declarative domain-specific language for collections and matrices. Lara's inter-mediate representation (IR) reflects on the complete program, i.e., UDFs, control flow, and both data types. Two views on the IR enable diverse optimizations. Monads enable operator pushdown and fusion across type and loop boundaries. Combinators provide the semantics of domain-specific operators and optimize data access and cross-validation of ML algorithms. Our experiments on preprocessing pipelines and selected ML algorithms show the effects of our proposed optimizations on dense and sparse data, which achieve speedups of up to an order of magnitude. Y1 - 2019 U6 - https://doi.org/10.14778/3342263.3342633 SN - 2150-8097 VL - 12 IS - 11 SP - 1553 EP - 1567 PB - Association for Computing Machinery CY - New York ER - TY - BOOK A1 - Kuban, Robert A1 - Rotta, Randolf A1 - Nolte, Jörg A1 - Chromik, Jonas A1 - Beilharz, Jossekin Jakob A1 - Pirl, Lukas A1 - Friedrich, Tobias A1 - Lenzner, Pascal A1 - Weyand, Christopher A1 - Juiz, Carlos A1 - Bermejo, Belen A1 - Sauer, Joao A1 - Coelh, Leandro dos Santos A1 - Najafi, Pejman A1 - Pünter, Wenzel A1 - Cheng, Feng A1 - Meinel, Christoph A1 - Sidorova, Julia A1 - Lundberg, Lars A1 - Vogel, Thomas A1 - Tran, Chinh A1 - Moser, Irene A1 - Grunske, Lars A1 - Elsaid, Mohamed Esameldin Mohamed A1 - Abbas, Hazem M. A1 - Rula, Anisa A1 - Sejdiu, Gezim A1 - Maurino, Andrea A1 - Schmidt, Christopher A1 - Hügle, Johannes A1 - Uflacker, Matthias A1 - Nozza, Debora A1 - Messina, Enza A1 - Hoorn, André van A1 - Frank, Markus A1 - Schulz, Henning A1 - Alhosseini Almodarresi Yasin, Seyed Ali A1 - Nowicki, Marek A1 - Muite, Benson K. A1 - Boysan, Mehmet Can A1 - Bianchi, Federico A1 - Cremaschi, Marco A1 - Moussa, Rim A1 - Abdel-Karim, Benjamin M. A1 - Pfeuffer, Nicolas A1 - Hinz, Oliver A1 - Plauth, Max A1 - Polze, Andreas A1 - Huo, Da A1 - Melo, Gerard de A1 - Mendes Soares, Fábio A1 - Oliveira, Roberto Célio Limão de A1 - Benson, Lawrence A1 - Paul, Fabian A1 - Werling, Christian A1 - Windheuser, Fabian A1 - Stojanovic, Dragan A1 - Djordjevic, Igor A1 - Stojanovic, Natalija A1 - Stojnev Ilic, Aleksandra A1 - Weidmann, Vera A1 - Lowitzki, Leon A1 - Wagner, Markus A1 - Ifa, Abdessatar Ben A1 - Arlos, Patrik A1 - Megia, Ana A1 - Vendrell, Joan A1 - Pfitzner, Bjarne A1 - Redondo, Alberto A1 - Ríos Insua, David A1 - Albert, Justin Amadeus A1 - Zhou, Lin A1 - Arnrich, Bert A1 - Szabó, Ildikó A1 - Fodor, Szabina A1 - Ternai, Katalin A1 - Bhowmik, Rajarshi A1 - Campero Durand, Gabriel A1 - Shevchenko, Pavlo A1 - Malysheva, Milena A1 - Prymak, Ivan A1 - Saake, Gunter ED - Meinel, Christoph ED - Polze, Andreas ED - Beins, Karsten ED - Strotmann, Rolf ED - Seibold, Ulrich ED - Rödszus, Kurt ED - Müller, Jürgen T1 - HPI Future SOC Lab – Proceedings 2019 N2 - The “HPI Future SOC Lab” is a cooperation of the Hasso Plattner Institute (HPI) and industry partners. Its mission is to enable and promote exchange and interaction between the research community and the industry partners. The HPI Future SOC Lab provides researchers with free of charge access to a complete infrastructure of state of the art hard and software. This infrastructure includes components, which might be too expensive for an ordinary research environment, such as servers with up to 64 cores and 2 TB main memory. The offerings address researchers particularly from but not limited to the areas of computer science and business information systems. Main areas of research include cloud computing, parallelization, and In-Memory technologies. This technical report presents results of research projects executed in 2019. Selected projects have presented their results on April 9th and November 12th 2019 at the Future SOC Lab Day events. N2 - Das Future SOC Lab am HPI ist eine Kooperation des Hasso-Plattner-Instituts mit verschiedenen Industriepartnern. Seine Aufgabe ist die Ermöglichung und Förderung des Austausches zwischen Forschungsgemeinschaft und Industrie. Am Lab wird interessierten Wissenschaftlern eine Infrastruktur von neuester Hard- und Software kostenfrei für Forschungszwecke zur Verfügung gestellt. Dazu zählen teilweise noch nicht am Markt verfügbare Technologien, die im normalen Hochschulbereich in der Regel nicht zu finanzieren wären, bspw. Server mit bis zu 64 Cores und 2 TB Hauptspeicher. Diese Angebote richten sich insbesondere an Wissenschaftler in den Gebieten Informatik und Wirtschaftsinformatik. Einige der Schwerpunkte sind Cloud Computing, Parallelisierung und In-Memory Technologien. In diesem Technischen Bericht werden die Ergebnisse der Forschungsprojekte des Jahres 2019 vorgestellt. Ausgewählte Projekte stellten ihre Ergebnisse am 09. April und 12. November 2019 im Rahmen des Future SOC Lab Tags vor. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 158 KW - Future SOC Lab KW - research projects KW - multicore architectures KW - in-memory technology KW - cloud computing KW - machine learning KW - artifical intelligence KW - Future SOC Lab KW - Forschungsprojekte KW - Multicore Architekturen KW - In-Memory Technologie KW - Cloud Computing KW - maschinelles Lernen KW - künstliche Intelligenz Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-597915 SN - 978-3-86956-564-4 SN - 1613-5652 SN - 2191-1665 IS - 158 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - GEN A1 - Kruse, Sebastian A1 - Kaoudi, Zoi A1 - Quiane-Ruiz, Jorge-Arnulfo A1 - Chawla, Sanjay A1 - Naumann, Felix A1 - Contreras-Rojas, Bertty T1 - Optimizing Cross-Platform Data Movement T2 - 2019 IEEE 35th International Conference on Data Engineering (ICDE) N2 - Data analytics are moving beyond the limits of a single data processing platform. A cross-platform query optimizer is necessary to enable applications to run their tasks over multiple platforms efficiently and in a platform-agnostic manner. For the optimizer to be effective, it must consider data movement costs across different data processing platforms. In this paper, we present the graph-based data movement strategy used by RHEEM, our open-source cross-platform system. In particular, we (i) model the data movement problem as a new graph problem, which we prove to be NP-hard, and (ii) propose a novel graph exploration algorithm, which allows RHEEM to discover multiple hidden opportunities for cross-platform data processing. Y1 - 2019 SN - 978-1-5386-7474-1 SN - 978-1-5386-7475-8 U6 - https://doi.org/10.1109/ICDE.2019.00162 SN - 1084-4627 SN - 1063-6382 SP - 1642 EP - 1645 PB - IEEE CY - New York ER - TY - GEN A1 - Kruse, Sebastian A1 - Kaoudi, Zoi A1 - Contreras-Rojas, Bertty A1 - Chawla, Sanjay A1 - Naumann, Felix A1 - Quiané-Ruiz, Jorge-Arnulfo T1 - RHEEMix in the data jungle BT - a cost-based optimizer for cross-platform systems T2 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät N2 - Data analytics are moving beyond the limits of a single platform. In this paper, we present the cost-based optimizer of Rheem, an open-source cross-platform system that copes with these new requirements. The optimizer allocates the subtasks of data analytic tasks to the most suitable platforms. Our main contributions are: (i) a mechanism based on graph transformations to explore alternative execution strategies; (ii) a novel graph-based approach to determine efficient data movement plans among subtasks and platforms; and (iii) an efficient plan enumeration algorithm, based on a novel enumeration algebra. We extensively evaluate our optimizer under diverse real tasks. We show that our optimizer can perform tasks more than one order of magnitude faster when using multiple platforms than when using a single platform. T3 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät - 22 KW - cross-platform KW - polystore KW - query optimization KW - data processing Y1 - 2020 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-519443 IS - 6 ER - TY - JOUR A1 - Kruse, Sebastian A1 - Kaoudi, Zoi A1 - Contreras-Rojas, Bertty A1 - Chawla, Sanjay A1 - Naumann, Felix A1 - Quiane-Ruiz, Jorge-Arnulfo T1 - RHEEMix in the data jungle BT - a cost-based optimizer for cross-platform systems JF - The VLDB Journal N2 - Data analytics are moving beyond the limits of a single platform. In this paper, we present the cost-based optimizer of Rheem, an open-source cross-platform system that copes with these new requirements. The optimizer allocates the subtasks of data analytic tasks to the most suitable platforms. Our main contributions are: (i) a mechanism based on graph transformations to explore alternative execution strategies; (ii) a novel graph-based approach to determine efficient data movement plans among subtasks and platforms; and (iii) an efficient plan enumeration algorithm, based on a novel enumeration algebra. We extensively evaluate our optimizer under diverse real tasks. We show that our optimizer can perform tasks more than one order of magnitude faster when using multiple platforms than when using a single platform. KW - Cross-platform KW - Polystore KW - Query optimization KW - Data processing Y1 - 2020 U6 - https://doi.org/10.1007/s00778-020-00612-x SN - 1066-8888 SN - 0949-877X VL - 29 IS - 6 SP - 1287 EP - 1310 PB - Springer CY - Berlin ER - TY - THES A1 - Kruse, Sebastian T1 - Scalable data profiling T1 - Skalierbares Data Profiling BT - distributed discovery and analysis of structural metadata BT - Entdecken und Analysieren struktureller Metadaten N2 - Data profiling is the act of extracting structural metadata from datasets. Structural metadata, such as data dependencies and statistics, can support data management operations, such as data integration and data cleaning. Data management often is the most time-consuming activity in any data-related project. Its support is extremely valuable in our data-driven world, so that more time can be spent on the actual utilization of the data, e. g., building analytical models. In most scenarios, however, structural metadata is not given and must be extracted first. Therefore, efficient data profiling methods are highly desirable. Data profiling is a computationally expensive problem; in fact, most dependency discovery problems entail search spaces that grow exponentially in the number of attributes. To this end, this thesis introduces novel discovery algorithms for various types of data dependencies – namely inclusion dependencies, conditional inclusion dependencies, partial functional dependencies, and partial unique column combinations – that considerably improve over state-of-the-art algorithms in terms of efficiency and that scale to datasets that cannot be processed by existing algorithms. The key to those improvements are not only algorithmic innovations, such as novel pruning rules or traversal strategies, but also algorithm designs tailored for distributed execution. While distributed data profiling has been mostly neglected by previous works, it is a logical consequence on the face of recent hardware trends and the computational hardness of dependency discovery. To demonstrate the utility of data profiling for data management, this thesis furthermore presents Metacrate, a database for structural metadata. Its salient features are its flexible data model, the capability to integrate various kinds of structural metadata, and its rich metadata analytics library. We show how to perform a data anamnesis of unknown, complex datasets based on this technology. In particular, we describe in detail how to reconstruct the schemata and assess their quality as part of the data anamnesis. The data profiling algorithms and Metacrate have been carefully implemented, integrated with the Metanome data profiling tool, and are available as free software. In that way, we intend to allow for easy repeatability of our research results and also provide them for actual usage in real-world data-related projects. N2 - Data Profiling bezeichnet das Extrahieren struktureller Metadaten aus Datensätzen. Stukturelle Metadaten, z.B. Datenabhängigkeiten und Statistiken, können bei der Datenverwaltung unterstützen. Tatsächlich beansprucht das Verwalten von Daten, z.B. Datenreinigung und -integration, in vielen datenbezogenen Projekten einen Großteil der Zeit. Die Unterstützung solcher verwaltenden Aktivitäten ist in unserer datengetriebenen Welt insbesondere deswegen sehr wertvoll, weil so mehr Zeit auf die eigentlich wertschöpfende Arbeit mit den Daten verwendet werden kann, z.B. auf das Erstellen analytischer Modelle. Allerdings sind strukturelle Metadaten in den meisten Fällen nicht oder nur unvollständig vorhanden und müssen zunächst extahiert werden. Somit sind effiziente Data-Profiling-Methoden erstrebenswert. Probleme des Data Profiling sind in der Regel sehr berechnungsintensiv: Viele Datenabhängigkeitstypen spannen einen exponentiell in der Anzahl der Attribute wachsenden Suchraum auf. Aus diesem Grund beschreibt die vorliegende Arbeit neue Algorithmen zum Auffinden verschiedener Arten von Datenabhängigkeiten – nämlich Inklusionsabhängigkeiten, bedingter Inklusionsabhängigkeiten, partieller funktionaler Abhängigkeiten sowie partieller eindeutiger Spaltenkombinationen – die bekannte Algorithmen in Effizienz und Skalierbarkeit deutlich übertreffen und somit Datensätze verarbeiten können, an denen bisherige Algorithmen gescheitert sind. Um die Nützlichkeit struktureller Metadaten für die Datenverwaltung zu demonstrieren, stellt diese Arbeit des Weiteren das System Metacrate vor, eine Datenbank für strukturelle Metadaten. Deren besondere Merkmale sind ein flexibles Datenmodell; die Fähigkeit, verschiedene Arten struktureller Metadaten zu integrieren; und eine umfangreiche Bibliothek an Metadatenanalysen. Mithilfe dieser Technologien führen wir eine Datenanamnese unbekannter, komplexer Datensätze durch. Insbesondere beschreiben wir dabei ausführlicher, wie Schemata rekonstruiert und deren Qualität abgeschätzt werden können. Wir haben oben erwähnte Data-Profiling-Algorithmen sowie Metacrate sorgfältig implementiert, mit dem Data-Profiling-Programm Metanome integriert und stellen beide als freie Software zur Verfügung. Dadurch wollen wir nicht nur die Nachvollziehbarkeit unserer Forschungsergebnisse möglichst einfach gestalten, sondern auch deren Einsatz in der Praxis ermöglichen. KW - data profiling KW - metadata KW - inclusion dependencies KW - functional dependencies KW - distributed computation KW - metacrate KW - Data Profiling KW - Metadaten KW - Inklusionsabhängigkeiten KW - funktionale Abhängigkeiten KW - verteilte Berechnung KW - Metacrate Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-412521 ER - TY - THES A1 - Krohmer, Anton T1 - Structures & algorithms in hyperbolic random graphs T1 - Strukturen & Algorithmen in Hyperbolischen Zufallsgraphen N2 - Complex networks are ubiquitous in nature and society. They appear in vastly different domains, for instance as social networks, biological interactions or communication networks. Yet in spite of their different origins, these networks share many structural characteristics. For instance, their degree distribution typically follows a power law. This means that the fraction of vertices of degree k is proportional to k^(−β) for some constant β; making these networks highly inhomogeneous. Furthermore, they also typically have high clustering, meaning that links between two nodes are more likely to appear if they have a neighbor in common. To mathematically study the behavior of such networks, they are often modeled as random graphs. Many of the popular models like inhomogeneous random graphs or Preferential Attachment excel at producing a power law degree distribution. Clustering, on the other hand, is in these models either not present or artificially enforced. Hyperbolic random graphs bridge this gap by assuming an underlying geometry to the graph: Each vertex is assigned coordinates in the hyperbolic plane, and two vertices are connected if they are nearby. Clustering then emerges as a natural consequence: Two nodes joined by an edge are close by and therefore have many neighbors in common. On the other hand, the exponential expansion of space in the hyperbolic plane naturally produces a power law degree sequence. Due to the hyperbolic geometry, however, rigorous mathematical treatment of this model can quickly become mathematically challenging. In this thesis, we improve upon the understanding of hyperbolic random graphs by studying its structural and algorithmical properties. Our main contribution is threefold. First, we analyze the emergence of cliques in this model. We find that whenever the power law exponent β is 2 < β < 3, there exists a clique of polynomial size in n. On the other hand, for β >= 3, the size of the largest clique is logarithmic; which severely contrasts previous models with a constant size clique in this case. We also provide efficient algorithms for finding cliques if the hyperbolic node coordinates are known. Second, we analyze the diameter, i. e., the longest shortest path in the graph. We find that it is of order O(polylog(n)) if 2 < β < 3 and O(logn) if β > 3. To complement these findings, we also show that the diameter is of order at least Ω(logn). Third, we provide an algorithm for embedding a real-world graph into the hyperbolic plane using only its graph structure. To ensure good quality of the embedding, we perform extensive computational experiments on generated hyperbolic random graphs. Further, as a proof of concept, we embed the Amazon product recommendation network and observe that products from the same category are mapped close together. N2 - Komplexe Netzwerke sind in Natur und Gesellschaft allgegenwärtig. Sie tauchen in unterschiedlichsten Domänen auf, wie zum Beispiel als soziale Netzwerke, biologische Interaktionen oder Kommunikationsnetzwerke. Trotz ihrer verschiedenen Ursprünge haben diese Netzwerke jedoch viele strukturelle Gemeinsamkeiten. So sind die Grade der Knoten typischerweise Pareto-verteilt. Das heißt, der Anteil an Knoten mit k Nachbarn ist proportional zu k-ß , wobei ß eine beliebige Konstante ist. Weiterhin haben solche Netzwerke einen hohen Clusterkoezienten, was bedeutet, dass zwei benachbarte Knoten viele gemeinsame Nachbarn haben. Um das Verhalten solcher Netzwerke mathematisch zu studieren, werden sie häug als Zufallsgraphen modelliert. Klassische Modelle wie inhomogene Zufallsgraphen oder das Preferential-Attachment-Modell erzeugen Graphen mit Pareto-verteilten Knotengraden. Cluster sind darin jedoch häug nicht vorhanden, oder werden durch das Hinzufügen unnatürlicher Strukturen künstlich erzeugt. Hyperbolische Zufallsgraphen lösen dieses Problem, indem sie dem Graphen eine Geometrie zugrunde legen. Jeder Knoten erhält hyperbolische Koordinaten, und zwei Knoten sind verbunden, wenn ihre hyperbolische Distanz klein ist. Cluster entstehen dann natürlich, da benachbarte Knoten samt ihrer Nachbarschaften in der Geometrie nah beieinander liegen, und die Pareto-Verteilung der Knotengrade folgt aus der expo- nentiellen Expansion des hyperbolischen Raumes. Durch die hyperbolische Geometrie wird jedoch auch die mathematische Analyse des Modells schnell kompliziert. In dieser Arbeit studieren wir die strukturellen und algorithmischen Eigenschaften von hyperbolischen Zufallsgraphen. Wir beginnen mit der Analyse von Cliquen. Wir beobachten, dass wenn der Pareto-Exponent ß zwischen 2 und 3 liegt, es Cliquen von polynomieller Größe in n gibt. Mit ß > 3 ist die größte Clique noch logarithmisch groß, was früheren Modellen mit konstanter Cliquengröße stark widerspricht. Wir geben auch einen ezienten Algorithmus zur Cliquenndung an, wenn die Koordinaten der Knoten bekannt sind. Als Zweites analysieren wir den Durchmesser, also den längsten kürzesten Pfad in hyperbolischen Zufallsgraphen. Wir beweisen, dass er O (log 3-ß n) lang ist, wenn 2 < ß < 3, und O (log n) falls ß > 3. Komplementär dazu zeigen wir, dass der Durchmesser mindestens Q(log n) beträgt. Als Drittes entwickeln wir einen Algorithmus, der reale Netzwerke in die hyperbolische Ebene einbettet. Um eine gute Qualität zu gewährleisten, evaluieren wir den Algorithmus auf über 6000 zufällig generierten hyperbolischen Graphen. Weiterhin betten wir exemplarisch den Produktempfehlungsgraphen von Amazon ein und beobachten, dass Produkte aus gleichen Kategorien in der Einbettung nah beieinander liegen. KW - random graphs KW - power law KW - massive networks KW - hyperbolic random graphs KW - Zufallsgraphen KW - Pareto-Verteilung KW - gigantische Netzwerke KW - hyperbolische Zufallsgraphen Y1 - 2016 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-395974 ER - TY - JOUR A1 - Kristine Jonson Carlon, May A1 - Yokoi, Kensuke A1 - Maurice Gayed, John A1 - Suyama, Hiroshi A1 - Cross, Jeffrey ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Cross, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Preparing for Society 5.0 with MOOC Capabilities Extension BT - an industry-academia collaboration on learning analytics dashboard development JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - Academia-industry collaborations are beneficial when both sides bring strengths to the partnership and the collaboration outcome is of mutual benefit. These types of collaboration projects are seen as a low-risk learning opportunity for both parties. In this paper, government initiatives that can change the business landscape and academia-industry collaborations that can provide upskilling opportunities to fill emerging business needs are discussed. In light of Japan’s push for next-level modernization, a Japanese software company took a positive stance towards building new capabilities outside what it had been offering its customers. Consequently, an academic research group is laying out infrastructure for learning analytics research. An existing learning analytics dashboard was modularized to allow the research group to focus on natural language processing experiments while the software company explores a development framework suitable for data visualization techniques and artificial intelligence development. The results of this endeavor demonstrate that companies working with academia can creatively explore collaborations outside typical university-supported avenues. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-620809 SP - 9 EP - 20 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Krestel, Ralf A1 - Chikkamath, Renukswamy A1 - Hewel, Christoph A1 - Risch, Julian T1 - A survey on deep learning for patent analysis JF - World patent information N2 - Patent document collections are an immense source of knowledge for research and innovation communities worldwide. The rapid growth of the number of patent documents poses an enormous challenge for retrieving and analyzing information from this source in an effective manner. Based on deep learning methods for natural language processing, novel approaches have been developed in the field of patent analysis. The goal of these approaches is to reduce costs by automating tasks that previously only domain experts could solve. In this article, we provide a comprehensive survey of the application of deep learning for patent analysis. We summarize the state-of-the-art techniques and describe how they are applied to various tasks in the patent domain. In a detailed discussion, we categorize 40 papers based on the dataset, the representation, and the deep learning architecture that were used, as well as the patent analysis task that was targeted. With our survey, we aim to foster future research at the intersection of patent analysis and deep learning and we conclude by listing promising paths for future work. KW - deep learning KW - patent analysis KW - text mining KW - natural language processing Y1 - 2021 U6 - https://doi.org/10.1016/j.wpi.2021.102035 SN - 0172-2190 SN - 1874-690X VL - 65 PB - Elsevier CY - Amsterdam ER - TY - GEN A1 - Krentz, Konrad-Felix A1 - Meinel, Christoph A1 - Graupner, Hendrik T1 - More Lightweight, yet Stronger 802.15.4 Security Through an Intra-layer Optimization T2 - Foundations and Practice of Security N2 - 802.15.4 security protects against the replay, injection, and eavesdropping of 802.15.4 frames. A core concept of 802.15.4 security is the use of frame counters for both nonce generation and anti-replay protection. While being functional, frame counters (i) cause an increased energy consumption as they incur a per-frame overhead of 4 bytes and (ii) only provide sequential freshness. The Last Bits (LB) optimization does reduce the per-frame overhead of frame counters, yet at the cost of an increased RAM consumption and occasional energy-and time-consuming resynchronization actions. Alternatively, the timeslotted channel hopping (TSCH) media access control (MAC) protocol of 802.15.4 avoids the drawbacks of frame counters by replacing them with timeslot indices, but findings of Yang et al. question the security of TSCH in general. In this paper, we assume the use of ContikiMAC, which is a popular asynchronous MAC protocol for 802.15.4 networks. Under this assumption, we propose an Intra-Layer Optimization for 802.15.4 Security (ILOS), which intertwines 802.15.4 security and ContikiMAC. In effect, ILOS reduces the security-related per-frame overhead even more than the LB optimization, as well as achieves strong freshness. Furthermore, unlike the LB optimization, ILOS neither incurs an increased RAM consumption nor requires resynchronization actions. Beyond that, ILOS integrates with and advances other security supplements to ContikiMAC. We implemented ILOS using OpenMotes and the Contiki operating system. Y1 - 2018 SN - 978-3-319-75650-9 SN - 978-3-319-75649-3 U6 - https://doi.org/10.1007/978-3-319-75650-9_12 SN - 0302-9743 SN - 1611-3349 VL - 10723 SP - 173 EP - 188 PB - Springer CY - Cham ER - TY - JOUR A1 - Krentz, Konrad-Felix A1 - Meinel, Christoph T1 - Denial-of-sleep defenses for IEEE 802.15.4 coordinated sampled listening (CSL) JF - Computer Networks N2 - Coordinated sampled listening (CSL) is a standardized medium access control protocol for IEEE 80215.4 networks. Unfortunately, CSL comes without any protection against so-called denial-of-sleep attacks. Such attacks deprive energy-constrained devices of entering low-power sleep modes, thereby draining their charge. Repercussions of denial-of-sleep attacks include long outages, violated quality-of-service guarantees, and reduced customer satisfaction. However, while CSL has no built-in denial-of-sleep defenses, there already exist denial-of-sleep defenses for a predecessor of CSL, namely ContikiMAC. In this paper, we make two main contributions. First, motivated by the fact that CSL has many advantages over ContikiMAC, we tailor the existing denial-of-sleep defenses for ContikiMAC to CSL. Second, we propose several security enhancements to these existing denial-of-sleep defenses. In effect, our denial-of-sleep defenses for CSL mitigate denial-of-sleep attacks significantly better, as well as protect against a larger range of denial-of-sleep attacks than the existing denial-of-sleep defenses for ContikiMAC. We show the soundness of our denial-of-sleep defenses for CSL both analytically, as well as empirically using a whole new implementation of CSL. (C) 2018 Elsevier B.V. All rights reserved. KW - Internet of things KW - Link layer security KW - MAC security KW - Denial of sleep Y1 - 2018 U6 - https://doi.org/10.1016/j.comnet.2018.10.021 SN - 1389-1286 SN - 1872-7069 VL - 148 SP - 60 EP - 71 PB - Elsevier CY - Amsterdam ER - TY - THES A1 - Krentz, Konrad-Felix T1 - A Denial-of-Sleep-Resilient Medium Access Control Layer for IEEE 802.15.4 Networks T1 - Eine Denial-of-Sleep-Resiliente Mediumzugriffsschicht für IEEE-802.15.4-Netzwerke N2 - With the emergence of the Internet of things (IoT), plenty of battery-powered and energy-harvesting devices are being deployed to fulfill sensing and actuation tasks in a variety of application areas, such as smart homes, precision agriculture, smart cities, and industrial automation. In this context, a critical issue is that of denial-of-sleep attacks. Such attacks temporarily or permanently deprive battery-powered, energy-harvesting, or otherwise energy-constrained devices of entering energy-saving sleep modes, thereby draining their charge. At the very least, a successful denial-of-sleep attack causes a long outage of the victim device. Moreover, to put battery-powered devices back into operation, their batteries have to be replaced. This is tedious and may even be infeasible, e.g., if a battery-powered device is deployed at an inaccessible location. While the research community came up with numerous defenses against denial-of-sleep attacks, most present-day IoT protocols include no denial-of-sleep defenses at all, presumably due to a lack of awareness and unsolved integration problems. After all, despite there are many denial-of-sleep defenses, effective defenses against certain kinds of denial-of-sleep attacks are yet to be found. The overall contribution of this dissertation is to propose a denial-of-sleep-resilient medium access control (MAC) layer for IoT devices that communicate over IEEE 802.15.4 links. Internally, our MAC layer comprises two main components. The first main component is a denial-of-sleep-resilient protocol for establishing session keys among neighboring IEEE 802.15.4 nodes. The established session keys serve the dual purpose of implementing (i) basic wireless security and (ii) complementary denial-of-sleep defenses that belong to the second main component. The second main component is a denial-of-sleep-resilient MAC protocol. Notably, this MAC protocol not only incorporates novel denial-of-sleep defenses, but also state-of-the-art mechanisms for achieving low energy consumption, high throughput, and high delivery ratios. Altogether, our MAC layer resists, or at least greatly mitigates, all denial-of-sleep attacks against it we are aware of. Furthermore, our MAC layer is self-contained and thus can act as a drop-in replacement for IEEE 802.15.4-compliant MAC layers. In fact, we implemented our MAC layer in the Contiki-NG operating system, where it seamlessly integrates into an existing protocol stack. N2 - Mit dem Aufkommen des Internets der Dinge (IoT), werden immer mehr batteriebetriebene und energieerntende Geräte in diversen Anwendungsbereichen eingesetzt, etwa in der Heimautomatisierung, Präzisionslandwirtschaft, Industrieautomatisierung oder intelligenten Stadt. In diesem Kontext stellen sogenannte Denial-of-Sleep-Angriffe eine immer kritischer werdende Bedrohung dar. Solche Angriffe halten batteriebetriebene, energieerntende oder anderweitig energiebeschränkte Geräte zeitweise oder chronisch ab, in energiesparende Schlafmodi überzugehen. Erfolgreiche Denial-of-Sleep-Angriffe führen zumindest zu einer langen Ausfallzeit der betroffenen Geräte. Um betroffene batteriebetriebene Geräte wieder in Betrieb zu nehmen, müssen zudem deren Batterien gewechselt werden. Dies ist mühsam oder eventuell sogar unmöglich, z.B. wenn solche Geräte an unzugänglichen Orten installiert sind. Obwohl die Forschungsgemeinschaft bereits viele Denial-of-Sleep-Abwehrmechanismen vorgeschlagen hat, besitzen die meisten aktuellen IoT-Protokolle überhaupt keine Denial-of-Sleep-Abwehrmechanismen. Dies kann zum einen daran liegen, dass man des Problems noch nicht gewahr ist, aber zum anderen auch daran, dass viele Integrationsfragen bislang ungeklärt sind. Des Weiteren existieren bisher sowieso noch keine effektiven Abwehrmechanismen gegen bestimmte Denial-of-Sleep-Angriffe. Der Hauptbeitrag dieser Dissertation ist die Entwicklung einer Denial-of-Sleep-resilienten Mediumzugriffsschicht für IoT-Geräte, die via IEEE-802.15.4-Funkverbindungen kommunizieren. Die entwickelte Mediumzugriffsschicht besitzt zwei Hauptkomponenten. Die erste Hauptkomponente ist ein Denial-of-Sleep-resilientes Protokoll zur Etablierung von Sitzungsschlüsseln zwischen benachbarten IEEE-802.15.4-Knoten. Diese Sitzungsschlüssel dienen einerseits der grundlegenden Absicherung des Funkverkehrs und andererseits der Implementierung zusätzlicher Denial-of-Sleep-Abwehrmechanismen in der zweiten Hauptkomponente. Die zweite Hauptkomponente ist ein Denial-of-Sleep-resilientes Mediumzugriffsprotokoll. Bemerkenswert an diesem Mediumzugriffsprotokoll ist, dass es nicht nur neuartige Denial-of-Sleep-Abwehrmechanismen enthält, sondern auch dem Stand der Technik entsprechende Mechanismen zur Verringerung des Energieverbrauchs, zur Steigerung des Durchsatzes sowie zur Erhöhung der Zuverlässigkeit. Zusammenfassend widersteht bzw. mildert unsere Denial-of-Sleep-resiliente Mediumzugriffsschicht alle uns bekannten Denial-of-Sleep-Angriffe, die gegen sie gefahren werden können. Außerdem kann unsere Denial-of-Sleep-resiliente Mediumzugriffsschicht ohne Weiteres an Stelle von IEEE-802.15.4-konformen Mediumzugriffsschichten eingesetzt werden. Dies zeigen wir durch die nahtlose Integration unserer Mediumzugriffsschicht in den Netzwerk-Stack des Betriebssystems Contiki-NG. KW - medium access control KW - denial of sleep KW - internet of things KW - Mediumzugriffskontrolle KW - Schlafentzugsangriffe KW - Internet der Dinge Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-439301 ER - TY - THES A1 - Krejca, Martin Stefan T1 - Theoretical analyses of univariate estimation-of-distribution algorithms N2 - Optimization is a core part of technological advancement and is usually heavily aided by computers. However, since many optimization problems are hard, it is unrealistic to expect an optimal solution within reasonable time. Hence, heuristics are employed, that is, computer programs that try to produce solutions of high quality quickly. One special class are estimation-of-distribution algorithms (EDAs), which are characterized by maintaining a probabilistic model over the problem domain, which they evolve over time. In an iterative fashion, an EDA uses its model in order to generate a set of solutions, which it then uses to refine the model such that the probability of producing good solutions is increased. In this thesis, we theoretically analyze the class of univariate EDAs over the Boolean domain, that is, over the space of all length-n bit strings. In this setting, the probabilistic model of a univariate EDA consists of an n-dimensional probability vector where each component denotes the probability to sample a 1 for that position in order to generate a bit string. My contribution follows two main directions: first, we analyze general inherent properties of univariate EDAs. Second, we determine the expected run times of specific EDAs on benchmark functions from theory. In the first part, we characterize when EDAs are unbiased with respect to the problem encoding. We then consider a setting where all solutions look equally good to an EDA, and we show that the probabilistic model of an EDA quickly evolves into an incorrect model if it is always updated such that it does not change in expectation. In the second part, we first show that the algorithms cGA and MMAS-fp are able to efficiently optimize a noisy version of the classical benchmark function OneMax. We perturb the function by adding Gaussian noise with a variance of σ², and we prove that the algorithms are able to generate the true optimum in a time polynomial in σ² and the problem size n. For the MMAS-fp, we generalize this result to linear functions. Further, we prove a run time of Ω(n log(n)) for the algorithm UMDA on (unnoisy) OneMax. Last, we introduce a new algorithm that is able to optimize the benchmark functions OneMax and LeadingOnes both in O(n log(n)), which is a novelty for heuristics in the domain we consider. N2 - Optimierung ist ein Hauptbestandteil technologischen Fortschritts und oftmals computergestützt. Da viele Optimierungsprobleme schwer sind, ist es jedoch unrealistisch, eine optimale Lösung in angemessener Zeit zu erwarten. Daher werden Heuristiken verwendet, also Programme, die versuchen hochwertige Lösungen schnell zu erzeugen. Eine konkrete Klasse sind Estimation-of-Distribution-Algorithmen (EDAs), die sich durch das Entwickeln probabilistischer Modelle über dem Problemraum auszeichnen. Ein solches Modell wird genutzt, um neue Lösungen zu erzeugen und damit das Modell zu verfeinern, um im nächsten Schritt mit erhöhter Wahrscheinlichkeit bessere Lösungen zu generieren. In dieser Arbeit untersuchen wir die Klasse univariater EDAs in der booleschen Domäne, also im Raum aller Bitstrings der Länge n. Das probabilistische Modell eines univariaten EDAs besteht dann aus einem n-dimensionalen Wahrscheinlichkeitsvektor, in dem jede Komponente die Wahrscheinlichkeit angibt, eine 1 an der entsprechenden Stelle zu erzeugen. Mein Beitrag folgt zwei Hauptrichtungen: Erst untersuchen wir allgemeine inhärente Eigenschaften univariater EDAs. Danach bestimmen wir die erwartete Laufzeit gewisser EDAs auf Benchmarks aus der Theorie. Im ersten Abschnitt charakterisieren wir, wann EDAs unbefangen bezüglich der Problemcodierung sind. Dann untersuchen wir sie in einem Szenario, in dem alle Lösungen gleich gut sind, und zeigen, dass sich ihr Modell schnell zu einem falschen entwickelt, falls es immer so angepasst wird, dass sich im Erwartungswert nichts ändert. Im zweiten Abschnitt zeigen wir, dass die Algorithmen cGA und MMAS-fp eine verrauschte Variante des klassischen Benchmarks OneMax effizient optimieren, bei der eine Gaussverteilung mit Varianz σ² hinzuaddiert wird. Wir beweisen, dass die Algorithmen das wahre Optimum in polynomieller Zeit bezüglich σ² und n erzeugen. Für den MMAS-fp verallgemeinern wir dieses Ergebnis auf lineare Funktionen. Weiterhin beweisen wir eine Laufzeit von Ω(n log(n)) für den Algorithmus UMDA auf OneMax (ohne Rauschen). Zuletzt führen wir einen neuen Algorithmus ein, der die Benchmarks OneMax und LeadingOnes in O(n log(n)) optimiert, was zuvor für noch keine Heuristik gezeigt wurde. T2 - Theoretische Analysen univariater Estimation-of-Distribution-Algorithmen KW - theory KW - estimation-of-distribution algorithms KW - univariate KW - pseudo-Boolean optimization KW - run time analysis KW - Theorie KW - Estimation-of-Distribution-Algorithmen KW - univariat KW - pseudoboolesche Optimierung KW - Laufzeitanalyse Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-434870 ER - TY - THES A1 - Kraus, Sara Milena T1 - A Systems Medicine approach for heart valve diseases BT - addressing the proteomic landscape and differential expression software N2 - In Systems Medicine, in addition to high-throughput molecular data (*omics), the wealth of clinical characterization plays a major role in the overall understanding of a disease. Unique problems and challenges arise from the heterogeneity of data and require new solutions to software and analysis methods. The SMART and EurValve studies establish a Systems Medicine approach to valvular heart disease -- the primary cause of subsequent heart failure. With the aim to ascertain a holistic understanding, different *omics as well as the clinical picture of patients with aortic stenosis (AS) and mitral regurgitation (MR) are collected. Our task within the SMART consortium was to develop an IT platform for Systems Medicine as a basis for data storage, processing, and analysis as a prerequisite for collaborative research. Based on this platform, this thesis deals on the one hand with the transfer of the used Systems Biology methods to their use in the Systems Medicine context and on the other hand with the clinical and biomolecular differences of the two heart valve diseases. To advance differential expression/abundance (DE/DA) analysis software for use in Systems Medicine, we state 21 general software requirements and features of automated DE/DA software, including a novel concept for the simple formulation of experimental designs that can represent complex hypotheses, such as comparison of multiple experimental groups, and demonstrate our handling of the wealth of clinical data in two research applications DEAME and Eatomics. In user interviews, we show that novice users are empowered to formulate and test their multiple DE hypotheses based on clinical phenotype. Furthermore, we describe insights into users' general impression and expectation of the software's performance and show their intention to continue using the software for their work in the future. Both research applications cover most of the features of existing tools or even extend them, especially with respect to complex experimental designs. Eatomics is freely available to the research community as a user-friendly R Shiny application. Eatomics continued to help drive the collaborative analysis and interpretation of the proteomic profile of 75 human left myocardial tissue samples from the SMART and EurValve studies. Here, we investigate molecular changes within the two most common types of valvular heart disease: aortic valve stenosis (AS) and mitral valve regurgitation (MR). Through DE/DA analyses, we explore shared and disease-specific protein alterations, particularly signatures that could only be found in the sex-stratified analysis. In addition, we relate changes in the myocardial proteome to parameters from clinical imaging. We find comparable cardiac hypertrophy but differences in ventricular size, the extent of fibrosis, and cardiac function. We find that AS and MR show many shared remodeling effects, the most prominent of which is an increase in the extracellular matrix and a decrease in metabolism. Both effects are stronger in AS. In muscle and cytoskeletal adaptations, we see a greater increase in mechanotransduction in AS and an increase in cortical cytoskeleton in MR. The decrease in proteostasis proteins is mainly attributable to the signature of female patients with AS. We also find relevant therapeutic targets. In addition to the new findings, our work confirms several concepts from animal and heart failure studies by providing the largest collection of human tissue from in vivo collected biopsies to date. Our dataset contributing a resource for isoform-specific protein expression in two of the most common valvular heart diseases. Apart from the general proteomic landscape, we demonstrate the added value of the dataset by showing proteomic and transcriptomic evidence for increased expression of the SARS-CoV-2- receptor at pressure load but not at volume load in the left ventricle and also provide the basis of a newly developed metabolic model of the heart. N2 - In der Systemmedizin spielt zusätzlich zu den molekularen Hochdurchsatzdaten (*omics) die Fülle an klinischer Charakterisierung eine große Rolle im Gesamtverständnis einer Krankheit. Hieraus ergeben sich Probleme und Herausforderungen unter anderem in Bezug auf Softwarelösungen und Analysemethoden. Die SMART- und EurValve-Studien etablieren einen systemmedizinischen Ansatz für Herzklappenerkrankungen -- die Hauptursache für eine spätere Herzinsuffizienz. Mit dem Ziel ein ganzheitliches Verständnis zu etablieren, werden verschiedene *omics sowie das klinische Bild von Patienten mit Aortenstenosen (AS) und Mitralklappeninsuffizienz (MR) erhoben. Unsere Aufgabe innerhalb des SMART Konsortiums bestand in der Entwicklung einer IT-Plattform für Systemmedizin als Grundlage für die Speicherung, Verarbeitung und Analyse von Daten als Voraussetzung für gemeinsame Forschung. Ausgehend von dieser Plattform beschäftigt sich diese Arbeit einerseits mit dem Transfer der genutzten systembiologischen Methoden hin zu einer Nutzung im systemmedizinischen Kontext und andererseits mit den klinischen und biomolekularen Unterschieden der beiden Herzklappenerkrankungen. Um die Analysesoftware für differenzielle Expression/Abundanz, eine häufig genutzte Methode der System Biologie, für die Nutzung in der Systemmedizin voranzutreiben, erarbeiten wir 21 allgemeine Softwareanforderungen und Funktionen einer automatisierten DE/DA Software. Darunter ist ein neuartiges Konzept für die einfache Formulierung experimenteller Designs, die auch komplexe Hypothesen wie den Vergleich mehrerer experimenteller Gruppen abbilden können und demonstrieren unseren Umgang mit der Fülle klinischer Daten in zwei Forschungsanwendungen -- DEAME und Eatomics. In Nutzertests zeigen wir, dass Nutzer befähigt werden, ihre vielfältigen Hypothesen zur differenziellen Expression basierend auf dem klinischen Phänotyp zu formulieren und zu testen, auch ohne einen dedizierten Hintergrund in Bioinformatik. Darüber hinaus beschreiben wir Einblicke in den allgemeinen Eindruck der Nutzer, ihrer Erwartung an die Leistung der Software und zeigen ihre Absicht, die Software auch in der Zukunft für ihre Arbeit zu nutzen. Beide Forschungsanwendungen decken die meisten Funktionen bestehender Tools ab oder erweitern sie sogar, insbesondere im Hinblick auf komplexe experimentelle Designs. Eatomics steht der Forschungsgemeinschaft als benutzerfreundliche R Shiny-Anwendung frei zur Verfügung. \textit{Eatomics} hat weiterhin dazu beigetragen, die gemeinsame Analyse und Interpretation des Proteomprofils von 75 menschlichen linken Myokardgewebeproben aus den SMART- und EurValve-Studien voran zu treiben. Hier untersuchen wir die molekularen Veränderungen innerhalb der beiden häufigsten Arten von Herzklappenerkrankungen: AS und MR. Durch DE/DA Analysen erarbeiten wir gemeinsame und krankheitsspezifische Proteinveränderungen, insbesondere Signaturen, die nur in einer geschlechtsstratifizierten Analyse gefunden werden konnten. Darüber hinaus beziehen wir Veränderungen des Myokardproteoms auf Parameter aus der klinischen Bildgebung. Wir finden eine vergleichbare kardiale Hypertrophie, aber Unterschiede in der Ventrikelgröße, dem Ausmaß der Fibrose und der kardialen Funktion. Wir stellen fest, dass AS und MR viele gemeinsame Remodelling-Effekte zeigen, von denen die wichtigsten die Zunahme der extrazellulären Matrix und eine Abnahme des Metabolismus sind. Beide Effekte sind bei AS stärker. Zusätzlich zeigt sich eine größere Variabilität zwischen den einzelnen Patienten mit AS. Bei Muskel- und Zytoskelettanpassungen sehen wir einen stärkeren Anstieg der Mechanotransduktion bei AS und einen Anstieg des kortikalen Zytoskeletts bei MR. Die Abnahme von Proteinen der Proteostase ist vor allem der Signatur von weiblichen Patienten mit AS zuzuschreiben. Außerdem finden wir therapierelevante Proteinveränderungen. Zusätzlich zu den neuen Erkenntnissen bestätigt unsere Arbeit mehrere Konzepte aus Tierstudien und Studien zu Herzversagen durch die bislang größte Kollektion von humanem Gewebe aus in vivo Biopsien. Mit unserem Datensatz stellen wir eine Ressource für die isoformspezifische Proteinexpression bei zwei der häufigsten Herzklappenerkrankungen zur Verfügung. Abgesehen von der allgemeinen Proteomlandschaft zeigen wir den Mehrwert des Datensatzes, indem wir proteomische und transkriptomische Beweise für eine erhöhte Expression des SARS-CoV-2- Rezeptors bei Drucklast, jedoch nicht bei Volumenlast im linken Ventrikel aufzeigen und außerdem die Grundlage eines neu entwickelten metabolischen Modells des Herzens liefern. KW - Systems Medicine KW - Systemmedizin KW - Proteomics KW - Proteom KW - Heart Valve Diseases KW - Herzklappenerkrankungen KW - Differential Expression Analysis KW - Software KW - Software Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-522266 ER - TY - THES A1 - Koßmann, Jan T1 - Unsupervised database optimization BT - efficient index selection & data dependency-driven query optimization N2 - The amount of data stored in databases and the complexity of database workloads are ever- increasing. Database management systems (DBMSs) offer many configuration options, such as index creation or unique constraints, which must be adapted to the specific instance to efficiently process large volumes of data. Currently, such database optimization is complicated, manual work performed by highly skilled database administrators (DBAs). In cloud scenarios, manual database optimization even becomes infeasible: it exceeds the abilities of the best DBAs due to the enormous number of deployed DBMS instances (some providers maintain millions of instances), missing domain knowledge resulting from data privacy requirements, and the complexity of the configuration tasks. Therefore, we investigate how to automate the configuration of DBMSs efficiently with the help of unsupervised database optimization. While there are numerous configuration options, in this thesis, we focus on automatic index selection and the use of data dependencies, such as functional dependencies, for query optimization. Both aspects have an extensive performance impact and complement each other by approaching unsupervised database optimization from different perspectives. Our contributions are as follows: (1) we survey automated state-of-the-art index selection algorithms regarding various criteria, e.g., their support for index interaction. We contribute an extensible platform for evaluating the performance of such algorithms with industry-standard datasets and workloads. The platform is well-received by the community and has led to follow-up research. With our platform, we derive the strengths and weaknesses of the investigated algorithms. We conclude that existing solutions often have scalability issues and cannot quickly determine (near-)optimal solutions for large problem instances. (2) To overcome these limitations, we present two new algorithms. Extend determines (near-)optimal solutions with an iterative heuristic. It identifies the best index configurations for the evaluated benchmarks. Its selection runtimes are up to 10 times lower compared with other near-optimal approaches. SWIRL is based on reinforcement learning and delivers solutions instantly. These solutions perform within 3 % of the optimal ones. Extend and SWIRL are available as open-source implementations. (3) Our index selection efforts are complemented by a mechanism that analyzes workloads to determine data dependencies for query optimization in an unsupervised fashion. We describe and classify 58 query optimization techniques based on functional, order, and inclusion dependencies as well as on unique column combinations. The unsupervised mechanism and three optimization techniques are implemented in our open-source research DBMS Hyrise. Our approach reduces the Join Order Benchmark’s runtime by 26 % and accelerates some TPC-DS queries by up to 58 times. Additionally, we have developed a cockpit for unsupervised database optimization that allows interactive experiments to build confidence in such automated techniques. In summary, our contributions improve the performance of DBMSs, support DBAs in their work, and enable them to contribute their time to other, less arduous tasks. N2 - Sowohl die Menge der in Datenbanken gespeicherten Daten als auch die Komplexität der Datenbank-Workloads steigen stetig an. Datenbankmanagementsysteme bieten viele Konfigurationsmöglichkeiten, zum Beispiel das Anlegen von Indizes oder die Definition von Unique Constraints. Diese Konfigurations-möglichkeiten müssen für die spezifische Datenbankinstanz angepasst werden, um effizient große Datenmengen verarbeiten zu können. Heutzutage wird die komplizierte Datenbankoptimierung manuell von hochqualifizierten Datenbankadministratoren vollzogen. In Cloud-Szenarien ist die manuelle Daten-bankoptimierung undenkbar: Die enorme Anzahl der verwalteten Systeme (einige Anbieter verwalten Millionen von Instanzen), das fehlende Domänenwissen durch Datenschutzanforderungen und die Kom-plexität der Konfigurationsaufgaben übersteigen die Fähigkeiten der besten Datenbankadministratoren. Aus diesen Gründen betrachten wir, wie die Konfiguration von Datenbanksystemen mit der Hilfe von Unsupervised Database Optimization effizient automatisiert werden kann. Während viele Konfigura-tionsmöglichkeiten existieren, konzentrieren wir uns auf die automatische Indexauswahl und die Nutzung von Datenabhängigkeiten, zum Beispiel Functional Dependencies, für die Anfrageoptimierung. Beide Aspekte haben großen Einfluss auf die Performanz und ergänzen sich gegenseitig, indem sie Unsupervised Database Optimization aus verschiedenen Perspektiven betrachten. Wir leisten folgende Beiträge: (1) Wir untersuchen dem Stand der Technik entsprechende automatisierte Indexauswahlalgorithmen hinsichtlich verschiedener Kriterien, zum Beispiel bezüglich ihrer Berücksichtigung von Indexinteraktionen. Wir stellen eine erweiterbare Plattform zur Leistungsevaluierung solcher Algorithmen mit Industriestandarddatensätzen und -Workloads zur Verfügung. Diese Plattform wird von der Forschungsgemeinschaft aktiv verwendet und hat bereits zu weiteren Forschungsarbeiten geführt. Mit unserer Plattform leiten wir die Stärken und Schwächen der untersuchten Algorithmen ab. Wir kommen zu dem Schluss, dass bestehende Lösung häufig Skalierungsschwierigkeiten haben und nicht in der Lage sind, schnell (nahezu) optimale Lösungen für große Problemfälle zu ermitteln. (2) Um diese Einschränkungen zu bewältigen, stellen wir zwei neue Algorithmen vor. Extend ermittelt (nahezu) optimale Lösungen mit einer iterativen Heuristik. Das Verfahren identifiziert die besten Indexkonfigurationen für die evaluierten Benchmarks und seine Laufzeit ist bis zu 10-mal geringer als die Laufzeit anderer nahezu optimaler Ansätze. SWIRL basiert auf Reinforcement Learning und ermittelt Lösungen ohne Wartezeit. Diese Lösungen weichen maximal 3 % von den optimalen Lösungen ab. Extend und SWIRL sind verfügbar als Open-Source-Implementierungen. (3) Ein Mechanismus, der mittels automatischer Workload-Analyse Datenabhängigkeiten für die Anfrageoptimierung bestimmt, ergänzt die vorigen Beiträge. Wir beschreiben und klassifizieren 58 Techniken, die auf Functional, Order und Inclusion Dependencies sowie Unique Column Combinations basieren. Der Analysemechanismus und drei Optimierungstechniken sind in unserem Open-Source-Forschungsdatenbanksystem Hyrise implementiert. Der Ansatz reduziert die Laufzeit des Join Order Benchmark um 26 % und erreicht eine bis zu 58-fache Beschleunigung einiger TPC-DS-Anfragen. Darüber hinaus haben wir ein Cockpit für Unsupervised Database Optimization entwickelt. Dieses Cockpit ermöglicht interaktive Experimente, um Vertrauen in automatisierte Techniken zur Datenbankoptimie-rung zu schaffen. Zusammenfassend lässt sich festhalten, dass unsere Beiträge die Performanz von Datenbanksystemen verbessern, Datenbankadministratoren in ihrer Arbeit unterstützen und ihnen ermöglichen, ihre Zeit anderen, weniger mühsamen, Aufgaben zu widmen. KW - Datenbank KW - Datenbanksysteme KW - database KW - DBMS KW - Hyrise KW - index selection KW - database systems KW - RL KW - reinforcement learning KW - query optimization KW - data dependencies KW - functional dependencies KW - order dependencies KW - unique column combinations KW - inclusion dependencies KW - funktionale Abhängigkeiten KW - Anfrageoptimierung KW - Query-Optimierung KW - extend KW - SWIRL KW - unsupervised KW - database optimization KW - self-driving KW - autonomous Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-589490 ER - TY - THES A1 - Kovács, Róbert T1 - Human-scale personal fabrication N2 - The availability of commercial 3D printers and matching 3D design software has allowed a wide range of users to create physical prototypes – as long as these objects are not larger than hand size. However, when attempting to create larger, "human-scale" objects, such as furniture, not only are these machines too small, but also the commonly used 3D design software is not equipped to design with forces in mind — since forces increase disproportionately with scale. In this thesis, we present a series of end-to-end fabrication software systems that support users in creating human-scale objects. They achieve this by providing three main functions that regular "small-scale" 3D printing software does not offer: (1) subdivision of the object into small printable components combined with ready-made objects, (2) editing based on predefined elements sturdy enough for larger scale, i.e., trusses, and (3) functionality for analyzing, detecting, and fixing structural weaknesses. The presented software systems also assist the fabrication process based on either 3D printing or steel welding technology. The presented systems focus on three levels of engineering challenges: (1) fabricating static load-bearing objects, (2) creating mechanisms that involve motion, such as kinematic installations, and finally (3) designing mechanisms with dynamic repetitive movement where power and energy play an important role. We demonstrate and verify the versatility of our systems by building and testing human-scale prototypes, ranging from furniture pieces, pavilions, to animatronic installations and playground equipment. We have also shared our system with schools, fablabs, and fabrication enthusiasts, who have successfully created human-scale objects that can withstand with human-scale forces. N2 - Die Verfügbarkeit kommerzieller 3D-Drucker und die dazugehörige Software ermöglicht einer großen Bandbreite von Nutzern, physikalische Prototypen selbst herzustellen. Allerdings gilt dies oft nur für handgroße Objekte. Diese Limitation ist auf der einen Seite den kleinen Maschinengrößen von 3D-Druckern geschuldet, andererseits müssen aber auch signifikante, einwirkende Kräfte bereits im Entwurf berücksichtigt werden, was in aktuellen Anwendungen lediglich Benutzern mit entsprechendem Know-How vorbehalten ist. In dieser Arbeit stelle ich eine Reihe von Software-Komplettlösungen vor, die es einer breiten Benutzergruppe erlaubt, große "human-scale" Strukturen, wie Möbel, zu entwerfen und herzustellen. Diese Systeme gehen in drei Kernaspekten über herkömmliche 3D-Druck-Entwurfsanwendungen hinaus: (1) Die Unterteilung von großen Strukturen in eine Kombination aus druckbaren Objekten und Standardteilen. (2) Entwurf von statisch tragenden Strukturen. (3) Funktionalität zum Erkennen, Analysieren und Beheben von strukturellen Schwachstellen. Dabei beschränkt sich diese Arbeit nicht auf Softwarelösungen, sondern unterstützt die Benutzer im gesamten Herstellungsprozess, sowohl bei Prozessen basierend auf dem FDM 3D-Druck, als auch beim Schweißen von Metallen. Die verschiedenen Systeme, die hier vorgestellt werden, ermöglichen die Erstellungen von tragfähigen, statischen Strukturen über kinematische Installation bis hin zu dynamischen Konstruktionen. Solche gefertigten Konstrukte wie Möbel, Pavillons, Spielplatzgeräte, als auch animierte Installationen demonstrieren die Funktionalität und das weite Anwendungsspektrum des Ansatzes. Ergebnisse dieser Arbeit kamen bereits an Schulen, FabLabs und bei Privatpersonen zum Einsatz, die mit der Software erfolgreich eigene und funktionale "human-scale"-Großstrukturen entwerfen und herstellen konnten. KW - 3D printing KW - fabrication KW - human-scale KW - load-bearing KW - dynamics KW - force KW - 3D Druck KW - Fabrikation KW - Großformat KW - Kraft KW - Tragfähigkeit KW - Dynamik Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-555398 ER - TY - GEN A1 - Kovacs, Robert A1 - Ion, Alexandra A1 - Lopes, Pedro A1 - Oesterreich, Tim A1 - Filter, Johannes A1 - Otto, Philip A1 - Arndt, Tobias A1 - Ring, Nico A1 - Witte, Melvin A1 - Synytsia, Anton A1 - Baudisch, Patrick T1 - TrussFormer BT - 3D Printing Large Kinetic Structures T2 - The 31st Annual ACM Symposium on User Interface Software and Technology N2 - We present TrussFormer, an integrated end-to-end system that allows users to 3D print large-scale kinetic structures, i.e., structures that involve motion and deal with dynamic forces. TrussFormer builds on TrussFab, from which it inherits the ability to create static large-scale truss structures from 3D printed connectors and PET bottles. TrussFormer adds movement to these structures by placing linear actuators into them: either manually, wrapped in reusable components called assets, or by demonstrating the intended movement. TrussFormer verifies that the resulting structure is mechanically sound and will withstand the dynamic forces resulting from the motion. To fabricate the design, TrussFormer generates the underlying hinge system that can be printed on standard desktop 3D printers. We demonstrate TrussFormer with several example objects, including a 6-legged walking robot and a 4m-tall animatronics dinosaur with 5 degrees of freedom. KW - fabrication KW - 3D printing KW - variable geometry truss KW - large-scale mechanism Y1 - 2019 SN - 978-1-4503-5971-9 U6 - https://doi.org/10.1145/3290607.3311766 PB - Association for Computing Machinery CY - New York ER - TY - GEN A1 - Kovacs, Robert A1 - Ion, Alexandra A1 - Lopes, Pedro A1 - Oesterreich, Tim A1 - Filter, Johannes A1 - Otto, Philip A1 - Arndt, Tobias A1 - Ring, Nico A1 - Witte, Melvin A1 - Synytsia, Anton A1 - Baudisch, Patrick T1 - TrussFormer BT - 3D Printing Large Kinetic Structures T2 - UIST '18: Proceedings of the 31st Annual ACM Symposium on User Interface Software and Technology N2 - We present TrussFormer, an integrated end-to-end system that allows users to 3D print large-scale kinetic structures, i.e., structures that involve motion and deal with dynamic forces. TrussFormer builds on TrussFab, from which it inherits the ability to create static large-scale truss structures from 3D printed connectors and PET bottles. TrussFormer adds movement to these structures by placing linear actuators into them: either manually, wrapped in reusable components called assets, or by demonstrating the intended movement. TrussFormer verifies that the resulting structure is mechanically sound and will withstand the dynamic forces resulting from the motion. To fabricate the design, TrussFormer generates the underlying hinge system that can be printed on standard desktop 3D printers. We demonstrate TrussFormer with several example objects, including a 6-legged walking robot and a 4m-tall animatronics dinosaur with 5 degrees of freedom. KW - Fabrication KW - 3D printing KW - variable geometry truss KW - large scale mechanism Y1 - 2018 SN - 978-1-4503-5948-1 U6 - https://doi.org/10.1145/3242587.3242607 SP - 113 EP - 125 PB - Association for Computing Machinery CY - New York ER - TY - THES A1 - Koumarelas, Ioannis T1 - Data preparation and domain-agnostic duplicate detection N2 - Successfully completing any data science project demands careful consideration across its whole process. Although the focus is often put on later phases of the process, in practice, experts spend more time in earlier phases, preparing data, to make them consistent with the systems' requirements or to improve their models' accuracies. Duplicate detection is typically applied during the data cleaning phase, which is dedicated to removing data inconsistencies and improving the overall quality and usability of data. While data cleaning involves a plethora of approaches to perform specific operations, such as schema alignment and data normalization, the task of detecting and removing duplicate records is particularly challenging. Duplicates arise when multiple records representing the same entities exist in a database. Due to numerous reasons, spanning from simple typographical errors to different schemas and formats of integrated databases. Keeping a database free of duplicates is crucial for most use-cases, as their existence causes false negatives and false positives when matching queries against it. These two data quality issues have negative implications for tasks, such as hotel booking, where users may erroneously select a wrong hotel, or parcel delivery, where a parcel can get delivered to the wrong address. Identifying the variety of possible data issues to eliminate duplicates demands sophisticated approaches. While research in duplicate detection is well-established and covers different aspects of both efficiency and effectiveness, our work in this thesis focuses on the latter. We propose novel approaches to improve data quality before duplicate detection takes place and apply the latter in datasets even when prior labeling is not available. Our experiments show that improving data quality upfront can increase duplicate classification results by up to 19%. To this end, we propose two novel pipelines that select and apply generic as well as address-specific data preparation steps with the purpose of maximizing the success of duplicate detection. Generic data preparation, such as the removal of special characters, can be applied to any relation with alphanumeric attributes. When applied, data preparation steps are selected only for attributes where there are positive effects on pair similarities, which indirectly affect classification, or on classification directly. Our work on addresses is twofold; first, we consider more domain-specific approaches to improve the quality of values, and, second, we experiment with known and modified versions of similarity measures to select the most appropriate per address attribute, e.g., city or country. To facilitate duplicate detection in applications where gold standard annotations are not available and obtaining them is not possible or too expensive, we propose MDedup. MDedup is a novel, rule-based, and fully automatic duplicate detection approach that is based on matching dependencies. These dependencies can be used to detect duplicates and can be discovered using state-of-the-art algorithms efficiently and without any prior labeling. MDedup uses two pipelines to first train on datasets with known labels, learning to identify useful matching dependencies, and then be applied on unseen datasets, regardless of any existing gold standard. Finally, our work is accompanied by open source code to enable repeatability of our research results and application of our approaches to other datasets. N2 - Die erfolgreiche Durchführung eines datenwissenschaftlichen Projekts erfordert eine Reihe sorgfältiger Abwägungen, die während des gesamten Prozessesverlaufs zu treffen sind. Obwohl sich der Schwerpunkt oft auf spätere Prozessphasen konzentriert, verbringen Experten in der Praxis jedoch einen Großteil ihrer Zeit in frühen Projektphasen in denen sie Daten aufbereiten, um sie mit den Anforderungen vorhandener Systeme in Einklang zu bringen oder die Genauigkeit ihrer Modelle zu verbessern. Die Duplikaterkennung wird üblicherweise während der Datenbereinigungsphase durchgeführt, sie dient der Beseitigung von Dateninkonsistenzen und somit der Verbesserung von Gesamtqualität und Benutzerfreundlichkeit der Daten. Während die Datenbereinigung eine Vielzahl von Ansätzen zur Durchführung spezifischer Operationen wie etwa dem Schema-Abgleich und der Datennormalisierung umfasst, stellt die Identifizierung und Entfernung doppelter Datensätze eine besondere Herausforderung dar. Dabei entstehen Duplikate, wenn mehrere Datensätze, welche die gleichen Entitäten repräsentieren, in einer Datenbank vorhanden sind. Die Gründe dafür sind vielfältig und reichen von einfachen Schreibfehlern bis hin zu unterschiedlichen Schemata und Formaten integrierter Datenbanken. Eine Datenbank duplikatfrei zu halten, ist für die meisten Anwendungsfälle von entscheidender Bedeutung, da ihre Existenz zu falschen Negativ- und Falsch-Positiv-Abfragen führt. So können sich derartige Datenqualitätsprobleme negativ auf Aufgaben wie beispielsweise Hotelbuchungen oder Paketzustellungen auswirken, was letztlich dazu führen kann, dass Benutzer ein falsches Hotel buchen, oder Pakete an eine falsche Adresse geliefert werden. Um ein breites Spektrum potenzieller Datenprobleme zu identifizieren, deren Lösung die Beseitigung von Duplikaten erleichtert, sind eine Reihe ausgefeilter Ansätze erforderlich. Obgleich der Forschungsbereich der Duplikaterkennung mit der Untersuchung verschiedenster Effizienz und Effektivitätsaspekte bereits gut etabliert ist, konzentriert sich diese Arbeit auf letztgenannte Aspekte. Wir schlagen neue Ansätze zur Verbesserung der Datenqualität vor, die vor der Duplikaterkennung erfolgen, und wenden letztere auf Datensätze an, selbst wenn diese über keine im Vorfeld erstellten Annotationen verfügen. Unsere Experimente zeigen, dass durch eine im Vorfeld verbesserte Datenqualität die Ergebnisse der sich anschließenden Duplikatklassifizierung um bis zu 19% verbessert werden können. Zu diesem Zweck schlagen wir zwei neuartige Pipelines vor, die sowohl generische als auch adressspezifische Datenaufbereitungsschritte auswählen und anwenden, um den Erfolg der Duplikaterkennung zu maximieren. Die generische Datenaufbereitung, wie z.B. die Entfernung von Sonderzeichen, kann auf jede Relation mit alphanumerischen Attributen angewendet werden. Bei entsprechender Anwendung werden Datenaufbereitungsschritte nur für Attribute ausgewählt, bei denen sich positive Auswirkungen auf Paarähnlichkeiten ergeben, welche sich direkt oder indirekt auf die Klassifizierung auswirken. Unsere Arbeit an Adressen umfasst zwei Aspekte: erstens betrachten wir mehr domänenspezifische Ansätze zur Verbesserung der Adressqualität, zweitens experimentieren wir mit bekannten und modifizierten Versionen verschiedener Ähnlichkeitsmaße, um infolgedessen das am besten geeignete Ähnlichkeitsmaß für jedes Adressattribut, z.B. Stadt oder Land, zu bestimmen. Um die Erkennung von Duplikaten bei Anwendungen zu erleichtern, in denen Goldstandard-Annotationen nicht zur Verfügung stehen und deren Beschaffung aus Kostengründen nicht möglich ist, schlagen wir MDedup vor. MDedup ist ein neuartiger, regelbasierter und vollautomatischer Ansatz zur Dublikaterkennung, der auf Matching Dependencies beruht. Diese Abhängigkeiten können zur Erkennung von Duplikaten genutzt und mit Hilfe modernster Algorithmen effizient ohne vorhergehenden Annotationsaufwand entdeckt werden. MDedup verwendet zwei Pipelines, um zunächst auf annotierten Datensätzen zu trainieren, wobei die Identifizierung nützlicher Matching-Abhängigkeiten erlernt wird, welche dann unabhängig von einem bestehenden Goldstandard auf ungesehenen Datensätzen angewendet werden können. Schließlich stellen wir den im Rahmen dieser Arbeit entstehenden Quellcode zur Verfügung, wodurch sowohl die Wiederholbarkeit unserer Forschungsergebnisse als auch die Anwendung unserer Ansätze auf anderen Datensätzen gewährleistet werden soll. T2 - Datenaufbereitung und domänenagnostische Duplikaterkennung KW - duplicate detection KW - data cleaning KW - entity resolution KW - record linkage KW - data preparation KW - data matching KW - address normalization KW - machine learning KW - matching dependencies KW - Adressnormalisierung KW - Datenbereinigung KW - Datenabgleich KW - Datenaufbereitung KW - Duplikaterkennung KW - Entitätsauflösung KW - Maschinelles Lernen KW - Abgleich von Abhängigkeiten KW - Datensatzverknüpfung Y1 - 2020 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-489131 ER - TY - JOUR A1 - Koskinen, Johanna A1 - Kairikko, Anette A1 - Suonpää, Maija T1 - Hybrid MOOCs Enabling Global Collaboration Between Learners JF - EMOOCs 2021 N2 - The COVID-19 pandemic has accelerated the pace of digital transformation, which has forced people to quickly adapt to working and collaborating online. Learning in digital environments has without a doubt gained increased significance during this rather unique time and, therefore, Massive Open Online Courses (MOOCs) have more potential to attract a wider target audience. This has also brought about more possibilities for global collaboration among learners as learning is not limited to physical spaces. Despite the wide interest in MOOCs, there is a need for further research on the global collaboration potential they offer. The aim of this paper is to adopt an action research approach to study how a hybrid MOOC design enables learners’ global collaboration. During the years 2019–2020 together with an international consortium called Corship (Corporate Edupreneurship) we jointly designed, created and implemented a hybrid model MOOC, called the “Co-innovation Journey for Startups and Corporates”. It was targeted towards startup entrepreneurs, corporate representatives and higher education students and it was funded by the EU. The MOOC started with 2,438 enrolled learners and the completion rate for the first four weeks was 29.7%. Out of these 208 learners enrolled for the last two weeks, which in turn had a completion rate of 58%. These figures were clearly above the general average for MOOCs. According to our findings, we argue that a hybrid MOOC design may foster global collaboration within a learning community even beyond the course boundaries. The course included four weeks of independent learning, an xMOOC part, and two weeks of collaborative learning, a cMOOC part. The xMOOC part supported learners in creating a shared knowledge base, which enhanced the collaborative learning when entering the cMOOC part of the course. Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-516917 SN - 978-3-86956-512-5 SP - 35 EP - 48 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Koorn, Jelmer Jan A1 - Lu, Xixi A1 - Leopold, Henrik A1 - Reijers, Hajo A. T1 - From action to response to effect BT - mining statistical relations in work processes JF - Information systems : IS ; an international journal ; data bases N2 - Process mining techniques are valuable to gain insights into and help improve (work) processes. Many of these techniques focus on the sequential order in which activities are performed. Few of these techniques consider the statistical relations within processes. In particular, existing techniques do not allow insights into how responses to an event (action) result in desired or undesired outcomes (effects). We propose and formalize the ARE miner, a novel technique that allows us to analyze and understand these action-response-effect patterns. We take a statistical approach to uncover potential dependency relations in these patterns. The goal of this research is to generate processes that are: (1) appropriately represented, and (2) effectively filtered to show meaningful relations. We evaluate the ARE miner in two ways. First, we use an artificial data set to demonstrate the effectiveness of the ARE miner compared to two traditional process-oriented approaches. Second, we apply the ARE miner to a real-world data set from a Dutch healthcare institution. We show that the ARE miner generates comprehensible representations that lead to informative insights into statistical relations between actions, responses, and effects. KW - Process discovery KW - Statistical process mining KW - Effect measurement Y1 - 2022 U6 - https://doi.org/10.1016/j.is.2022.102035 SN - 0306-4379 SN - 0094-453X VL - 109 PB - Elsevier CY - Amsterdam ER - TY - GEN A1 - Konak, Orhan A1 - Wegner, Pit A1 - Arnrich, Bert T1 - IMU-Based Movement Trajectory Heatmaps for Human Activity Recognition T2 - Postprints der Universität Potsdam : Reihe der Digital Engineering Fakultät N2 - Recent trends in ubiquitous computing have led to a proliferation of studies that focus on human activity recognition (HAR) utilizing inertial sensor data that consist of acceleration, orientation and angular velocity. However, the performances of such approaches are limited by the amount of annotated training data, especially in fields where annotating data is highly time-consuming and requires specialized professionals, such as in healthcare. In image classification, this limitation has been mitigated by powerful oversampling techniques such as data augmentation. Using this technique, this work evaluates to what extent transforming inertial sensor data into movement trajectories and into 2D heatmap images can be advantageous for HAR when data are scarce. A convolutional long short-term memory (ConvLSTM) network that incorporates spatiotemporal correlations was used to classify the heatmap images. Evaluation was carried out on Deep Inertial Poser (DIP), a known dataset composed of inertial sensor data. The results obtained suggest that for datasets with large numbers of subjects, using state-of-the-art methods remains the best alternative. However, a performance advantage was achieved for small datasets, which is usually the case in healthcare. Moreover, movement trajectories provide a visual representation of human activities, which can help researchers to better interpret and analyze motion patterns. T3 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät - 4 KW - human activity recognition KW - image processing KW - machine learning KW - sensor data Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-487799 IS - 4 ER - TY - JOUR A1 - Konak, Orhan A1 - Wegner, Pit A1 - Arnrich, Bert T1 - IMU-Based Movement Trajectory Heatmaps for Human Activity Recognition JF - Sensors N2 - Recent trends in ubiquitous computing have led to a proliferation of studies that focus on human activity recognition (HAR) utilizing inertial sensor data that consist of acceleration, orientation and angular velocity. However, the performances of such approaches are limited by the amount of annotated training data, especially in fields where annotating data is highly time-consuming and requires specialized professionals, such as in healthcare. In image classification, this limitation has been mitigated by powerful oversampling techniques such as data augmentation. Using this technique, this work evaluates to what extent transforming inertial sensor data into movement trajectories and into 2D heatmap images can be advantageous for HAR when data are scarce. A convolutional long short-term memory (ConvLSTM) network that incorporates spatiotemporal correlations was used to classify the heatmap images. Evaluation was carried out on Deep Inertial Poser (DIP), a known dataset composed of inertial sensor data. The results obtained suggest that for datasets with large numbers of subjects, using state-of-the-art methods remains the best alternative. However, a performance advantage was achieved for small datasets, which is usually the case in healthcare. Moreover, movement trajectories provide a visual representation of human activities, which can help researchers to better interpret and analyze motion patterns. KW - human activity recognition KW - image processing KW - machine learning KW - sensor data Y1 - 2020 U6 - https://doi.org/10.3390/s20247179 SN - 1424-8220 VL - 20 IS - 24 PB - MDPI CY - Basel ER - TY - BOOK A1 - Klinke, Paula A1 - Verhoeven, Silvan A1 - Roth, Felix A1 - Hagemann, Linus A1 - Alnawa, Tarik A1 - Lincke, Jens A1 - Rein, Patrick A1 - Hirschfeld, Robert T1 - Tool support for collaborative creation of interactive storytelling media N2 - Scrollytellings are an innovative form of web content. Combining the benefits of books, images, movies, and video games, they are a tool to tell compelling stories and provide excellent learning opportunities. Due to their multi-modality, creating high-quality scrollytellings is not an easy task. Different professions, such as content designers, graphics designers, and developers, need to collaborate to get the best out of the possibilities the scrollytelling format provides. Collaboration unlocks great potential. However, content designers cannot create scrollytellings directly and always need to consult with developers to implement their vision. This can result in misunderstandings. Often, the resulting scrollytelling will not match the designer’s vision sufficiently, causing unnecessary iterations. Our project partner Typeshift specializes in the creation of individualized scrollytellings for their clients. Examined existing solutions for authoring interactive content are not optimally suited for creating highly customized scrollytellings while still being able to manipulate all their elements programmatically. Based on their experience and expertise, we developed an editor to author scrollytellings in the lively.next live-programming environment. In this environment, a graphical user interface for content design is combined with powerful possibilities for programming behavior with the morphic system. The editor allows content designers to take on large parts of the creation process of scrollytellings on their own, such as creating the visible elements, animating content, and fine-tuning the scrollytelling. Hence, developers can focus on interactive elements such as simulations and games. Together with Typeshift, we evaluated the tool by recreating an existing scrollytelling and identified possible future enhancements. Our editor streamlines the creation process of scrollytellings. Content designers and developers can now both work on the same scrollytelling. Due to the editor inside of the lively.next environment, they can both work with a set of tools familiar to them and their traits. Thus, we mitigate unnecessary iterations and misunderstandings by enabling content designers to realize large parts of their vision of a scrollytelling on their own. Developers can add advanced and individual behavior. Thus, developers and content designers benefit from a clearer distribution of tasks while keeping the benefits of collaboration. N2 - Scrollytellings sind innovative Webinhalte. Indem sie die Vorteile von Büchern, Bildern, Filmen und Videospielen vereinen, sind sie ein Werkzeug um Geschichten fesselnd zu erzählen und Lehrinhalte besonders effektiv zu vermitteln. Die Erstellung von Scrollytellings ist aufgrund ihrer Multimodalität keine einfache Aufgabe. Verschiedene Berufszweige wie Content-Designer:innen, Grafikdesigner:innen und Entwickler:innen müssen zusammenarbeiten, um das volle Potential des Scrollytelingformats auszuschöpfen. Jedoch können ContentDesigner:innen Scrollytellings nicht direkt selbst erstellen, sondern müssen ihre Vision stets gemeinsam mit Entwickler:innen umsetzen. Dabei können unnötige Iterationen über das Scrollytelling auftreten, wenn dieses den Visionen der Content-Designer:innen noch nicht entspricht. Außerdem können Missverständnisse entstehen. Unser Projektpartner Typeshift hat sich auf die Erstellung von, für seine Kund:innen individualisierten, Scrollytellings spezialisiert. Aufbauend auf Typeshifts Erfahrungen und Expertise haben wir einen Editor entwickelt, um Scrollytellings in der Live-Programmierumgebung lively.next zu erstellen. In lively.next wird eine graphische Oberfläche für die Erstellung von Inhalten mit weitreichenden Möglichkeiten zur Programmierung von Verhalten durch das Morphic-System kombiniert. Der Editor erlaubt es Content-Designer:innen eigenständig große Teile des Erstellungsprozesses von Scrollytellings durchzuführen, zum Beispiel das Erzeugen visueller Elemente, deren Animation sowie die Feinjustierung des gesamten Scrollytellings. So können Entwickler:innen sich auf die Erstellung von komplexen interaktiven Elementen, wie Simulationen oder Spiele, konzentrieren. Zusammen mit Typeshift haben wir die Nutzbarkeit unseres Editors durch die Nachbildung eines bereits existierenden Scrollytellings evaluiert und mögliche Verbesserungen identifiziert. Unser Editor vereinfacht den Erstellungsprozess von Scrollytellings. Content Designer:innen und Entwickler:innen können jetzt beide an demselben Scrollytelling arbeiten. Durch den Editor, der in lively.next integriert ist, können beide Parteien mit den ihnen bekannten und vertrauten Werkzeugen arbeiten. Durch den Editor verringern wir unnötige Iterationen und Missverständnisse und erlauben Content-Designer:innen große Teile ihrer Vision eines Scrollytellings eigenständig umzusetzen. Entwickler:innen können zusätzliches, individuelles Verhalten hinzufügen. So profitieren Entwickler:innen und Content-Designer:innen von einer besseren Aufgabenteilung, während die Vorteile von Zusammenarbeit bestehen bleiben. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 141 KW - scrollytelling KW - interactive media KW - web-based development KW - Lively Kernel KW - Scrollytelling KW - interaktive Medien KW - webbasierte Entwicklung KW - Lively Kernel Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-518570 SN - 978-3-86956-521-7 SN - 1613-5652 SN - 2191-1665 IS - 141 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - THES A1 - Klimke, Jan T1 - Web-based provisioning and application of large-scale virtual 3D city models T1 - Webbasierte Bereitstellung und Anwendung von großen virtuellen 3D-Stadtmodellen N2 - Virtual 3D city models represent and integrate a variety of spatial data and georeferenced data related to urban areas. With the help of improved remote-sensing technology, official 3D cadastral data, open data or geodata crowdsourcing, the quantity and availability of such data are constantly expanding and its quality is ever improving for many major cities and metropolitan regions. There are numerous fields of applications for such data, including city planning and development, environmental analysis and simulation, disaster and risk management, navigation systems, and interactive city maps. The dissemination and the interactive use of virtual 3D city models represent key technical functionality required by nearly all corresponding systems, services, and applications. The size and complexity of virtual 3D city models, their management, their handling, and especially their visualization represent challenging tasks. For example, mobile applications can hardly handle these models due to their massive data volume and data heterogeneity. Therefore, the efficient usage of all computational resources (e.g., storage, processing power, main memory, and graphics hardware, etc.) is a key requirement for software engineering in this field. Common approaches are based on complex clients that require the 3D model data (e.g., 3D meshes and 2D textures) to be transferred to them and that then render those received 3D models. However, these applications have to implement most stages of the visualization pipeline on client side. Thus, as high-quality 3D rendering processes strongly depend on locally available computer graphics resources, software engineering faces the challenge of building robust cross-platform client implementations. Web-based provisioning aims at providing a service-oriented software architecture that consists of tailored functional components for building web-based and mobile applications that manage and visualize virtual 3D city models. This thesis presents corresponding concepts and techniques for web-based provisioning of virtual 3D city models. In particular, it introduces services that allow us to efficiently build applications for virtual 3D city models based on a fine-grained service concept. The thesis covers five main areas: 1. A Service-Based Concept for Image-Based Provisioning of Virtual 3D City Models It creates a frame for a broad range of services related to the rendering and image-based dissemination of virtual 3D city models. 2. 3D Rendering Service for Virtual 3D City Models This service provides efficient, high-quality 3D rendering functionality for virtual 3D city models. In particular, it copes with requirements such as standardized data formats, massive model texturing, detailed 3D geometry, access to associated feature data, and non-assumed frame-to-frame coherence for parallel service requests. In addition, it supports thematic and artistic styling based on an expandable graphics effects library. 3. Layered Map Service for Virtual 3D City Models It generates a map-like representation of virtual 3D city models using an oblique view. It provides high visual quality, fast initial loading times, simple map-based interaction and feature data access. Based on a configurable client framework, mobile and web-based applications for virtual 3D city models can be created easily. 4. Video Service for Virtual 3D City Models It creates and synthesizes videos from virtual 3D city models. Without requiring client-side 3D rendering capabilities, users can create camera paths by a map-based user interface, configure scene contents, styling, image overlays, text overlays, and their transitions. The service significantly reduces the manual effort typically required to produce such videos. The videos can automatically be updated when the underlying data changes. 5. Service-Based Camera Interaction It supports task-based 3D camera interactions, which can be integrated seamlessly into service-based visualization applications. It is demonstrated how to build such web-based interactive applications for virtual 3D city models using this camera service. These contributions provide a framework for design, implementation, and deployment of future web-based applications, systems, and services for virtual 3D city models. The approach shows how to decompose the complex, monolithic functionality of current 3D geovisualization systems into independently designed, implemented, and operated service- oriented units. In that sense, this thesis also contributes to microservice architectures for 3D geovisualization systems—a key challenge of today’s IT systems engineering to build scalable IT solutions. N2 - Virtuelle 3D-Stadtmodelle repräsentieren und integrieren eine große Bandbreite von Geodaten und georeferenzierten Daten über städtische Gebiete. Verfügbarkeit, Quantität und Qualität solcher Daten verbessern sich ständig für viele Städte und Metropolregionen, nicht zuletzt bedingt durch verbesserte Erfassungstechnologien, amtliche 3D-Kataster, offene Geodaten oder Geodaten-Crowdsourcing. Die Anwendungsfelder für virtuelle 3D-Stadtmodelle sind vielfältig. Sie reichen von Stadtplanung und Stadtentwicklung, Umweltanalysen und -simulationen, über Katastrophen- und Risikomanagement, bis hin zu Navigationssystemen und interaktiven Stadtkarten. Die Verbreitung und interaktive Nutzung von virtuellen 3D-Stadtmodellen stellt hierbei eine technische Kernfunktionalität für fast alle entsprechenden Systeme, Services und Anwendungen dar. Aufgrund der Komplexität und Größe virtueller 3D-Stadtmodelle stellt ihre Verwaltung, ihre Verarbeitung und insbesondere ihre Visualisierung eine große Herausforderung dar. Daher können zum Beispiel mobile Anwendungen virtuelle 3D-Stadtmodelle, wegen ihres massiven Datenvolumens und ihrer Datenheterogenität, kaum effizient handhaben. Die effiziente Nutzung von Rechenressourcen, wie zum Beispiel Prozessorleistung, Hauptspeicher, Festplattenspeicher und Grafikhardware, bildet daher eine Schlüsselanforderung an die Softwaretechnik in diesem Bereich. Heutige Ansätze beruhen häufig auf komplexen Clients, zu denen 3D-Modelldaten (z.B. 3D-Netze und 2D- Texturen) transferiert werden müssen und die das Rendering dieser Daten selbst ausführen. Nachteilig ist dabei unter anderem, dass sie die meisten Stufen der Visualisierungspipeline auf der Client-Seite ausführen müssen. Es ist daher softwaretechnisch schwer, robuste Cross-Plattform-Implementierungen für diese Clients zu erstellen, da hoch qualitative 3D-Rendering-Prozesse nicht unwesentlich von lokalen computergrafischen Ressourcen abhängen. Die webbasierte Bereitstellung virtueller 3D-Stadtmodelle beruht auf einer serviceorientierten Softwarearchitektur. Diese besteht aus spezifischen funktionalen Komponenten für die Konstruktion von mobilen oder webbasierten Anwendungen für die Verarbeitung und Visualisierung von komplexen virtuellen 3D-Stadtmodellen. Diese Arbeit beschreibt entsprechende Konzepte und Techniken für eine webbasierte Bereitstellung von virtuellen 3D-Stadtmodellen. Es werden insbesondere Services vorgestellt, die eine effiziente Entwicklung von Anwendungen für virtuelle 3D-Stadtmodelle auf Basis eines feingranularen Dienstekonzepts ermöglichen. Die Arbeit gliedert sich in fünf thematische Hauptbeiträge: 1. Ein servicebasiertes Konzept für die bildbasierte Bereitstellung von virtuellen 3D-Stadtmodellen: Es wird ein konzeptioneller Rahmen für eine Reihe von Services in Bezug auf das Rendering und die bildbasierte Bereitstellung virtueller 3D-Stadtmodelle eingeführt. 2. 3D-Rendering-Service für virtuelle 3D-Stadtmodelle: Dieser Service stellt eine effiziente, hochqualitative 3D-Renderingfunktionalität für virtuelle 3D-Stadtmodelle bereit. Insbesondere werden Anforderungen, wie zum Beispiel standardisierte Datenformate, massive Modelltexturierung, detaillierte 3D-Geometrien, Zugriff auf assoziierte Fachdaten und fehlende Frame-zu-Frame-Kohärenz bei parallelen Serviceanfragen erfüllt. Der Service unterstützt zudem die thematische und gestalterische Stilisierung der Darstellungen auf Basis einer erweiterbaren Grafikeffektbibliothek. 3. Layered-Map-Service für virtuelle 3D-Stadtmodelle: Dieser Service generiert eine kartenverwandte Darstellung in Form einer Schrägansicht auf virtuelle 3D-Stadtmodelle in hoher Renderingqualität. Er weist eine schnelle initiale Ladezeit, eine einfache, kartenbasierte Interaktion und Zugang zu den Fachdaten des virtuellen 3D-Stadtmodells auf. Mittels eines konfigurierbaren Client-Frameworks können damit sowohl mobile, als auch webbasierte Anwendungen für virtuelle 3D Stadtmodelle einfach erstellt werden. 4. Video-Service für virtuelle 3D-Stadtmodelle: Dieser Service erstellt und synthetisiert Videos aus virtuellen 3D-Stadtmodellen. Nutzern wird ermöglicht 3D-Kamerapfade auf einfache Weise über eine kartenbasierte Nutzungsschnittstelle zu erstellen. Weiterhin können die Szeneninhalte, die Stilisierung der Szene, sowie Bild- und Textüberlagerungen konfigurieren und Übergänge zwischen einzelnen Szenen festzulegen, ohne dabei clientseitige 3D-Rendering-Fähigkeiten vorauszusetzen. Das System reduziert den manuellen Aufwand für die Produktion von Videos für virtuelle 3D-Stadtmodelle erheblich. Videos können zudem automatisiert aktualisiert werden, wenn sich zugrunde liegende Daten ändern. 5. Servicebasierte Kamerainteraktion Die vorgestellten Services unterstützen aufgabenbasierte 3D-Kamerainteraktionen und deren Integration in servicebasierte Visualisierungsanwendungen. Es wird gezeigt, wie webbasierte interaktive Anwendungen für virtuelle 3D-Stadtmodelle mit Hilfe von Kameraservices umgesetzt werden können. Diese Beiträge bieten einen Rahmen für das Design, die Implementierung und die Bereitstellung zukünftiger webbasierter Anwendungen, Systeme und Services für virtuelle 3D-Stadtmodelle. Der Ansatz zeigt, wie die meist komplexe, monolithische Funktionalität heutiger 3D-Geovisualisierungssysteme in unabhängig entworfene, implementierte und betriebene serviceorientierte Einheiten zerlegt werden kann. In diesem Sinne stellt diese Arbeit auch einen Beitrag für die Entwicklung von Microservice-Architekturen für 3D-Geovisualisierungssysteme bereit – eine aktuelle Herausforderung in der Softwaresystemtechnik in Hinblick auf den Aufbau skalierender IT-Lösungen. KW - 3D city model KW - 3D geovisualization KW - 3D portrayal KW - serverside 3D rendering KW - CityGML KW - 3D-Stadtmodell KW - 3D-Geovisualisierung KW - 3D-Rendering KW - serverseitiges 3D-Rendering KW - serviceorientierte Architekturen KW - service-oriented architectures Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-428053 ER - TY - JOUR A1 - Kirchler, Matthias A1 - Konigorski, Stefan A1 - Norden, Matthias A1 - Meltendorf, Christian A1 - Kloft, Marius A1 - Schurmann, Claudia A1 - Lippert, Christoph T1 - transferGWAS BT - GWAS of images using deep transfer learning JF - Bioinformatics N2 - Motivation: Medical images can provide rich information about diseases and their biology. However, investigating their association with genetic variation requires non-standard methods. We propose transferGWAS, a novel approach to perform genome-wide association studies directly on full medical images. First, we learn semantically meaningful representations of the images based on a transfer learning task, during which a deep neural network is trained on independent but similar data. Then, we perform genetic association tests with these representations. Results: We validate the type I error rates and power of transferGWAS in simulation studies of synthetic images. Then we apply transferGWAS in a genome-wide association study of retinal fundus images from the UK Biobank. This first-of-a-kind GWAS of full imaging data yielded 60 genomic regions associated with retinal fundus images, of which 7 are novel candidate loci for eye-related traits and diseases. Y1 - 2022 U6 - https://doi.org/10.1093/bioinformatics/btac369 SN - 1367-4803 SN - 1460-2059 VL - 38 IS - 14 SP - 3621 EP - 3628 PB - Oxford Univ. Press CY - Oxford ER - TY - JOUR A1 - Khlaisang, Jintavee A1 - Duangchinda, Vorasuang A1 - Thammetar, Thapanee A1 - Theeraroungchaisri, Anuchai ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Instructional design for work-based skill MOOCs BT - challenges for workforce development in Thailand JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - As Thailand moves towards becoming an innovation-driven economy, the need for human capital development has become crucial. Work-based skill MOOCs, offered on Thai MOOC, a national digital learning platform launched by Thailand Cyber University Project, ministry of Higher Education, Science, Research and Innovation, provide an effective way to overcome this challenge. This paper discusses the challenges faced in designing an instruction for work-based skill MOOCs that can serve as a foundation model for many more to come. The instructional design of work-based skill courses in Thai MOOC involves four simple steps, including course selection, learning from accredited providers, course requirements completion, and certification of acquired skills. The development of such courses is ongoing at the higher education level, vocational level, and pre-university level, which serve as a foundation model for many more work-based skill MOOC that will be offered on Thai MOOC soon. The instructional design of work-based skills courses should focus on the development of currently demanded professional competencies and skills, increasing the efficiency of work in the organization, creativity, and happiness in life that meets the human resources needs of industries in the 4.0 economy era in Thailand. This paper aims to present the challenges of designing instruction for work-based skill MOOCs and suggests effective ways to design instruction to enhance workforce development in Thailand. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624318 SP - 221 EP - 227 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Khaneboubi, Mehdi ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Visualizing students flows to monitor persistence JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - Founded in 2013, OpenClassrooms is a French online learning company that offers both paid courses and free MOOCs on a wide range of topics, including computer science and education. In 2021, in partnership with the EDA research unit, OpenClassrooms shared a database to solve the problem of how to increase persistence in their paid courses, which consist of a series of MOOCs and human mentoring. Our statistical analysis aims to identify reasons for dropouts that are due to the course design rather than demographic predictors or external factors.We aim to identify at-risk students, i.e. those who are on the verge of dropping out at a specific moment. To achieve this, we use learning analytics to characterize student behavior. We conducted data analysis on a sample of data related to the “Web Designers” and “Instructional Design” courses. By visualizing the student flow and constructing speed and acceleration predictors, we can identify which parts of the course need to be calibrated and when particular attention should be paid to these at-risk students. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-623906 SP - 121 EP - 131 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Khalil, Mohammad T1 - Who Are the Students of MOOCs? BT - Experience from Learning Analytics Clustering Techniques JF - EMOOCs 2021 N2 - Clustering in education is important in identifying groups of objects in order to find linked patterns of correlations in educational datasets. As such, MOOCs provide a rich source of educational datasets which enable a wide selection of options to carry out clustering and an opportunity for cohort analyses. In this experience paper, five research studies on clustering in MOOCs are reviewed, drawing out several reasonings, methods, and students’ clusters that reflect certain kinds of learning behaviours. The collection of the varied clusters shows that each study identifies and defines clusters according to distinctive engagement patterns. Implications and a summary are provided at the end of the paper. Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-517298 SN - 978-3-86956-512-5 VL - 2021 SP - 259 EP - 269 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Kerr, John A1 - Lorenz, Anja A1 - Schön, Sandra A1 - Ebner, Martin A1 - Wittke, Andreas T1 - Open Tools and Methods to Support the Development of MOOCs BT - A Collection of How-tos, Monster Assignment and Kits JF - EMOOCs 2021 N2 - There are a plethora of ways to guide and support people to learn about MOOC (massive open online course) development, from their first interest, sourcing supportive resources, methods and tools to better aid their understanding of the concepts and pedagogical approaches of MOOC design, to becoming a MOOC developer. This contribution highlights tools and methods that are openly available and re-usable under Creative Commons licenses. Our collection builds upon the experiences from three MOOC development and hosting teams with joint experiences of several hundred MOOCs (University of Applied Sciences in Lübeck, Graz University of Technology, University of Glasgow) in three European countries, which are Germany, Austria and the UK. The contribution recommends and shares experiences with short articles and poster for first information sharing a Monster MOOC assignment for beginners, a MOOC canvas for first sketches, the MOOC design kit for details of instructional design and a MOOC for MOOC makers and a MOOC map as introduction into a certain MOOC platform. Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-517219 SN - 978-3-86956-512-5 VL - 2021 SP - 187 EP - 200 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Kennedy, Eileen A1 - Laurillard, Diana A1 - Zeitoun, Samar ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - The Comooc model for global professional collaboration on sustainability JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - This paper presents a new design for MOOCs for professional development of skills needed to meet the UN Sustainable Development Goals – the CoMOOC or Co-designed Massive Open Online Collaboration. The CoMOOC model is based on co-design with multiple stakeholders including end-users within the professional communities the CoMOOC aims to reach. This paper shows how the CoMOOC model could help the tertiary sector deliver on the UN Sustainable Development Goals (UNSDGs) – including but not limited to SDG 4 Education – by providing a more effective vehicle for professional development at a scale that the UNSDGs require. Interviews with professionals using MOOCs, and design-based research with professionals have informed the development of the Co-MOOC model. This research shows that open, online, collaborative learning experiences are highly effective for building professional community knowledge. Moreover, this research shows that the collaborative learning design at the heart of the CoMOOC model is feasible cross-platform Research with teachers working in crisis contexts in Lebanon, many of whom were refugees, will be presented to show how this form of large scale, co-designed, online learning can support professionals, even in the most challenging contexts, such as mass displacement, where expertise is urgently required. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624803 SP - 291 EP - 303 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Kayem, Anne Voluntas dei Massah A1 - Wolthusen, Stephen D. A1 - Meinel, Christoph T1 - Power Systems BT - a matter of security and privacy JF - Smart Micro-Grid Systems Security and Privacy N2 - Studies indicate that reliable access to power is an important enabler for economic growth. To this end, modern energy management systems have seen a shift from reliance on time-consuming manual procedures, to highly automated management, with current energy provisioning systems being run as cyber-physical systems. Operating energy grids as a cyber-physical system offers the advantage of increased reliability and dependability, but also raises issues of security and privacy. In this chapter, we provide an overview of the contents of this book showing the interrelation between the topics of the chapters in terms of smart energy provisioning. We begin by discussing the concept of smart-grids in general, proceeding to narrow our focus to smart micro-grids in particular. Lossy networks also provide an interesting framework for enabling the implementation of smart micro-grids in remote/rural areas, where deploying standard smart grids is economically and structurally infeasible. To this end, we consider an architectural design for a smart micro-grid suited to low-processing capable devices. We model malicious behaviour, and propose mitigation measures based properties to distinguish normal from malicious behaviour. KW - Lossy networks KW - Low-processing capable devices KW - Smart micro-grids KW - Security KW - Privacy KW - Energy Y1 - 2018 SN - 978-3-319-91427-5 SN - 978-3-319-91426-8 U6 - https://doi.org/10.1007/978-3-319-91427-5_1 VL - 71 SP - 1 EP - 8 PB - Springer CY - Dordrecht ER - TY - JOUR A1 - Kayem, Anne Voluntas dei Massah A1 - Meinel, Christoph A1 - Wolthusen, Stephen D. T1 - A resilient smart micro-grid architecture for resource constrained environments JF - Smart Micro-Grid Systems Security and Privacy N2 - Resource constrained smart micro-grid architectures describe a class of smart micro-grid architectures that handle communications operations over a lossy network and depend on a distributed collection of power generation and storage units. Disadvantaged communities with no or intermittent access to national power networks can benefit from such a micro-grid model by using low cost communication devices to coordinate the power generation, consumption, and storage. Furthermore, this solution is both cost-effective and environmentally-friendly. One model for such micro-grids, is for users to agree to coordinate a power sharing scheme in which individual generator owners sell excess unused power to users wanting access to power. Since the micro-grid relies on distributed renewable energy generation sources which are variable and only partly predictable, coordinating micro-grid operations with distributed algorithms is necessity for grid stability. Grid stability is crucial in retaining user trust in the dependability of the micro-grid, and user participation in the power sharing scheme, because user withdrawals can cause the grid to breakdown which is undesirable. In this chapter, we present a distributed architecture for fair power distribution and billing on microgrids. The architecture is designed to operate efficiently over a lossy communication network, which is an advantage for disadvantaged communities. We build on the architecture to discuss grid coordination notably how tasks such as metering, power resource allocation, forecasting, and scheduling can be handled. All four tasks are managed by a feedback control loop that monitors the performance and behaviour of the micro-grid, and based on historical data makes decisions to ensure the smooth operation of the grid. Finally, since lossy networks are undependable, differentiating system failures from adversarial manipulations is an important consideration for grid stability. We therefore provide a characterisation of potential adversarial models and discuss possible mitigation measures. KW - Resource constrained smart micro-grids KW - Architectures KW - Disadvantaged communities KW - Energy KW - Grid stability KW - Forecasting KW - Feedback control loop Y1 - 2018 SN - 978-3-319-91427-5 SN - 978-3-319-91426-8 U6 - https://doi.org/10.1007/978-3-319-91427-5_5 VL - 71 SP - 71 EP - 101 PB - Springer CY - Dordrecht ER - TY - GEN A1 - Kayem, Anne Voluntas dei Massah A1 - Meinel, Christoph A1 - Wolthusen, Stephen D. T1 - Smart micro-grid systems security and privacy preface T2 - Smart micro-grid systems security and privacy N2 - Studies indicate that reliable access to power is an important enabler for economic growth. To this end, modern energy management systems have seen a shift from reliance on time-consuming manual procedures , to highly automated management , with current energy provisioning systems being run as cyber-physical systems . Operating energy grids as a cyber-physical system offers the advantage of increased reliability and dependability , but also raises issues of security and privacy. In this chapter, we provide an overview of the contents of this book showing the interrelation between the topics of the chapters in terms of smart energy provisioning. We begin by discussing the concept of smart-grids in general, proceeding to narrow our focus to smart micro-grids in particular. Lossy networks also provide an interesting framework for enabling the implementation of smart micro-grids in remote/rural areas, where deploying standard smart grids is economically and structurally infeasible. To this end, we consider an architectural design for a smart micro-grid suited to low-processing capable devices. We model malicious behaviour, and propose mitigation measures based properties to distinguish normal from malicious behaviour . Y1 - 2018 SN - 978-3-319-91427-5 SN - 978-3-319-91426-8 U6 - https://doi.org/10.1007/978-3-319-91427-5_1 VL - 71 SP - VII EP - VIII PB - Springer CY - Dordrecht ER - TY - THES A1 - Katzmann, Maximilian T1 - About the analysis of algorithms on networks with underlying hyperbolic geometry T1 - Über die Analyse von Algorithmen auf Netzwerken mit zugrundeliegender hyperbolischer Geometrie N2 - Many complex systems that we encounter in the world can be formalized using networks. Consequently, they have been in the focus of computer science for decades, where algorithms are developed to understand and utilize these systems. Surprisingly, our theoretical understanding of these algorithms and their behavior in practice often diverge significantly. In fact, they tend to perform much better on real-world networks than one would expect when considering the theoretical worst-case bounds. One way of capturing this discrepancy is the average-case analysis, where the idea is to acknowledge the differences between practical and worst-case instances by focusing on networks whose properties match those of real graphs. Recent observations indicate that good representations of real-world networks are obtained by assuming that a network has an underlying hyperbolic geometry. In this thesis, we demonstrate that the connection between networks and hyperbolic space can be utilized as a powerful tool for average-case analysis. To this end, we first introduce strongly hyperbolic unit disk graphs and identify the famous hyperbolic random graph model as a special case of them. We then consider four problems where recent empirical results highlight a gap between theory and practice and use hyperbolic graph models to explain these phenomena theoretically. First, we develop a routing scheme, used to forward information in a network, and analyze its efficiency on strongly hyperbolic unit disk graphs. For the special case of hyperbolic random graphs, our algorithm beats existing performance lower bounds. Afterwards, we use the hyperbolic random graph model to theoretically explain empirical observations about the performance of the bidirectional breadth-first search. Finally, we develop algorithms for computing optimal and nearly optimal vertex covers (problems known to be NP-hard) and show that, on hyperbolic random graphs, they run in polynomial and quasi-linear time, respectively. Our theoretical analyses reveal interesting properties of hyperbolic random graphs and our empirical studies present evidence that these properties, as well as our algorithmic improvements translate back into practice. N2 - Viele komplexe Systeme mit denen wir tagtäglich zu tun haben, können mit Hilfe von Netzwerken beschrieben werden, welche daher schon jahrzehntelang im Fokus der Informatik stehen. Dort werden Algorithmen entwickelt, um diese Systeme besser verstehen und nutzen zu können. Überraschenderweise unterscheidet sich unsere theoretische Vorstellung dieser Algorithmen jedoch oft immens von derem praktischen Verhalten. Tatsächlich neigen sie dazu auf echten Netzwerken viel effizienter zu sein, als man im schlimmsten Fall erwarten würde. Eine Möglichkeit diese Diskrepanz zu erfassen ist die Average-Case Analyse bei der man die Unterschiede zwischen echten Instanzen und dem schlimmsten Fall ausnutzt, indem ausschließlich Netzwerke betrachtet werden, deren Eigenschaften die von echten Graphen gut abbilden. Jüngste Beobachtungen zeigen, dass gute Abbildungen entstehen, wenn man annimmt, dass einem Netzwerk eine hyperbolische Geometrie zugrunde liegt. In dieser Arbeit wird demonstriert, dass hyperbolische Netzwerke als mächtiges Werkzeug der Average-Case Analyse dienen können. Dazu werden stark-hyperbolische Unit-Disk-Graphen eingeführt und die bekannten hyperbolischen Zufallsgraphen als ein Sonderfall dieser identifiziert. Anschließend werden auf diesen Modellen vier Probleme analysiert, um Resultate vorangegangener Experimente theoretisch zu erklären, die eine Diskrepanz zwischen Theorie und Praxis aufzeigten. Zuerst wird ein Routing Schema zum Transport von Nachrichten entwickelt und dessen Effizienz auf stark-hyperbolischen Unit-Disk-Graphen untersucht. Allgemeingültige Effizienzschranken können so auf hyperbolischen Zufallsgraphen unterboten werden. Anschließend wird das hyperbolische Zufallsgraphenmodell verwendet, um praktische Beobachtungen der bidirektionalen Breitensuche theoretisch zu erklären und es werden Algorithmen entwickelt, um optimale und nahezu optimale Knotenüberdeckungen zu berechnen (NP-schwer), deren Laufzeit auf diesen Graphen jeweils polynomiell und quasi-linear ist. In den Analysen werden neue Eigenschaften von hyperbolischen Zufallsgraphen aufgedeckt und empirisch gezeigt, dass sich diese sowie die algorithmischen Verbesserungen auch auf echten Netzwerken nachweisen lassen. KW - graph theory KW - hyperbolic geometry KW - average-case analysis KW - Average-Case Analyse KW - Graphentheorie KW - hyperbolische Geometrie Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-582965 ER - TY - JOUR A1 - Kappattanavar, Arpita Mallikarjuna A1 - Hecker, Pascal A1 - Moontaha, Sidratul A1 - Steckhan, Nico A1 - Arnrich, Bert T1 - Food choices after cognitive load BT - an affective computing approach JF - Sensors N2 - Psychology and nutritional science research has highlighted the impact of negative emotions and cognitive load on calorie consumption behaviour using subjective questionnaires. Isolated studies in other domains objectively assess cognitive load without considering its effects on eating behaviour. This study aims to explore the potential for developing an integrated eating behaviour assistant system that incorporates cognitive load factors. Two experimental sessions were conducted using custom-developed experimentation software to induce different stimuli. During these sessions, we collected 30 h of physiological, food consumption, and affective states questionnaires data to automatically detect cognitive load and analyse its effect on food choice. Utilising grid search optimisation and leave-one-subject-out cross-validation, a support vector machine model achieved a mean classification accuracy of 85.12% for the two cognitive load tasks using eight relevant features. Statistical analysis was performed on calorie consumption and questionnaire data. Furthermore, 75% of the subjects with higher negative affect significantly increased consumption of specific foods after high-cognitive-load tasks. These findings offer insights into the intricate relationship between cognitive load, affective states, and food choice, paving the way for an eating behaviour assistant system to manage food choices during cognitive load. Future research should enhance system capabilities and explore real-world applications. KW - cognitive load KW - eating behaviour KW - machine learning KW - physiological signals KW - photoplethysmography KW - electrodermal activity KW - sensors Y1 - 2023 U6 - https://doi.org/10.3390/s23146597 SN - 1424-8220 VL - 23 IS - 14 PB - MDPI CY - Basel ER - TY - JOUR A1 - Jonson Carlon, May Kristine A1 - Gaddem, Mohamed Rami A1 - Hernández Reyes, César Augusto A1 - Nagahama, Toru A1 - Cross, Jeffrey S. T1 - Investigating Mechanical Engineering Learners’ Satisfaction with a Revised Monozukuri MOOC JF - EMOOCs 2021 N2 - Aside from providing instructional materials to the public, developing massive open online courses (MOOCs) can benefit institutions in different ways. Some examples include providing training opportunities for their students aspiring to work in the online learning space, strengthening its brand recognition through courses appealing to enthusiasts, and enabling online linkages with other universities. One such example is the monozukuri MOOC offered by the Tokyo Institute of Technology on edX, which initially presented the Japanese philosophy of making things in the context of a mechanical engineering course. In this paper, we describe the importance of involving a course development team with a diverse background. The monozukuri MOOC and its revision enabled us to showcase an otherwise distinctively Japanese topic (philosophy) as an intersection of various topics of interest to learners with an equally diverse background. The revision resulted in discussing monozukuri in a mechanical engineering lesson and how monozukuri is actively being practiced in the Japanese workplace and academic setting while juxtaposing it to the relatively Western concept of experiential learning. Aside from presenting the course with a broader perspective, the revision had been an exercise for its team members on working in a multicultural environment within a Japanese institution, thus developing their project management and communication skills. Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-517266 SN - 978-3-86956-512-5 VL - 2021 SP - 237 EP - 247 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Jin, Tonje ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - “One video fit for all” BT - game inspired online TEACHING in mathematics in STEM education JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - Online learning in mathematics has always been challenging, especially for mathematics in STEM education. This paper presents how to make “one fit for all” lecture videos for mathematics in STEM education. In general, we do believe that there is no such thing as “one fit for all” video. The curriculum requires a high level of prior knowledge in mathematics from high school to get a good understanding, and the variation of prior knowledge levels among STEM education students is often high. This creates challenges for both online teaching and on-campus teaching. This article presents experimenting and researching on a video format where students can get a real-time feeling, and which fits their needs regarding their existing prior knowledge. They have the possibility to ask and receive answers during the video without having to feel that they must jump into different sources, which helps to reduce unnecessary distractions. The fundamental video format presented here is that of dynamic branching videos, which has to little degree been researched in education related studies. The reason might be that this field is quite new for higher education, and there is relatively high requirement on the video editing skills from the teachers’ side considering the platforms that are available so far. The videos are implemented for engineering students who take the Linear Algebra course at the Norwegian University of Science and Technology in spring 2023. Feedback from the students gathered via anonymous surveys so far (N = 21) is very positive. With the high suitability for online teaching, this video format might lead the trend of online learning in the future. The design and implementation of dynamic videos in mathematics in higher education was presented for the first time at the EMOOCs conference 2023. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-621080 SP - 21 EP - 35 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Jiang, Lan A1 - Naumann, Felix T1 - Holistic primary key and foreign key detection JF - Journal of intelligent information systems : JIIS N2 - Primary keys (PKs) and foreign keys (FKs) are important elements of relational schemata in various applications, such as query optimization and data integration. However, in many cases, these constraints are unknown or not documented. Detecting them manually is time-consuming and even infeasible in large-scale datasets. We study the problem of discovering primary keys and foreign keys automatically and propose an algorithm to detect both, namely Holistic Primary Key and Foreign Key Detection (HoPF). PKs and FKs are subsets of the sets of unique column combinations (UCCs) and inclusion dependencies (INDs), respectively, for which efficient discovery algorithms are known. Using score functions, our approach is able to effectively extract the true PKs and FKs from the vast sets of valid UCCs and INDs. Several pruning rules are employed to speed up the procedure. We evaluate precision and recall on three benchmarks and two real-world datasets. The results show that our method is able to retrieve on average 88% of all primary keys, and 91% of all foreign keys. We compare the performance of HoPF with two baseline approaches that both assume the existence of primary keys. KW - Data profiling application KW - Primary key KW - Foreign key KW - Database KW - management Y1 - 2019 U6 - https://doi.org/10.1007/s10844-019-00562-z SN - 0925-9902 SN - 1573-7675 VL - 54 IS - 3 SP - 439 EP - 461 PB - Springer CY - Dordrecht ER - TY - THES A1 - Jiang, Lan T1 - Discovering metadata in data files N2 - It is estimated that data scientists spend up to 80% of the time exploring, cleaning, and transforming their data. A major reason for that expenditure is the lack of knowledge about the used data, which are often from different sources and have heterogeneous structures. As a means to describe various properties of data, metadata can help data scientists understand and prepare their data, saving time for innovative and valuable data analytics. However, metadata do not always exist: some data file formats are not capable of storing them; metadata were deleted for privacy concerns; legacy data may have been produced by systems that were not designed to store and handle meta- data. As data are being produced at an unprecedentedly fast pace and stored in diverse formats, manually creating metadata is not only impractical but also error-prone, demanding automatic approaches for metadata detection. In this thesis, we are focused on detecting metadata in CSV files – a type of plain-text file that, similar to spreadsheets, may contain different types of content at arbitrary positions. We propose a taxonomy of metadata in CSV files and specifically address the discovery of three different metadata: line and cell type, aggregations, and primary keys and foreign keys. Data are organized in an ad-hoc manner in CSV files, and do not follow a fixed structure, which is assumed by common data processing tools. Detecting the structure of such files is a prerequisite of extracting information from them, which can be addressed by detecting the semantic type, such as header, data, derived, or footnote, of each line or each cell. We propose the supervised- learning approach Strudel to detect the type of lines and cells. CSV files may also include aggregations. An aggregation represents the arithmetic relationship between a numeric cell and a set of other numeric cells. Our proposed AggreCol algorithm is capable of detecting aggregations of five arithmetic functions in CSV files. Note that stylistic features, such as font style and cell background color, do not exist in CSV files. Our proposed algorithms address the respective problems by using only content, contextual, and computational features. Storing a relational table is also a common usage of CSV files. Primary keys and foreign keys are important metadata for relational databases, which are usually not present for database instances dumped as plain-text files. We propose the HoPF algorithm to holistically detect both constraints in relational databases. Our approach is capable of distinguishing true primary and foreign keys from a great amount of spurious unique column combinations and inclusion dependencies, which can be detected by state-of-the-art data profiling algorithms. N2 - Schätzungen zufolge verbringen Datenwissenschaftler bis zu 80% ihrer Zeit mit der Erkundung, Bereinigung und Umwandlung ihrer Daten. Ein Hauptgrund für diesen Aufwand ist das fehlende Wissen über die verwendeten Daten, die oft aus unterschiedlichen Quellen stammen und heterogene Strukturen aufweisen. Als Mittel zur Beschreibung verschiedener Dateneigenschaften können Metadaten Datenwissenschaftlern dabei helfen, ihre Daten zu verstehen und aufzubereiten, und so wertvolle Zeit die Datenanalysen selbst sparen. Metadaten sind jedoch nicht immer vorhanden: Zum Beispiel sind einige Dateiformate nicht in der Lage, sie zu speichern; Metadaten können aus Datenschutzgründen gelöscht worden sein; oder ältere Daten wurden möglicherweise von Systemen erzeugt, die nicht für die Speicherung und Verarbeitung von Metadaten konzipiert waren. Da Daten in einem noch nie dagewesenen Tempo produziert und in verschiedenen Formaten gespeichert werden, ist die manuelle Erstellung von Metadaten nicht nur unpraktisch, sondern auch fehleranfällig, so dass automatische Ansätze zur Metadatenerkennung erforderlich sind. In dieser Arbeit konzentrieren wir uns auf die Erkennung von Metadaten in CSV-Dateien - einer Art von Klartextdateien, die, ähnlich wie Tabellenkalkulationen, verschiedene Arten von Inhalten an beliebigen Positionen enthalten können. Wir schlagen eine Taxonomie der Metadaten in CSV-Dateien vor und befassen uns speziell mit der Erkennung von drei verschiedenen Metadaten: Zeile und Zellensemantischer Typ, Aggregationen sowie Primärschlüssel und Fremdschlüssel. Die Daten sind in CSV-Dateien ad-hoc organisiert und folgen keiner festen Struktur, wie sie von gängigen Datenverarbeitungsprogrammen angenommen wird. Die Erkennung der Struktur solcher Dateien ist eine Voraussetzung für die Extraktion von Informationen aus ihnen, die durch die Erkennung des semantischen Typs jeder Zeile oder jeder Zelle, wie z. B. Kopfzeile, Daten, abgeleitete Daten oder Fußnote, angegangen werden kann. Wir schlagen den Ansatz des überwachten Lernens, genannt „Strudel“ vor, um den strukturellen Typ von Zeilen und Zellen zu klassifizieren. CSV-Dateien können auch Aggregationen enthalten. Eine Aggregation stellt die arithmetische Beziehung zwischen einer numerischen Zelle und einer Reihe anderer numerischer Zellen dar. Der von uns vorgeschlagene „Aggrecol“-Algorithmus ist in der Lage, Aggregationen von fünf arithmetischen Funktionen in CSV-Dateien zu erkennen. Da stilistische Merkmale wie Schriftart und Zellhintergrundfarbe in CSV-Dateien nicht vorhanden sind, die von uns vorgeschlagenen Algorithmen die entsprechenden Probleme, indem sie nur die Merkmale Inhalt, Kontext und Berechnungen verwenden. Die Speicherung einer relationalen Tabelle ist ebenfalls eine häufige Verwendung von CSV-Dateien. Primär- und Fremdschlüssel sind wichtige Metadaten für relationale Datenbanken, die bei Datenbankinstanzen, die als reine Textdateien gespeichert werden, normalerweise nicht vorhanden sind. Wir schlagen den „HoPF“-Algorithmus vor, um beide Constraints in relationalen Datenbanken ganzheitlich zu erkennen. Unser Ansatz ist in der Lage, echte Primär- und Fremdschlüssel von einer großen Menge an falschen eindeutigen Spaltenkombinationen und Einschlussabhängigkeiten zu unterscheiden, die von modernen Data-Profiling-Algorithmen erkannt werden können. KW - data preparation KW - metadata detection KW - data wrangling KW - Datenaufbereitung KW - Datentransformation KW - Erkennung von Metadaten Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-566204 ER - TY - THES A1 - Jain, Nitisha T1 - Representation and curation of knowledge graphs with embeddings N2 - Knowledge graphs are structured repositories of knowledge that store facts about the general world or a particular domain in terms of entities and their relationships. Owing to the heterogeneity of use cases that are served by them, there arises a need for the automated construction of domain- specific knowledge graphs from texts. While there have been many research efforts towards open information extraction for automated knowledge graph construction, these techniques do not perform well in domain-specific settings. Furthermore, regardless of whether they are constructed automatically from specific texts or based on real-world facts that are constantly evolving, all knowledge graphs inherently suffer from incompleteness as well as errors in the information they hold. This thesis investigates the challenges encountered during knowledge graph construction and proposes techniques for their curation (a.k.a. refinement) including the correction of semantic ambiguities and the completion of missing facts. Firstly, we leverage existing approaches for the automatic construction of a knowledge graph in the art domain with open information extraction techniques and analyse their limitations. In particular, we focus on the challenging task of named entity recognition for artwork titles and show empirical evidence of performance improvement with our proposed solution for the generation of annotated training data. Towards the curation of existing knowledge graphs, we identify the issue of polysemous relations that represent different semantics based on the context. Having concrete semantics for relations is important for downstream appli- cations (e.g. question answering) that are supported by knowledge graphs. Therefore, we define the novel task of finding fine-grained relation semantics in knowledge graphs and propose FineGReS, a data-driven technique that discovers potential sub-relations with fine-grained meaning from existing pol- ysemous relations. We leverage knowledge representation learning methods that generate low-dimensional vectors (or embeddings) for knowledge graphs to capture their semantics and structure. The efficacy and utility of the proposed technique are demonstrated by comparing it with several baselines on the entity classification use case. Further, we explore the semantic representations in knowledge graph embed- ding models. In the past decade, these models have shown state-of-the-art results for the task of link prediction in the context of knowledge graph comple- tion. In view of the popularity and widespread application of the embedding techniques not only for link prediction but also for different semantic tasks, this thesis presents a critical analysis of the embeddings by quantitatively measuring their semantic capabilities. We investigate and discuss the reasons for the shortcomings of embeddings in terms of the characteristics of the underlying knowledge graph datasets and the training techniques used by popular models. Following up on this, we propose ReasonKGE, a novel method for generating semantically enriched knowledge graph embeddings by taking into account the semantics of the facts that are encapsulated by an ontology accompanying the knowledge graph. With a targeted, reasoning-based method for generating negative samples during the training of the models, ReasonKGE is able to not only enhance the link prediction performance, but also reduce the number of semantically inconsistent predictions made by the resultant embeddings, thus improving the quality of knowledge graphs. N2 - Wissensgraphen sind strukturierte Wissenssammlungen, die Fakten über die allgemeine Welt oder eine bestimmte Dom¨ane in Form von Entitäten und deren Beziehungen speichern. Aufgrund der Heterogenität der Anwendungsfälle, für die sie verwendet werden, besteht ein Bedarf an der automatischen Erstellung von domänenspezifischen Wissensgraphen aus Texten. Obwohl es viele Forschungsbem¨uhungen in Richtung offener Informationsextraktion für die automatische Konstruktion von Wissensgraphen gegeben hat, sind diese Techniken in domänenspezifischen Umgebungen nicht sehr leistungsfähig. Darüber hinaus leiden alle Wissensgraphen, unabhängig davon, ob sie automatisch aus spezifischen Texten oder auf der Grundlage realer Fakten, die sich ständig weiterentwickeln, konstruiert werden, unter Unvollständigkeit und Fehlern in den darin enthaltenen Informationen. Diese Arbeit untersucht die Herausforderungen, die bei der Konstruktion von Wissensgraphen auftreten, und schlägt Techniken zu ihrer Kuratierung (auch bekannt als Verfeinerung) vor, einschließlich der Korrektur semantischer Mehrdeutigkeiten und der Vervollständigung fehlender Fakten. Zunächst nutzen wir bestehende Ansätze für die automatische Erstellung eines Wissensgraphen im Kunstbereich mit offenen Informationsextraktionstechniken und analysieren deren Grenzen. Insbesondere konzentrieren wir uns auf die anspruchsvolle Aufgabe der Named Entity Recognition für Kunstwerke und zeigen empirische Belege für eine Leistungsverbesserung mit der von uns vorgeschlagenen Lösung für die Generierung von annotierten Trainingsdaten. Im Hinblick auf die Kuratierung bestehender Wissensgraphen identifizieren wir das Problem polysemer Relationen, die je nach Kontext unterschiedliche Semantiken repräsentieren. Konkrete Semantiken für Relationen sind wichtig für nachgelagerte Anwendungen (z.B. Fragenbeantwortung), die durch Wissensgraphen unterstützt werden. Daher definieren wir die neuartige Aufgabe, feinkörnige Relationssemantiken in Wissensgraphen zu finden und schlagen FineGReS vor, eine datengesteuerte Technik, die eine datengesteuerte Technik, die potenzielle Unterbeziehungen mit feinkörniger Bedeutung aus bestehenden polysemen Beziehungen entdeckt. Wir nutzen Lernmethoden zur Wissensrepräsentation, die niedrigdimensionale Vektoren (oder Einbettungen) für Wissensgraphen erzeugen, um deren Semantik und Struktur zu erfassen. Die Wirksamkeit und Nützlichkeit der vorgeschlagenen Technik wird durch den Vergleich mit verschiedenen Basisverfahren im Anwendungsfall der Entitätsklassifizierung demonstriert. Darüber hinaus untersuchen wir die semantischen Repräsentationen in Modellen zur Einbettung von Wissensgraphen. In den letzten zehn Jahren haben diese Modelle in den letzten zehn Jahren die besten Ergebnisse bei der Vorhersage von Links im Zusammenhang mit der Vervollständigung von Wissensgraphen erzielt. Angesichts der Popularität und der weit verbreiteten Anwendung der Einbettungstechniken nicht nur für die Linkvorhersage, sondern auch für andere semantische Aufgaben, wird in dieser Arbeit eine kritische Analyse der Einbettungen durch quantitative Messung ihrer semantischen Fähigkeiten vorgenommen. Wir untersuchen und diskutieren die Gründe für die Unzulänglichkeiten von Einbettungen in Bezug auf die Eigenschaften der zugrundeliegenden Wissensgraphen-Datensätze und die von den populären Modellen verwendeten Trainingstechniken. Darauf aufbauend schlagen wir ReasonKGE vor, eine neuartige Methode zur Erzeugung semantisch angereicherter Wissensgrapheneinbettungen durch Berücksichtigung der Semantik der Fakten, die durch eine den Wissensgraphen begleitende Ontologie gekapselt sind. Mit einer gezielten, schlussfolgernden Methode zur Erzeugung von Negativproben während des Trainings der Modelle ist ReasonKGE in der Lage, nicht nur die Leistung der Link-Vorhersage zu verbessern, sondern auch die Anzahl der semantisch inkonsistenten Vorhersagen der resultierenden Einbettungen zu reduzieren und damit die Qualität der Wissensgraphen zu verbessern. KW - knowledge graphs KW - embeddings KW - knowledge graph construction KW - knowledge graph refinement KW - domain-specific knowledge graphs KW - named entity recognition KW - semantic representations KW - domänenspezifisches Wissensgraphen KW - Einbettungen KW - Konstruktion von Wissensgraphen KW - Wissensgraphen Verfeinerung KW - Wissensgraphen KW - Named-Entity-Erkennung KW - semantische Repräsentationen Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-612240 ER - TY - JOUR A1 - Jaeger, David A1 - Graupner, Hendrik A1 - Pelchen, Chris A1 - Cheng, Feng A1 - Meinel, Christoph T1 - Fast Automated Processing and Evaluation of Identity Leaks JF - International journal of parallel programming N2 - The relevance of identity data leaks on the Internet is more present than ever. Almost every week we read about leakage of databases with more than a million users in the news. Smaller but not less dangerous leaks happen even multiple times a day. The public availability of such leaked data is a major threat to the victims, but also creates the opportunity to learn not only about security of service providers but also the behavior of users when choosing passwords. Our goal is to analyze this data and generate knowledge that can be used to increase security awareness and security, respectively. This paper presents a novel approach to the processing and analysis of a vast majority of bigger and smaller leaks. We evolved from a semi-manual to a fully automated process that requires a minimum of human interaction. Our contribution is the concept and a prototype implementation of a leak processing workflow that includes the extraction of digital identities from structured and unstructured leak-files, the identification of hash routines and a quality control to ensure leak authenticity. By making use of parallel and distributed programming, we are able to make leaks almost immediately available for analysis and notification after they have been published. Based on the data collected, this paper reveals how easy it is for criminals to collect lots of passwords, which are plain text or only weakly hashed. We publish those results and hope to increase not only security awareness of Internet users but also security on a technical level on the service provider side. KW - Identity leak KW - Data breach KW - Automated parsing KW - Parallel processing Y1 - 2018 U6 - https://doi.org/10.1007/s10766-016-0478-6 SN - 0885-7458 SN - 1573-7640 VL - 46 IS - 2 SP - 441 EP - 470 PB - Springer CY - New York ER - TY - THES A1 - Jaeger, David T1 - Enabling Big Data security analytics for advanced network attack detection T1 - Ermöglichung von Big Data Sicherheitsanalysen für erweiterte Angriffserkennung in Netzwerken N2 - The last years have shown an increasing sophistication of attacks against enterprises. Traditional security solutions like firewalls, anti-virus systems and generally Intrusion Detection Systems (IDSs) are no longer sufficient to protect an enterprise against these advanced attacks. One popular approach to tackle this issue is to collect and analyze events generated across the IT landscape of an enterprise. This task is achieved by the utilization of Security Information and Event Management (SIEM) systems. However, the majority of the currently existing SIEM solutions is not capable of handling the massive volume of data and the diversity of event representations. Even if these solutions can collect the data at a central place, they are neither able to extract all relevant information from the events nor correlate events across various sources. Hence, only rather simple attacks are detected, whereas complex attacks, consisting of multiple stages, remain undetected. Undoubtedly, security operators of large enterprises are faced with a typical Big Data problem. In this thesis, we propose and implement a prototypical SIEM system named Real-Time Event Analysis and Monitoring System (REAMS) that addresses the Big Data challenges of event data with common paradigms, such as data normalization, multi-threading, in-memory storage, and distributed processing. In particular, a mostly stream-based event processing workflow is proposed that collects, normalizes, persists and analyzes events in near real-time. In this regard, we have made various contributions in the SIEM context. First, we propose a high-performance normalization algorithm that is highly parallelized across threads and distributed across nodes. Second, we are persisting into an in-memory database for fast querying and correlation in the context of attack detection. Third, we propose various analysis layers, such as anomaly- and signature-based detection, that run on top of the normalized and correlated events. As a result, we demonstrate our capabilities to detect previously known as well as unknown attack patterns. Lastly, we have investigated the integration of cyber threat intelligence (CTI) into the analytical process, for instance, for correlating monitored user accounts with previously collected public identity leaks to identify possible compromised user accounts. In summary, we show that a SIEM system can indeed monitor a large enterprise environment with a massive load of incoming events. As a result, complex attacks spanning across the whole network can be uncovered and mitigated, which is an advancement in comparison to existing SIEM systems on the market. N2 - Die letzten Jahre haben gezeigt, dass die Komplexität von Angriffen auf Unternehmensnetzwerke stetig zunimmt. Herkömmliche Sicherheitslösungen, wie Firewalls, Antivirus-Programme oder generell Intrusion Detection Systeme (IDS), sind nicht mehr ausreichend, um Unternehmen vor solch ausgefeilten Angriffen zu schützen. Ein verbreiteter Lösungsansatz für dieses Problem ist das Sammeln und Analysieren von Ereignissen innerhalb des betroffenen Unternehmensnetzwerks mittels Security Information and Event Management (SIEM) Systemen. Die Mehrheit der derzeitigen SIEM-Lösungen auf dem Markt ist allerdings nicht in er Lage, das riesige Datenvolumen und die Vielfalt der Ereignisdarstellungen zu bewältigen. Auch wenn diese Lösungen die Daten an einem zentralen Ort sammeln können, können sie weder alle relevanten Informationen aus den Ereignissen extrahieren noch diese über verschiedene Quellen hinweg korrelieren. Aktuell werden daher nur relativ einfache Angriffe erkannt, während komplexe mehrstufige Angriffe unentdeckt bleiben. Zweifellos stehen Sicherheitsverantwortliche großer Unternehmen einem typischen Big Data-Problem gegenüber. In dieser Arbeit wird ein prototypisches SIEM-System vorgeschlagen und implementiert, welches den Big Data-Anforderungen von Ereignisdaten mit gängigen Paradigmen, wie Datennormalisierung, Multithreading, In-Memory/Speicherung und verteilter Verarbeitung begegnet. Insbesondere wird ein größtenteils stream-basierter Workflow für die Ereignisverarbeitung vorgeschlagen, der Ereignisse in nahezu Echtzeit erfasst, normalisiert, persistiert und analysiert. In diesem Zusammenhang haben wir verschiedene Beiträge im SIEM-Kontext geleistet. Erstens schlagen wir einen Algorithmus für die Hochleistungsnormalisierung vor, der, über Threads hinweg, hochgradig parallelisiert und auf Knoten verteilt ist. Zweitens persistieren wir in eine In-Memory-Datenbank, um im Rahmen der Angriffserkennung eine schnelle Abfrage und Korrelation von Ereignissen zu ermöglichen. Drittens schlagen wir verschiedene Analyseansätze, wie beispielsweise die anomalie- und musterbasierte Erkennung, vor, die auf normalisierten und korrelierten Ereignissen basieren. Damit können wir bereits bekannte als auch bisher unbekannte Arten von Angriffen erkennen. Zuletzt haben wir die Integration von sogenannter Cyber Threat Intelligence (CTI) in den Analyseprozess untersucht. Als Beispiel erfassen wir veröffentlichte Identitätsdiebstähle von großen Dienstanbietern, um Nutzerkonten zu identifizieren, die möglicherweise in nächster Zeit durch den Missbrauch verloren gegangener Zugangsdaten kompromittiert werden könnten. Zusammenfassend zeigen wir, dass ein SIEM-System tatsächlich ein großes Unternehmensnetzwerk mit einer massiven Menge an eingehenden Ereignissen überwachen kann. Dadurch können komplexe Angriffe, die sich über das gesamte Netzwerk erstrecken, aufgedeckt und abgewehrt werden. Dies ist ein Fortschritt gegenüber den auf dem Markt vorhandenen SIEM-Systemen. KW - intrusion detection KW - Angriffserkennung KW - network security KW - Netzwerksicherheit KW - Big Data KW - Big Data KW - event normalization KW - Ereignisnormalisierung KW - SIEM KW - SIEM KW - IDS KW - IDS KW - multi-step attack KW - mehrstufiger Angriff Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-435713 ER - TY - CHAP A1 - Jacqmin, Julien A1 - Özdemir, Paker Doğu A1 - Fell Kurban, Caroline A1 - Tunç Pekkan, Zelha A1 - Koskinen, Johanna A1 - Suonpää, Maija A1 - Seng, Cheyvuth A1 - Carlon, May Kristine Jonson A1 - Gayed, John Maurice A1 - Cross, Jeffrey S. A1 - Langseth, Inger A1 - Jacobsen, Dan Yngve A1 - Haugsbakken, Halvdan A1 - Bethge, Joseph A1 - Serth, Sebastian A1 - Staubitz, Thomas A1 - Wuttke, Tobias A1 - Nordemann, Oliver A1 - Das, Partha-Pratim A1 - Meinel, Christoph A1 - Ponce, Eva A1 - Srinath, Sindhu A1 - Allegue, Laura A1 - Perach, Shai A1 - Alexandron, Giora A1 - Corti, Paola A1 - Baudo, Valeria A1 - Turró, Carlos A1 - Moura Santos, Ana A1 - Nilsson, Charlotta A1 - Maldonado-Mahauad, Jorge A1 - Valdiviezo, Javier A1 - Carvallo, Juan Pablo A1 - Samaniego-Erazo, Nicolay A1 - Poce, Antonella A1 - Re, Maria Rosaria A1 - Valente, Mara A1 - Karp Gershon, Sa’ar A1 - Ruipérez-Valiente, José A. A1 - Despujol, Ignacio A1 - Busquets, Jaime A1 - Kerr, John A1 - Lorenz, Anja A1 - Schön, Sandra A1 - Ebner, Martin A1 - Wittke, Andreas A1 - Beirne, Elaine A1 - Nic Giolla Mhichíl, Mairéad A1 - Brown, Mark A1 - Mac Lochlainn, Conchúr A1 - Topali, Paraskevi A1 - Chounta, Irene-Angelica A1 - Ortega-Arranz, Alejandro A1 - Villagrá-Sobrino, Sara L. A1 - Martínez-Monés, Alejandra A1 - Blackwell, Virginia Katherine A1 - Wiltrout, Mary Ellen A1 - Rami Gaddem, Mohamed A1 - Hernández Reyes, César Augusto A1 - Nagahama, Toru A1 - Buchem, Ilona A1 - Okatan, Ebru A1 - Khalil, Mohammad A1 - Casiraghi, Daniela A1 - Sancassani, Susanna A1 - Brambilla, Federica A1 - Mihaescu, Vlad A1 - Andone, Diana A1 - Vasiu, Radu A1 - Şahin, Muhittin A1 - Egloffstein, Marc A1 - Bothe, Max A1 - Rohloff, Tobias A1 - Schenk, Nathanael A1 - Schwerer, Florian A1 - Ifenthaler, Dirk A1 - Hense, Julia A1 - Bernd, Mike ED - Meinel, Christoph ED - Staubitz, Thomas ED - Schweiger, Stefanie ED - Friedl, Christian ED - Kiers, Janine ED - Ebner, Martin ED - Lorenz, Anja ED - Ubachs, George ED - Mongenet, Catherine ED - Ruipérez-Valiente, José A. ED - Cortes Mendez, Manoel T1 - EMOOCs 2021 N2 - From June 22 to June 24, 2021, Hasso Plattner Institute, Potsdam, hosted the seventh European MOOC Stakeholder Summit (EMOOCs 2021) together with the eighth ACM Learning@Scale Conference. Due to the COVID-19 situation, the conference was held fully online. The boost in digital education worldwide as a result of the pandemic was also one of the main topics of this year’s EMOOCs. All institutions of learning have been forced to transform and redesign their educational methods, moving from traditional models to hybrid or completely online models at scale. The learnings, derived from practical experience and research, have been explored in EMOOCs 2021 in six tracks and additional workshops, covering various aspects of this field. In this publication, we present papers from the conference’s Experience Track, the Policy Track, the Business Track, the International Track, and the Workshops. KW - e-learning KW - microcredential KW - MOOC KW - digital education KW - experience KW - online course design KW - online course creation KW - higher education Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-510300 SN - 978-3-86956-512-5 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Jacqmin, Julien T1 - What Drives Enrollment in Massive Open Online Courses? BT - Evidences from a French MOOC Platform JF - EMOOCs 2021 N2 - The goal of this paper is to study the demand factors driving enrollment in massive open online courses. Using course level data from a French MOOC platform, we study the course, teacher and institution related characteristics that influence the enrollment decision of students, in a setting where enrollment is open to all students without administrative barriers. Coverage from social and traditional media done around the course is a key driver. In addition, the language of instruction and the (estimated) amount of work needed to complete the course also have a significant impact. The data also suggests that the presence of same-side externalities is limited. Finally, preferences of national and of international students tend to differ on several dimensions. Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-516899 SN - 978-3-86956-512-5 VL - 2021 SP - 1 EP - 16 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - GEN A1 - Ion, Alexandra A1 - Baudisch, Patrick Markus T1 - Metamaterial Devices N2 - In our hands-on demonstration, we show several objects, the functionality of which is defined by the objects' internal micro-structure. Such metamaterial machines can (1) be mechanisms based on their microstructures, (2) employ simple mechanical computation, or (3) change their outside to interact with their environment. They are 3D printed from one piece and we support their creating by providing interactive software tools. KW - Metamaterials KW - microstructures KW - fabrication KW - programmable matter Y1 - 2018 SN - 978-1-4503-5819-4 U6 - https://doi.org/10.1145/3214822.3214827 PB - Association for Computing Machinery CY - New York ER - TY - THES A1 - Ion, Alexandra T1 - Metamaterial devices T1 - Metamaterial-Geräte N2 - Digital fabrication machines such as 3D printers excel at producing arbitrary shapes, such as for decorative objects. In recent years, researchers started to engineer not only the outer shape of objects, but also their internal microstructure. Such objects, typically based on 3D cell grids, are known as metamaterials. Metamaterials have been used to create materials that, e.g., change their volume, or have variable compliance. While metamaterials were initially understood as materials, we propose to think of them as devices. We argue that thinking of metamaterials as devices enables us to create internal structures that offer functionalities to implement an input-process-output model without electronics, but purely within the material’s internal structure. In this thesis, we investigate three aspects of such metamaterial devices that implement parts of the input-process-output model: (1) materials that process analog inputs by implementing mechanisms based on their microstructure, (2) that process digital signals by embedding mechanical computation into the object’s microstructure, and (3) interactive metamaterial objects that output to the user by changing their outside to interact with their environment. The input to our metamaterial devices is provided directly by the users interacting with the device by means of physically pushing the metamaterial, e.g., turning a handle, pushing a button, etc. The design of such intricate microstructures, which enable the functionality of metamaterial devices, is not obvious. The complexity of the design arises from the fact that not only a suitable cell geometry is necessary, but that additionally cells need to play together in a well-defined way. To support users in creating such microstructures, we research and implement interactive design tools. These tools allow experts to freely edit their materials, while supporting novice users by auto-generating cells assemblies from high-level input. Our tools implement easy-to-use interactions like brushing, interactively simulate the cell structures’ deformation directly in the editor, and export the geometry as a 3D-printable file. Our goal is to foster more research and innovation on metamaterial devices by allowing the broader public to contribute. N2 - Digitale Fabrikationsmaschinen, wie 3D-Drucker, eignen sich hervorragend um beliebige Formen zu produzieren. Daher sind sie bei Endnutzern für die Erstellung von dekorativen Elementen sehr beliebt. Forscher hingegen haben in den letzten Jahren damit begonnen, nicht nur die äußere Form zu betrachten, sondern auch Mikrostrukturen im Inneren. Solche Strukturen, die meist auf einem 3-dimensionalen Gitter angeordnet sind, sind als "Metamaterialien" bekannt. Metamaterialien wurden entwickelt, um Eigenschaften wie Volumenänderung oder lokalisiert die Steifheit des Materials zu steuern. Traditionell werden Metamaterialien als Materialien betrachtet, wir hingegen betrachten sie als Geräte. In dieser Arbeit zeigen wir, dass die Betrachtung von Metamaterialien als Geräte es erlaubt Strukturen zu kreieren, die Geräte nach dem Eingabe-Verarbeitung-Ausgabe Prinzip realisieren -- und das gänzlich ohne Elektronik. Wir untersuchen 3 Aspekte von solchen funktionsfähigen Metamaterial-Geräten die jeweils Teile des EVA Prinzips implementieren: (1) Materialien, die analoge Eingabe als Mechanismen, die durch ihre Mikrostruktur bestimmt sind, verarbeiten, (2) Materialien, die digitale Eingabe verarbeiten und mechanische Berechnungen in ihrer Mikrostruktur durchführen und (3) Materialien, die ihre äußere Textur dynamisch verändern können um mit dem Nutzer zu kommunizieren. Die Eingabe für Metamaterial-Geräte ist in dieser Arbeit direkt durch den Nutzer gegeben, der mit dem Gerät interagiert, zum Beispiel durch Drücken eines Griffs, eines Knopfes, etc. Das Design von solchen filigranen Mikrostrukturen, die die Funktionalität der Metamaterial-Geräte definieren, ist nicht offensichtlich oder einfach. Der Designprozess ist komplex, weil nicht nur eine Zellstruktur gefunden werden muss, die die gewünschte Deformation durchführt, sondern die Zellstrukturen zusätzlich auf wohldefinierte Weise zusammenspielen müssen. Um Nutzern die Erstellung von diesen Mikrostrukturen zu ermöglichen, unterstützen wir sie durch interaktive Computerprogramme, die wir in dieser Arbeit untersuchen und implementieren. Wir haben Software entwickelt, die es Experten erlaubt die Mikrostrukturen frei zu platzieren und zu editieren, während Laien durch automatisch generierte Strukturen geholfen wird. Unsere Software beinhaltet einfach zu bedienende Interaktionskonzepte, wie zum Beispiel das aufmalen von funktionalen Eigenschaften auf Objekte, eine integrierte Vorschau der Deformation, oder der 3D-druckfähige Export der erstellten Geometrie. Das Ziel dieser Arbeit ist es langfristig Forschung und Innovation von Metamaterial-Geräten zu fördern, so dass sich sogar die breite Masse in das Thema einbringen kann. KW - metamaterials KW - computational design KW - fabrication KW - 3D printing KW - programmable matter KW - Metamaterialien KW - computergestützte Gestaltung KW - Fabrikation KW - 3D-Druck KW - programmierbare Materie Y1 - 2018 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-429861 ER - TY - JOUR A1 - Ihde, Sven A1 - Pufahl, Luise A1 - Völker, Maximilian A1 - Goel, Asvin A1 - Weske, Mathias T1 - A framework for modeling and executing task BT - specific resource allocations in business processes JF - Computing : archives for informatics and numerical computation N2 - As resources are valuable assets, organizations have to decide which resources to allocate to business process tasks in a way that the process is executed not only effectively but also efficiently. Traditional role-based resource allocation leads to effective process executions, since each task is performed by a resource that has the required skills and competencies to do so. However, the resulting allocations are typically not as efficient as they could be, since optimization techniques have yet to find their way in traditional business process management scenarios. On the other hand, operations research provides a rich set of analytical methods for supporting problem-specific decisions on resource allocation. This paper provides a novel framework for creating transparency on existing tasks and resources, supporting individualized allocations for each activity in a process, and the possibility to integrate problem-specific analytical methods of the operations research domain. To validate the framework, the paper reports on the design and prototypical implementation of a software architecture, which extends a traditional process engine with a dedicated resource management component. This component allows us to define specific resource allocation problems at design time, and it also facilitates optimized resource allocation at run time. The framework is evaluated using a real-world parcel delivery process. The evaluation shows that the quality of the allocation results increase significantly with a technique from operations research in contrast to the traditional applied rule-based approach. KW - Process Execution KW - Business Process Management KW - Resource Allocation KW - Resource Management KW - Activity-oriented Optimization Y1 - 2022 U6 - https://doi.org/10.1007/s00607-022-01093-2 SN - 0010-485X SN - 1436-5057 VL - 104 SP - 2405 EP - 2429 PB - Springer CY - Wien ER - TY - GEN A1 - Hölzle, Katharina A1 - Björk, Jennie A1 - Visscher, Klaasjan T1 - Editorial T2 - Creativity and innovation management N2 - The new year starts and many of us have right away been burdened with conference datelines, grant proposal datelines, teaching obligations, paper revisions and many other things. While being more or less successful in fulfilling To‐Do lists and ticking of urgent (and sometimes even important) things, we often feel that our ability to be truly creative or innovative is rather restrained by this (external pressure). With this, we are not alone. Many studies have shown that stress does influence overall work performance and satisfaction. Furthermore, more and more students and entry‐levels look for work‐life balance and search for employers that offer a surrounding and organization considering these needs. High‐Tech and start‐up companies praise themselves for their “Feel‐Good managers” or Yoga programs. But is this really helpful? Is there indeed a relationship between stress, adverse work environment and creativity or innovation? What are the supporting factors in a work environment that lets employees be more creative? What kind of leadership do we need for innovative behaviour and to what extent can an organization create support structures that reduce the stress we feel? The first issue of Creativity and Innovation Management in 2019 gives some first answers to these questions and hopefully some food for thought. The first paper written by Dirk De Clercq, and Imanol Belausteguigoitia starts with the question which impact work overload has on creative behaviour. The authors look at how employees' perceptions of work overload reduces their creative behaviour. While they find empirical proof for this relationship, they can also show that the effect is weaker with higher levels of passion for work, emotion sharing, and organizational commitment. The buffering effects of emotion sharing and organizational commitment are particularly strong when they are combined with high levels of passion for work. Their findings give first empirical proof that organizations can and should take an active role in helping their employees reducing the effects of adverse work conditions in order to become or stay creative. However, not only work overload is harming creative behaviour, also the fear of losing one's job has detrimental effects on innovative work behaviour. Anahi van Hootegem, Wendy Niesen and Hans de Witte verify that stress and adverse environmental conditions shape our perception of work. Using threat rigidity theory and an empirical study of 394 employees, they show that the threat of job loss impairs employees' innovativeness through increased irritation and decreased concentration. Organizations can help their employees coping better with this insecurity by communicating more openly and providing different support structures. Support often comes from leadership and the support of the supervisor can clearly shape an employee's motivation to show creative behaviour. Wenjing Cai, Evgenia Lysova, Bart A. G. Bossink, Svetlana N. Khapova and Weidong Wang report empirical findings from a large‐scale survey in China where they find that supervisor support for creativity and job characteristics effectively activate individual psychological capital associated with employee creativity. On a slight different notion, Gisela Bäcklander looks at agile practices in a very well‐known High Tech firm. In “Doing Complexity Leadership Theory: How agile coaches at Spotify practice enabling leadership”, she researches the role of agile coaches and how they practice enabling leadership, a key balancing force in complexity leadership. She finds that the active involvement of coaches in observing group dynamics, surfacing conflict and facilitating and encouraging constructive dialogue leads to a positive working environment and the well‐being of employees. Quotes from the interviews suggest that the flexible structure provided by the coaches may prove a fruitful way to navigate and balance autonomy and alignment in organizations. The fifth paper of Frederik Anseel, Michael Vandamme, Wouter Duyck and Eric Rietzchel goes a little further down this road and researches how groups can be motivated better to select truly creative ideas. We know from former studies that groups often perform rather poorly when it comes to selecting creative ideas for implementation. The authors find in an extensive field experiment that under conditions of high epistemic motivation, proself motivated groups select significantly more creative and original ideas than prosocial groups. They conclude however, that more research is needed to understand better why these differences occur. The prosocial behaviour of groups is also the theme of Karin Moser, Jeremy F. Dawson and Michael A. West's paper on “Antecedents of team innovation in health care teams”. They look at team‐level motivation and how a prosocial team environment, indicated by the level of helping behaviour and information‐sharing, may foster innovation. Their results support the hypotheses of both information‐sharing and helping behaviour on team innovation. They suggest that both factors may actually act as buffer against constraints in team work, such as large team size or high occupational diversity in cross‐functional health care teams, and potentially turn these into resources supporting team innovation rather than acting as barriers. Away from teams and onto designing favourable work environments, the seventh paper of Ferney Osorio, Laurent Dupont, Mauricio Camargo, Pedro Palominos, Jose Ismael Pena and Miguel Alfaro looks into innovation laboratories. Although several studies have tackled the problem of design, development and sustainability of these spaces for innovation, there is still a gap in understanding how the capabilities and performance of these environments are affected by the strategic intentions at the early stages of their design and functioning. The authors analyse and compare eight existing frameworks from literature and propose a new framework for researchers and practitioners aiming to assess or to adapt innovation laboratories. They test their framework in an exploratory study with fifteen laboratories from five different countries and give recommendations for the future design of these laboratories. From design to design thinking goes our last paper from Rama Krishna Reddy Kummitha on “Design Thinking in Social Organisations: Understanding the role of user engagement” where she studies how users persuade social organisations to adopt design thinking. Looking at four social organisations in India during 2008 to 2013, she finds that the designer roles are blurred when social organisations adopt design thinking, while users in the form of interconnecting agencies reduce the gap between designers and communities. The last two articles were developed from papers presented at the 17th International CINet conference organized in Turin in 2016 by Paolo Neirotti and his colleagues. In the first article, Fábio Gama, Johan Frishammar and Vinit Parida focus on ideation and open innovation in small‐ and medium‐sized enterprises. They investigate the relationship between systematic idea generation and performance and the moderating role of market‐based partnerships. Based on a survey among manufacturing SMEs, they conclude that higher levels of performance are reached and that collaboration with customers and suppliers pays off most when idea generation is done in a highly systematic way. The second article, by Anna Holmquist, Mats Magnusson and Mona Livholts, resonates the theme of the CINet conference ‘Innovation and Tradition; combining the old and the new’. They explore how tradition is used in craft‐based design practices to create new meaning. Applying a narrative ‘research through design’ approach they uncover important design elements, and tensions between them. Please enjoy this first issue of CIM in 2019 and we wish you creativity and innovation without too much stress in the months to come. Y1 - 2019 U6 - https://doi.org/10.1111/caim.12307 SN - 0963-1690 SN - 1467-8691 VL - 28 IS - 1 SP - 3 EP - 4 PB - Wiley CY - Hoboken ER - TY - JOUR A1 - Hölzle, Katharina A1 - Björk, Jennie A1 - Boer, Harry T1 - Light at the end of the tunnel JF - Creativity and innovation management Y1 - 2021 U6 - https://doi.org/10.1111/caim.12427 SN - 0963-1690 SN - 1467-8691 VL - 30 IS - 1 SP - 3 EP - 5 PB - Wiley-Blackwell CY - Oxford [u.a.] ER - TY - THES A1 - Huegle, Johannes T1 - Causal discovery in practice: Non-parametric conditional independence testing and tooling for causal discovery T1 - Kausale Entdeckung in der Praxis: Nichtparametrische bedingte Unabhängigkeitstests und Werkzeuge für die Kausalentdeckung N2 - Knowledge about causal structures is crucial for decision support in various domains. For example, in discrete manufacturing, identifying the root causes of failures and quality deviations that interrupt the highly automated production process requires causal structural knowledge. However, in practice, root cause analysis is usually built upon individual expert knowledge about associative relationships. But, "correlation does not imply causation", and misinterpreting associations often leads to incorrect conclusions. Recent developments in methods for causal discovery from observational data have opened the opportunity for a data-driven examination. Despite its potential for data-driven decision support, omnipresent challenges impede causal discovery in real-world scenarios. In this thesis, we make a threefold contribution to improving causal discovery in practice. (1) The growing interest in causal discovery has led to a broad spectrum of methods with specific assumptions on the data and various implementations. Hence, application in practice requires careful consideration of existing methods, which becomes laborious when dealing with various parameters, assumptions, and implementations in different programming languages. Additionally, evaluation is challenging due to the lack of ground truth in practice and limited benchmark data that reflect real-world data characteristics. To address these issues, we present a platform-independent modular pipeline for causal discovery and a ground truth framework for synthetic data generation that provides comprehensive evaluation opportunities, e.g., to examine the accuracy of causal discovery methods in case of inappropriate assumptions. (2) Applying constraint-based methods for causal discovery requires selecting a conditional independence (CI) test, which is particularly challenging in mixed discrete-continuous data omnipresent in many real-world scenarios. In this context, inappropriate assumptions on the data or the commonly applied discretization of continuous variables reduce the accuracy of CI decisions, leading to incorrect causal structures. Therefore, we contribute a non-parametric CI test leveraging k-nearest neighbors methods and prove its statistical validity and power in mixed discrete-continuous data, as well as the asymptotic consistency when used in constraint-based causal discovery. An extensive evaluation of synthetic and real-world data shows that the proposed CI test outperforms state-of-the-art approaches in the accuracy of CI testing and causal discovery, particularly in settings with low sample sizes. (3) To show the applicability and opportunities of causal discovery in practice, we examine our contributions in real-world discrete manufacturing use cases. For example, we showcase how causal structural knowledge helps to understand unforeseen production downtimes or adds decision support in case of failures and quality deviations in automotive body shop assembly lines. N2 - Kenntnisse über die Strukturen zugrundeliegender kausaler Mechanismen sind eine Voraussetzung für die Entscheidungsunterstützung in verschiedenen Bereichen. In der Fertigungsindustrie beispielsweise erfordert die Fehler-Ursachen-Analyse von Störungen und Qualitätsabweichungen, die den hochautomatisierten Produktionsprozess unterbrechen, kausales Strukturwissen. In Praxis stützt sich die Fehler-Ursachen-Analyse in der Regel jedoch auf individuellem Expertenwissen über assoziative Zusammenhänge. Aber "Korrelation impliziert nicht Kausalität", und die Fehlinterpretation assoziativer Zusammenhänge führt häufig zu falschen Schlussfolgerungen. Neueste Entwicklungen von Methoden des kausalen Strukturlernens haben die Möglichkeit einer datenbasierten Betrachtung eröffnet. Trotz seines Potenzials zur datenbasierten Entscheidungsunterstützung wird das kausale Strukturlernen in der Praxis jedoch durch allgegenwärtige Herausforderungen erschwert. In dieser Dissertation leisten wir einen dreifachen Beitrag zur Verbesserung des kausalen Strukturlernens in der Praxis. (1) Das wachsende Interesse an kausalem Strukturlernen hat zu einer Vielzahl von Methoden mit spezifischen statistischen Annahmen über die Daten und verschiedenen Implementierungen geführt. Daher erfordert die Anwendung in der Praxis eine sorgfältige Prüfung der vorhandenen Methoden, was eine Herausforderung darstellt, wenn verschiedene Parameter, Annahmen und Implementierungen in unterschiedlichen Programmiersprachen betrachtet werden. Hierbei wird die Evaluierung von Methoden des kausalen Strukturlernens zusätzlich durch das Fehlen von "Ground Truth" in der Praxis und begrenzten Benchmark-Daten, welche die Eigenschaften realer Datencharakteristiken widerspiegeln, erschwert. Um diese Probleme zu adressieren, stellen wir eine plattformunabhängige modulare Pipeline für kausales Strukturlernen und ein Tool zur Generierung synthetischer Daten vor, die umfassende Evaluierungsmöglichkeiten bieten, z.B. um Ungenauigkeiten von Methoden des Lernens kausaler Strukturen bei falschen Annahmen an die Daten aufzuzeigen. (2) Die Anwendung von constraint-basierten Methoden des kausalen Strukturlernens erfordert die Wahl eines bedingten Unabhängigkeitstests (CI-Test), was insbesondere bei gemischten diskreten und kontinuierlichen Daten, die in vielen realen Szenarien allgegenwärtig sind, die Anwendung erschwert. Beispielsweise führen falsche Annahmen der CI-Tests oder die Diskretisierung kontinuierlicher Variablen zu einer Verschlechterung der Korrektheit der Testentscheidungen, was in fehlerhaften kausalen Strukturen resultiert. Um diese Probleme zu adressieren, stellen wir einen nicht-parametrischen CI-Test vor, der auf Nächste-Nachbar-Methoden basiert, und beweisen dessen statistische Validität und Trennschärfe bei gemischten diskreten und kontinuierlichen Daten, sowie dessen asymptotische Konsistenz in constraint-basiertem kausalem Strukturlernen. Eine umfangreiche Evaluation auf synthetischen und realen Daten zeigt, dass der vorgeschlagene CI-Test bestehende Verfahren hinsichtlich der Korrektheit der Testentscheidung und gelernter kausaler Strukturen übertrifft, insbesondere bei geringen Stichprobengrößen. (3) Um die Anwendbarkeit und Möglichkeiten kausalen Strukturlernens in der Praxis aufzuzeigen, untersuchen wir unsere Beiträge in realen Anwendungsfällen aus der Fertigungsindustrie. Wir zeigen an mehreren Beispielen aus der automobilen Karosseriefertigungen wie kausales Strukturwissen helfen kann, unvorhergesehene Produktionsausfälle zu verstehen oder eine Entscheidungsunterstützung bei Störungen und Qualitätsabweichungen zu geben. KW - causal discovery KW - causal structure learning KW - causal AI KW - non-parametric conditional independence testing KW - manufacturing KW - causal reasoning KW - mixed data KW - kausale KI KW - kausale Entdeckung KW - kausale Schlussfolgerung KW - kausales Strukturlernen KW - Fertigung KW - gemischte Daten KW - nicht-parametrische bedingte Unabhängigkeitstests Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-635820 ER - TY - GEN A1 - Horowitz, Carol R. A1 - Fei, Kezhen A1 - Ramos, Michelle A. A1 - Hauser, Diane A1 - Ellis, Stephen B. A1 - Calman, Neil A1 - Böttinger, Erwin T1 - Receipt of genetic risk information significantly improves blood pressure control among African anecestry adults with hypertension BT - results of a randomized trail T2 - Journal of General Internal Medicine Y1 - 2018 U6 - https://doi.org/10.1007/s11606-018-4413-y SN - 0884-8734 SN - 1525-1497 VL - 33 SP - S322 EP - S323 PB - Springer CY - New York ER - TY - JOUR A1 - Hirschfeld, Robert A1 - Kawarnura, Katsuya T1 - Dynamic service adaptation JF - Software : practice & experience N2 - Change can be observed in our environment and in the technology we build. While changes in the environment happen continuously and implicitly, our technology has to be kept in sync with the changing world around it. Although we can prepare for some of the changes for most of them we cannot. This is especially true for next-generation mobile communication systems that are expected to support the creation of a ubiquitous society where virtually everything is connected and made available within an organic information network. Resources will frequently join or leave the network, new types of media or new combinations of existing types will be used to interact and cooperate, and services will be tailored to preferences and needs of individual customers to better meet their needs. This paper outlines our research in the area of dynamic service adaptation to provide concepts and technologies allowing for such environments. Copyright (C) 2006 John Wiley & Sons, Ltd. KW - dynamic service adaptation KW - DSA KW - aspect-oriented programming KW - dynamic AOP Y1 - 2006 U6 - https://doi.org/10.1002/spe.766 SN - 0038-0644 SN - 1097-024X VL - 36 IS - 11-12 SP - 1115 EP - 1131 PB - Wiley CY - Chichester ER - TY - JOUR A1 - Hiort, Pauline A1 - Schlaffner, Christoph N. A1 - Steen, Judith A. A1 - Renard, Bernhard Y. A1 - Steen, Hanno T1 - multiFLEX-LF: a computational approach to quantify the modification stoichiometries in label-free proteomics data sets JF - Journal of proteome research N2 - In liquid-chromatography-tandem-mass-spectrometry-based proteomics, information about the presence and stoichiometry ofprotein modifications is not readily available. To overcome this problem,we developed multiFLEX-LF, a computational tool that builds uponFLEXIQuant, which detects modified peptide precursors and quantifiestheir modification extent by monitoring the differences between observedand expected intensities of the unmodified precursors. multiFLEX-LFrelies on robust linear regression to calculate the modification extent of agiven precursor relative to a within-study reference. multiFLEX-LF cananalyze entire label-free discovery proteomics data sets in a precursor-centric manner without preselecting a protein of interest. To analyzemodification dynamics and coregulated modifications, we hierarchicallyclustered the precursors of all proteins based on their computed relativemodification scores. We applied multiFLEX-LF to a data-independent-acquisition-based data set acquired using the anaphase-promoting complex/cyclosome (APC/C) isolated at various time pointsduring mitosis. The clustering of the precursors allows for identifying varying modification dynamics and ordering the modificationevents. Overall, multiFLEX-LF enables the fast identification of potentially differentially modified peptide precursors and thequantification of their differential modification extent in large data sets using a personal computer. Additionally, multiFLEX-LF candrive the large-scale investigation of the modification dynamics of peptide precursors in time-series and case-control studies.multiFLEX-LF is available athttps://gitlab.com/SteenOmicsLab/multiflex-lf. KW - bioinformatics tool KW - label-free quantification KW - LC-MS KW - MS KW - post-translational modification KW - modification stoichiometry KW - PTM KW - quantification Y1 - 2022 U6 - https://doi.org/10.1021/acs.jproteome.1c00669 SN - 1535-3893 SN - 1535-3907 VL - 21 IS - 4 SP - 899 EP - 909 PB - American Chemical Society CY - Washington ER - TY - THES A1 - Hildebrandt, Dieter T1 - Service-oriented 3D geovisualization systems T1 - Serviceorientierte 3D-Geovisualisierungssysteme N2 - 3D geovisualization systems (3DGeoVSs) that use 3D geovirtual environments as a conceptual and technical framework are increasingly used for various applications. They facilitate obtaining insights from ubiquitous geodata by exploiting human abilities that other methods cannot provide. 3DGeoVSs are often complex and evolving systems required to be adaptable and to leverage distributed resources. Designing a 3DGeoVS based on service-oriented architectures, standards, and image-based representations (SSI) facilitates resource sharing and the agile and efficient construction and change of interoperable systems. In particular, exploiting image-based representations (IReps) of 3D views on geodata supports taking full advantage of the potential of such system designs by providing an efficient, decoupled, interoperable, and increasingly applied representation. However, there is insufficient knowledge on how to build service-oriented, standards-based 3DGeoVSs that exploit IReps. This insufficiency is substantially due to technology and interoperability gaps between the geovisualization domain and further domains that such systems rely on. This work presents a coherent framework of contributions that support designing the software architectures of targeted systems and exploiting IReps for providing, styling, and interacting with geodata. The contributions uniquely integrate existing concepts from multiple domains and novel contributions for identified limitations. The proposed software reference architecture (SRA) for 3DGeoVSs based on SSI facilitates designing concrete software architectures of such systems. The SRA describes the decomposition of 3DGeoVSs into a network of services and integrates the following contributions to facilitate exploiting IReps effectively and efficiently. The proposed generalized visualization pipeline model generalizes the prevalent visualization pipeline model and overcomes its expressiveness limitations with respect to transforming IReps. The proposed approach for image-based provisioning enables generating and supplying service consumers with image-based views (IViews). IViews act as first-class data entities in the communication between services and provide a suitable IRep and encoding of geodata. The proposed approach for image-based styling separates concerns of styling from image generation and enables styling geodata uniformly represented as IViews specified as algebraic compositions of high-level styling operators. The proposed approach for interactive image-based novel view generation enables generating new IViews from existing IViews in response to interactive manipulations of the viewing camera and includes an architectural pattern that generalizes common novel view generation. The proposed interactive assisting, constrained 3D navigation technique demonstrates how a navigation technique can be built that supports users in navigating multiscale virtual 3D city models, operates in 3DGeoVSs based on SSI as an application of the SRA, can exploit IReps, and can support collaborating services in exploiting IReps. The validity of the contributions is supported by proof-of-concept prototype implementations and applications and effectiveness and efficiency studies including a user study. Results suggest that this work promises to support designing 3DGeoVSs based on SSI that are more effective and efficient and that can exploit IReps effectively and efficiently. This work presents a template software architecture and key building blocks for building novel IT solutions and applications for geodata, e.g., as components of spatial data infrastructures. N2 - 3D-Geovisualisierungssysteme (3DGeoVSs), die geovirtuelle 3D-Umgebungen als konzeptionellen und technischen Rahmen nutzen, werden zunehmend für verschiedene Anwendungen eingesetzt. Sie erleichtern es durch die Ausnutzung menschlicher Fähigkeiten Erkenntnisse aus allgegenwärtigen Geodaten zu gewinnen, die andere Methoden nicht liefern können. 3DGeoVSs sind oft komplexe und kontinuierlich weiter entwickelte Systeme, die anpassungsfähig sein müssen und auf die Nutzung verteilter Ressourcen angewiesen sind. Die Entwicklung eines 3DGeoVS auf der Basis von serviceorientierten Architekturen, Standards und bildbasierten Repräsentationen (SSI) erleichtert die gemeinsame Nutzung von verteilten Ressourcen und die agile und effiziente Entwicklung und Änderung von interoperablen Systemen. Insbesondere unterstützt die Nutzung bildbasierter Repräsentationen (IReps) von 3D-Ansichten auf Geodaten die vollständige Realisierung des Potenzials solcher Systementwürfe durch die Bereitstellung einer effizienten, entkoppelten, interoperablen und zunehmend verwendeten Repräsentationsform. Es besteht jedoch ein Mangel an Wissen darüber, wie 3DGeoVSs entwickelt werden können, die auf serviceorientierten Architekturen und Standards basieren und IReps ausnutzen können. Dieser Mangel ist wesentlich zurückzuführen auf die Technologie- und Interoperabilitätslücken zwischen dem Bereich der Geovisualisierung und weiteren Bereichen, auf die solche Systeme angewiesen sind. Diese Arbeit präsentiert ein kohärentes Rahmenwerk von Beiträgen, die dabei unterstützen können, die Softwarearchitekturen betrachteter Systeme zu entwerfen und IReps für die Bereitstellung, die visuelle Gestaltung und die Interaktion mit Geodaten zu nutzen. Die Beiträge integrieren auf besondere Weise vorhandene Konzepte aus unterschiedlichen Bereichen und neuartige Lösungen für identifizierte Einschränkungen bisheriger Ansätze. Die vorgeschlagene Software-Referenzarchitektur (SRA) für 3DGeoVSs unterstützt den Entwurf konkreter Softwarearchitekturen betrachteter Systemen. Sie beschreibt die Zerlegung von 3DGeoVSs in ein Netzwerk von Diensten. Um IReps effektiv und effizient nutzen zu können, integriert sie zudem die folgenden Beiträge. Das vorgeschlagene generalisierte Visualisierungspipelinemodell generalisiert das weit verbreitete Visualisierungspipelinemodell und überwindet dessen Einschränkungen in Bezug auf die Verarbeitung von IReps. Der vorgeschlagene Ansatz für die bildbasierte Bereitstellung von Geodaten ermöglicht es bildbasierte Sichten (IViews) zu erzeugen und Dienstkonsumenten mit ihnen zu versorgen. IViews sind erstrangige Datenentitäten in der Kommunikation zwischen Diensten und stellen eine geeignete IRep und Kodierung von Geodaten dar. Der vorgeschlagene Ansatz für die bildbasierte, visuelle Gestaltung trennt die Zuständigkeiten der Erzeugung eines Bildes von denen der visuellen Gestaltung des Bildes. Der Ansatz ermöglicht die visuelle Gestaltung von einheitlich durch IViews repräsentierten Geodaten. Die visuelle Gestaltung wird dabei durch die algebraische Komposition abstrakter Gestaltungsoperatoren spezifiziert. Der vorgeschlagene Ansatz für die interaktive Bilderzeugung ermöglicht es als Reaktion auf interaktive Manipulationen der Betrachtungskamera neue, durch IViews repräsentierte 3D-Ansichten von Geodaten aus bestehenden 3D-Ansichten zu erzeugen. Der Ansatz umfasst ein Architekturmuster, das bisherige Ansätze zusammenfasst und verallgemeinert. Die vorgeschlagene assistierenden, einschränkenden 3D-Navigationstechnik demonstriert, wie eine interaktive Navigationstechnik entwickelt werden kann, die Nutzer beim Navigieren in multiskalaren virtuellen 3D Stadtmodellen unterstützt, als Anwendung der vorgeschlagenen SRA in SSI-basierten 3DGeoVSs funktioniert und für diesen Zweck sowohl IReps nutzt, als auch andere Dienste bei der Nutzung von IReps unterstützt. Die Validität der Beiträge dieser Arbeit wird gestützt durch prototypische Implementierungen und Anwendungen, sowie Effektivitäts- und Effizienzstudien einschließlich einer Nutzerstudie. Die Ergebnisse deuten darauf hin, dass diese Arbeit dabei unterstützen kann, 3DGeoVSs basierend auf SSI zu entwerfen, die sowohl effektiver und effizienter sind, als auch IReps effektiv und effizient nutzen können. Diese Arbeit stellt eine Muster-Softwarearchitektur und Schlüsselbausteine für die Entwicklung neuartiger IT-Lösungen und -Anwendungen für Geodaten vor, die sich beispielsweise in Geodateninfrastrukturen integrieren lassen. KW - 3D geovisualization system KW - 3D geovirtual environment KW - service-oriented architecture (SOA) KW - standard KW - image-based representation KW - 3D-Geovisualisierungssystem KW - 3D-geovirtuelle Umgebung KW - Serviceorientierte Architektur (SOA) KW - Standard KW - bildbasierte Repräsentation Y1 - 2017 ER - TY - THES A1 - Hesse, Günter T1 - A benchmark for enterprise stream processing architectures T1 - Ein Benchmark für Architekturen zur Datenstromverarbeitung im Unternehmenskontext N2 - Data stream processing systems (DSPSs) are a key enabler to integrate continuously generated data, such as sensor measurements, into enterprise applications. DSPSs allow to steadily analyze information from data streams, e.g., to monitor manufacturing processes and enable fast reactions to anomalous behavior. Moreover, DSPSs continuously filter, sample, and aggregate incoming streams of data, which reduces the data size, and thus data storage costs. The growing volumes of generated data have increased the demand for high-performance DSPSs, leading to a higher interest in these systems and to the development of new DSPSs. While having more DSPSs is favorable for users as it allows choosing the system that satisfies their requirements the most, it also introduces the challenge of identifying the most suitable DSPS regarding current needs as well as future demands. Having a solution to this challenge is important because replacements of DSPSs require the costly re-writing of applications if no abstraction layer is used for application development. However, quantifying performance differences between DSPSs is a difficult task. Existing benchmarks fail to integrate all core functionalities of DSPSs and lack tool support, which hinders objective result comparisons. Moreover, no current benchmark covers the combination of streaming data with existing structured business data, which is particularly relevant for companies. This thesis proposes a performance benchmark for enterprise stream processing called ESPBench. With enterprise stream processing, we refer to the combination of streaming and structured business data. Our benchmark design represents real-world scenarios and allows for an objective result comparison as well as scaling of data. The defined benchmark query set covers all core functionalities of DSPSs. The benchmark toolkit automates the entire benchmark process and provides important features, such as query result validation and a configurable data ingestion rate. To validate ESPBench and to ease the use of the benchmark, we propose an example implementation of the ESPBench queries leveraging the Apache Beam software development kit (SDK). The Apache Beam SDK is an abstraction layer designed for developing stream processing applications that is applied in academia as well as enterprise contexts. It allows to run the defined applications on any of the supported DSPSs. The performance impact of Apache Beam is studied in this dissertation as well. The results show that there is a significant influence that differs among DSPSs and stream processing applications. For validating ESPBench, we use the example implementation of the ESPBench queries developed using the Apache Beam SDK. We benchmark the implemented queries executed on three modern DSPSs: Apache Flink, Apache Spark Streaming, and Hazelcast Jet. The results of the study prove the functioning of ESPBench and its toolkit. ESPBench is capable of quantifying performance characteristics of DSPSs and of unveiling differences among systems. The benchmark proposed in this thesis covers all requirements to be applied in enterprise stream processing settings, and thus represents an improvement over the current state-of-the-art. N2 - Data Stream Processing Systems (DSPSs) sind eine Schlüsseltechnologie, um kontinuierlich generierte Daten, wie beispielsweise Sensormessungen, in Unternehmensanwendungen zu integrieren. Die durch DSPSs ermöglichte permanente Analyse von Datenströmen kann dabei zur Überwachung von Produktionsprozessen genutzt werden, um möglichst zeitnah auf ungewollte Veränderungen zu reagieren. Darüber hinaus filtern, sampeln und aggregieren DSPSs einkommende Daten, was die Datengröße reduziert und so auch etwaige Kosten für die Datenspeicherung. Steigende Datenvolumen haben in den letzten Jahren den Bedarf für performante DSPSs steigen lassen, was zur Entwicklung neuer DSPSs führte. Während eine große Auswahl an verfügbaren Systemen generell gut für Nutzer ist, stellt es potentielle Anwender auch vor die Herausforderung, das für aktuelle und zukünftige Anforderungen passendste DSPS zu identifizieren. Es ist wichtig, eine Lösung für diese Herausforderung zu haben, da das Austauschen von einem DSPS zu teuren Anpassungen oder Neuentwicklungen der darauf laufenden Anwendungen erfordert, falls für deren Entwicklung keine Abstraktionsschicht verwendet wurde. Das quantitative Vergleichen von DSPSs ist allerdings eine schwierige Aufgabe. Existierende Benchmarks decken nicht alle Kernfunktionalitäten von DSPSs ab und haben keinen oder unzureichenden Tool-Support, was eine objektive Ergebnisberechnung hinsichtlich der Performanz erschwert. Zudem beinhaltet kein Benchmark die Integration von Streamingdaten und strukturierten Geschäftsdaten, was ein besonders für Unternehmen relevantes Szenario ist. Diese Dissertation stellt ESPBench vor, einen neuen Benchmark für Stream Processing-Szenarien im Unternehmenskontext. Der geschäftliche Kontext wird dabei durch die Verbindung von Streamingdaten und Geschäftsdaten dargestellt. Das Design von ESPBench repräsentiert Szenarien der realen Welt, stellt die objektive Berechnung von Benchmarkergebnissen sicher und erlaubt das Skalieren über Datencharakteristiken. Das entwickelte Toolkit des Benchmarks stellt wichtige Funktionalitäten bereit, wie beispielsweise die Automatisierung den kompletten Benchmarkprozesses sowie die Überprüfung der Abfrageergebnisse hinsichtlich ihrer Korrektheit. Um ESPBench zu validieren und die Anwendung weiter zu vereinfachen, haben wir eine Beispielimplementierung der Queries veröffentlicht. Die Implementierung haben wir mithilfe des in Industrie und Wissenschaft eingesetzten Softwareentwicklungsbaukastens Apache Beam durchgeführt, der es ermöglicht, entwickelte Anwendungen auf allen unterstützten DSPSs auszuführen. Den Einfluss auf die Performanz des Verwendens von Apache Beam wird dabei ebenfalls in dieser Arbeit untersucht. Weiterhin nutzen wir die veröffentlichte Beispielimplementierung der Queries um drei moderne DSPSs mit ESPBench zu untersuchen: Apache Flink, Apache Spark Streaming und Hazelcast Jet. Der Ergebnisse der Studie verdeutlichen die Funktionsfähigkeit von ESPBench und dessen Toolkit. ESPBench befähigt Performanzcharakteristiken von DSPSs zu quantifizieren und Unterschiede zwischen Systemen aufzuzeigen. Der in dieser Dissertation vorgestellte Benchmark erfüllt alle Anforderungen, um in Stream Processing-Szenarien im Unternehmenskontext eingesetzt zu werden und stellt somit eine Verbesserung der aktuellen Situation dar. KW - stream processing KW - performance KW - benchmarking KW - dsps KW - espbench KW - benchmark KW - Performanz KW - Datenstromverarbeitung KW - Benchmark Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-566000 ER - TY - THES A1 - Herzberg, Nico T1 - Integrating events into non-automated business process environments BT - enabling transparency, traceability, and optimization for business processes driven by humans Y1 - 2018 ER - TY - JOUR A1 - Hense, Julia A1 - Bernd, Mike T1 - Podcasts, Microcontent & MOOCs BT - The Integration of Digital Learning Formats into HEI Lectures JF - EMOOCs 2021 Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-517363 SN - 978-3-86956-512-5 VL - 2021 SP - 289 EP - 295 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - GEN A1 - Hecker, Pascal A1 - Steckhan, Nico A1 - Eyben, Florian A1 - Schuller, Björn Wolfgang A1 - Arnrich, Bert T1 - Voice Analysis for Neurological Disorder Recognition – A Systematic Review and Perspective on Emerging Trends T2 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät N2 - Quantifying neurological disorders from voice is a rapidly growing field of research and holds promise for unobtrusive and large-scale disorder monitoring. The data recording setup and data analysis pipelines are both crucial aspects to effectively obtain relevant information from participants. Therefore, we performed a systematic review to provide a high-level overview of practices across various neurological disorders and highlight emerging trends. PRISMA-based literature searches were conducted through PubMed, Web of Science, and IEEE Xplore to identify publications in which original (i.e., newly recorded) datasets were collected. Disorders of interest were psychiatric as well as neurodegenerative disorders, such as bipolar disorder, depression, and stress, as well as amyotrophic lateral sclerosis amyotrophic lateral sclerosis, Alzheimer's, and Parkinson's disease, and speech impairments (aphasia, dysarthria, and dysphonia). Of the 43 retrieved studies, Parkinson's disease is represented most prominently with 19 discovered datasets. Free speech and read speech tasks are most commonly used across disorders. Besides popular feature extraction toolkits, many studies utilise custom-built feature sets. Correlations of acoustic features with psychiatric and neurodegenerative disorders are presented. In terms of analysis, statistical analysis for significance of individual features is commonly used, as well as predictive modeling approaches, especially with support vector machines and a small number of artificial neural networks. An emerging trend and recommendation for future studies is to collect data in everyday life to facilitate longitudinal data collection and to capture the behavior of participants more naturally. Another emerging trend is to record additional modalities to voice, which can potentially increase analytical performance. T3 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät - 13 KW - neurological disorders KW - voice KW - speech KW - everyday life KW - multiple modalities KW - machine learning KW - disorder recognition Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-581019 IS - 13 ER - TY - JOUR A1 - Hecker, Pascal A1 - Steckhan, Nico A1 - Eyben, Florian A1 - Schuller, Björn Wolfgang A1 - Arnrich, Bert T1 - Voice Analysis for Neurological Disorder Recognition – A Systematic Review and Perspective on Emerging Trends JF - Frontiers in Digital Health N2 - Quantifying neurological disorders from voice is a rapidly growing field of research and holds promise for unobtrusive and large-scale disorder monitoring. The data recording setup and data analysis pipelines are both crucial aspects to effectively obtain relevant information from participants. Therefore, we performed a systematic review to provide a high-level overview of practices across various neurological disorders and highlight emerging trends. PRISMA-based literature searches were conducted through PubMed, Web of Science, and IEEE Xplore to identify publications in which original (i.e., newly recorded) datasets were collected. Disorders of interest were psychiatric as well as neurodegenerative disorders, such as bipolar disorder, depression, and stress, as well as amyotrophic lateral sclerosis amyotrophic lateral sclerosis, Alzheimer's, and Parkinson's disease, and speech impairments (aphasia, dysarthria, and dysphonia). Of the 43 retrieved studies, Parkinson's disease is represented most prominently with 19 discovered datasets. Free speech and read speech tasks are most commonly used across disorders. Besides popular feature extraction toolkits, many studies utilise custom-built feature sets. Correlations of acoustic features with psychiatric and neurodegenerative disorders are presented. In terms of analysis, statistical analysis for significance of individual features is commonly used, as well as predictive modeling approaches, especially with support vector machines and a small number of artificial neural networks. An emerging trend and recommendation for future studies is to collect data in everyday life to facilitate longitudinal data collection and to capture the behavior of participants more naturally. Another emerging trend is to record additional modalities to voice, which can potentially increase analytical performance. KW - neurological disorders KW - voice KW - speech KW - everyday life KW - multiple modalities KW - machine learning KW - disorder recognition Y1 - 2022 U6 - https://doi.org/10.3389/fdgth.2022.842301 SN - 2673-253X PB - Frontiers Media SA CY - Lausanne, Schweiz ER - TY - JOUR A1 - Haugsbakken, Halvdan A1 - Hagelia, Marianne ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - An asynchronous cooperative leaning design in a Small Private Online Course (SPOC) JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - This short paper sets out to propose a novel and interesting learning design that facilitates for cooperative learning in which students do not conduct traditional group work in an asynchronous online education setting. This learning design will be explored in a Small Private Online Course (SPOC) among teachers and school managers at a teacher education. Such an approach can be made possible by applying specific criteria commonly used to define collaborative learning. Collaboration can be defined, among other things, as a structured way of working among students that includes elements of co-laboring. The cooperative learning design involves adapting various traditional collaborative learning approaches for use in an online learning environment. A critical component of this learning design is that students work on a self-defined case project related to their professional practices. Through an iterative process, students will receive ongoing feedback and formative assessments from instructors and follow students at specific points, meaning that co-constructing of knowledge and learning takes place as the SPOC progresses. This learning design can contribute to better learning experiences and outcomes for students, and be a valuable contribution to current research discussions on learning design in Massive Open Online Courses (MOOCs). KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-622107 SP - 67 EP - 76 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - THES A1 - Haskamp, Thomas T1 - Products design organizations T1 - Produkte designen Organisationen BT - how industrial-aged companies accomplish digital product innovation BT - wie etablierte Industrieunternehmen digitale Produktinnovationen erreichen N2 - The automotive industry is a prime example of digital technologies reshaping mobility. Connected, autonomous, shared, and electric (CASE) trends lead to new emerging players that threaten existing industrial-aged companies. To respond, incumbents need to bridge the gap between contrasting product architecture and organizational principles in the physical and digital realms. Over-the-air (OTA) technology, that enables seamless software updates and on-demand feature additions for customers, is an example of CASE-driven digital product innovation. Through an extensive longitudinal case study of an OTA initiative by an industrial- aged automaker, this dissertation explores how incumbents accomplish digital product innovation. Building on modularity, liminality, and the mirroring hypothesis, it presents a process model that explains the triggers, mechanisms, and outcomes of this process. In contrast to the literature, the findings emphasize the primacy of addressing product architecture challenges over organizational ones and highlight the managerial implications for success. N2 - Die Entwicklung neuer digitaler Produktinnovation erfordert in etablierten Industrieunternehmen die Integration von digitalen und physischen Elementen. Dies ist besonders in der Automobilindustrie sichtbar, wo der Trend zu vernetzter, autonomer, gemeinsam genutzter und elektrischer Mobilität zu einem neuen Wettbewerb führt, welcher etablierte Marktteilnehmer bedroht. Diese müssen lernen wie die Integration von gegensätzlichen Produktarchitekturen und Organisationsprinzipien aus der digitalen und physischen Produktentwicklung funktioniert. Die vorliegende Dissertation widmet sich diesem Problem. Basierend auf einer Fallstudie einer digitalen Produktinnovationsinitiative eines Premiummobilitätsanbieters rund um die Integration von Over-the-Air-Technologie für Software-Updates liefert sie wichtige Erkenntnisse. Erstens, etablierte Organisationen müssen Ihre Produktarchitektur befähigen, um verschiedene Produktarchitekturprinzipien in Einklang zu bringen. Zweitens, verschiedene Produktentwicklungsprozesse pro Produktebene müssen aufeinander abgestimmt werden. Drittens, die Organisationsstruktur muss erweitert werden, um die verschiedenen Produktebenen abzubilden. Darüber hinaus müssen auch Ressourcenallokationsprozesse auf die Entwicklungsprozesse abgestimmt werden. Basierend auf diesen Erkenntnissen und mit der bestehenden Fachliteratur wird in der Dissertation ein Prozessmodell entwickelt, welches erklären soll, wie etablierte Industrieunternehmen digitale Produktinnovation erreichen. Kernauslöser sind externer Marktdruck sowie existierende Architekturprinzipien. Wechselseitige Mechanismen wie die Befähigung der Produktarchitektur, die Erweiterung der Organisationstruktur, die Anpassung der Produktentwicklungsprozesse und die Anpassung der Ressourcenallokationsprozesse erklären den Prozess welcher in einer neuen Produktarchitektur sowie einer erweiterten Organisationsstruktur mündet. Der Forschungsbeitrag der Arbeit liegt im Bereich der digitalen Produktinnovation. Sie verlagert den Forschungsfokus auf Fragen der Produktarchitektur und verbindet diese durch Konzepte der Modularität mit organisatorischen Fragestellungen. Für die Praxis ergeben sich vier Hebel die Entscheidungsträger/innen nutzen können, um die Fähigkeiten zur digitalen Produktinnovation zu stärken. KW - digital product innovation KW - digital transformation KW - digital innovation KW - digitale Produktinnovation KW - digitale Transformation KW - digitale Innovation Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-646954 ER - TY - THES A1 - Harmouch, Hazar T1 - Single-column data profiling N2 - The research area of data profiling consists of a large set of methods and processes to examine a given dataset and determine metadata about it. Typically, different data profiling tasks address different kinds of metadata, comprising either various statistics about individual columns (Single-column Analysis) or relationships among them (Dependency Discovery). Among the basic statistics about a column are data type, header, the number of unique values (the column's cardinality), maximum and minimum values, the number of null values, and the value distribution. Dependencies involve, for instance, functional dependencies (FDs), inclusion dependencies (INDs), and their approximate versions. Data profiling has a wide range of conventional use cases, namely data exploration, cleansing, and integration. The produced metadata is also useful for database management and schema reverse engineering. Data profiling has also more novel use cases, such as big data analytics. The generated metadata describes the structure of the data at hand, how to import it, what it is about, and how much of it there is. Thus, data profiling can be considered as an important preparatory task for many data analysis and mining scenarios to assess which data might be useful and to reveal and understand a new dataset's characteristics. In this thesis, the main focus is on the single-column analysis class of data profiling tasks. We study the impact and the extraction of three of the most important metadata about a column, namely the cardinality, the header, and the number of null values. First, we present a detailed experimental study of twelve cardinality estimation algorithms. We classify the algorithms and analyze their efficiency, scaling far beyond the original experiments and testing theoretical guarantees. Our results highlight their trade-offs and point out the possibility to create a parallel or a distributed version of these algorithms to cope with the growing size of modern datasets. Then, we present a fully automated, multi-phase system to discover human-understandable, representative, and consistent headers for a target table in cases where headers are missing, meaningless, or unrepresentative for the column values. Our evaluation on Wikipedia tables shows that 60% of the automatically discovered schemata are exact and complete. Considering more schema candidates, top-5 for example, increases this percentage to 72%. Finally, we formally and experimentally show the ghost and fake FDs phenomenon caused by FD discovery over datasets with missing values. We propose two efficient scores, probabilistic and likelihood-based, for estimating the genuineness of a discovered FD. Our extensive set of experiments on real-world and semi-synthetic datasets show the effectiveness and efficiency of these scores. N2 - Das Forschungsgebiet Data Profiling besteht aus einer Vielzahl von Methoden und Prozessen, die es erlauben Datensätze zu untersuchen und Metadaten über diese zu ermitteln. Typischerweise erzeugen verschiedene Data-Profiling-Techniken unterschiedliche Arten von Metadaten, die entweder verschiedene Statistiken einzelner Spalten (Single-Column Analysis) oder Beziehungen zwischen diesen (Dependency Discovery) umfassen. Zu den grundlegenden Statistiken einer Spalte gehören unter anderem ihr Datentyp, ihr Name, die Anzahl eindeutiger Werte (Kardinalität der Spalte), Maximal- und Minimalwerte, die Anzahl an Null-Werten sowie ihre Werteverteilung. Im Falle von Abhängigkeiten kann es sich beispielsweise um funktionale Abhängigkeiten (FDs), Inklusionsabhängigkeiten (INDs) sowie deren approximative Varianten handeln. Data Profiling besitzt vielfältige Anwendungsmöglichkeiten, darunter fallen die Datenexploration, -bereinigung und -integration. Darüber hinaus sind die erzeugten Metadaten sowohl für den Einsatz in Datenbankmanagementsystemen als auch für das Reverse Engineering von Datenbankschemata hilfreich. Weiterhin finden Methoden des Data Profilings immer häufiger Verwendung in neuartigen Anwendungsfällen, wie z.B. der Analyse von Big Data. Dabei beschreiben die generierten Metadaten die Struktur der vorliegenden Daten, wie diese zu importieren sind, von was sie handeln und welchen Umfang sie haben. Somit kann das Profiling von Datenbeständen als eine wichtige, vorbereitende Aufgabe für viele Datenanalyse- und Data-Mining Szenarien angesehen werden. Sie ermöglicht die Beurteilung, welche Daten nützlich sein könnten, und erlaubt es zudem die Eigenschaften eines neuen Datensatzes aufzudecken und zu verstehen. Der Schwerpunkt dieser Arbeit bildet das Single-Column Profiling. Dabei werden sowohl die Auswirkungen als auch die Extraktion von drei der wichtigsten Metadaten einer Spalte untersucht, nämlich ihrer Kardinalität, ihres Namens und ihrer Anzahl an Null-Werten. Die vorliegende Arbeit beginnt mit einer detaillierten experimentellen Studie von zwölf Algorithmen zur Kardinalitätsschätzung. Diese Studie klassifiziert die Algorithmen anhand verschiedener Kriterien und analysiert ihre Effizienz. Dabei sind die Experimente im Vergleich zu den Originalpublikationen weitaus umfassender und testen die theoretischen Garantien der untersuchten Algorithmen. Unsere Ergebnisse geben Aufschluss über Abwägungen zwischen den Algorithmen und weisen zudem auf die Möglichkeit einer parallelen bzw. verteilten Algorithmenversion hin, wodurch die stetig anwachsende Datenmenge moderner Datensätze bewältigt werden könnten. Anschließend wird ein vollautomatisches, mehrstufiges System vorgestellt, mit dem sich im Falle fehlender, bedeutungsloser oder nicht repräsentativer Kopfzeilen einer Zieltabelle menschenverständliche, repräsentative und konsistente Kopfzeilen ermitteln lassen. Unsere Auswertung auf Wikipedia-Tabellen zeigt, dass 60% der automatisch entdeckten Schemata exakt und vollständig sind. Werden darüber hinaus mehr Schemakandidaten in Betracht gezogen, z.B. die Top-5, erhöht sich dieser Prozentsatz auf 72%. Schließlich wird das Phänomen der Geist- und Schein-FDs formell und experimentell untersucht, welches bei der Entdeckung von FDs auf Datensätzen mit fehlenden Werten auftreten kann. Um die Echtheit einer entdeckten FD effizient abzuschätzen, schlagen wir sowohl eine probabilistische als auch eine wahrscheinlichkeitsbasierte Bewertungsmethode vor. Die Wirksamkeit und Effizienz beider Bewertungsmethoden zeigt sich in unseren umfangreichen Experimenten mit realen und halbsynthetischen Datensätzen. KW - Data profiling KW - Functional dependencies KW - Data quality KW - Schema discovery KW - Cardinality estimation KW - Metanome KW - Missing values KW - Kardinalitätsschätzung KW - Datenqualität KW - Funktionale Abhängigkeiten KW - Fehlende Werte KW - Schema-Entdeckung Y1 - 2020 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-474554 ER - TY - GEN A1 - Han van der, Aa A1 - Di Ciccio, Claudio A1 - Leopold, Henrik A1 - Reijers, Hajo A. T1 - Extracting Declarative Process Models from Natural Language T2 - Advanced Information Systems Engineering (CAISE 2019) N2 - Process models are an important means to capture information on organizational operations and often represent the starting point for process analysis and improvement. Since the manual elicitation and creation of process models is a time-intensive endeavor, a variety of techniques have been developed that automatically derive process models from textual process descriptions. However, these techniques, so far, only focus on the extraction of traditional, imperative process models. The extraction of declarative process models, which allow to effectively capture complex process behavior in a compact fashion, has not been addressed. In this paper we close this gap by presenting the first automated approach for the extraction of declarative process models from natural language. To achieve this, we developed tailored Natural Language Processing techniques that identify activities and their inter-relations from textual constraint descriptions. A quantitative evaluation shows that our approach is able to generate constraints that closely resemble those established by humans. Therefore, our approach provides automated support for an otherwise tedious and complex manual endeavor. KW - Declarative modelling KW - Natural language processing KW - Model extraction Y1 - 2019 SN - 978-3-030-21290-2 SN - 978-3-030-21289-6 U6 - https://doi.org/10.1007/978-3-030-21290-2_23 SN - 0302-9743 SN - 1611-3349 VL - 11483 SP - 365 EP - 382 PB - Springer CY - Cham ER - TY - GEN A1 - Halfpap, Stefan A1 - Schlosser, Rainer T1 - Workload-Driven Fragment Allocation for Partially Replicated Databases Using Linear Programming T2 - 2019 IEEE 35th International Conference on Data Engineering (ICDE) N2 - In replication schemes, replica nodes can process read-only queries on snapshots of the master node without violating transactional consistency. By analyzing the workload, we can identify query access patterns and replicate data depending to its access frequency. In this paper, we define a linear programming (LP) model to calculate the set of partial replicas with the lowest overall memory capacity while evenly balancing the query load. Furthermore, we propose a scalable decomposition heuristic to calculate solutions for larger problem sizes. While guaranteeing the same performance as state-of-the-art heuristics, our decomposition approach calculates allocations with up to 23% lower memory footprint for the TPC-H benchmark. KW - database replication KW - allocation problem KW - linear programming Y1 - 2019 SN - 978-1-5386-7474-1 SN - 978-1-5386-7475-8 U6 - https://doi.org/10.1109/ICDE.2019.00188 SN - 1084-4627 SN - 2375-026X SN - 1063-6382 SP - 1746 EP - 1749 PB - IEEE CY - New York ER - TY - GEN A1 - Halfpap, Stefan A1 - Schlosser, Rainer T1 - A Comparison of Allocation Algorithms for Partially Replicated Databases T2 - 2019 IEEE 35th International Conference on Data Engineering (ICDE) N2 - Increasing demand for analytical processing capabilities can be managed by replication approaches. However, to evenly balance the replicas' workload shares while at the same time minimizing the data replication factor is a highly challenging allocation problem. As optimal solutions are only applicable for small problem instances, effective heuristics are indispensable. In this paper, we test and compare state-of-the-art allocation algorithms for partial replication. By visualizing and exploring their (heuristic) solutions for different benchmark workloads, we are able to derive structural insights and to detect an algorithm's strengths as well as its potential for improvement. Further, our application enables end-to-end evaluations of different allocations to verify their theoretical performance. Y1 - 2019 SN - 978-1-5386-7474-1 SN - 978-1-5386-7475-8 U6 - https://doi.org/10.1109/ICDE.2019.00226 SN - 1084-4627 SN - 2375-026X SN - 1063-6382 SP - 2008 EP - 2011 PB - IEEE CY - New York ER - TY - THES A1 - Halfpap, Stefan T1 - Integer linear programming-based heuristics for partially replicated database clusters and selecting indexes T1 - Auf ganzzahliger linearer Optimierung basierende Heuristiken für partiell-replizierte Datenbankcluster und das Auswählen von Indizes N2 - Column-oriented database systems can efficiently process transactional and analytical queries on a single node. However, increasing or peak analytical loads can quickly saturate single-node database systems. Then, a common scale-out option is using a database cluster with a single primary node for transaction processing and read-only replicas. Using (the naive) full replication, queries are distributed among nodes independently of the accessed data. This approach is relatively expensive because all nodes must store all data and apply all data modifications caused by inserts, deletes, or updates. In contrast to full replication, partial replication is a more cost-efficient implementation: Instead of duplicating all data to all replica nodes, partial replicas store only a subset of the data while being able to process a large workload share. Besides lower storage costs, partial replicas enable (i) better scaling because replicas must potentially synchronize only subsets of the data modifications and thus have more capacity for read-only queries and (ii) better elasticity because replicas have to load less data and can be set up faster. However, splitting the overall workload evenly among the replica nodes while optimizing the data allocation is a challenging assignment problem. The calculation of optimized data allocations in a partially replicated database cluster can be modeled using integer linear programming (ILP). ILP is a common approach for solving assignment problems, also in the context of database systems. Because ILP is not scalable, existing approaches (also for calculating partial allocations) often fall back to simple (e.g., greedy) heuristics for larger problem instances. Simple heuristics may work well but can lose optimization potential. In this thesis, we present optimal and ILP-based heuristic programming models for calculating data fragment allocations for partially replicated database clusters. Using ILP, we are flexible to extend our models to (i) consider data modifications and reallocations and (ii) increase the robustness of allocations to compensate for node failures and workload uncertainty. We evaluate our approaches for TPC-H, TPC-DS, and a real-world accounting workload and compare the results to state-of-the-art allocation approaches. Our evaluations show significant improvements for varied allocation’s properties: Compared to existing approaches, we can, for example, (i) almost halve the amount of allocated data, (ii) improve the throughput in case of node failures and workload uncertainty while using even less memory, (iii) halve the costs of data modifications, and (iv) reallocate less than 90% of data when adding a node to the cluster. Importantly, we can calculate the corresponding ILP-based heuristic solutions within a few seconds. Finally, we demonstrate that the ideas of our ILP-based heuristics are also applicable to the index selection problem. N2 - Spaltenorientierte Datenbanksysteme können transaktionale und analytische Abfragen effizient auf einem einzigen Rechenknoten verarbeiten. Steigende Lasten oder Lastspitzen können Datenbanksysteme mit nur einem Rechenknoten jedoch schnell überlasten. Dann besteht eine gängige Skalierungsmöglichkeit darin, einen Datenbankcluster mit einem einzigen Rechenknoten für die Transaktionsverarbeitung und Replikatknoten für lesende Datenbankanfragen zu verwenden. Bei der (naiven) vollständigen Replikation werden Anfragen unabhängig von den Daten, auf die zugegriffen wird, auf die Knoten verteilt. Dieser Ansatz ist relativ teuer, da alle Knoten alle Daten speichern und alle Datenänderungen anwenden müssen, die durch das Einfügen, Löschen oder Aktualisieren von Datenbankeinträgen verursacht werden. Im Gegensatz zur vollständigen Replikation ist die partielle Replikation eine kostengünstige Alternative: Anstatt alle Daten auf alle Replikationsknoten zu duplizieren, speichern partielle Replikate nur eine Teilmenge der Daten und können gleichzeitig einen großen Anteil der Anfragelast verarbeiten. Neben niedrigeren Speicherkosten ermöglichen partielle Replikate (i) eine bessere Skalierung, da Replikate potenziell nur Teilmengen der Datenänderungen synchronisieren müssen und somit mehr Kapazität für lesende Anfragen haben, und (ii) eine bessere Elastizität, da Replikate weniger Daten laden müssen und daher schneller eingesetzt werden können. Die gleichmäßige Lastbalancierung auf die Replikatknoten bei gleichzeitiger Optimierung der Datenzuweisung ist jedoch ein schwieriges Zuordnungsproblem. Die Berechnung einer optimierten Datenverteilung in einem Datenbankcluster mit partiellen Replikaten kann mithilfe der ganzzahligen linearen Optimierung (engl. integer linear programming, ILP) durchgeführt werden. ILP ist ein gängiger Ansatz zur Lösung von Zuordnungsproblemen, auch im Kontext von Datenbanksystemen. Da ILP nicht skalierbar ist, greifen bestehende Ansätze (auch zur Berechnung von partiellen Replikationen) für größere Probleminstanzen oft auf einfache Heuristiken (z.B. Greedy-Algorithmen) zurück. Einfache Heuristiken können gut funktionieren, aber auch Optimierungspotenzial einbüßen. In dieser Arbeit stellen wir optimale und ILP-basierte heuristische Ansätze zur Berechnung von Datenzuweisungen für partiell-replizierte Datenbankcluster vor. Mithilfe von ILP können wir unsere Ansätze flexibel erweitern, um (i) Datenänderungen und -umverteilungen zu berücksichtigen und (ii) die Robustheit von Zuweisungen zu erhöhen, um Knotenausfälle und Unsicherheiten bezüglich der Anfragelast zu kompensieren. Wir evaluieren unsere Ansätze für TPC-H, TPC-DS und eine reale Buchhaltungsanfragelast und vergleichen die Ergebnisse mit herkömmlichen Verteilungsansätzen. Unsere Auswertungen zeigen signifikante Verbesserungen für verschiedene Eigenschaften der berechneten Datenzuordnungen: Im Vergleich zu bestehenden Ansätzen können wir beispielsweise (i) die Menge der gespeicherten Daten in Cluster fast halbieren, (ii) den Anfragedurchsatz bei Knotenausfällen und unsicherer Anfragelast verbessern und benötigen dafür auch noch weniger Speicher, (iii) die Kosten von Datenänderungen halbieren, und (iv) weniger als 90 % der Daten umverteilen, wenn ein Rechenknoten zum Cluster hinzugefügt wird. Wichtig ist, dass wir die entsprechenden ILP-basierten heuristischen Lösungen innerhalb weniger Sekunden berechnen können. Schließlich demonstrieren wir, dass die Ideen von unseren ILP-basierten Heuristiken auch auf das Indexauswahlproblem anwendbar sind. KW - database systems KW - integer linear programming KW - partial replication KW - index selection KW - load balancing KW - Datenbanksysteme KW - Indexauswahl KW - ganzzahlige lineare Optimierung KW - Lastverteilung KW - partielle Replikation Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-633615 ER - TY - JOUR A1 - Hagedorn, Christopher A1 - Huegle, Johannes A1 - Schlosser, Rainer T1 - Understanding unforeseen production downtimes in manufacturing processes using log data-driven causal reasoning JF - Journal of intelligent manufacturing N2 - In discrete manufacturing, the knowledge about causal relationships makes it possible to avoid unforeseen production downtimes by identifying their root causes. Learning causal structures from real-world settings remains challenging due to high-dimensional data, a mix of discrete and continuous variables, and requirements for preprocessing log data under the causal perspective. In our work, we address these challenges proposing a process for causal reasoning based on raw machine log data from production monitoring. Within this process, we define a set of transformation rules to extract independent and identically distributed observations. Further, we incorporate a variable selection step to handle high-dimensionality and a discretization step to include continuous variables. We enrich a commonly used causal structure learning algorithm with domain-related orientation rules, which provides a basis for causal reasoning. We demonstrate the process on a real-world dataset from a globally operating precision mechanical engineering company. The dataset contains over 40 million log data entries from production monitoring of a single machine. In this context, we determine the causal structures embedded in operational processes. Further, we examine causal effects to support machine operators in avoiding unforeseen production stops, i.e., by detaining machine operators from drawing false conclusions on impacting factors of unforeseen production stops based on experience. KW - Causal structure learning KW - Log data KW - Causal inference KW - Manufacturing KW - industry Y1 - 2022 U6 - https://doi.org/10.1007/s10845-022-01952-x SN - 0956-5515 SN - 1572-8145 VL - 33 IS - 7 SP - 2027 EP - 2043 PB - Springer CY - Dordrecht ER - TY - THES A1 - Hagedorn, Christopher T1 - Parallel execution of causal structure learning on graphics processing units T1 - Parallele Ausführung von kausalem Strukturlernen auf Grafikprozessoren N2 - Learning the causal structures from observational data is an omnipresent challenge in data science. The amount of observational data available to Causal Structure Learning (CSL) algorithms is increasing as data is collected at high frequency from many data sources nowadays. While processing more data generally yields higher accuracy in CSL, the concomitant increase in the runtime of CSL algorithms hinders their widespread adoption in practice. CSL is a parallelizable problem. Existing parallel CSL algorithms address execution on multi-core Central Processing Units (CPUs) with dozens of compute cores. However, modern computing systems are often heterogeneous and equipped with Graphics Processing Units (GPUs) to accelerate computations. Typically, these GPUs provide several thousand compute cores for massively parallel data processing. To shorten the runtime of CSL algorithms, we design efficient execution strategies that leverage the parallel processing power of GPUs. Particularly, we derive GPU-accelerated variants of a well-known constraint-based CSL method, the PC algorithm, as it allows choosing a statistical Conditional Independence test (CI test) appropriate to the observational data characteristics. Our two main contributions are: (1) to reflect differences in the CI tests, we design three GPU-based variants of the PC algorithm tailored to CI tests that handle data with the following characteristics. We develop one variant for data assuming the Gaussian distribution model, one for discrete data, and another for mixed discrete-continuous data and data with non-linear relationships. Each variant is optimized for the appropriate CI test leveraging GPU hardware properties, such as shared or thread-local memory. Our GPU-accelerated variants outperform state-of-the-art parallel CPU-based algorithms by factors of up to 93.4× for data assuming the Gaussian distribution model, up to 54.3× for discrete data, up to 240× for continuous data with non-linear relationships and up to 655× for mixed discrete-continuous data. However, the proposed GPU-based variants are limited to datasets that fit into a single GPU’s memory. (2) To overcome this shortcoming, we develop approaches to scale our GPU-based variants beyond a single GPU’s memory capacity. For example, we design an out-of-core GPU variant that employs explicit memory management to process arbitrary-sized datasets. Runtime measurements on a large gene expression dataset reveal that our out-of-core GPU variant is 364 times faster than a parallel CPU-based CSL algorithm. Overall, our proposed GPU-accelerated variants speed up CSL in numerous settings to foster CSL’s adoption in practice and research. N2 - Das Lernen von kausalen Strukturen aus Beobachtungsdatensätzen ist eine allgegenwärtige Herausforderung im Data Science-Bereich. Die für die Algorithmen des kausalen Strukturlernens (CSL) zur Verfügung stehende Menge von Beobachtungsdaten nimmt zu, da heutzutage mit hoher Frequenz Daten aus vielen Datenquellen gesammelt werden. Während die Verarbeitung von höheren Datenmengen im Allgemeinen zu einer höheren Genauigkeit bei CSL führt, hindert die damit einhergehende Erhöhung der Laufzeit von CSL-Algorithmen deren breite Anwendung in der Praxis. CSL ist ein parallelisierbares Problem. Bestehende parallele CSL-Algorithmen eignen sich für die Ausführung auf Mehrkern-Hauptprozessoren (CPUs) mit Dutzenden von Rechenkernen. Moderne Computersysteme sind jedoch häufig heterogen. Um notwendige Berechnungen zu beschleunigen, sind die Computersysteme typischerweise mit Grafikprozessoren (GPUs) ausgestattet, wobei diese GPUs mehrere tausend Rechenkerne für eine massive parallele Datenverarbeitung bereitstellen. Um die Laufzeit von Algorithmen für das kausale Strukturlernen zu verkürzen, entwickeln wir im Rahmen dieser Arbeit effiziente Ausführungsstrategien, die die parallele Verarbeitungsleistung von GPUs nutzen. Dabei entwerfen wir insbesondere GPU-beschleunigte Varianten des PC-Algorithmus, der eine bekannte Constraint-basierte CSL-Methode ist. Dieser Algorithmus ermöglicht die Auswahl eines – den Eigenschaften der Beobachtungsdaten entsprechenden – statistischen Tests auf bedingte Unabhängigkeit (CI-Test). Wir leisten in dieser Doktorarbeit zwei wissenschaftliche Hauptbeiträge: (1) Um den Unterschieden in den CI-Tests Rechnung zu tragen, entwickeln wir drei GPU-basierte, auf CI-Tests zugeschnittene Varianten des PC-Algorithmus. Dadurch können Daten mit den folgenden Merkmalen verarbeitet werden: eine Variante fokussiert sich auf Daten, die das Gaußsche Verteilungsmodell annehmen, eine weitere auf diskrete Daten und die dritte Variante setzt den Fokus auf gemischte diskret-kontinuierliche Daten sowie Daten mit nicht-linearen funktionalen Beziehungen. Jede Variante ist für den entsprechenden CI-Test optimiert und nutzt Eigenschaften der GPU-Hardware wie beispielsweise ”Shared Memory” oder ”Thread-local Memory” aus. Unsere GPU-beschleunigten Varianten übertreffen die modernsten parallelen CPU-basierten Algorithmen um Faktoren von bis zu 93,4x für Daten, die das Gaußsche Verteilungsmodell annehmen, bis zu 54,3x für diskrete Daten, bis zu 240x für kontinuierliche Daten mit nichtlinearen Beziehungen und bis zu 655x für gemischte diskret-kontinuierliche Daten. Die vorgeschlagenen GPU-basierten Varianten sind dabei jedoch auf Datensätze beschränkt, die in den Speicher einer einzelnen GPU passen. (2) Um diese Schwachstelle zu beseitigen, entwickeln wir Ansätze zur Skalierung unserer GPU-basierten Varianten über die Speicherkapazität einer einzelnen GPU hinaus. So entwerfen wir beispielsweise eine auf einer expliziten Speicherverwaltung aufbauenden Out-of-Core-Variante für eine einzelne GPU, um Datensätze beliebiger Größe zu verarbeiten. Laufzeitmessungen auf einem großen Genexpressionsdatensatz zeigen, dass unsere Out-of-Core GPU-Variante 364-mal schneller ist als ein paralleler CPU-basierter CSL-Algorithmus. Insgesamt beschleunigen unsere vorgestellten GPU-basierten Varianten das kausale Strukturlernen in zahlreichen Situationen und unterstützen dadurch die breite Anwendung des kausalen Strukturlernens in Praxis und Forschung. KW - causal structure learning KW - GPU acceleration KW - causal discovery KW - parallel processing KW - GPU-Beschleunigung KW - kausale Entdeckung KW - kausales Strukturlernen KW - parallele Verarbeitung Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-597582 ER - TY - JOUR A1 - Hagedorn, Christiane A1 - Serth, Sebastian A1 - Meinel, Christoph T1 - The mysterious adventures of Detective Duke BT - how storified programming MOOCs support learners in achieving their learning goals JF - Frontiers in education N2 - About 15 years ago, the first Massive Open Online Courses (MOOCs) appeared and revolutionized online education with more interactive and engaging course designs. Yet, keeping learners motivated and ensuring high satisfaction is one of the challenges today's course designers face. Therefore, many MOOC providers employed gamification elements that only boost extrinsic motivation briefly and are limited to platform support. In this article, we introduce and evaluate a gameful learning design we used in several iterations on computer science education courses. For each of the courses on the fundamentals of the Java programming language, we developed a self-contained, continuous story that accompanies learners through their learning journey and helps visualize key concepts. Furthermore, we share our approach to creating the surrounding story in our MOOCs and provide a guideline for educators to develop their own stories. Our data and the long-term evaluation spanning over four Java courses between 2017 and 2021 indicates the openness of learners toward storified programming courses in general and highlights those elements that had the highest impact. While only a few learners did not like the story at all, most learners consumed the additional story elements we provided. However, learners' interest in influencing the story through majority voting was negligible and did not show a considerable positive impact, so we continued with a fixed story instead. We did not find evidence that learners just participated in the narrative because they worked on all materials. Instead, for 10-16% of learners, the story was their main course motivation. We also investigated differences in the presentation format and concluded that several longer audio-book style videos were most preferred by learners in comparison to animated videos or different textual formats. Surprisingly, the availability of a coherent story embedding examples and providing a context for the practical programming exercises also led to a slightly higher ranking in the perceived quality of the learning material (by 4%). With our research in the context of storified MOOCs, we advance gameful learning designs, foster learner engagement and satisfaction in online courses, and help educators ease knowledge transfer for their learners. KW - gameful learning KW - storytelling KW - programming KW - learner engagement KW - course design KW - MOOCs KW - content gamification KW - narrative Y1 - 2023 U6 - https://doi.org/10.3389/feduc.2022.1016401 SN - 2504-284X VL - 7 PB - Frontiers Media CY - Lausanne ER - TY - GEN A1 - Haarmann, Stephan A1 - Batoulis, Kimon A1 - Nikaj, Adriatik A1 - Weske, Mathias T1 - DMN Decision Execution on the Ethereum Blockchain T2 - Advanced Information Systems Engineering, CAISE 2018 N2 - Recently blockchain technology has been introduced to execute interacting business processes in a secure and transparent way. While the foundations for process enactment on blockchain have been researched, the execution of decisions on blockchain has not been addressed yet. In this paper we argue that decisions are an essential aspect of interacting business processes, and, therefore, also need to be executed on blockchain. The immutable representation of decision logic can be used by the interacting processes, so that decision taking will be more secure, more transparent, and better auditable. The approach is based on a mapping of the DMN language S-FEEL to Solidity code to be run on the Ethereum blockchain. The work is evaluated by a proof-of-concept prototype and an empirical cost evaluation. KW - Blockchain KW - Interacting processes KW - DMN Y1 - 2018 SN - 978-3-319-91563-0 SN - 978-3-319-91562-3 U6 - https://doi.org/10.1007/978-3-319-91563-0_20 SN - 0302-9743 SN - 1611-3349 VL - 10816 SP - 327 EP - 341 PB - Springer CY - Cham ER - TY - JOUR A1 - Gärtner, Thomas A1 - Schneider, Juliana A1 - Arnrich, Bert A1 - Konigorski, Stefan T1 - Comparison of Bayesian Networks, G-estimation and linear models to estimate causal treatment effects in aggregated N-of-1 trials with carry-over effects JF - BMC Medical Research Methodology N2 - Background The aggregation of a series of N-of-1 trials presents an innovative and efficient study design, as an alternative to traditional randomized clinical trials. Challenges for the statistical analysis arise when there is carry-over or complex dependencies of the treatment effect of interest. Methods In this study, we evaluate and compare methods for the analysis of aggregated N-of-1 trials in different scenarios with carry-over and complex dependencies of treatment effects on covariates. For this, we simulate data of a series of N-of-1 trials for Chronic Nonspecific Low Back Pain based on assumed causal relationships parameterized by directed acyclic graphs. In addition to existing statistical methods such as regression models, Bayesian Networks, and G-estimation, we introduce a carry-over adjusted parametric model (COAPM). Results The results show that all evaluated existing models have a good performance when there is no carry-over and no treatment dependence. When there is carry-over, COAPM yields unbiased and more efficient estimates while all other methods show some bias in the estimation. When there is known treatment dependence, all approaches that are capable to model it yield unbiased estimates. Finally, the efficiency of all methods decreases slightly when there are missing values, and the bias in the estimates can also increase. Conclusions This study presents a systematic evaluation of existing and novel approaches for the statistical analysis of a series of N-of-1 trials. We derive practical recommendations which methods may be best in which scenarios. KW - N-of-1 trials KW - Randomized clinical trials KW - Bayesian Networks; KW - G-estimation KW - Linear model KW - Simulation study KW - Chronic Nonspecific Low KW - Back Pain Y1 - 2023 U6 - https://doi.org/10.1186/s12874-023-02012-5 SN - 1471-2288 VL - 23 IS - 1 PB - BMC CY - London ER - TY - THES A1 - Grütze, Toni T1 - Adding value to text with user-generated content N2 - In recent years, the ever-growing amount of documents on the Web as well as in closed systems for private or business contexts led to a considerable increase of valuable textual information about topics, events, and entities. It is a truism that the majority of information (i.e., business-relevant data) is only available in unstructured textual form. The text mining research field comprises various practice areas that have the common goal of harvesting high-quality information from textual data. These information help addressing users' information needs. In this thesis, we utilize the knowledge represented in user-generated content (UGC) originating from various social media services to improve text mining results. These social media platforms provide a plethora of information with varying focuses. In many cases, an essential feature of such platforms is to share relevant content with a peer group. Thus, the data exchanged in these communities tend to be focused on the interests of the user base. The popularity of social media services is growing continuously and the inherent knowledge is available to be utilized. We show that this knowledge can be used for three different tasks. Initially, we demonstrate that when searching persons with ambiguous names, the information from Wikipedia can be bootstrapped to group web search results according to the individuals occurring in the documents. We introduce two models and different means to handle persons missing in the UGC source. We show that the proposed approaches outperform traditional algorithms for search result clustering. Secondly, we discuss how the categorization of texts according to continuously changing community-generated folksonomies helps users to identify new information related to their interests. We specifically target temporal changes in the UGC and show how they influence the quality of different tag recommendation approaches. Finally, we introduce an algorithm to attempt the entity linking problem, a necessity for harvesting entity knowledge from large text collections. The goal is the linkage of mentions within the documents with their real-world entities. A major focus lies on the efficient derivation of coherent links. For each of the contributions, we provide a wide range of experiments on various text corpora as well as different sources of UGC. The evaluation shows the added value that the usage of these sources provides and confirms the appropriateness of leveraging user-generated content to serve different information needs. N2 - Die steigende Zahl an Dokumenten, welche in den letzten Jahren im Web sowie in geschlossenen Systemen aus dem privaten oder geschäftlichen Umfeld erstellt wurden, führte zu einem erheblichen Zuwachs an wertvollen Informationen über verschiedenste Themen, Ereignisse, Organisationen und Personen. Die meisten Informationen liegen lediglich in unstrukturierter, textueller Form vor. Das Forschungsgebiet des "Text Mining" befasst sich mit dem schwierigen Problem, hochwertige Informationen in strukturierter Form aus Texten zu gewinnen. Diese Informationen können dazu eingesetzt werden, Nutzern dabei zu helfen, ihren Informationsbedarf zu stillen. In dieser Arbeit nutzen wir Wissen, welches in nutzergenerierten Inhalten verborgen ist und aus unterschiedlichsten sozialen Medien stammt, um Text Mining Ergebnisse zu verbessern. Soziale Medien bieten eine Fülle an Informationen mit verschiedenen Schwerpunkten. Eine wesentliche Funktion solcher Medien ist es, den Nutzern zu ermöglichen, Inhalte mit ihrer Interessensgruppe zu teilen. Somit sind die ausgetauschten Daten in diesen Diensten häufig auf die Interessen der Nutzerbasis ausgerichtet. Die Popularität sozialer Medien wächst stetig und führt dazu, dass immer mehr inhärentes Wissen verfügbar wird. Dieses Wissen kann unter anderem für drei verschiedene Aufgabenstellungen genutzt werden. Zunächst zeigen wir, dass Informationen aus Wikipedia hilfreich sind, um Ergebnisse von Personensuchen im Web nach den in ihnen diskutierten Personen aufzuteilen. Dazu führen wir zwei Modelle zur Gruppierung der Ergebnisse und verschiedene Methoden zum Umgang mit fehlenden Wikipedia Einträgen ein, und zeigen, dass die entwickelten Ansätze traditionelle Methoden zur Gruppierung von Suchergebnissen übertreffen. Des Weiteren diskutieren wir, wie die Klassifizierung von Texten auf Basis von "Folksonomien" Nutzern dabei helfen kann, neue Informationen zu identifizieren, die ihren Interessen entsprechen. Wir konzentrieren uns insbesondere auf temporäre Änderungen in den nutzergenerierten Inhalten, um zu zeigen, wie stark ihr Einfluss auf die Qualität verschiedener "Tag"-Empfehlungsmethoden ist. Zu guter Letzt führen wir einen Algorithmus ein, der es ermöglicht, Nennungen von Echtweltinstanzen in Texten zu disambiguieren und mit ihren Repräsentationen in einer Wissensdatenbank zu verknüpfen. Das Hauptaugenmerk liegt dabei auf der effizienten Erkennung von kohärenten Verknüpfungen. Wir stellen für jeden Teil der Arbeit eine große Vielfalt an Experimenten auf diversen Textkorpora und unterschiedlichen Quellen von nutzergenerierten Inhalten an. Damit heben wir das Potential hervor, das die Nutzung jener Quellen bietet, um die unterschiedlichen Informationsbedürfnisse abzudecken. T2 - Mehrwert für Texte mittels nutzergenerierter Inhalte KW - nutzergenerierte Inhalte KW - text mining KW - Klassifikation KW - Clusteranalyse KW - Entitätsverknüpfung KW - user-generated content KW - text mining KW - classification KW - clustering KW - entity linking Y1 - 2018 ER -