TY - JOUR A1 - Despujol Zabala, Ignacio A1 - Alario Hoyos, Carlos A1 - Turró Ribalta, Carlos A1 - Delgado Kloos, Carlos A1 - Montoro Manrique, Germán A1 - Busquets Mataix, Jaime T1 - Transforming Open Edx into the next On-Campus LMS BT - an ongoing project N2 - Open edX is an incredible platform to deliver MOOCs and SPOCs, designed to be robust and support hundreds of thousands of students at the same time. Nevertheless, it lacks a lot of the fine-grained functionality needed to handle students individually in an on-campus course. This short session will present the ongoing project undertaken by the 6 public universities of the Region of Madrid plus the Universitat Politècnica de València, in the framework of a national initiative called UniDigital, funded by the Ministry of Universities of Spain within the Plan de Recuperación, Transformación y Resiliencia of the European Union. This project, led by three of these Spanish universities (UC3M, UPV, UAM), is investing more than half a million euros with the purpose of bringing the Open edX platform closer to the functionalities required for an LMS to support on-campus teaching. The aim of the project is to coordinate what is going to be developed with the Open edX development community, so these developments are incorporated into the core of the Open edX platform in its next releases. Features like a complete redesign of platform analytics to make them real-time, the creation of dashboards based on these analytics, the integration of a system for customized automatic feedback, improvement of exams and tasks and the extension of grading capabilities, improvements in the graphical interfaces for both students and teachers, the extension of the emailing capabilities, redesign of the file management system, integration of H5P content, the integration of a tool to create mind maps, the creation of a system to detect students at risk, or the integration of an advanced voice assistant and a gamification mobile app, among others, are part of the functionalities to be developed. The idea is to transform a first-class MOOC platform into the next on-campus LMS. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-625122 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - THES A1 - Vitagliano, Gerardo T1 - Modeling the structure of tabular files for data preparation T1 - Modellierung der Struktur von Tabellarische Dateien für die Datenaufbereitung N2 - To manage tabular data files and leverage their content in a given downstream task, practitioners often design and execute complex transformation pipelines to prepare them. The complexity of such pipelines stems from different factors, including the nature of the preparation tasks, often exploratory or ad-hoc to specific datasets; the large repertory of tools, algorithms, and frameworks that practitioners need to master; and the volume, variety, and velocity of the files to be prepared. Metadata plays a fundamental role in reducing this complexity: characterizing a file assists end users in the design of data preprocessing pipelines, and furthermore paves the way for suggestion, automation, and optimization of data preparation tasks. Previous research in the areas of data profiling, data integration, and data cleaning, has focused on extracting and characterizing metadata regarding the content of tabular data files, i.e., about the records and attributes of tables. Content metadata are useful for the latter stages of a preprocessing pipeline, e.g., error correction, duplicate detection, or value normalization, but they require a properly formed tabular input. Therefore, these metadata are not relevant for the early stages of a preparation pipeline, i.e., to correctly parse tables out of files. In this dissertation, we turn our focus to what we call the structure of a tabular data file, i.e., the set of characters within a file that do not represent data values but are required to parse and understand the content of the file. We provide three different approaches to represent file structure, an explicit representation based on context-free grammars; an implicit representation based on file-wise similarity; and a learned representation based on machine learning. In our first contribution, we use the grammar-based representation to characterize a set of over 3000 real-world csv files and identify multiple structural issues that let files deviate from the csv standard, e.g., by having inconsistent delimiters or containing multiple tables. We leverage our learnings about real-world files and propose Pollock, a benchmark to test how well systems parse csv files that have a non-standard structure, without any previous preparation. We report on our experiments on using Pollock to evaluate the performance of 16 real-world data management systems. Following, we characterize the structure of files implicitly, by defining a measure of structural similarity for file pairs. We design a novel algorithm to compute this measure, which is based on a graph representation of the files' content. We leverage this algorithm and propose Mondrian, a graphical system to assist users in identifying layout templates in a dataset, classes of files that have the same structure, and therefore can be prepared by applying the same preparation pipeline. Finally, we introduce MaGRiTTE, a novel architecture that uses self-supervised learning to automatically learn structural representations of files in the form of vectorial embeddings at three different levels: cell level, row level, and file level. We experiment with the application of structural embeddings for several tasks, namely dialect detection, row classification, and data preparation efforts estimation. Our experimental results show that structural metadata, either identified explicitly on parsing grammars, derived implicitly as file-wise similarity, or learned with the help of machine learning architectures, is fundamental to automate several tasks, to scale up preparation to large quantities of files, and to provide repeatable preparation pipelines. N2 - Anwender müssen häufig komplexe Pipelines zur Aufbereitung von tabellarischen Dateien entwerfen, um diese verwalten und ihre Inhalte für nachgelagerte Aufgaben nutzen zu können. Die Komplexität solcher Pipelines ergibt sich aus verschiedenen Faktoren, u.a. (i) aus der Art der Aufbereitungsaufgaben, die oft explorativ oder ad hoc für bestimmte Datensätze durchgeführt werden, (ii) aus dem großen Repertoire an Werkzeugen, Algorithmen und Frameworks, die von den Anwendern beherrscht werden müssen, sowie (iii) aus der Menge, der Größe und der Verschiedenartigkeit der aufzubereitenden Dateien. Metadaten spielen eine grundlegende Rolle bei der Verringerung dieser Komplexität: Die Charakterisierung einer Datei hilft den Nutzern bei der Gestaltung von Datenaufbereitungs-Pipelines und ebnet darüber hinaus den Weg für Vorschläge, Automatisierung und Optimierung von Datenaufbereitungsaufgaben. Bisherige Forschungsarbeiten in den Bereichen Data Profiling, Datenintegration und Datenbereinigung konzentrierten sich auf die Extraktion und Charakterisierung von Metadaten über die Inhalte der tabellarischen Dateien, d.h. über die Datensätze und Attribute von Tabellen. Inhalts-basierte Metadaten sind für die letzten Phasen einer Aufbereitungspipeline nützlich, z.B. für die Fehlerkorrektur, die Erkennung von Duplikaten oder die Normalisierung von Werten, aber sie erfordern eine korrekt geformte tabellarische Eingabe. Daher sind diese Metadaten für die frühen Phasen einer Aufbereitungspipeline, d.h. für das korrekte Parsen von Tabellen aus Dateien, nicht relevant. In dieser Dissertation konzentrieren wir uns die Struktur einer tabellarischen Datei nennen, d.h. die Menge der Zeichen in einer Datei, die keine Datenwerte darstellen, aber erforderlich sind, um den Inhalt der Datei zu analysieren und zu verstehen. Wir stellen drei verschiedene Ansätze zur Darstellung der Dateistruktur vor: eine explizite Darstellung auf der Grundlage kontextfreier Grammatiken, eine implizite Darstellung auf der Grundlage von Dateiähnlichkeiten und eine erlernte Darstellung auf der Grundlage von maschinellem Lernen. In unserem ersten Ansatz verwenden wir die grammatikbasierte Darstellung, um eine Menge von über 3000 realen CSV-Dateien zu charakterisieren und mehrere strukturelle Probleme zu identifizieren, die dazu führen, dass Dateien vom CSV-Standard abweichen, z.B. durch inkonsistente Begrenzungszeichen oder dem Enthalten mehrere Tabellen in einer einzelnen Datei. Wir nutzen unsere Erkenntnisse aus realen Dateien und schlagen Pollock vor, einen Benchmark, der testet, wie gut Systeme unaufbereitete CSV-Dateien parsen. Wir berichten über unsere Experimente zur Verwendung von Pollock, in denen wir die Leistung von 16 realen Datenverwaltungssystemen bewerten. Anschließend charakterisieren wir die Struktur von Dateien implizit, indem wir ein Maß für die strukturelle Ähnlichkeit von Dateipaaren definieren. Wir entwickeln einen neuartigen Algorithmus zur Berechnung dieses Maßes, der auf einer Graphen-basierten Darstellung des Dateiinhalts basiert. Wir nutzen diesen Algorithmus und schlagen Mondrian vor, ein grafisches System zur Unterstützung der Benutzer bei der Identifizierung von Layout Vorlagen in einem Datensatz, d.h. von Dateiklassen, die die gleiche Struktur aufweisen und daher mit der gleichen Pipeline aufbereitet werden können. Schließlich stellen wir MaGRiTTE vor, eine neuartige Architektur, die selbst- überwachtes Lernen verwendet, um automatisch strukturelle Darstellungen von Dateien in Form von vektoriellen Einbettungen auf drei verschiedenen Ebenen zu lernen: auf Zellebene, auf Zeilenebene und auf Dateiebene. Wir experimentieren mit der Anwendung von strukturellen Einbettungen für verschiedene Aufgaben, nämlich Dialekterkennung, Zeilenklassifizierung und der Schätzung des Aufwands für die Datenaufbereitung. Unsere experimentellen Ergebnisse zeigen, dass strukturelle Metadaten, die entweder explizit mit Hilfe von Parsing-Grammatiken identifiziert, implizit als Dateiähnlichkeit abgeleitet oder mit Machine-Learning Architekturen erlernt werden, von grundlegender Bedeutung für die Automatisierung verschiedener Aufgaben, die Skalierung der Aufbereitung auf große Mengen von Dateien und die Bereitstellung wiederholbarer Aufbereitungspipelines sind. KW - data preparation KW - file structure KW - Datenaufbereitung KW - tabellarische Dateien KW - Dateistruktur KW - tabular data Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624351 ER - TY - THES A1 - Ghahremani, Sona T1 - Incremental self-adaptation of dynamic architectures attaining optimality and scalability T1 - Inkrementelle Selbstanpassung dynamischer Architekturen zum Erreichen von Optimalität und Skalierbarkeit N2 - The landscape of software self-adaptation is shaped in accordance with the need to cost-effectively achieve and maintain (software) quality at runtime and in the face of dynamic operation conditions. Optimization-based solutions perform an exhaustive search in the adaptation space, thus they may provide quality guarantees. However, these solutions render the attainment of optimal adaptation plans time-intensive, thereby hindering scalability. Conversely, deterministic rule-based solutions yield only sub-optimal adaptation decisions, as they are typically bound by design-time assumptions, yet they offer efficient processing and implementation, readability, expressivity of individual rules supporting early verification. Addressing the quality-cost trade-of requires solutions that simultaneously exhibit the scalability and cost-efficiency of rulebased policy formalism and the optimality of optimization-based policy formalism as explicit artifacts for adaptation. Utility functions, i.e., high-level specifications that capture system objectives, support the explicit treatment of quality-cost trade-off. Nevertheless, non-linearities, complex dynamic architectures, black-box models, and runtime uncertainty that makes the prior knowledge obsolete are a few of the sources of uncertainty and subjectivity that render the elicitation of utility non-trivial. This thesis proposes a twofold solution for incremental self-adaptation of dynamic architectures. First, we introduce Venus, a solution that combines in its design a ruleand an optimization-based formalism enabling optimal and scalable adaptation of dynamic architectures. Venus incorporates rule-like constructs and relies on utility theory for decision-making. Using a graph-based representation of the architecture, Venus captures rules as graph patterns that represent architectural fragments, thus enabling runtime extensibility and, in turn, support for dynamic architectures; the architecture is evaluated by assigning utility values to fragments; pattern-based definition of rules and utility enables incremental computation of changes on the utility that result from rule executions, rather than evaluating the complete architecture, which supports scalability. Second, we introduce HypeZon, a hybrid solution for runtime coordination of multiple off-the-shelf adaptation policies, which typically offer only partial satisfaction of the quality and cost requirements. Realized based on meta-self-aware architectures, HypeZon complements Venus by re-using existing policies at runtime for balancing the quality-cost trade-off. The twofold solution of this thesis is integrated in an adaptation engine that leverages state- and event-based principles for incremental execution, therefore, is scalable for large and dynamic software architectures with growing size and complexity. The utility elicitation challenge is resolved by defining a methodology to train utility-change prediction models. The thesis addresses the quality-cost trade-off in adaptation of dynamic software architectures via design-time combination (Venus) and runtime coordination (HypeZon) of rule- and optimization-based policy formalisms, while offering supporting mechanisms for optimal, cost-effective, scalable, and robust adaptation. The solutions are evaluated according to a methodology that is obtained based on our systematic literature review of evaluation in self-healing systems; the applicability and effectiveness of the contributions are demonstrated to go beyond the state-of-the-art in coverage of a wide spectrum of the problem space for software self-adaptation. N2 - Die Landschaft der Software-Selbstanpassungen ist von der Notwendigkeit geprägt, zur Laufzeit und angesichts dynamischer Betriebsbedingungen kosteneffizient (Software-)Qualität zu erreichen und aufrechtzuerhalten. Optimierungsbasierte Lösungen führen eine umfassende Suche im Anpassungsraum durch und können daher Qualitätsgarantien bieten. Allerdings machen diese Lösungen das Erreichen optimaler Anpassungspläne zeitintensiv und behindern dadurch die Skalierbarkeit. Umgekehrt führen deterministische regelbasierte Lösungen nur zu suboptimalen Anpassungsentscheidungen, da sie typischerweise an Annahmen zur Entwurfszeit gebunden sind. Sie bieten jedoch eine effiziente Verarbeitung und Implementierung, Lesbarkeit und Ausdruckskraft einzelner Regeln und unterstützen so eine frühzeitige Überprüfung der Korrektheit. Um den Kompromiss zwischen Qualität und Kosten anzugehen, sind Lösungen erforderlich, die gleichzeitig die Skalierbarkeit und Kosteneffizienz des regelbasierten Strategieformalismus und die Optimalität des optimierungsbasierten Strategieformalismus als explizite Artefakte für die Anpassung berücksichtigen. Utility-Funktionen, d.h. Spezifikationen auf abstrakter Ebene, die Systemziele erfassen, unterstützen die explizite Behandlung des Qualität-Kosten-Kompromisses. Dennoch sind Nichtlinearitäten, komplexe dynamische Architekturen, Black-Box-Modelle und Laufzeitunsicherheit, die das Vorwissen überflüssig macht, einige der Quellen von Unsicherheit und Subjektivität, die die Utility-Erhöhung nicht trivial machen. Diese Arbeit schlägt eine zweifältige Lösung für die inkrementelle Selbstanpassung dynamischer Architekturen vor. Zunächst stellen wir Venus vor, eine Lösung, die in ihrem Design einen regel- und optimierungsbasierten Formalismus kombiniert und so eine optimale und skalierbare Anpassung dynamischer Architekturen ermöglicht. Venus enthält regelartige Konstrukte und nutzt die Utility-Theorie für die Entscheidungsfindung. Mithilfe einer graphbasierten Darstellung der Architektur erfasst Venus Regeln als Graphmuster, die Architekturfragmente darstellen, und ermöglicht so die Erweiterbarkeit zur Laufzeit und damit die Unterstützung dynamischer Architekturen. Die Architektur wird bewertet, indem den Fragmenten Utility-Werte zugewiesen werden. Die graphbasierte Definition von Regeln und Utility ermöglicht die inkrementelle Berechnung von Änderungen der Utility, die sich aus Regelausführungen ergeben, anstatt die gesamte Architektur zu bewerten, was die Skalierbarkeit verbessert. Des weiteren stellen wir HypeZon vor, eine Hybridlösung zur Laufzeitkoordination mehrerer Standardanpassungsstrategien, die typischerweise nur eine partielle Erfüllung der Qualitäts- und Kostenanforderungen bieten. HypeZon wurde auf der Grundlage der meta-selbstwahrnehmenden Architekturen umgesetzt und ergänzt Venus durch die Wiederverwendung bestehender Strategien zur Laufzeit, um den Kompromiss zwischen Qualität und Kosten auszubalancieren. Die zweifältige Lösung aus dieser Dissertation ist in eine Anpassungs-Engine integriert, die zustands- und ereignisbasierte Prinzipien für die inkrementelle Ausführung nutzt und daher für große und dynamische Softwarearchitekturen mit wachsender Größe und Komplexität skalierbar ist. Die Herausforderung der Erhöhung der Utility wird durch die Definition einer Methodik gelöst, die zum Trainieren von Modellen zur Vorhersage von Utility-Änderungen verwendet wird. Die Dissertation befasst sich mit dem Qualität-Kosten-Kompromiss bei der Anpassung dynamischer Softwarearchitekturen durch Entwurfszeitkombination (Venus) und Laufzeitkoordination (HypeZon) von regel- und optimierungsbasierten Strategieformalismen und bietet gleichzeitig unterstützende Mechanismen für optimale, kosteneffektive, skalierbare und robuste Anpassung. Die Lösungen werden nach einer Methodik bewertet, die auf unserer systematischen Literaturrecherche zur Bewertung von selbstheilenden Systemen basiert. Die Anwendbarkeit und Wirksamkeit der Lösungen geht nachweislich über den Stand der Technik hinaus und deckt ein breites Spektrum des Problembereichs der Software-Selbstanpassung ab. KW - self-healing KW - self-adaptive systems KW - architecture-based software adaptation KW - utility functions KW - prediction models KW - meta self-adaptation KW - model-driven engineering KW - scalable KW - architekturbasierte Softwareanpassung KW - Meta-Selbstanpassung KW - modellgesteuerte Entwicklung KW - Vorhersagemodelle KW - skalierbar KW - selbstanpassende Systeme KW - selbstheilende Systeme KW - Utility-Funktionen Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624232 ER - TY - THES A1 - Limberger, Daniel T1 - Concepts and techniques for 3D-embedded treemaps and their application to software visualization T1 - Konzepte und Techniken für 3D-eingebettete Treemaps und ihre Anwendung auf Softwarevisualisierung N2 - This thesis addresses concepts and techniques for interactive visualization of hierarchical data using treemaps. It explores (1) how treemaps can be embedded in 3D space to improve their information content and expressiveness, (2) how the readability of treemaps can be improved using level-of-detail and degree-of-interest techniques, and (3) how to design and implement a software framework for the real-time web-based rendering of treemaps embedded in 3D. With a particular emphasis on their application, use cases from software analytics are taken to test and evaluate the presented concepts and techniques. Concerning the first challenge, this thesis shows that a 3D attribute space offers enhanced possibilities for the visual mapping of data compared to classical 2D treemaps. In particular, embedding in 3D allows for improved implementation of visual variables (e.g., by sketchiness and color weaving), provision of new visual variables (e.g., by physically based materials and in situ templates), and integration of visual metaphors (e.g., by reference surfaces and renderings of natural phenomena) into the three-dimensional representation of treemaps. For the second challenge—the readability of an information visualization—the work shows that the generally higher visual clutter and increased cognitive load typically associated with three-dimensional information representations can be kept low in treemap-based representations of both small and large hierarchical datasets. By introducing an adaptive level-of-detail technique, we cannot only declutter the visualization results, thereby reducing cognitive load and mitigating occlusion problems, but also summarize and highlight relevant data. Furthermore, this approach facilitates automatic labeling, supports the emphasis on data outliers, and allows visual variables to be adjusted via degree-of-interest measures. The third challenge is addressed by developing a real-time rendering framework with WebGL and accumulative multi-frame rendering. The framework removes hardware constraints and graphics API requirements, reduces interaction response times, and simplifies high-quality rendering. At the same time, the implementation effort for a web-based deployment of treemaps is kept reasonable. The presented visualization concepts and techniques are applied and evaluated for use cases in software analysis. In this domain, data about software systems, especially about the state and evolution of the source code, does not have a descriptive appearance or natural geometric mapping, making information visualization a key technology here. In particular, software source code can be visualized with treemap-based approaches because of its inherently hierarchical structure. With treemaps embedded in 3D, we can create interactive software maps that visually map, software metrics, software developer activities, or information about the evolution of software systems alongside their hierarchical module structure. Discussions on remaining challenges and opportunities for future research for 3D-embedded treemaps and their applications conclude the thesis. N2 - Diese Doktorarbeit behandelt Konzepte und Techniken zur interaktiven Visualisierung hierarchischer Daten mit Hilfe von Treemaps. Sie untersucht (1), wie Treemaps im 3D-Raum eingebettet werden können, um ihre Informationsinhalte und Ausdrucksfähigkeit zu verbessern, (2) wie die Lesbarkeit von Treemaps durch Techniken wie Level-of-Detail und Degree-of-Interest verbessert werden kann, und (3) wie man ein Software-Framework für das Echtzeit-Rendering von Treemaps im 3D-Raum entwirft und implementiert. Dabei werden Anwendungsfälle aus der Software-Analyse besonders betont und zur Verprobung und Bewertung der Konzepte und Techniken verwendet. Hinsichtlich der ersten Herausforderung zeigt diese Arbeit, dass ein 3D-Attributraum im Vergleich zu klassischen 2D-Treemaps verbesserte Möglichkeiten für die visuelle Kartierung von Daten bietet. Insbesondere ermöglicht die Einbettung in 3D eine verbesserte Umsetzung von visuellen Variablen (z.B. durch Skizzenhaftigkeit und Farbverwebungen), die Bereitstellung neuer visueller Variablen (z.B. durch physikalisch basierte Materialien und In-situ-Vorlagen) und die Integration visueller Metaphern (z.B. durch Referenzflächen und Darstellungen natürlicher Phänomene) in die dreidimensionale Darstellung von Treemaps. Für die zweite Herausforderung – die Lesbarkeit von Informationsvisualisierungen – zeigt die Arbeit, dass die allgemein höhere visuelle Unübersichtlichkeit und die damit einhergehende, erhöhte kognitive Belastung, die typischerweise mit dreidimensionalen Informationsdarstellungen verbunden sind, in Treemap-basierten Darstellungen sowohl kleiner als auch großer hierarchischer Datensätze niedrig gehalten werden können. Durch die Einführung eines adaptiven Level-of-Detail-Verfahrens lassen sich nicht nur die Visualisierungsergebnisse übersichtlicher gestalten, die kognitive Belastung reduzieren und Verdeckungsprobleme verringern, sondern auch relevante Daten zusammenfassen und hervorheben. Darüber hinaus erleichtert dieser Ansatz eine automatische Beschriftung, unterstützt die Hervorhebung von Daten-Ausreißern und ermöglicht die Anpassung von visuellen Variablen über Degree-of-Interest-Maße. Die dritte Herausforderung wird durch die Entwicklung eines Echtzeit-Rendering-Frameworks mit WebGL und akkumulativem Multi-Frame-Rendering angegangen. Das Framework hebt mehrere Hardwarebeschränkungen und Anforderungen an die Grafik-API auf, verkürzt die Reaktionszeiten auf Interaktionen und vereinfacht qualitativ hochwertiges Rendering. Gleichzeitig wird der Implementierungsaufwand für einen webbasierten Einsatz von Treemaps geringgehalten. Die vorgestellten Visualisierungskonzepte und -techniken werden für Anwendungsfälle in der Softwareanalyse eingesetzt und evaluiert. In diesem Bereich haben Daten über Softwaresysteme, insbesondere über den Zustand und die Evolution des Quellcodes, keine anschauliche Erscheinung oder natürliche geometrische Zuordnung, so dass die Informationsvisualisierung hier eine Schlüsseltechnologie darstellt. Insbesondere Softwarequellcode kann aufgrund seiner inhärenten hierarchischen Struktur mit Hilfe von Treemap-basierten Ansätzen visualisiert werden. Mit in 3D-eingebetteten Treemaps können wir interaktive Softwarelagekarten erstellen, die z.B. Softwaremetriken, Aktivitäten von Softwareentwickler*innen und Informationen über die Evolution von Softwaresystemen in ihrer hierarchischen Modulstruktur abbilden und veranschaulichen. Diskussionen über verbleibende Herausforderungen und Möglichkeiten für zukünftige Forschung zu 3D-eingebetteten Treemaps und deren Anwendungen schließen die Arbeit ab. KW - treemaps KW - software visualization KW - software analytics KW - web-based rendering KW - degree-of-interest techniques KW - labeling KW - 3D-embedding KW - interactive visualization KW - progressive rendering KW - hierarchical data KW - 3D-Einbettung KW - Interessengrad-Techniken KW - hierarchische Daten KW - interaktive Visualisierung KW - Beschriftung KW - progressives Rendering KW - Softwareanalytik KW - Softwarevisualisierung KW - Treemaps KW - Web-basiertes Rendering Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-632014 ER - TY - THES A1 - Alhosseini Almodarresi Yasin, Seyed Ali T1 - Classification, prediction and evaluation of graph neural networks on online social media platforms T1 - Klassifizierung, Vorhersage und Bewertung graphischer neuronaler Netze auf Online-Social-Media-Plattformen N2 - The vast amount of data generated on social media platforms have made them a valuable source of information for businesses, governments and researchers. Social media data can provide insights into user behavior, preferences, and opinions. In this work, we address two important challenges in social media analytics. Predicting user engagement with online content has become a critical task for content creators to increase user engagement and reach larger audiences. Traditional user engagement prediction approaches rely solely on features derived from the user and content. However, a new class of deep learning methods based on graphs captures not only the content features but also the graph structure of social media networks. This thesis proposes a novel Graph Neural Network (GNN) approach to predict user interaction with tweets. The proposed approach combines the features of users, tweets and their engagement graphs. The tweet text features are extracted using pre-trained embeddings from language models, and a GNN layer is used to embed the user in a vector space. The GNN model then combines the features and graph structure to predict user engagement. The proposed approach achieves an accuracy value of 94.22% in classifying user interactions, including likes, retweets, replies, and quotes. Another major challenge in social media analysis is detecting and classifying social bot accounts. Social bots are automated accounts used to manipulate public opinion by spreading misinformation or generating fake interactions. Detecting social bots is critical to prevent their negative impact on public opinion and trust in social media. In this thesis, we classify social bots on Twitter by applying Graph Neural Networks. The proposed approach uses a combination of both the features of a node and an aggregation of the features of a node’s neighborhood to classify social bot accounts. Our final results indicate a 6% improvement in the area under the curve score in the final predictions through the utilization of GNN. Overall, our work highlights the importance of social media data and the potential of new methods such as GNNs to predict user engagement and detect social bots. These methods have important implications for improving the quality and reliability of information on social media platforms and mitigating the negative impact of social bots on public opinion and discourse. N2 - Die riesige Menge an Daten, die auf Social-Media-Plattformen generiert wird, hat sie zu einer wertvollen Informationsquelle für Unternehmen, Regierungen und Forscher gemacht. Daten aus sozialen Medien können Einblicke in das Verhalten, die Vorlieben und die Meinungen der Nutzer geben. In dieser Arbeit befassen wir uns mit zwei wichtigen Herausforderungen im Bereich der Social-Media-Analytik. Die Vorhersage des Nutzerinteresses an Online-Inhalten ist zu einer wichtigen Aufgabe für die Ersteller von Inhalten geworden, um das Nutzerengagement zu steigern und ein größeres Publikum zu erreichen. Herkömmliche Ansätze zur Vorhersage des Nutzerengagements stützen sich ausschließlich auf Merkmale, die aus dem Nutzer und dem Inhalt abgeleitet werden. Eine neue Klasse von Deep-Learning-Methoden, die auf Graphen basieren, erfasst jedoch nicht nur die Inhaltsmerkmale, sondern auch die Graphenstruktur von Social-Media-Netzwerken. In dieser Arbeit wird ein neuartiger Graph Neural Network (GNN)-Ansatz zur Vorhersage der Nutzerinteraktion mit Tweets vorgeschlagen. Der vorgeschlagene Ansatz kombiniert die Merkmale von Nutzern, Tweets und deren Engagement-Graphen. Die Textmerkmale der Tweets werden mit Hilfe von vortrainierten Einbettungen aus Sprachmodellen extrahiert, und eine GNN-Schicht wird zur Einbettung des Nutzers in einen Vektorraum verwendet. Das GNN-Modell kombiniert dann die Merkmale und die Graphenstruktur, um das Nutzerengagement vorherzusagen. Der vorgeschlagene Ansatz erreicht eine Genauigkeit von 94,22% bei der Klassifizierung von Benutzerinteraktionen, einschließlich Likes, Retweets, Antworten und Zitaten. Eine weitere große Herausforderung bei der Analyse sozialer Medien ist die Erkennung und Klassifizierung von Social-Bot-Konten. Social Bots sind automatisierte Konten, die dazu dienen, die öffentliche Meinung zu manipulieren, indem sie Fehlinformationen verbreiten oder gefälschte Interaktionen erzeugen. Die Erkennung von Social Bots ist entscheidend, um ihre negativen Auswirkungen auf die öffentliche Meinung und das Vertrauen in soziale Medien zu verhindern. In dieser Arbeit klassifizieren wir Social Bots auf Twitter mit Hilfe von Graph Neural Networks. Der vorgeschlagene Ansatz verwendet eine Kombination aus den Merkmalen eines Knotens und einer Aggregation der Merkmale der Nachbarschaft eines Knotens, um Social-Bot-Konten zu klassifizieren. Unsere Endergebnisse zeigen eine 6%ige Verbesserung der Fläche unter der Kurve bei den endgültigen Vorhersagen durch die Verwendung von GNN. Insgesamt unterstreicht unsere Arbeit die Bedeutung von Social-Media-Daten und das Potenzial neuer Methoden wie GNNs zur Vorhersage des Nutzer-Engagements und zur Erkennung von Social Bots. Diese Methoden haben wichtige Auswirkungen auf die Verbesserung der Qualität und Zuverlässigkeit von Informationen auf Social-Media-Plattformen und die Abschwächung der negativen Auswirkungen von Social Bots auf die öffentliche Meinung und den Diskurs. KW - graph neural networks KW - social bot detection KW - user engagement KW - graphische neuronale Netze KW - Social Bots erkennen KW - Nutzer-Engagement Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-626421 ER - TY - THES A1 - Benson, Lawrence T1 - Efficient state management with persistent memory N2 - Efficiently managing large state is a key challenge for data management systems. Traditionally, state is split into fast but volatile state in memory for processing and persistent but slow state on secondary storage for durability. Persistent memory (PMem), as a new technology in the storage hierarchy, blurs the lines between these states by offering both byte-addressability and low latency like DRAM as well persistence like secondary storage. These characteristics have the potential to cause a major performance shift in database systems. Driven by the potential impact that PMem has on data management systems, in this thesis we explore their use of PMem. We first evaluate the performance of real PMem hardware in the form of Intel Optane in a wide range of setups. To this end, we propose PerMA-Bench, a configurable benchmark framework that allows users to evaluate the performance of customizable database-related PMem access. Based on experimental results obtained with PerMA-Bench, we discuss findings and identify general and implementation-specific aspects that influence PMem performance and should be considered in future work to improve PMem-aware designs. We then propose Viper, a hybrid PMem-DRAM key-value store. Based on PMem-aware access patterns, we show how to leverage PMem and DRAM efficiently to design a key database component. Our evaluation shows that Viper outperforms existing key-value stores by 4–18x for inserts while offering full data persistence and achieving similar or better lookup performance. Next, we show which changes must be made to integrate PMem components into larger systems. By the example of stream processing engines, we highlight limitations of current designs and propose a prototype engine that overcomes these limitations. This allows our prototype to fully leverage PMem's performance for its internal state management. Finally, in light of Optane's discontinuation, we discuss how insights from PMem research can be transferred to future multi-tier memory setups by the example of Compute Express Link (CXL). Overall, we show that PMem offers high performance for state management, bridging the gap between fast but volatile DRAM and persistent but slow secondary storage. Although Optane was discontinued, new memory technologies are continuously emerging in various forms and we outline how novel designs for them can build on insights from existing PMem research. N2 - Die effiziente Verwaltung großer Zustände ist eine zentrale Herausforderung für Datenverwaltungssysteme. Traditionell wird der Zustand in einen schnellen, aber flüchtigen Zustand im Speicher für die Verarbeitung und einen persistenten, aber langsamen Zustand im Sekundärspeicher für die Speicherung unterteilt. Persistenter Speicher (PMem), eine neue Technologie in der Speicherhierarchie, lässt die Grenzen zwischen diesen Zuständen verschwimmen, indem er sowohl Byte-Adressierbarkeit und geringe Latenz wie DRAM als auch Persistenz wie Sekundärspeicher bietet. Diese Eigenschaften haben das Potenzial, die Leistung von Datenbanksystemen grundlegend zu verändern. Aufgrund der potenziellen Auswirkungen, die PMem auf Datenverwaltungssysteme hat, untersuchen wir in dieser Arbeit ihre Verwendung von PMem. Zunächst evaluieren wir die Leistung von echter PMem-Hardware in Form von Intel Optane in einer Vielzahl von Konfigurationen. Zu diesem Zweck stellen wir PerMA-Bench vor, ein konfigurierbares Benchmark-Framework, mit dem Benutzer die Leistung von anpassbaren datenbankbezogenen PMem-Zugriffen untersuchen können. Auf der Grundlage der mit PerMA-Bench erzielten experimentellen Ergebnisse diskutieren wir unsere Erkenntnisse und identifizieren allgemeine und implementierungsspezifische Aspekte, die die PMem-Leistung beeinflussen und in zukünftigen Arbeiten berücksichtigt werden sollten, um PMem-fähige Designs zu verbessern. Anschließend präsentieren wir Viper, einen hybriden PMem-DRAM Key-Value-Store. Basierend auf PMem-bewussten Zugriffsmustern zeigen wir, wie PMem und DRAM effizient genutzt werden können, um eine wichtige Datenbankkomponente zu entwickeln. Unsere Evaluierung zeigt, dass Viper bestehende Key-Value-Stores bei Einfügungen um 4- bis 18-mal übertrifft, während er gleichzeitig vollständige Datenpersistenz bietet und ähnliche oder bessere Lookup-Leistung erzielt. Als nächstes zeigen wir, welche Änderungen vorgenommen werden müssen, um PMem-Komponenten in größere Systeme zu integrieren. Am Beispiel von Datenstromverarbeitungssystemen zeigen wir die Einschränkungen aktueller Designs auf und stellen einen Prototyp eines Systems vor, das diese Einschränkungen überwindet. Dadurch kann unser Prototyp die Leistung von PMem für die interne Zustandsverwaltung voll ausnutzen. Schließlich erörtern wir angesichts der Abkündigung von Optane, wie Erkenntnisse aus der PMem-Forschung am Beispiel von Compute Express Link (CXL) auf künftige mehrstufige Speicher-Setups übertragen werden können. Insgesamt zeigen wir, dass PMem eine hohe Leistungsfähigkeit für die Zustandsverwaltung bietet und die Lücke zwischen schnellem, aber flüchtigem DRAM und beständigem, aber langsamem Sekundärspeicher schließt. Obwohl Optane eingestellt wurde, entstehen ständig neue Speichertechnologien in verschiedenen Formen, und wir skizzieren, wie neuartige Entwürfe für sie auf den Erkenntnissen aus der bestehenden PMem-Forschung aufbauen können. KW - persistent memory KW - pmem KW - database KW - data management KW - state management KW - Datenverwaltung KW - Datenbank KW - persistenter Speicher KW - pmem KW - Zustandsverwaltung Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-625637 ER - TY - THES A1 - Marx, Carolin Valerie T1 - Escalation of commitment in information systems projects: a cognitive-affective perspective T1 - Eskalation des Commitments in Wirtschaftsinformatik Projekten: eine kognitiv-affektive Perspektive N2 - While information systems (IS) projects are pivotal in guiding organizational strategies and sustaining competitive advantages, they frequently overrun budgets, extend beyond timelines, and experience high failure rates. This dissertation delves into the psychological micro-foundations of human behavior – specifically cognition and emotion – in relation to a prevalent issue in IS project management: the tendency to persist with failing courses of action, also called escalation of commitment (EoC). Through a mixed-methods research approach, this study investigates the emotional and cognitive bases of decision-making during IS project escalation and its evolution over time. The results of a psychophysiological laboratory experiment provide evidence for the predictions on the role of negative and complex situational integral emotions of Cognitive Dissonance over Coping Theory and add to a better understanding of how escalation tendencies change during sequential decision-making due to cognitive learning effects. Using psychophysiological measures, including data triangulation between electrodermal and cardiovascular activity and AI-based analysis of facial micro-expressions, this research reveals physiological markers of behavioral escalation tendencies. Complementing the experiment, a qualitative analysis using free-form narration during decision-making simulations shows that decision-makers employ varied cognitive reasoning patterns to justify escalating behaviors, suggesting a sequence of four distinct cognitive phases. By integrating both qualitative and quantitative findings, this dissertation offers a comprehensive theoretical framework of how cognition and emotion shape behavioral EoC over time. I propose that escalation is a cyclical adaptation of mental models, distinguished by shifts in cognitive reasoning patterns, temporal cognition mode variations, and interactions with situational emotions and their anticipation. The primary contribution of this dissertation lies in disentangling the emotional and cognitive mechanisms that drive IS project escalation. The findings provide the basis for developing de-escalation strategies, thereby helping to improve decision-making under uncertainty. Stakeholders involved in IS projects that get “off track” should be aware of the tendency to persist with failing courses of action and the importance of the underlying emotional and cognitive dynamics. N2 - Projekte im Bereich der Wirtschaftsinformatik (IS-Projekte) sind von zentraler Bedeutung für die Steuerung von Unternehmensstrategien und die Aufrechterhaltung von Wettbewerbsvorteilen, überschreiten jedoch häufig das Budget, sprengen den Zeitrahmen und weisen eine hohe Misserfolgsquote auf. Diese Dissertation befasst sich mit den psychologischen Grundlagen menschlichen Verhaltens - insbesondere Kognition und Emotion - im Zusammenhang mit einem weit verbreiteten Problem im IS-Projektmanagement: der Tendenz, an fehlgehenden Handlungssträngen festzuhalten, auch Eskalation des Commitments (Englisch: “escalation of commitment” - EoC) genannt. Mit einem kombinierten Forschungsansatz (dem Mix von qualitativen und quantitativen Methoden) untersuche ich in meiner Dissertation die emotionalen und kognitiven Grundlagen der Entscheidungsfindung hinter eskalierendem Commitment zu scheiternden IS-Projekten und deren Entwicklung über die Zeit. Die Ergebnisse eines psychophysiologischen Laborexperiments liefern Belege auf die Vorhersagen bezüglich der Rolle von negativen und komplexen situativen Emotionen der kognitiven Dissonanz Theorie gegenüber der Coping-Theorie und trägt zu einem besseren Verständnis dafür bei, wie sich Eskalationstendenzen während sequenzieller Entscheidungsfindung aufgrund kognitiver Lerneffekte verändern. Mit Hilfe psychophysiologischer Messungen, einschließlich der Daten-Triangulation zwischen elektrodermaler und kardiovaskulärer Aktivität sowie künstliche Intelligenz-basierter Analyse von Gesichtsmikroexpressionen, enthüllt diese Forschung physiologische Marker für eskalierendes Commitment. Ergänzend zu dem Experiment zeigt eine qualitative Analyse text-basierter Reflexionen während der Eskalationssituationen, dass Entscheidungsträger verschiedene kognitive Begründungsmuster verwenden, um eskalierende Verhaltensweisen zu rechtfertigen, die auf eine Sequenz von vier unterschiedlichen kognitiven Phasen schließen lassen. Durch die Integration von qualitativen und quantitativen Erkenntnissen entwickelt diese Dissertation ein umfassendes theoretisches Model dafür, wie Kognition und Emotion eskalierendes Commitment über die Zeit beeinflussen. Ich schlage vor, dass eskalierendes Commitment eine zyklische Anpassung von Denkmodellen ist, die sich durch Veränderungen in kognitiven Begründungsmustern, Variationen im zeitlichen Kognitionsmodus und Interaktionen mit situativen Emotionen und deren Erwartung auszeichnet. Der Hauptbeitrag dieser Arbeit liegt in der Entflechtung der emotionalen und kognitiven Mechanismen, die eskalierendes Commitment im Kontext von IS-Projekten antreiben. Die Erkenntnisse tragen dazu bei, die Qualität von Entscheidungen unter Unsicherheit zu verbessern und liefern die Grundlage für die Entwicklung von Deeskalationsstrategien. Beteiligte an „in Schieflage geratenden“ IS-Projekten sollten sich der Tendenz auf fehlgeschlagenen Aktionen zu beharren und der Bedeutung der zugrundeliegenden emotionalen und kognitiven Dynamiken bewusst sein. KW - information systems projects KW - escalation of commitment KW - emotional cognitive dynamics KW - emotional kognitive Dynamiken KW - eskalierendes Commitment KW - Wirtschaftsinformatik Projekte Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-626969 ER - TY - THES A1 - Halfpap, Stefan T1 - Integer linear programming-based heuristics for partially replicated database clusters and selecting indexes T1 - Auf ganzzahliger linearer Optimierung basierende Heuristiken für partiell-replizierte Datenbankcluster und das Auswählen von Indizes N2 - Column-oriented database systems can efficiently process transactional and analytical queries on a single node. However, increasing or peak analytical loads can quickly saturate single-node database systems. Then, a common scale-out option is using a database cluster with a single primary node for transaction processing and read-only replicas. Using (the naive) full replication, queries are distributed among nodes independently of the accessed data. This approach is relatively expensive because all nodes must store all data and apply all data modifications caused by inserts, deletes, or updates. In contrast to full replication, partial replication is a more cost-efficient implementation: Instead of duplicating all data to all replica nodes, partial replicas store only a subset of the data while being able to process a large workload share. Besides lower storage costs, partial replicas enable (i) better scaling because replicas must potentially synchronize only subsets of the data modifications and thus have more capacity for read-only queries and (ii) better elasticity because replicas have to load less data and can be set up faster. However, splitting the overall workload evenly among the replica nodes while optimizing the data allocation is a challenging assignment problem. The calculation of optimized data allocations in a partially replicated database cluster can be modeled using integer linear programming (ILP). ILP is a common approach for solving assignment problems, also in the context of database systems. Because ILP is not scalable, existing approaches (also for calculating partial allocations) often fall back to simple (e.g., greedy) heuristics for larger problem instances. Simple heuristics may work well but can lose optimization potential. In this thesis, we present optimal and ILP-based heuristic programming models for calculating data fragment allocations for partially replicated database clusters. Using ILP, we are flexible to extend our models to (i) consider data modifications and reallocations and (ii) increase the robustness of allocations to compensate for node failures and workload uncertainty. We evaluate our approaches for TPC-H, TPC-DS, and a real-world accounting workload and compare the results to state-of-the-art allocation approaches. Our evaluations show significant improvements for varied allocation’s properties: Compared to existing approaches, we can, for example, (i) almost halve the amount of allocated data, (ii) improve the throughput in case of node failures and workload uncertainty while using even less memory, (iii) halve the costs of data modifications, and (iv) reallocate less than 90% of data when adding a node to the cluster. Importantly, we can calculate the corresponding ILP-based heuristic solutions within a few seconds. Finally, we demonstrate that the ideas of our ILP-based heuristics are also applicable to the index selection problem. N2 - Spaltenorientierte Datenbanksysteme können transaktionale und analytische Abfragen effizient auf einem einzigen Rechenknoten verarbeiten. Steigende Lasten oder Lastspitzen können Datenbanksysteme mit nur einem Rechenknoten jedoch schnell überlasten. Dann besteht eine gängige Skalierungsmöglichkeit darin, einen Datenbankcluster mit einem einzigen Rechenknoten für die Transaktionsverarbeitung und Replikatknoten für lesende Datenbankanfragen zu verwenden. Bei der (naiven) vollständigen Replikation werden Anfragen unabhängig von den Daten, auf die zugegriffen wird, auf die Knoten verteilt. Dieser Ansatz ist relativ teuer, da alle Knoten alle Daten speichern und alle Datenänderungen anwenden müssen, die durch das Einfügen, Löschen oder Aktualisieren von Datenbankeinträgen verursacht werden. Im Gegensatz zur vollständigen Replikation ist die partielle Replikation eine kostengünstige Alternative: Anstatt alle Daten auf alle Replikationsknoten zu duplizieren, speichern partielle Replikate nur eine Teilmenge der Daten und können gleichzeitig einen großen Anteil der Anfragelast verarbeiten. Neben niedrigeren Speicherkosten ermöglichen partielle Replikate (i) eine bessere Skalierung, da Replikate potenziell nur Teilmengen der Datenänderungen synchronisieren müssen und somit mehr Kapazität für lesende Anfragen haben, und (ii) eine bessere Elastizität, da Replikate weniger Daten laden müssen und daher schneller eingesetzt werden können. Die gleichmäßige Lastbalancierung auf die Replikatknoten bei gleichzeitiger Optimierung der Datenzuweisung ist jedoch ein schwieriges Zuordnungsproblem. Die Berechnung einer optimierten Datenverteilung in einem Datenbankcluster mit partiellen Replikaten kann mithilfe der ganzzahligen linearen Optimierung (engl. integer linear programming, ILP) durchgeführt werden. ILP ist ein gängiger Ansatz zur Lösung von Zuordnungsproblemen, auch im Kontext von Datenbanksystemen. Da ILP nicht skalierbar ist, greifen bestehende Ansätze (auch zur Berechnung von partiellen Replikationen) für größere Probleminstanzen oft auf einfache Heuristiken (z.B. Greedy-Algorithmen) zurück. Einfache Heuristiken können gut funktionieren, aber auch Optimierungspotenzial einbüßen. In dieser Arbeit stellen wir optimale und ILP-basierte heuristische Ansätze zur Berechnung von Datenzuweisungen für partiell-replizierte Datenbankcluster vor. Mithilfe von ILP können wir unsere Ansätze flexibel erweitern, um (i) Datenänderungen und -umverteilungen zu berücksichtigen und (ii) die Robustheit von Zuweisungen zu erhöhen, um Knotenausfälle und Unsicherheiten bezüglich der Anfragelast zu kompensieren. Wir evaluieren unsere Ansätze für TPC-H, TPC-DS und eine reale Buchhaltungsanfragelast und vergleichen die Ergebnisse mit herkömmlichen Verteilungsansätzen. Unsere Auswertungen zeigen signifikante Verbesserungen für verschiedene Eigenschaften der berechneten Datenzuordnungen: Im Vergleich zu bestehenden Ansätzen können wir beispielsweise (i) die Menge der gespeicherten Daten in Cluster fast halbieren, (ii) den Anfragedurchsatz bei Knotenausfällen und unsicherer Anfragelast verbessern und benötigen dafür auch noch weniger Speicher, (iii) die Kosten von Datenänderungen halbieren, und (iv) weniger als 90 % der Daten umverteilen, wenn ein Rechenknoten zum Cluster hinzugefügt wird. Wichtig ist, dass wir die entsprechenden ILP-basierten heuristischen Lösungen innerhalb weniger Sekunden berechnen können. Schließlich demonstrieren wir, dass die Ideen von unseren ILP-basierten Heuristiken auch auf das Indexauswahlproblem anwendbar sind. KW - database systems KW - integer linear programming KW - partial replication KW - index selection KW - load balancing KW - Datenbanksysteme KW - Indexauswahl KW - ganzzahlige lineare Optimierung KW - Lastverteilung KW - partielle Replikation Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-633615 ER - TY - THES A1 - Katzmann, Maximilian T1 - About the analysis of algorithms on networks with underlying hyperbolic geometry T1 - Über die Analyse von Algorithmen auf Netzwerken mit zugrundeliegender hyperbolischer Geometrie N2 - Many complex systems that we encounter in the world can be formalized using networks. Consequently, they have been in the focus of computer science for decades, where algorithms are developed to understand and utilize these systems. Surprisingly, our theoretical understanding of these algorithms and their behavior in practice often diverge significantly. In fact, they tend to perform much better on real-world networks than one would expect when considering the theoretical worst-case bounds. One way of capturing this discrepancy is the average-case analysis, where the idea is to acknowledge the differences between practical and worst-case instances by focusing on networks whose properties match those of real graphs. Recent observations indicate that good representations of real-world networks are obtained by assuming that a network has an underlying hyperbolic geometry. In this thesis, we demonstrate that the connection between networks and hyperbolic space can be utilized as a powerful tool for average-case analysis. To this end, we first introduce strongly hyperbolic unit disk graphs and identify the famous hyperbolic random graph model as a special case of them. We then consider four problems where recent empirical results highlight a gap between theory and practice and use hyperbolic graph models to explain these phenomena theoretically. First, we develop a routing scheme, used to forward information in a network, and analyze its efficiency on strongly hyperbolic unit disk graphs. For the special case of hyperbolic random graphs, our algorithm beats existing performance lower bounds. Afterwards, we use the hyperbolic random graph model to theoretically explain empirical observations about the performance of the bidirectional breadth-first search. Finally, we develop algorithms for computing optimal and nearly optimal vertex covers (problems known to be NP-hard) and show that, on hyperbolic random graphs, they run in polynomial and quasi-linear time, respectively. Our theoretical analyses reveal interesting properties of hyperbolic random graphs and our empirical studies present evidence that these properties, as well as our algorithmic improvements translate back into practice. N2 - Viele komplexe Systeme mit denen wir tagtäglich zu tun haben, können mit Hilfe von Netzwerken beschrieben werden, welche daher schon jahrzehntelang im Fokus der Informatik stehen. Dort werden Algorithmen entwickelt, um diese Systeme besser verstehen und nutzen zu können. Überraschenderweise unterscheidet sich unsere theoretische Vorstellung dieser Algorithmen jedoch oft immens von derem praktischen Verhalten. Tatsächlich neigen sie dazu auf echten Netzwerken viel effizienter zu sein, als man im schlimmsten Fall erwarten würde. Eine Möglichkeit diese Diskrepanz zu erfassen ist die Average-Case Analyse bei der man die Unterschiede zwischen echten Instanzen und dem schlimmsten Fall ausnutzt, indem ausschließlich Netzwerke betrachtet werden, deren Eigenschaften die von echten Graphen gut abbilden. Jüngste Beobachtungen zeigen, dass gute Abbildungen entstehen, wenn man annimmt, dass einem Netzwerk eine hyperbolische Geometrie zugrunde liegt. In dieser Arbeit wird demonstriert, dass hyperbolische Netzwerke als mächtiges Werkzeug der Average-Case Analyse dienen können. Dazu werden stark-hyperbolische Unit-Disk-Graphen eingeführt und die bekannten hyperbolischen Zufallsgraphen als ein Sonderfall dieser identifiziert. Anschließend werden auf diesen Modellen vier Probleme analysiert, um Resultate vorangegangener Experimente theoretisch zu erklären, die eine Diskrepanz zwischen Theorie und Praxis aufzeigten. Zuerst wird ein Routing Schema zum Transport von Nachrichten entwickelt und dessen Effizienz auf stark-hyperbolischen Unit-Disk-Graphen untersucht. Allgemeingültige Effizienzschranken können so auf hyperbolischen Zufallsgraphen unterboten werden. Anschließend wird das hyperbolische Zufallsgraphenmodell verwendet, um praktische Beobachtungen der bidirektionalen Breitensuche theoretisch zu erklären und es werden Algorithmen entwickelt, um optimale und nahezu optimale Knotenüberdeckungen zu berechnen (NP-schwer), deren Laufzeit auf diesen Graphen jeweils polynomiell und quasi-linear ist. In den Analysen werden neue Eigenschaften von hyperbolischen Zufallsgraphen aufgedeckt und empirisch gezeigt, dass sich diese sowie die algorithmischen Verbesserungen auch auf echten Netzwerken nachweisen lassen. KW - graph theory KW - hyperbolic geometry KW - average-case analysis KW - Average-Case Analyse KW - Graphentheorie KW - hyperbolische Geometrie Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-582965 ER - TY - THES A1 - Roumen, Thijs T1 - Portable models for laser cutting N2 - Laser cutting is a fast and precise fabrication process. This makes laser cutting a powerful process in custom industrial production. Since the patents on the original technology started to expire, a growing community of tech-enthusiasts embraced the technology and started sharing the models they fabricate online. Surprisingly, the shared models appear to largely be one-offs (e.g., they proudly showcase what a single person can make in one afternoon). For laser cutting to become a relevant mainstream phenomenon (as opposed to the current tech enthusiasts and industry users), it is crucial to enable users to reproduce models made by more experienced modelers, and to build on the work of others instead of creating one-offs. We create a technological basis that allows users to build on the work of others—a progression that is currently held back by the use of exchange formats that disregard mechanical differences between machines and therefore overlook implications with respect to how well parts fit together mechanically (aka engineering fit). For the field to progress, we need a machine-independent sharing infrastructure. In this thesis, we outline three approaches that together get us closer to this: (1) 2D cutting plans that are tolerant to machine variations. Our initial take is a minimally invasive approach: replacing machine-specific elements in cutting plans with more tolerant elements using mechanical hacks like springs and wedges. The resulting models fabricate on any consumer laser cutter and in a range of materials. (2) sharing models in 3D. To allow building on the work of others, we build a 3D modeling environment for laser cutting (kyub). After users design a model, they export their 3D models to 2D cutting plans optimized for the machine and material at hand. We extend this volumetric environment with tools to edit individual plates, allowing users to leverage the efficiency of volumetric editing while having control over the most detailed elements in laser-cutting (plates) (3) converting legacy 2D cutting plans to 3D models. To handle legacy models, we build software to interactively reconstruct 3D models from 2D cutting plans. This allows users to reuse the models in more productive ways. We revisit this by automating the assembly process for a large subset of models. The above-mentioned software composes a larger system (kyub, 140,000 lines of code). This system integration enables the push towards actual use, which we demonstrate through a range of workshops where users build complex models such as fully functional guitars. By simplifying sharing and re-use and the resulting increase in model complexity, this line of work forms a small step to enable personal fabrication to scale past the maker phenomenon, towards a mainstream phenomenon—the same way that other fields, such as print (postscript) and ultimately computing itself (portable programming languages, etc.) reached mass adoption. N2 - Laserschneiden ist ein schnelles und präzises Fertigungsverfahren. Diese Eigenschaften haben das Laserschneiden zu einem starken Anwärter für die industrielle Produktion gemacht. Seitdem die Patente für die ursprüngliche Technologie begannen abzulaufen, nahm eine wachsende Gemeinschaft von Technikbegeisterten die Technologie an und begann, ihre Modelle online zu teilen. Überraschenderweise scheinen die gemeinsam genutzten Modelle größtenteils Einzelstücke zu sein (z.B. zeigten sie stolz, was eine einzelne Person an einem Nachmittag entwickeln kann). Damit das Laserschneiden zu einem relevanten Mainstream-Phänomen wird, ist es entscheidend, dass die Benutzer die Möglichkeit haben Modelle zu reproduzieren, die von erfahrenen Modellierern erstellt wurden, und somit auf der Arbeit anderer aufbauen zu können, anstatt Einzelstücke zu erstellen. Wir schaffen eine technologische Basis, die es Benutzern ermöglicht, auf der Arbeit anderer aufzubauen—eine Entwicklung, die derzeit gehemmt wird durch die Verwendung von Austauschformaten, die mechanische Unterschiede zwischen Maschinen außer Acht lassen und daher Auswirkungen darauf übersehen, wie gut Teile mechanisch zusammenpassen (aka Passung). Damit sich das Feld sich weiterentwickeln kann, brauchen wir eine maschinenunabhängige Infrastruktur für gemeinsame Nutzung. In dieser Dissertation präsentieren wir drei Ansätze, die uns zu diesem Ziel näherbringen: (1) 2D-Schnittpläne, die gegenüber Maschinenvariationen tolerant sind. Unser erster Ansatz ist ein minimalinvasiver Ansatz: Wir ersetzen maschinenspezifische Elemente in Schnittplänen durch tolerantere Elemente unter Verwendung mechanischer Hacks wie Federn und Keile. Die resultierenden Modelle können auf jedem handelsüblichen Laserschneider und in einer Reihe von Materialien hergestellt werden. (2) Teilen von Modellen in 3D. Um auf der Arbeit anderer aufbauen zu können, erstellen wir eine 3D-Modellierungsumgebung für das Laserschneiden (kyub). Nachdem die Benutzer ein Modell entworfen haben, exportieren sie ihre 3D-Modelle in 2D-Schnittpläne, die für die jeweilige Maschine und das vorhandene Material optimiert sind. Wir erweitern diese volumetrische Umgebung mit Werkzeugen zum Bearbeiten einzelner Platten, sodass Benutzer die Effizienz der volumetrischen Bearbeitung nutzen und gleichzeitig die detailliertesten Elemente beim Laserschneiden (Platten) steuern können. (3) Umwandlung von legacy 2D-Schnittplänen in 3D-Modelle. Um mit legacy Modellen umzugehen, entwickeln wir Software, um 3DModelle interaktiv aus 2D-Schnittplänen zu rekonstruieren. Dies ermöglicht Benutzern, die Modelle auf produktivere Weise wiederzuverwenden. Wir behandeln dies erneut, indem wir den Rekonstruierungsprozess für eine große Teilmenge von Modellen automatisieren. Die oben genannte Software ist in ein größeres System integriert (kyub, 140.000 Codezeilen). Diese Systemintegration ermöglicht es, den tatsächlichen Gebrauch voranzutreiben, was wir in einer Reihe von Workshops demonstrieren, in denen Benutzer komplexe Modelle wie voll funktionsfähige Gitarren bauen. Durch die Vereinfachung der gemeinsamen Nutzung und Wiederverwendung und die daraus resultierende Zunahme der Modellkomplexität wird diese Arbeitsrichtung und das daraus resultierende System letztendlich (teilweise) dazu beitragen, dass die persönliche Fertigung über das Maker-Phänomen hinausgeht und sich zu einem Mainstream-Phänomen entwickelt – genauso wie andere Bereiche, z.B. als Druck (Postscript) und schließlich selbst Computer (portable Programmiersprachen usw.), um eine Massenakzeptanz zu erreichen. KW - human computer interaction KW - digital fabrication KW - laser cutting KW - IT systems engineering KW - IT Softwarentwicklung KW - digitale Fabrikation KW - Mensch-Maschine Interaktion KW - Laserschneiden Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-578141 ER - TY - THES A1 - Bano, Dorina T1 - Discovering data models from event logs T1 - Entdecken von Datenmodellen aus Ereignisprotokollen N2 - In the last two decades, process mining has developed from a niche discipline to a significant research area with considerable impact on academia and industry. Process mining enables organisations to identify the running business processes from historical execution data. The first requirement of any process mining technique is an event log, an artifact that represents concrete business process executions in the form of sequence of events. These logs can be extracted from the organization's information systems and are used by process experts to retrieve deep insights from the organization's running processes. Considering the events pertaining to such logs, the process models can be automatically discovered and enhanced or annotated with performance-related information. Besides behavioral information, event logs contain domain specific data, albeit implicitly. However, such data are usually overlooked and, thus, not utilized to their full potential. Within the process mining area, we address in this thesis the research gap of discovering, from event logs, the contextual information that cannot be captured by applying existing process mining techniques. Within this research gap, we identify four key problems and tackle them by looking at an event log from different angles. First, we address the problem of deriving an event log in the absence of a proper database access and domain knowledge. The second problem is related to the under-utilization of the implicit domain knowledge present in an event log that can increase the understandability of the discovered process model. Next, there is a lack of a holistic representation of the historical data manipulation at the process model level of abstraction. Last but not least, each process model presumes to be independent of other process models when discovered from an event log, thus, ignoring possible data dependencies between processes within an organization. For each of the problems mentioned above, this thesis proposes a dedicated method. The first method provides a solution to extract an event log only from the transactions performed on the database that are stored in the form of redo logs. The second method deals with discovering the underlying data model that is implicitly embedded in the event log, thus, complementing the discovered process model with important domain knowledge information. The third method captures, on the process model level, how the data affects the running process instances. Lastly, the fourth method is about the discovery of the relations between business processes (i.e., how they exchange data) from a set of event logs and explicitly representing such complex interdependencies in a business process architecture. All the methods introduced in this thesis are implemented as a prototype and their feasibility is proven by being applied on real-life event logs. N2 - In den letzten zwei Jahrzehnten hat sich Process Mining von einer Nischendisziplin zu einem bedeutenden Forschungsgebiet mit erheblichen Auswirkungen auf Wissenschaft und Industrie entwickelt. Process Mining ermöglicht es Unternehmen, die laufenden Geschäftsprozesse anhand historischer Ausführungsdaten zu identifizieren. Die erste Voraussetzung für jede Process-Mining-Technik ist ein Ereignisprotokoll (Event Log), ein Artefakt, das konkrete Geschäftsprozessausführungen in Form einer Abfolge von Ereignissen darstellt. Diese Protokolle (Logs) können aus den Informationssystemen der Unternehmen extrahiert werden und ermöglichen es Prozessexperten, tiefe Einblicke in die laufenden Unternehmensprozesse zu gewinnen. Unter Berücksichtigung der Abfolge der Ereignisse in diesen Protokollen (Logs) können Prozessmodelle automatisch entdeckt und mit leistungsbezogenen Informationen erweitert werden. Neben verhaltensbezogenen Informationen enthalten Ereignisprotokolle (Event Logs) auch domänenspezifische Daten, wenn auch nur implizit. Solche Daten werden jedoch in der Regel nicht in vollem Umfang genutzt. Diese Arbeit befasst sich im Bereich Process Mining mit der Forschungslücke der Extraktion von Kontextinformationen aus Ereignisprotokollen (Event Logs), die von bestehenden Process Mining-Techniken nicht erfasst werden. Innerhalb dieser Forschungslücke identifizieren wir vier Schlüsselprobleme, bei denen wir die Ereignisprotokolle (Event Logs) aus verschiedenen Perspektiven betrachten. Zunächst befassen wir uns mit dem Problem der Erfassung eines Ereignisprotokolls (Event Logs) ohne hinreichenden Datenbankzugang. Das zweite Problem ist die unzureichende Nutzung des in Ereignisprotokollen (Event Logs) enthaltenen Domänenwissens, das zum besseren Verständnis der generierten Prozessmodelle beitragen kann. Außerdem mangelt es an einer ganzheitlichen Darstellung der historischen Datenmanipulation auf Prozessmodellebene. Nicht zuletzt werden Prozessmodelle häufig unabhängig von anderen Prozessmodellen betrachtet, wenn sie aus Ereignisprotokollen (Event Logs) ermittelt wurden. Dadurch können mögliche Datenabhängigkeiten zwischen Prozessen innerhalb einer Organisation übersehen werden. Für jedes der oben genannten Probleme schlägt diese Arbeit eine eigene Methode vor. Die erste Methode ermöglicht es, ein Ereignisprotokoll (Event Log) ausschließlich anhand der Historie der auf einer Datenbank durchgeführten Transaktionen zu extrahieren, die in Form von Redo-Logs gespeichert ist. Die zweite Methode befasst sich mit der Entdeckung des zugrundeliegenden Datenmodells, das implizit in dem jeweiligen Ereignisprotokoll (Event Log) eingebettet ist, und ergänzt so mit das entdeckte Prozessmodell mit wichtigen, domänenspezifischen Informationen. Bei der dritten Methode wird auf der Ebene des Prozess- modells erfasst, wie sich die Daten auf die laufenden Prozessinstanzen auswirken. Die vierte Methode befasst sich schließlich mit der Entdeckung der Beziehungen zwischen Geschäftsprozessen (d.h. deren Datenaustausch) auf Basis der jeweiligen Ereignisprotokolle (Event Logs), sowie mit der expliziten Darstellung solcher komplexen Abhängigkeiten in einer Geschäftsprozessarchitektur. Alle in dieser Arbeit vorgestellten Methoden sind als Prototyp implementiert und ihre Anwendbarkeit wird anhand ihrer Anwendung auf reale Ereignisprotokolle (Event Logs) nachgewiesen. KW - process mining KW - data models KW - business process architectures KW - Datenmodelle KW - Geschäftsprozessarchitekturen Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-585427 ER - TY - THES A1 - Sakizloglou, Lucas T1 - Evaluating temporal queries over history-aware architectural runtime models T1 - Ausführung temporaler Anfragen über geschichtsbewusste Architektur-Laufzeitmodelle N2 - In model-driven engineering, the adaptation of large software systems with dynamic structure is enabled by architectural runtime models. Such a model represents an abstract state of the system as a graph of interacting components. Every relevant change in the system is mirrored in the model and triggers an evaluation of model queries, which search the model for structural patterns that should be adapted. This thesis focuses on a type of runtime models where the expressiveness of the model and model queries is extended to capture past changes and their timing. These history-aware models and temporal queries enable more informed decision-making during adaptation, as they support the formulation of requirements on the evolution of the pattern that should be adapted. However, evaluating temporal queries during adaptation poses significant challenges. First, it implies the capability to specify and evaluate requirements on the structure, as well as the ordering and timing in which structural changes occur. Then, query answers have to reflect that the history-aware model represents the architecture of a system whose execution may be ongoing, and thus answers may depend on future changes. Finally, query evaluation needs to be adequately fast and memory-efficient despite the increasing size of the history---especially for models that are altered by numerous, rapid changes. The thesis presents a query language and a querying approach for the specification and evaluation of temporal queries. These contributions aim to cope with the challenges of evaluating temporal queries at runtime, a prerequisite for history-aware architectural monitoring and adaptation which has not been systematically treated by prior model-based solutions. The distinguishing features of our contributions are: the specification of queries based on a temporal logic which encodes structural patterns as graphs; the provision of formally precise query answers which account for timing constraints and ongoing executions; the incremental evaluation which avoids the re-computation of query answers after each change; and the option to discard history that is no longer relevant to queries. The query evaluation searches the model for occurrences of a pattern whose evolution satisfies a temporal logic formula. Therefore, besides model-driven engineering, another related research community is runtime verification. The approach differs from prior logic-based runtime verification solutions by supporting the representation and querying of structure via graphs and graph queries, respectively, which is more efficient for queries with complex patterns. We present a prototypical implementation of the approach and measure its speed and memory consumption in monitoring and adaptation scenarios from two application domains, with executions of an increasing size. We assess scalability by a comparison to the state-of-the-art from both related research communities. The implementation yields promising results, which pave the way for sophisticated history-aware self-adaptation solutions and indicate that the approach constitutes a highly effective technique for runtime monitoring on an architectural level. N2 - In der modellgetriebenen Entwicklung wird die Adaptation großer Softwaresysteme mit dynamischer Struktur durch Architektur-Laufzeitmodelle ermöglicht. Ein solches Modell stellt einen abstrakten Zustand des Systems als einen Graphen von interagierenden Komponenten dar. Jede relevante Änderung im System spiegelt sich im Modell wider und löst eine Ausführung von Modellanfragen aus, die das Modell nach zu adaptierenden Strukturmustern durchsuchen. Diese Arbeit konzentriert sich auf eine Art von Laufzeitmodellen, bei denen die Ausdruckskraft des Modells und der Modellanfragen erweitert wird, um vergangene Änderungen und deren Zeitpunkt zu erfassen. Diese geschichtsbewussten Modelle und temporalen Anfragen ermöglichen eine fundiertere Entscheidungsfindung während der Adaptation, da sie die Formulierung von Anforderungen an die Entwicklung des Musters, das adaptiert werden soll, unterstützen. Die Ausführung von temporalen Anfragen während der Adaptation stellt jedoch eine große Herausforderung dar. Zunächst müssen Anforderungen an die Struktur sowie an die Reihenfolge und den Zeitpunkt von Strukturänderungen spezifiziert und evaluiert werden. Weiterhin müssen die Antworten auf die Anfragen berücksichtigen, dass das geschichtsbewusste Modell die Architektur eines Systems darstellt, dessen Ausführung fortlaufend sein kann, sodass die Antworten von zukünftigen Änderungen abhängen können. Schließlich muss die Anfrageausführung trotz der zunehmenden Größe der Historie hinreichend schnell und speichereffizient sein---insbesondere bei Modellen, die durch zahlreiche, schnelle Änderungen verändert werden. In dieser Arbeit werden eine Sprache für die Spezifikation von temporalen Anfragen sowie eine Technik für deren Ausführung vorgestellt. Diese Beiträge zielen darauf ab, die Herausforderungen bei der Ausführung temporaler Anfragen zur Laufzeit zu bewältigen---eine Voraussetzung für ein geschichtsbewusstes Architekturmonitoring und geschichtsbewusste Architekturadaptation, die von früheren modellbasierten Lösungen nicht systematisch behandelt wurde. Die besonderen Merkmale unserer Beiträge sind: die Spezifikation von Anfragen auf der Basis einer temporalen Logik, die strukturelle Muster als Graphen kodiert; die Bereitstellung formal präziser Anfrageantworten, die temporale Einschränkungen und laufende Ausführungen berücksichtigen; die inkrementelle Ausführung, die die Neuberechnung von Abfrageantworten nach jeder Änderung vermeidet; und die Option, Historie zu verwerfen, die für Abfragen nicht mehr relevant ist. Bei der Anfrageausführung wird das Modell nach dem Auftreten eines Musters durchsucht, dessen Entwicklung eine temporallogische Formel erfüllt. Neben der modellgetriebenen Entwicklung ist daher die Laufzeitverifikation ein weiteres verwandtes Forschungsgebiet. Der Ansatz unterscheidet sich von bisherigen logikbasierten Lösungen zur Laufzeitverifikation, indem er die Darstellung und Abfrage von Strukturen über Graphen bzw. Graphanfragen unterstützt, was bei Anfragen mit komplexen Mustern effizienter ist. Wir stellen eine prototypische Implementierung des Ansatzes vor und messen seine Laufzeit und seinen Speicherverbrauch in Monitoring- und Adaptationsszenarien aus zwei Anwendungsdomänen mit Ausführungen von zunehmender Größe. Wir bewerten die Skalierbarkeit durch einen Vergleich mit dem Stand der Technik aus beiden verwandten Forschungsgebieten. Die Implementierung liefert vielversprechende Ergebnisse, die den Weg für anspruchsvolle geschichtsbewusste Selbstadaptationslösungen ebnen und darauf hindeuten, dass der Ansatz eine effektive Technik für das Laufzeitmonitoring auf Architekturebene darstellt. KW - architectural adaptation KW - history-aware runtime models KW - incremental graph query evaluation KW - model-driven software engineering KW - temporal graph queries KW - Architekturadaptation KW - geschichtsbewusste Laufzeit-Modelle KW - inkrementelle Ausführung von Graphanfragen KW - modellgetriebene Softwaretechnik KW - temporale Graphanfragen Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-604396 ER - TY - THES A1 - Afifi, Haitham T1 - Wireless In-Network Processing for Multimedia Applications T1 - Drahtlose In-Network-Verarbeitung für Multimedia-Anwendungen N2 - With the recent growth of sensors, cloud computing handles the data processing of many applications. Processing some of this data on the cloud raises, however, many concerns regarding, e.g., privacy, latency, or single points of failure. Alternatively, thanks to the development of embedded systems, smart wireless devices can share their computation capacity, creating a local wireless cloud for in-network processing. In this context, the processing of an application is divided into smaller jobs so that a device can run one or more jobs. The contribution of this thesis to this scenario is divided into three parts. In part one, I focus on wireless aspects, such as power control and interference management, for deciding which jobs to run on which node and how to route data between nodes. Hence, I formulate optimization problems and develop heuristic and meta-heuristic algorithms to allocate wireless and computation resources. Additionally, to deal with multiple applications competing for these resources, I develop a reinforcement learning (RL) admission controller to decide which application should be admitted. Next, I look into acoustic applications to improve wireless throughput by using microphone clock synchronization to synchronize wireless transmissions. In the second part, I jointly work with colleagues from the acoustic processing field to optimize both network and application (i.e., acoustic) qualities. My contribution focuses on the network part, where I study the relation between acoustic and network qualities when selecting a subset of microphones for collecting audio data or selecting a subset of optional jobs for processing these data; too many microphones or too many jobs can lessen quality by unnecessary delays. Hence, I develop RL solutions to select the subset of microphones under network constraints when the speaker is moving while still providing good acoustic quality. Furthermore, I show that autonomous vehicles carrying microphones improve the acoustic qualities of different applications. Accordingly, I develop RL solutions (single and multi-agent ones) for controlling these vehicles. In the third part, I close the gap between theory and practice. I describe the features of my open-source framework used as a proof of concept for wireless in-network processing. Next, I demonstrate how to run some algorithms developed by colleagues from acoustic processing using my framework. I also use the framework for studying in-network delays (wireless and processing) using different distributions of jobs and network topologies. N2 - Mit der steigenden Anzahl von Sensoren übernimmt Cloud Computing die Datenverarbeitung vieler Anwendungen. Dies wirft jedoch viele Bedenken auf, z. B. in Bezug auf Datenschutz, Latenzen oder Fehlerquellen. Alternativ und dank der Entwicklung eingebetteter Systeme können drahtlose intelligente Geräte für die lokale Verarbeitung verwendet werden, indem sie ihre Rechenkapazität gemeinsam nutzen und so eine lokale drahtlose Cloud für die netzinterne Verarbeitung schaffen. In diesem Zusammenhang wird eine Anwendung in kleinere Aufgaben unterteilt, so dass ein Gerät eine oder mehrere Aufgaben ausführen kann. Der Beitrag dieser Arbeit zu diesem Szenario gliedert sich in drei Teile. Im ersten Teil konzentriere ich mich auf drahtlose Aspekte wie Leistungssteuerung und Interferenzmanagement um zu entscheiden, welche Aufgaben auf welchem Knoten ausgeführt werden sollen und wie die Daten zwischen den Knoten weitergeleitet werden sollen. Daher formuliere ich Optimierungsprobleme und entwickle heuristische und metaheuristische Algorithmen zur Zuweisung von Ressourcen eines drahtlosen Netzwerks. Um mit mehreren Anwendungen, die um diese Ressourcen konkurrieren, umgehen zu können, entwickle ich außerdem einen Reinforcement Learning (RL) Admission Controller, um zu entscheiden, welche Anwendung zugelassen werden soll. Als Nächstes untersuche ich akustische Anwendungen zur Verbesserung des drahtlosen Durchsatzes, indem ich Mikrofon-Taktsynchronisation zur Synchronisierung drahtloser Übertragungen verwende. Im zweiten Teil arbeite ich mit Kollegen aus dem Bereich der Akustikverarbeitung zusammen, um sowohl die Netzwerk- als auch die Anwendungsqualitäten (d.h. die akustischen) zu optimieren. Mein Beitrag konzentriert sich auf den Netzwerkteil, wo ich die Beziehung zwischen akustischen und Netzwerkqualitäten bei der Auswahl einer Teilmenge von Mikrofonen für die Erfassung von Audiodaten oder der Auswahl einer Teilmenge von optionalen Aufgaben für die Verarbeitung dieser Daten untersuche; zu viele Mikrofone oder zu viele Aufgaben können die Qualität durch unnötige Verzögerungen verringern. Daher habe ich RL-Lösungen entwickelt, um die Teilmenge der Mikrofone unter Netzwerkbeschränkungen auszuwählen, wenn sich der Sprecher bewegt, und dennoch eine gute akustische Qualität gewährleistet. Außerdem zeige ich, dass autonome Fahrzeuge, die Mikrofone mit sich führen, die akustische Qualität verschiedener Anwendungen verbessern. Dementsprechend entwickle ich RL-Lösungen (Einzel- und Multi-Agenten-Lösungen) für die Steuerung dieser Fahrzeuge. Im dritten Teil schließe ich die Lücke zwischen Theorie und Praxis. Ich beschreibe die Eigenschaften meines Open-Source-Frameworks, das als Prototyp für die drahtlose netzinterne Verarbeitung verwendet wird. Anschließend zeige ich, wie einige Algorithmen, die von Kollegen aus der Akustikverarbeitung entwickelt wurden, mit meinem Framework ausgeführt werden können. Außerdem verwende ich das Framework für die Untersuchung von netzinternen Verzögerungen unter Verwendung verschiedener Aufgabenverteilungen und Netzwerktopologien. KW - wireless networks KW - reinforcement learning KW - network optimization KW - Netzoptimierung KW - bestärkendes Lernen KW - drahtloses Netzwerk Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-604371 ER - TY - THES A1 - Lindinger, Jakob T1 - Variational inference for composite Gaussian process models T1 - Variationelle Inferenz für zusammengesetzte Gauß-Prozess Modelle N2 - Most machine learning methods provide only point estimates when being queried to predict on new data. This is problematic when the data is corrupted by noise, e.g. from imperfect measurements, or when the queried data point is very different to the data that the machine learning model has been trained with. Probabilistic modelling in machine learning naturally equips predictions with corresponding uncertainty estimates which allows a practitioner to incorporate information about measurement noise into the modelling process and to know when not to trust the predictions. A well-understood, flexible probabilistic framework is provided by Gaussian processes that are ideal as building blocks of probabilistic models. They lend themself naturally to the problem of regression, i.e., being given a set of inputs and corresponding observations and then predicting likely observations for new unseen inputs, and can also be adapted to many more machine learning tasks. However, exactly inferring the optimal parameters of such a Gaussian process model (in a computationally tractable manner) is only possible for regression tasks in small data regimes. Otherwise, approximate inference methods are needed, the most prominent of which is variational inference. In this dissertation we study models that are composed of Gaussian processes embedded in other models in order to make those more flexible and/or probabilistic. The first example are deep Gaussian processes which can be thought of as a small network of Gaussian processes and which can be employed for flexible regression. The second model class that we study are Gaussian process state-space models. These can be used for time-series modelling, i.e., the task of being given a stream of data ordered by time and then predicting future observations. For both model classes the state-of-the-art approaches offer a trade-off between expressive models and computational properties (e.g. speed or convergence properties) and mostly employ variational inference. Our goal is to improve inference in both models by first getting a deep understanding of the existing methods and then, based on this, to design better inference methods. We achieve this by either exploring the existing trade-offs or by providing general improvements applicable to multiple methods. We first provide an extensive background, introducing Gaussian processes and their sparse (approximate and efficient) variants. We continue with a description of the models under consideration in this thesis, deep Gaussian processes and Gaussian process state-space models, including detailed derivations and a theoretical comparison of existing methods. Then we start analysing deep Gaussian processes more closely: Trading off the properties (good optimisation versus expressivity) of state-of-the-art methods in this field, we propose a new variational inference based approach. We then demonstrate experimentally that our new algorithm leads to better calibrated uncertainty estimates than existing methods. Next, we turn our attention to Gaussian process state-space models, where we closely analyse the theoretical properties of existing methods.The understanding gained in this process leads us to propose a new inference scheme for general Gaussian process state-space models that incorporates effects on multiple time scales. This method is more efficient than previous approaches for long timeseries and outperforms its comparison partners on data sets in which effects on multiple time scales (fast and slowly varying dynamics) are present. Finally, we propose a new inference approach for Gaussian process state-space models that trades off the properties of state-of-the-art methods in this field. By combining variational inference with another approximate inference method, the Laplace approximation, we design an efficient algorithm that outperforms its comparison partners since it achieves better calibrated uncertainties. N2 - Bei Vorhersagen auf bisher ungesehenen Datenpunkten liefern die meisten maschinellen Lernmethoden lediglich Punktprognosen. Dies kann problematisch sein, wenn die Daten durch Rauschen verfälscht sind, z. B. durch unvollkommene Messungen, oder wenn der abgefragte Datenpunkt sich stark von den Daten unterscheidet, mit denen das maschinelle Lernmodell trainiert wurde. Mithilfe probabilistischer Modellierung (einem Teilgebiet des maschinellen Lernens) werden die Vorhersagen der Methoden auf natürliche Weise durch Unsicherheiten ergänzt. Dies erlaubt es, Informationen über Messunsicherheiten in den Modellierungsprozess mit einfließen zu lassen, sowie abzuschätzen, bei welchen Vorhersagen dem Modell vertraut werden kann. Grundlage vieler probabilistischer Modelle bilden Gaußprozesse, die gründlich erforscht und äußerst flexibel sind und daher häufig als Bausteine für größere Modelle dienen. Für Regressionsprobleme, was heißt, von einem Datensatz bestehend aus Eingangsgrößen und zugehörigen Messungen auf wahrscheinliche Messwerte für bisher ungesehene Eingangsgrößen zu schließen, sind Gaußprozesse hervorragend geeignet. Zusätzlich können sie an viele weitere Aufgabenstellungen des maschinellen Lernens angepasst werden. Die Bestimmung der optimalen Parameter eines solchen Gaußprozessmodells (in einer annehmbaren Zeit) ist jedoch nur für Regression auf kleinen Datensätzen möglich. In allen anderen Fällen muss auf approximative Inferenzmethoden zurückgegriffen werden, wobei variationelle Inferenz die bekannteste ist. In dieser Dissertation untersuchen wir Modelle, die Gaußprozesse eingebettet in andere Modelle enthalten, um Letztere flexibler und/oder probabilistisch zu machen. Das erste Beispiel hierbei sind tiefe Gaußprozesse, die man sich als kleines Netzwerk von Gaußprozessen vorstellen kann und die für flexible Regression eingesetzt werden können. Die zweite Modellklasse, die wir genauer analysieren ist die der Gaußprozess-Zustandsraummodelle. Diese können zur Zeitreihenmodellierung verwendet werden, das heißt, um zukünftige Datenpunkte auf Basis eines nach der Zeit geordneten Eingangsdatensatzes vorherzusagen. Für beide genannten Modellklassen bieten die modernsten Ansatze einen Kompromiss zwischen expressiven Modellen und wunschenswerten rechentechnischen Eigenschaften (z. B. Geschwindigkeit oder Konvergenzeigenschaften). Desweiteren wird für die meisten Methoden variationelle Inferenz verwendet. Unser Ziel ist es, die Inferenz für beide Modellklassen zu verbessern, indem wir zunächst ein tieferes Verständnis der bestehenden Ansätze erlangen und darauf aufbauend bessere Inferenzverfahren entwickeln. Indem wir die bestehenden Kompromisse der heutigen Methoden genauer untersuchen, oder dadurch, dass wir generelle Verbesserungen anbieten, die sich auf mehrere Modelle anwenden lassen, erreichen wir dieses Ziel. Wir beginnen die Thesis mit einer umfassender Einführung, die den notwendigen technischen Hintergrund zu Gaußprozessen sowie spärlichen (approximativen und effizienten) Gaußprozessen enthält. Anschließend werden die in dieser Thesis behandelten Modellklassen, tiefe Gaußprozesse und Gaußprozess-Zustandsraummodelle, eingeführt, einschließlich detaillierter Herleitungen und eines theoretischen Vergleichs existierender Methoden. Darauf aufbauend untersuchen wir zuerst tiefe Gaußprozesse genauer und entwickeln dann eine neue Inferenzmethode. Diese basiert darauf, die wünschenswerten Eigenschaften (gute Optimierungseigenschaften gegenüber Expressivität) der modernsten Ansätze gegeneinander abzuwägen. Anschließend zeigen wir experimentell, dass unser neuer Algorithmus zu besser kalibrierten Unsicherheitsabschätzungen als bei bestehenden Methoden führt. Als Nächstes wenden wir uns Gaußprozess-Zustandsraummodelle zu, wo wir zuerst die theoretischen Eigenschaften existierender Ansätze genau analysieren. Wir nutzen das dabei gewonnene Verständnis, um ein neues Inferenzverfahren für Gaußprozess-Zustandsraummodelle einzuführen, welches Effekte auf verschiedenen Zeitskalen berücksichtigt. Für lange Zeitreihen ist diese Methode effizienter als bisherige Ansätze. Darüber hinaus übertrifft sie ihre Vergleichspartner auf Datensätzen, bei denen Effekte auf mehreren Zeitskalen (sich schnell und langsam verändernde Signale) auftreten. Zuletzt schlagen wir ein weiteres neues Inferenzverfahren für Gaußprozess-Zustandsraummodelle vor, das die Eigenschaften der aktuellsten Methoden auf diesem Gebiet gegeneinander abwägt. Indem wir variationelle Inferenz mit einem weiteren approximativen Inferenzverfahren, der Laplace- Approximation, kombinieren, entwerfen wir einen effizienten Algorithmus der seine Vergleichspartner dadurch übertrifft, dass er besser kalibrierte Unsicherheitsvorhersagen erzielt. KW - probabilistic machine learning KW - Gaussian processes KW - variational inference KW - deep Gaussian processes KW - Gaussian process state-space models KW - Gauß-Prozess Zustandsraummodelle KW - Gauß-Prozesse KW - tiefe Gauß-Prozesse KW - probabilistisches maschinelles Lernen KW - variationelle Inferenz Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-604441 ER - TY - THES A1 - Perscheid, Cindy T1 - Integrative biomarker detection using prior knowledge on gene expression data sets T1 - Integrative Biomarker-Erkennung auf Genexpressions-Daten mithilfe von biologischem Vorwissen N2 - Gene expression data is analyzed to identify biomarkers, e.g. relevant genes, which serve for diagnostic, predictive, or prognostic use. Traditional approaches for biomarker detection select distinctive features from the data based exclusively on the signals therein, facing multiple shortcomings in regards to overfitting, biomarker robustness, and actual biological relevance. Prior knowledge approaches are expected to address these issues by incorporating prior biological knowledge, e.g. on gene-disease associations, into the actual analysis. However, prior knowledge approaches are currently not widely applied in practice because they are often use-case specific and seldom applicable in a different scope. This leads to a lack of comparability of prior knowledge approaches, which in turn makes it currently impossible to assess their effectiveness in a broader context. Our work addresses the aforementioned issues with three contributions. Our first contribution provides formal definitions for both prior knowledge and the flexible integration thereof into the feature selection process. Central to these concepts is the automatic retrieval of prior knowledge from online knowledge bases, which allows for streamlining the retrieval process and agreeing on a uniform definition for prior knowledge. We subsequently describe novel and generalized prior knowledge approaches that are flexible regarding the used prior knowledge and applicable to varying use case domains. Our second contribution is the benchmarking platform Comprior. Comprior applies the aforementioned concepts in practice and allows for flexibly setting up comprehensive benchmarking studies for examining the performance of existing and novel prior knowledge approaches. It streamlines the retrieval of prior knowledge and allows for combining it with prior knowledge approaches. Comprior demonstrates the practical applicability of our concepts and further fosters the overall development and comparability of prior knowledge approaches. Our third contribution is a comprehensive case study on the effectiveness of prior knowledge approaches. For that, we used Comprior and tested a broad range of both traditional and prior knowledge approaches in combination with multiple knowledge bases on data sets from multiple disease domains. Ultimately, our case study constitutes a thorough assessment of a) the suitability of selected knowledge bases for integration, b) the impact of prior knowledge being applied at different integration levels, and c) the improvements in terms of classification performance, biological relevance, and overall robustness. In summary, our contributions demonstrate that generalized concepts for prior knowledge and a streamlined retrieval process improve the applicability of prior knowledge approaches. Results from our case study show that the integration of prior knowledge positively affects biomarker results, particularly regarding their robustness. Our findings provide the first in-depth insights on the effectiveness of prior knowledge approaches and build a valuable foundation for future research. N2 - Biomarker sind charakteristische biologische Merkmale mit diagnostischer oder prognostischer Aussagekraft. Auf der molekularen Ebene sind dies Gene mit einem krankheitsspezifischen Expressionsmuster, welche mittels der Analyse von Genexpressionsdaten identifiziert werden. Traditionelle Ansätze für diese Art von Biomarker Detection wählen Gene als Biomarker ausschließlich anhand der vorhandenen Signale im Datensatz aus. Diese Vorgehensweise zeigt jedoch Schwächen insbesondere in Bezug auf die Robustheit und tatsächliche biologische Relevanz der identifizierten Biomarker. Verschiedene Forschungsarbeiten legen nahe, dass die Berücksichtigung des biologischen Kontexts während des Selektionsprozesses diese Schwächen ausgleichen kann. Sogenannte wissensbasierte Ansätze für Biomarker Detection beziehen vorhandenes biologisches Wissen, beispielsweise über Zusammenhänge zwischen bestimmten Genen und Krankheiten, direkt in die Analyse mit ein. Die Anwendung solcher Verfahren ist in der Praxis jedoch derzeit nicht weit verbreitet, da existierende Methoden oft spezifisch für einen bestimmten Anwendungsfall entwickelt wurden und sich nur mit großem Aufwand auf andere Anwendungsgebiete übertragen lassen. Dadurch sind Vergleiche untereinander kaum möglich, was es wiederum nicht erlaubt die Effektivität von wissensbasierten Methoden in einem breiteren Kontext zu untersuchen. Die vorliegende Arbeit befasst sich mit den vorgenannten Herausforderungen für wissensbasierte Ansätze. In einem ersten Schritt legen wir formale und einheitliche Definitionen für vorhandenes biologisches Wissen sowie ihre flexible Integration in den Biomarker-Auswahlprozess fest. Der Kerngedanke unseres Ansatzes ist die automatisierte Beschaffung von biologischem Wissen aus im Internet frei verfügbaren Wissens-Datenbanken. Dies erlaubt eine Vereinfachung der Kuratierung sowie die Festlegung einer einheitlichen Definition für biologisches Wissen. Darauf aufbauend beschreiben wir generalisierte wissensbasierte Verfahren, welche flexibel auf verschiedene Anwendungsfalle anwendbar sind. In einem zweiten Schritt haben wir die Benchmarking-Plattform Comprior entwickelt, welche unsere theoretischen Konzepte in einer praktischen Anwendung realisiert. Comprior ermöglicht die schnelle Umsetzung von umfangreichen Experimenten für den Vergleich von wissensbasierten Ansätzen. Comprior übernimmt die Beschaffung von biologischem Wissen und ermöglicht dessen beliebige Kombination mit wissensbasierten Ansätzen. Comprior demonstriert damit die praktische Umsetzbarkeit unserer theoretischen Konzepte und unterstützt zudem die technische Realisierung und Vergleichbarkeit wissensbasierter Ansätze. In einem dritten Schritt untersuchen wir die Effektivität wissensbasierter Ansätze im Rahmen einer umfangreichen Fallstudie. Mithilfe von Comprior vergleichen wir die Ergebnisse traditioneller und wissensbasierter Ansätze im Kontext verschiedener Krankheiten, wobei wir für wissensbasierte Ansätze auch verschiedene Wissens-Datenbanken verwenden. Unsere Fallstudie untersucht damit a) die Eignung von ausgewählten Wissens-Datenbanken für deren Einsatz bei wissensbasierten Ansätzen, b) den Einfluss verschiedener Integrationskonzepte für biologisches Wissen auf den Biomarker-Auswahlprozess, und c) den Grad der Verbesserung in Bezug auf die Klassifikationsleistung, biologische Relevanz und allgemeine Robustheit der selektierten Biomarker. Zusammenfassend demonstriert unsere Arbeit, dass generalisierte Konzepte für biologisches Wissen und dessen vereinfachte Kuration die praktische Anwendbarkeit von wissensbasierten Ansätzen erleichtern. Die Ergebnisse unserer Fallstudie zeigen, dass die Integration von vorhandenem biologischen Wissen einen positiven Einfluss auf die selektierten Biomarker hat, insbesondere in Bezug auf ihre biologische Relevanz. Diese erstmals umfassenderen Erkenntnisse zur Effektivität von wissensbasierten Ansätzen bilden eine wertvolle Grundlage für zukünftige Forschungsarbeiten. KW - gene expression KW - biomarker detection KW - prior knowledge KW - feature selection KW - Biomarker-Erkennung KW - Merkmalsauswahl KW - Gen-Expression KW - biologisches Vorwissen Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-582418 ER - TY - THES A1 - Koßmann, Jan T1 - Unsupervised database optimization BT - efficient index selection & data dependency-driven query optimization N2 - The amount of data stored in databases and the complexity of database workloads are ever- increasing. Database management systems (DBMSs) offer many configuration options, such as index creation or unique constraints, which must be adapted to the specific instance to efficiently process large volumes of data. Currently, such database optimization is complicated, manual work performed by highly skilled database administrators (DBAs). In cloud scenarios, manual database optimization even becomes infeasible: it exceeds the abilities of the best DBAs due to the enormous number of deployed DBMS instances (some providers maintain millions of instances), missing domain knowledge resulting from data privacy requirements, and the complexity of the configuration tasks. Therefore, we investigate how to automate the configuration of DBMSs efficiently with the help of unsupervised database optimization. While there are numerous configuration options, in this thesis, we focus on automatic index selection and the use of data dependencies, such as functional dependencies, for query optimization. Both aspects have an extensive performance impact and complement each other by approaching unsupervised database optimization from different perspectives. Our contributions are as follows: (1) we survey automated state-of-the-art index selection algorithms regarding various criteria, e.g., their support for index interaction. We contribute an extensible platform for evaluating the performance of such algorithms with industry-standard datasets and workloads. The platform is well-received by the community and has led to follow-up research. With our platform, we derive the strengths and weaknesses of the investigated algorithms. We conclude that existing solutions often have scalability issues and cannot quickly determine (near-)optimal solutions for large problem instances. (2) To overcome these limitations, we present two new algorithms. Extend determines (near-)optimal solutions with an iterative heuristic. It identifies the best index configurations for the evaluated benchmarks. Its selection runtimes are up to 10 times lower compared with other near-optimal approaches. SWIRL is based on reinforcement learning and delivers solutions instantly. These solutions perform within 3 % of the optimal ones. Extend and SWIRL are available as open-source implementations. (3) Our index selection efforts are complemented by a mechanism that analyzes workloads to determine data dependencies for query optimization in an unsupervised fashion. We describe and classify 58 query optimization techniques based on functional, order, and inclusion dependencies as well as on unique column combinations. The unsupervised mechanism and three optimization techniques are implemented in our open-source research DBMS Hyrise. Our approach reduces the Join Order Benchmark’s runtime by 26 % and accelerates some TPC-DS queries by up to 58 times. Additionally, we have developed a cockpit for unsupervised database optimization that allows interactive experiments to build confidence in such automated techniques. In summary, our contributions improve the performance of DBMSs, support DBAs in their work, and enable them to contribute their time to other, less arduous tasks. N2 - Sowohl die Menge der in Datenbanken gespeicherten Daten als auch die Komplexität der Datenbank-Workloads steigen stetig an. Datenbankmanagementsysteme bieten viele Konfigurationsmöglichkeiten, zum Beispiel das Anlegen von Indizes oder die Definition von Unique Constraints. Diese Konfigurations-möglichkeiten müssen für die spezifische Datenbankinstanz angepasst werden, um effizient große Datenmengen verarbeiten zu können. Heutzutage wird die komplizierte Datenbankoptimierung manuell von hochqualifizierten Datenbankadministratoren vollzogen. In Cloud-Szenarien ist die manuelle Daten-bankoptimierung undenkbar: Die enorme Anzahl der verwalteten Systeme (einige Anbieter verwalten Millionen von Instanzen), das fehlende Domänenwissen durch Datenschutzanforderungen und die Kom-plexität der Konfigurationsaufgaben übersteigen die Fähigkeiten der besten Datenbankadministratoren. Aus diesen Gründen betrachten wir, wie die Konfiguration von Datenbanksystemen mit der Hilfe von Unsupervised Database Optimization effizient automatisiert werden kann. Während viele Konfigura-tionsmöglichkeiten existieren, konzentrieren wir uns auf die automatische Indexauswahl und die Nutzung von Datenabhängigkeiten, zum Beispiel Functional Dependencies, für die Anfrageoptimierung. Beide Aspekte haben großen Einfluss auf die Performanz und ergänzen sich gegenseitig, indem sie Unsupervised Database Optimization aus verschiedenen Perspektiven betrachten. Wir leisten folgende Beiträge: (1) Wir untersuchen dem Stand der Technik entsprechende automatisierte Indexauswahlalgorithmen hinsichtlich verschiedener Kriterien, zum Beispiel bezüglich ihrer Berücksichtigung von Indexinteraktionen. Wir stellen eine erweiterbare Plattform zur Leistungsevaluierung solcher Algorithmen mit Industriestandarddatensätzen und -Workloads zur Verfügung. Diese Plattform wird von der Forschungsgemeinschaft aktiv verwendet und hat bereits zu weiteren Forschungsarbeiten geführt. Mit unserer Plattform leiten wir die Stärken und Schwächen der untersuchten Algorithmen ab. Wir kommen zu dem Schluss, dass bestehende Lösung häufig Skalierungsschwierigkeiten haben und nicht in der Lage sind, schnell (nahezu) optimale Lösungen für große Problemfälle zu ermitteln. (2) Um diese Einschränkungen zu bewältigen, stellen wir zwei neue Algorithmen vor. Extend ermittelt (nahezu) optimale Lösungen mit einer iterativen Heuristik. Das Verfahren identifiziert die besten Indexkonfigurationen für die evaluierten Benchmarks und seine Laufzeit ist bis zu 10-mal geringer als die Laufzeit anderer nahezu optimaler Ansätze. SWIRL basiert auf Reinforcement Learning und ermittelt Lösungen ohne Wartezeit. Diese Lösungen weichen maximal 3 % von den optimalen Lösungen ab. Extend und SWIRL sind verfügbar als Open-Source-Implementierungen. (3) Ein Mechanismus, der mittels automatischer Workload-Analyse Datenabhängigkeiten für die Anfrageoptimierung bestimmt, ergänzt die vorigen Beiträge. Wir beschreiben und klassifizieren 58 Techniken, die auf Functional, Order und Inclusion Dependencies sowie Unique Column Combinations basieren. Der Analysemechanismus und drei Optimierungstechniken sind in unserem Open-Source-Forschungsdatenbanksystem Hyrise implementiert. Der Ansatz reduziert die Laufzeit des Join Order Benchmark um 26 % und erreicht eine bis zu 58-fache Beschleunigung einiger TPC-DS-Anfragen. Darüber hinaus haben wir ein Cockpit für Unsupervised Database Optimization entwickelt. Dieses Cockpit ermöglicht interaktive Experimente, um Vertrauen in automatisierte Techniken zur Datenbankoptimie-rung zu schaffen. Zusammenfassend lässt sich festhalten, dass unsere Beiträge die Performanz von Datenbanksystemen verbessern, Datenbankadministratoren in ihrer Arbeit unterstützen und ihnen ermöglichen, ihre Zeit anderen, weniger mühsamen, Aufgaben zu widmen. KW - Datenbank KW - Datenbanksysteme KW - database KW - DBMS KW - Hyrise KW - index selection KW - database systems KW - RL KW - reinforcement learning KW - query optimization KW - data dependencies KW - functional dependencies KW - order dependencies KW - unique column combinations KW - inclusion dependencies KW - funktionale Abhängigkeiten KW - Anfrageoptimierung KW - Query-Optimierung KW - extend KW - SWIRL KW - unsupervised KW - database optimization KW - self-driving KW - autonomous Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-589490 ER - TY - THES A1 - Quinzan, Francesco T1 - Combinatorial problems and scalability in artificial intelligence N2 - Modern datasets often exhibit diverse, feature-rich, unstructured data, and they are massive in size. This is the case of social networks, human genome, and e-commerce databases. As Artificial Intelligence (AI) systems are increasingly used to detect pattern in data and predict future outcome, there are growing concerns on their ability to process large amounts of data. Motivated by these concerns, we study the problem of designing AI systems that are scalable to very large and heterogeneous data-sets. Many AI systems require to solve combinatorial optimization problems in their course of action. These optimization problems are typically NP-hard, and they may exhibit additional side constraints. However, the underlying objective functions often exhibit additional properties. These properties can be exploited to design suitable optimization algorithms. One of these properties is the well-studied notion of submodularity, which captures diminishing returns. Submodularity is often found in real-world applications. Furthermore, many relevant applications exhibit generalizations of this property. In this thesis, we propose new scalable optimization algorithms for combinatorial problems with diminishing returns. Specifically, we focus on three problems, the Maximum Entropy Sampling problem, Video Summarization, and Feature Selection. For each problem, we propose new algorithms that work at scale. These algorithms are based on a variety of techniques, such as forward step-wise selection and adaptive sampling. Our proposed algorithms yield strong approximation guarantees, and the perform well experimentally. We first study the Maximum Entropy Sampling problem. This problem consists of selecting a subset of random variables from a larger set, that maximize the entropy. By using diminishing return properties, we develop a simple forward step-wise selection optimization algorithm for this problem. Then, we study the problem of selecting a subset of frames, that represent a given video. Again, this problem corresponds to a submodular maximization problem. We provide a new adaptive sampling algorithm for this problem, suitable to handle the complex side constraints imposed by the application. We conclude by studying Feature Selection. In this case, the underlying objective functions generalize the notion of submodularity. We provide a new adaptive sequencing algorithm for this problem, based on the Orthogonal Matching Pursuit paradigm. Overall, we study practically relevant combinatorial problems, and we propose new algorithms to solve them. We demonstrate that these algorithms are suitable to handle massive datasets. However, our analysis is not problem-specific, and our results can be applied to other domains, if diminishing return properties hold. We hope that the flexibility of our framework inspires further research into scalability in AI. N2 - Moderne Datensätze bestehen oft aus vielfältigen, funktionsreichen und unstrukturierten Daten, die zudem sehr groß sind. Dies gilt insbesondere für soziale Netzwerke, das menschliche Genom und E-Commerce Datenbanken. Mit dem zunehmenden Einsatz von künstlicher Intelligenz (KI) um Muster in den Daten zu erkennen und künftige Ergebnisse vorherzusagen, steigen auch die Bedenken hinsichtlich ihrer Fähigkeit große Datenmengen zu verarbeiten. Aus diesem Grund untersuchen wir das Problem der Entwicklung von KI-Systemen, die auf große und heterogene Datensätze skalieren. Viele KI-Systeme müssen während ihres Einsatzes kombinatorische Optimierungsprobleme lösen. Diese Optimierungsprobleme sind in der Regel NP-schwer und können zusätzliche Nebeneinschränkungen aufwiesen. Die Zielfunktionen dieser Probleme weisen jedoch oft zusätzliche Eigenschaften auf. Diese Eigenschaften können genutzt werden, um geeignete Optimierungsalgorithmen zu entwickeln. Eine dieser Eigenschaften ist das wohluntersuchte Konzept der Submodularität, das das Konzept des abnehmende Erträge beschreibt. Submodularität findet sich in vielen realen Anwendungen. Darüber hinaus weisen viele relevante An- wendungen Verallgemeinerungen dieser Eigenschaft auf. In dieser Arbeit schlagen wir neue skalierbare Algorithmen für kombinatorische Probleme mit abnehmenden Erträgen vor. Wir konzentrieren uns hierbei insbesondere auf drei Prob- leme: dem Maximum-Entropie-Stichproben Problem, der Videozusammenfassung und der Feature Selection. Für jedes dieser Probleme schlagen wir neue Algorithmen vor, die gut skalieren. Diese Algorithmen basieren auf verschiedenen Techniken wie der schrittweisen Vorwärtsauswahl und dem adaptiven sampling. Die von uns vorgeschlagenen Algorithmen bieten sehr gute Annäherungsgarantien und zeigen auch experimentell gute Leistung. Zunächst untersuchen wir das Maximum-Entropy-Sampling Problem. Dieses Problem besteht darin, zufällige Variablen aus einer größeren Menge auszuwählen, welche die Entropie maximieren. Durch die Verwendung der Eigenschaften des abnehmenden Ertrags entwickeln wir einen einfachen forward step-wise selection Optimierungsalgorithmus für dieses Problem. Anschließend untersuchen wir das Problem der Auswahl einer Teilmenge von Bildern, die ein bestimmtes Video repräsentieren. Dieses Problem entspricht einem submodularen Maximierungsproblem. Hierfür stellen wir einen neuen adaptiven Sampling-Algorithmus für dieses Problem zur Verfügung, das auch komplexe Nebenbedingungen erfüllen kann, welche durch die Anwendung entstehen. Abschließend untersuchen wir die Feature Selection. In diesem Fall verallgemeinern die zugrundeliegenden Zielfunktionen die Idee der submodularität. Wir stellen einen neuen adaptiven Sequenzierungsalgorithmus für dieses Problem vor, der auf dem Orthogonal Matching Pursuit Paradigma basiert. Insgesamt untersuchen wir praktisch relevante kombinatorische Probleme und schlagen neue Algorithmen vor, um diese zu lösen. Wir zeigen, dass diese Algorithmen für die Verarbeitung großer Datensätze geeignet sind. Unsere Auswertung ist jedoch nicht problemspezifisch und unsere Ergebnisse lassen sich auch auf andere Bereiche anwenden, sofern die Eigenschaften des abnehmenden Ertrags gelten. Wir hoffen, dass die Flexibilität unseres Frameworks die weitere Forschung im Bereich der Skalierbarkeit im Bereich KI anregt. KW - artificial intelligence KW - scalability KW - optimization KW - Künstliche Intelligenz KW - Optimierung Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-611114 ER - TY - THES A1 - Tan, Jing T1 - Multi-Agent Reinforcement Learning for Interactive Decision-Making T1 - Multiagenten Verstärkendes Lernen für Interaktive Entscheidungsfindung N2 - Distributed decision-making studies the choices made among a group of interactive and self-interested agents. Specifically, this thesis is concerned with the optimal sequence of choices an agent makes as it tries to maximize its achievement on one or multiple objectives in the dynamic environment. The optimization of distributed decision-making is important in many real-life applications, e.g., resource allocation (of products, energy, bandwidth, computing power, etc.) and robotics (heterogeneous agent cooperation on games or tasks), in various fields such as vehicular network, Internet of Things, smart grid, etc. This thesis proposes three multi-agent reinforcement learning algorithms combined with game-theoretic tools to study strategic interaction between decision makers, using resource allocation in vehicular network as an example. Specifically, the thesis designs an interaction mechanism based on second-price auction, incentivizes the agents to maximize multiple short-term and long-term, individual and system objectives, and simulates a dynamic environment with realistic mobility data to evaluate algorithm performance and study agent behavior. Theoretical results show that the mechanism has Nash equilibria, is a maximization of social welfare and Pareto optimal allocation of resources in a stationary environment. Empirical results show that in the dynamic environment, our proposed learning algorithms outperform state-of-the-art algorithms in single and multi-objective optimization, and demonstrate very good generalization property in significantly different environments. Specifically, with the long-term multi-objective learning algorithm, we demonstrate that by considering the long-term impact of decisions, as well as by incentivizing the agents with a system fairness reward, the agents achieve better results in both individual and system objectives, even when their objectives are private, randomized, and changing over time. Moreover, the agents show competitive behavior to maximize individual payoff when resource is scarce, and cooperative behavior in achieving a system objective when resource is abundant; they also learn the rules of the game, without prior knowledge, to overcome disadvantages in initial parameters (e.g., a lower budget). To address practicality concerns, the thesis also provides several computational performance improvement methods, and tests the algorithm in a single-board computer. Results show the feasibility of online training and inference in milliseconds. There are many potential future topics following this work. 1) The interaction mechanism can be modified into a double-auction, eliminating the auctioneer, resembling a completely distributed, ad hoc network; 2) the objectives are assumed to be independent in this thesis, there may be a more realistic assumption regarding correlation between objectives, such as a hierarchy of objectives; 3) current work limits information-sharing between agents, the setup befits applications with privacy requirements or sparse signaling; by allowing more information-sharing between the agents, the algorithms can be modified for more cooperative scenarios such as robotics. N2 - Die Verteilte Entscheidungsfindung untersucht Entscheidungen innerhalb einer Gruppe von interaktiven und eigennützigen Agenten. Diese Arbeit befasst sich insbesondere mit der optimalen Folge von Entscheidungen eines Agenten, der das Erreichen eines oder mehrerer Ziele in einer dynamischen Umgebung zu maximieren versucht. Die Optimierung einer verteilten Entscheidungsfindung ist in vielen alltäglichen Anwendungen relevant, z.B. zur Allokation von Ressourcen (Produkte, Energie, Bandbreite, Rechenressourcen etc.) und in der Robotik (heterogene Agenten-Kooperation in Spielen oder Aufträgen) in diversen Feldern wie Fahrzeugkommunikation, Internet of Things, Smart Grid, usw. Diese Arbeit schlägt drei Multi-Agenten Reinforcement Learning Algorithmen kombiniert mit spieltheoretischen Ansätzen vor, um die strategische Interaktion zwischen Entscheidungsträgern zu untersuchen. Dies wird am Beispiel einer Ressourcenallokation in der Fahrzeug-zu-X-Kommunikation (vehicle-to-everything) gezeigt. Speziell wird in der Arbeit ein Interaktionsmechanismus entwickelt, der auf Basis einer Zweitpreisauktion den Agenten zur Maximierung mehrerer kurz- und langfristiger Ziele sowie individueller und Systemziele anregt. Dabei wird eine dynamische Umgebung mit realistischen Mobilitätsdaten simuliert, um die Leistungsfähigkeit des Algorithmus zu evaluieren und das Agentenverhalten zu untersuchen. Eine theoretische Analyse zeigt, dass bei diesem Mechanismus das Nash-Gleichgewicht sowie eine Maximierung von Wohlfahrt und Pareto-optimaler Ressourcenallokation in einer statischen Umgebung vorliegen. Empirische Untersuchungen ergeben, dass in einer dynamischen Umgebung der vorgeschlagene Lernalgorithmus den aktuellen Stand der Technik bei ein- und mehrdimensionaler Optimierung übertrifft, und dabei sehr gut auch auf stark abweichende Umgebungen generalisiert werden kann. Speziell mit dem langfristigen mehrdimensionalen Lernalgorithmus wird gezeigt, dass bei Berücksichtigung von langfristigen Auswirkungen von Entscheidungen, als auch durch einen Anreiz zur Systemgerechtigkeit, die Agenten in individuellen als auch Systemzielen bessere Ergebnisse liefern, und das auch, wenn ihre Ziele privat, zufällig und zeitveränderlich sind. Weiter zeigen die Agenten Wettbewerbsverhalten, um ihre eigenen Ziele zu maximieren, wenn die Ressourcen knapp sind, und kooperatives Verhalten, um Systemziele zu erreichen, wenn die Ressourcen ausreichend sind. Darüber hinaus lernen sie die Ziele des Spiels ohne vorheriges Wissen über dieses, um Startschwierigkeiten, wie z.B. ein niedrigeres Budget, zu überwinden. Für die praktische Umsetzung zeigt diese Arbeit auch mehrere Methoden auf, welche die Rechenleistung verbessern können, und testet den Algorithmus auf einem handelsüblichen Einplatinencomputer. Die Ergebnisse zeigen die Durchführbarkeit von inkrementellem Lernen und Inferenz innerhalb weniger Millisekunden auf. Ausgehend von den Ergebnissen dieser Arbeit könnten sich verschiedene Forschungsfragen anschließen: 1) Der Interaktionsmechanismus kann zu einer Doppelauktion verändert und dabei der Auktionator entfernt werden. Dies würde einem vollständig verteilten Ad-Hoc-Netzwerk entsprechen. 2) Die Ziele werden in dieser Arbeit als unabhängig betrachtet. Es könnte eine Korrelation zwischen mehreren Zielen angenommen werden, so wie eine Zielhierarchie. 3) Die aktuelle Arbeit begrenzt den Informationsaustausch zwischen Agenten. Diese Annahme passt zu Anwendungen mit Anforderungen an den Schutz der Privatsphäre oder bei spärlichen Signalen. Indem der Informationsaustausch erhöht wird, könnte der Algorithmus auf stärker kooperative Anwendungen wie z.B. in der Robotik erweitert werden. KW - V2X KW - distributed systems KW - reinforcement learning KW - game theory KW - auction KW - decision making KW - behavioral sciences KW - multi-objective KW - V2X KW - Verteilte Systeme KW - Spieltheorie KW - Auktion KW - Entscheidungsfindung KW - Verhaltensforschung KW - verstärkendes Lernen KW - Multiziel Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-607000 ER - TY - THES A1 - Doskoč, Vanja T1 - Mapping restrictions in behaviourally correct learning N2 - In this thesis, we investigate language learning in the formalisation of Gold [Gol67]. Here, a learner, being successively presented all information of a target language, conjectures which language it believes to be shown. Once these hypotheses converge syntactically to a correct explanation of the target language, the learning is considered successful. Fittingly, this is termed explanatory learning. To model learning strategies, we impose restrictions on the hypotheses made, for example requiring the conjectures to follow a monotonic behaviour. This way, we can study the impact a certain restriction has on learning. Recently, the literature shifted towards map charting. Here, various seemingly unrelated restrictions are contrasted, unveiling interesting relations between them. The results are then depicted in maps. For explanatory learning, the literature already provides maps of common restrictions for various forms of data presentation. In the case of behaviourally correct learning, where the learners are required to converge semantically instead of syntactically, the same restrictions as in explanatory learning have been investigated. However, a similarly complete picture regarding their interaction has not been presented yet. In this thesis, we transfer the map charting approach to behaviourally correct learning. In particular, we complete the partial results from the literature for many well-studied restrictions and provide full maps for behaviourally correct learning with different types of data presentation. We also study properties of learners assessed important in the literature. We are interested whether learners are consistent, that is, whether their conjectures include the data they are built on. While learners cannot be assumed consistent in explanatory learning, the opposite is the case in behaviourally correct learning. Even further, it is known that learners following different restrictions may be assumed consistent. We contribute to the literature by showing that this is the case for all studied restrictions. We also investigate mathematically interesting properties of learners. In particular, we are interested in whether learning under a given restriction may be done with strongly Bc-locking learners. Such learners are of particular value as they allow to apply simulation arguments when, for example, comparing two learning paradigms to each other. The literature gives a rich ground on when learners may be assumed strongly Bc-locking, which we complete for all studied restrictions. N2 - In dieser Arbeit untersuchen wir das Sprachenlernen in der Formalisierung von Gold [Gol67]. Dabei stellt ein Lerner, dem nacheinander die volle Information einer Zielsprache präsentiert wird, Vermutungen darüber auf, welche Sprache er glaubt, präsentiert zu bekommen. Sobald diese Hypothesen syntaktisch zu einer korrekten Erklärung der Zielsprache konvergieren, wird das Lernen als erfolgreich angesehen. Dies wird passenderweise als erklärendes Lernen bezeichnet. Um Lernstrategien zu modellieren, werden den aufgestellten Hypothesen Einschränkungen auferlegt, zum Beispiel, dass die Vermutungen einem monotonen Verhalten folgen müssen. Auf diese Weise können wir untersuchen, welche Auswirkungen eine bestimmte Einschränkung auf das Lernen hat. In letzter Zeit hat sich die Literatur in Richtung Kartographie verlagert. Hier werden verschiedene, scheinbar nicht zusammenhängende Restriktionen einander gegenübergestellt, wodurch interessante Beziehungen zwischen ihnen aufgedeckt werden. Die Ergebnisse werden dann in so genannten Karten dargestellt. Für das erklärende Lernen gibt es in der Literatur bereits Karten geläufiger Einschränkungen für verschiedene Formen der Datenpräsentation. Im Falle des verhaltenskorrekten Lernens, bei dem die Lerner nicht syntaktisch, sondern semantisch konvergieren sollen, wurden die gleichen Einschränkungen wie beim erklärenden Lernen untersucht. Ein ähnlich vollständiges Bild hinsichtlich ihrer Interaktion wurde jedoch noch nicht präsentiert. In dieser Arbeit übertragen wir den Kartographie-Ansatz auf das verhaltenskorrekte Lernen. Insbesondere vervollständigen wir die Teilergebnisse aus der Literatur für viele gut untersuchte Restriktionen und liefern Karten für verhaltenskorrektes Lernen mit verschiedenen Arten der Datenpräsentation. Wir untersuchen auch Eigenschaften von Lernern, die in der Literatur als wichtig eingestuft werden. Uns interessiert, ob die Lerner konsistent sind, das heißt ob ihre Vermutungen die Daten einschließen, auf denen sie aufgebaut sind. Während man beim erklärenden Lernen nicht davon ausgehen kann, dass die Lerner konsistent sind, ist beim verhaltenskorrekten Lernen das Gegenteil der Fall. Es ist sogar bekannt, dass Lerner, die verschiedenen Einschränkungen folgen, als konsistent angenommen werden können. Wir tragen zur Literatur bei, indem wir zeigen, dass dies für alle untersuchten Restriktionen der Fall ist. Wir untersuchen auch mathematisch interessante Eigenschaften von Lernern. Insbesondere interessiert uns, ob das Lernen unter einer gegebenen Restriktion mit stark Bc-sperrenden Lernern durchgeführt werden kann. Solche Lerner sind von besonderem Wert, da sie es erlauben, Simulationsargumente anzuwenden, wenn man zum Beispiel zwei Lernparadigmen miteinander vergleicht. Die Literatur bietet eine reichhaltige Grundlage dafür, wann Lerner als stark Bc-sperrend angenommen werden können, die wir auf alle untersuchten Einschränkungen erweitern. KW - language learning in the limit KW - behaviourally correct learning KW - maps KW - consistent learning KW - strongly behaviourally correct locking KW - verhaltenskorrektes Lernen KW - konsistentes Lernen KW - Sprachlernen im Limes KW - Karten KW - stark verhaltenskorrekt sperrend Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-593110 ER - TY - THES A1 - Hagedorn, Christopher T1 - Parallel execution of causal structure learning on graphics processing units T1 - Parallele Ausführung von kausalem Strukturlernen auf Grafikprozessoren N2 - Learning the causal structures from observational data is an omnipresent challenge in data science. The amount of observational data available to Causal Structure Learning (CSL) algorithms is increasing as data is collected at high frequency from many data sources nowadays. While processing more data generally yields higher accuracy in CSL, the concomitant increase in the runtime of CSL algorithms hinders their widespread adoption in practice. CSL is a parallelizable problem. Existing parallel CSL algorithms address execution on multi-core Central Processing Units (CPUs) with dozens of compute cores. However, modern computing systems are often heterogeneous and equipped with Graphics Processing Units (GPUs) to accelerate computations. Typically, these GPUs provide several thousand compute cores for massively parallel data processing. To shorten the runtime of CSL algorithms, we design efficient execution strategies that leverage the parallel processing power of GPUs. Particularly, we derive GPU-accelerated variants of a well-known constraint-based CSL method, the PC algorithm, as it allows choosing a statistical Conditional Independence test (CI test) appropriate to the observational data characteristics. Our two main contributions are: (1) to reflect differences in the CI tests, we design three GPU-based variants of the PC algorithm tailored to CI tests that handle data with the following characteristics. We develop one variant for data assuming the Gaussian distribution model, one for discrete data, and another for mixed discrete-continuous data and data with non-linear relationships. Each variant is optimized for the appropriate CI test leveraging GPU hardware properties, such as shared or thread-local memory. Our GPU-accelerated variants outperform state-of-the-art parallel CPU-based algorithms by factors of up to 93.4× for data assuming the Gaussian distribution model, up to 54.3× for discrete data, up to 240× for continuous data with non-linear relationships and up to 655× for mixed discrete-continuous data. However, the proposed GPU-based variants are limited to datasets that fit into a single GPU’s memory. (2) To overcome this shortcoming, we develop approaches to scale our GPU-based variants beyond a single GPU’s memory capacity. For example, we design an out-of-core GPU variant that employs explicit memory management to process arbitrary-sized datasets. Runtime measurements on a large gene expression dataset reveal that our out-of-core GPU variant is 364 times faster than a parallel CPU-based CSL algorithm. Overall, our proposed GPU-accelerated variants speed up CSL in numerous settings to foster CSL’s adoption in practice and research. N2 - Das Lernen von kausalen Strukturen aus Beobachtungsdatensätzen ist eine allgegenwärtige Herausforderung im Data Science-Bereich. Die für die Algorithmen des kausalen Strukturlernens (CSL) zur Verfügung stehende Menge von Beobachtungsdaten nimmt zu, da heutzutage mit hoher Frequenz Daten aus vielen Datenquellen gesammelt werden. Während die Verarbeitung von höheren Datenmengen im Allgemeinen zu einer höheren Genauigkeit bei CSL führt, hindert die damit einhergehende Erhöhung der Laufzeit von CSL-Algorithmen deren breite Anwendung in der Praxis. CSL ist ein parallelisierbares Problem. Bestehende parallele CSL-Algorithmen eignen sich für die Ausführung auf Mehrkern-Hauptprozessoren (CPUs) mit Dutzenden von Rechenkernen. Moderne Computersysteme sind jedoch häufig heterogen. Um notwendige Berechnungen zu beschleunigen, sind die Computersysteme typischerweise mit Grafikprozessoren (GPUs) ausgestattet, wobei diese GPUs mehrere tausend Rechenkerne für eine massive parallele Datenverarbeitung bereitstellen. Um die Laufzeit von Algorithmen für das kausale Strukturlernen zu verkürzen, entwickeln wir im Rahmen dieser Arbeit effiziente Ausführungsstrategien, die die parallele Verarbeitungsleistung von GPUs nutzen. Dabei entwerfen wir insbesondere GPU-beschleunigte Varianten des PC-Algorithmus, der eine bekannte Constraint-basierte CSL-Methode ist. Dieser Algorithmus ermöglicht die Auswahl eines – den Eigenschaften der Beobachtungsdaten entsprechenden – statistischen Tests auf bedingte Unabhängigkeit (CI-Test). Wir leisten in dieser Doktorarbeit zwei wissenschaftliche Hauptbeiträge: (1) Um den Unterschieden in den CI-Tests Rechnung zu tragen, entwickeln wir drei GPU-basierte, auf CI-Tests zugeschnittene Varianten des PC-Algorithmus. Dadurch können Daten mit den folgenden Merkmalen verarbeitet werden: eine Variante fokussiert sich auf Daten, die das Gaußsche Verteilungsmodell annehmen, eine weitere auf diskrete Daten und die dritte Variante setzt den Fokus auf gemischte diskret-kontinuierliche Daten sowie Daten mit nicht-linearen funktionalen Beziehungen. Jede Variante ist für den entsprechenden CI-Test optimiert und nutzt Eigenschaften der GPU-Hardware wie beispielsweise ”Shared Memory” oder ”Thread-local Memory” aus. Unsere GPU-beschleunigten Varianten übertreffen die modernsten parallelen CPU-basierten Algorithmen um Faktoren von bis zu 93,4x für Daten, die das Gaußsche Verteilungsmodell annehmen, bis zu 54,3x für diskrete Daten, bis zu 240x für kontinuierliche Daten mit nichtlinearen Beziehungen und bis zu 655x für gemischte diskret-kontinuierliche Daten. Die vorgeschlagenen GPU-basierten Varianten sind dabei jedoch auf Datensätze beschränkt, die in den Speicher einer einzelnen GPU passen. (2) Um diese Schwachstelle zu beseitigen, entwickeln wir Ansätze zur Skalierung unserer GPU-basierten Varianten über die Speicherkapazität einer einzelnen GPU hinaus. So entwerfen wir beispielsweise eine auf einer expliziten Speicherverwaltung aufbauenden Out-of-Core-Variante für eine einzelne GPU, um Datensätze beliebiger Größe zu verarbeiten. Laufzeitmessungen auf einem großen Genexpressionsdatensatz zeigen, dass unsere Out-of-Core GPU-Variante 364-mal schneller ist als ein paralleler CPU-basierter CSL-Algorithmus. Insgesamt beschleunigen unsere vorgestellten GPU-basierten Varianten das kausale Strukturlernen in zahlreichen Situationen und unterstützen dadurch die breite Anwendung des kausalen Strukturlernens in Praxis und Forschung. KW - causal structure learning KW - GPU acceleration KW - causal discovery KW - parallel processing KW - GPU-Beschleunigung KW - kausale Entdeckung KW - kausales Strukturlernen KW - parallele Verarbeitung Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-597582 ER - TY - BOOK A1 - Barkowsky, Matthias A1 - Giese, Holger T1 - Modular and incremental global model management with extended generalized discrimination networks T1 - Modulares und inkrementelles Globales Modellmanagement mit erweiterten Generalized Discrimination Networks N2 - Complex projects developed under the model-driven engineering paradigm nowadays often involve several interrelated models, which are automatically processed via a multitude of model operations. Modular and incremental construction and execution of such networks of models and model operations are required to accommodate efficient development with potentially large-scale models. The underlying problem is also called Global Model Management. In this report, we propose an approach to modular and incremental Global Model Management via an extension to the existing technique of Generalized Discrimination Networks (GDNs). In addition to further generalizing the notion of query operations employed in GDNs, we adapt the previously query-only mechanism to operations with side effects to integrate model transformation and model synchronization. We provide incremental algorithms for the execution of the resulting extended Generalized Discrimination Networks (eGDNs), as well as a prototypical implementation for a number of example eGDN operations. Based on this prototypical implementation, we experiment with an application scenario from the software development domain to empirically evaluate our approach with respect to scalability and conceptually demonstrate its applicability in a typical scenario. Initial results confirm that the presented approach can indeed be employed to realize efficient Global Model Management in the considered scenario. N2 - Komplexe Projekte, die unter dem Paradigma der modellgetriebenen Entwicklung entwickelt werden, nutzen heutzutage oft mehrere miteinander in Beziehung stehende Modelle, die durch eine Vielzahl von Modelloperationen automatiscsh verarbeitet werden. Die modulare und inkrementelle Konstruktion und Ausführung solcher Netzwerke von Modelloperationen ist eine Voraussetzung für effiziente Entwicklung mit potenziell sehr großen Modellen. Das zugrunde liegende Forschungsproblem heißt auch Globales Modellmanagement. In diesem Bericht schlagen wir einen Ansatz für modulares und inkrementelles Globales Modellmanagement vor, der auf einer Erweiterung der existierenden Technik der Generalized Discrimination Networks (GDNs) basiert. Neben einer weiteren Verallgemeinerung des Konzepts der Anfrageoperationen in GDNs erweitern wir den zuvor rein lesenden Mechanismus auf Operationen mit Seiteneffekten, um Modelltransformationen und Modellsynchronisationen zu integrieren. Wir präsentieren inkrementelle Algorithmen für die Ausführung der resultierenden erweiterten GDNs (eGDNs) sowie eine prototypische Implementierung von Beispieloperationen für eGDNs. Mithilfe dieser prototypischen Implementierung evaluieren wir unsere Lösung hinsichtlich ihrer Skalierbarkeit in einem Anwendungsszenario aus dem Bereich der Softwareentwicklung. Außerdem demonstrieren wir die Anwendbarkeit der entwickelten Technik konzeptionell anhand eines typischen Anwendugsszenario. Unsere ersten Ergebnisse bestätigen, dass die Lösung genutzt werden kann, um effizientes Globales Modellmanagement im betrachteten Szenario zu realisieren. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 154 KW - global model management KW - generalized discrimination networks KW - globales Modellmanagement KW - Generalized Discrimination Networks Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-573965 SN - 978-3-86956-555-2 SN - 1613-5652 SN - 2191-1665 IS - 154 SP - 63 EP - 63 ER - TY - THES A1 - Shekhar, Sumit T1 - Image and video processing based on intrinsic attributes N2 - Advancements in computer vision techniques driven by machine learning have facilitated robust and efficient estimation of attributes such as depth, optical flow, albedo, and shading. To encapsulate all such underlying properties associated with images and videos, we evolve the concept of intrinsic images towards intrinsic attributes. Further, rapid hardware growth in the form of high-quality smartphone cameras, readily available depth sensors, mobile GPUs, or dedicated neural processing units have made image and video processing pervasive. In this thesis, we explore the synergies between the above two advancements and propose novel image and video processing techniques and systems based on them. To begin with, we investigate intrinsic image decomposition approaches and analyze how they can be implemented on mobile devices. We propose an approach that considers not only diffuse reflection but also specular reflection; it allows us to decompose an image into specularity, albedo, and shading on a resource constrained system (e.g., smartphones or tablets) using the depth data provided by the built-in depth sensors. In addition, we explore how on-device depth data can further be used to add an immersive dimension to 2D photos, e.g., showcasing parallax effects via 3D photography. In this regard, we develop a novel system for interactive 3D photo generation and stylization on mobile devices. Further, we investigate how adaptive manipulation of baseline-albedo (i.e., chromaticity) can be used for efficient visual enhancement under low-lighting conditions. The proposed technique allows for interactive editing of enhancement settings while achieving improved quality and performance. We analyze the inherent optical flow and temporal noise as intrinsic properties of a video. We further propose two new techniques for applying the above intrinsic attributes for the purpose of consistent video filtering. To this end, we investigate how to remove temporal inconsistencies perceived as flickering artifacts. One of the techniques does not require costly optical flow estimation, while both provide interactive consistency control. Using intrinsic attributes for image and video processing enables new solutions for mobile devices – a pervasive visual computing device – and will facilitate novel applications for Augmented Reality (AR), 3D photography, and video stylization. The proposed low-light enhancement techniques can also improve the accuracy of high-level computer vision tasks (e.g., face detection) under low-light conditions. Finally, our approach for consistent video filtering can extend a wide range of image-based processing for videos. N2 - Fortschritte im Bereich der Computer-Vision-Techniken, die durch Maschinelles Lernen vorangetrieben werden, haben eine robuste und effiziente Schätzung von Attributen wie Tiefe, optischer Fluss, Albedo, und Schattierung ermöglicht. Um all diese zugrundeliegenden Eigenschaften von Bildern und Videos zu erfassen, entwickeln wir das Konzept der intrinsischen Bilder zu intrinsischen Attributen weiter. Darüber hinaus hat die rasante Entwicklung der Hardware in Form von hochwertigen Smartphone-Kameras, leicht verfügbaren Tiefensensoren, mobilen GPUs, oder speziellen neuronalen Verarbeitungseinheiten die Bild- und Videoverarbeitung allgegenwärtig gemacht. In dieser Arbeit erforschen wir die Synergien zwischen den beiden oben genannten Fortschritten und schlagen neue Bild- und Videoverarbeitungstechniken und -systeme vor, die auf ihnen basieren. Zunächst untersuchen wir intrinsische Bildzerlegungsansätze und analysieren, wie sie auf mobilen Geräten implementiert werden können. Wir schlagen einen Ansatz vor, der nicht nur die diffuse Reflexion, sondern auch die spiegelnde Reflexion berücksichtigt; er ermöglicht es uns, ein Bild auf einem ressourcenbeschränkten System (z. B. Smartphones oder Tablets) unter Verwendung der von den eingebauten Tiefensensoren bereitgestellten Tiefendaten in Spiegelung, Albedo und Schattierung zu zerlegen. Darüber hinaus erforschen wir, wie geräteinterne Tiefendaten genutzt werden können, um 2D-Fotos eine immersive Dimension hinzuzufügen, z. B. um Parallaxen-Effekte durch 3D-Fotografie darzustellen. In diesem Zusammenhang entwickeln wir ein neuartiges System zur interaktiven 3D-Fotoerstellung und -Stylisierung auf mobilen Geräten. Darüber hinaus untersuchen wir, wie eine adaptive Manipulation der Grundlinie-Albedo (d.h. der Farbintensität) für eine effiziente visuelle Verbesserung bei schlechten Lichtverhältnissen genutzt werden kann. Die vorgeschlagene Technik ermöglicht die interaktive Bearbeitung von Verbesserungseinstellungen bei verbesserter Qualität und Leistung. Wir analysieren den inhärenten optischen Fluss und die zeitliche Konsistenz als intrinsische Eigenschaften eines Videos. Darüber hinaus schlagen wir zwei neue Techniken zur Anwendung der oben genannten intrinsischen Attribute zum Zweck der konsistenten Videofilterung vor. Zu diesem Zweck untersuchen wir, wie zeitliche Inkonsistenzen, die als Flackerartefakte wahrgenommen werden, entfernt werden können. Eine der Techniken erfordert keine kostspielige optische Flussschätzung, während beide eine interaktive Konsistenzkontrolle bieten. Die Verwendung intrinsischer Attribute für die Bild- und Videoverarbeitung ermöglicht neue Lösungen für mobile Geräte - ein visuelles Computergerät, das aufgrund seiner weltweiten Verbreitung von großer Bedeutung ist - und wird neuartige Anwendungen für Augmented Reality (AR), 3D-Fotografie und Videostylisierung ermöglichen. Die vorgeschlagenen Low-Light-Enhancement-Techniken können auch die Genauigkeit von High-Level-Computer-Vision-Aufgaben (z. B. Objekt-Tracking) unter schlechten Lichtverhältnissen verbessern. Schließlich kann unser Ansatz zur konsistenten Videofilterung eine breite Palette von bildbasierten Verarbeitungen für Videos erweitern. KW - image processing KW - image-based rendering KW - non-photorealistic rendering KW - image stylization KW - computational photography KW - Bildverarbeitung KW - bildbasiertes Rendering KW - Non-photorealistic Rendering KW - Computational Photography Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-620049 ER - TY - BOOK A1 - Schwarzer, Ingo A1 - Weiß-Saoumi, Said A1 - Kittel, Roland A1 - Friedrich, Tobias A1 - Kaynak, Koraltan A1 - Durak, Cemil A1 - Isbarn, Andreas A1 - Diestel, Jörg A1 - Knittel, Jens A1 - Franz, Marquart A1 - Morra, Carlos A1 - Stahnke, Susanne A1 - Braband, Jens A1 - Dittmann, Johannes A1 - Griebel, Stephan A1 - Krampf, Andreas A1 - Link, Martin A1 - Müller, Matthias A1 - Radestock, Jens A1 - Strub, Leo A1 - Bleeke, Kai A1 - Jehl, Leander A1 - Kapitza, Rüdiger A1 - Messadi, Ines A1 - Schmidt, Stefan A1 - Schwarz-Rüsch, Signe A1 - Pirl, Lukas A1 - Schmid, Robert A1 - Friedenberger, Dirk A1 - Beilharz, Jossekin Jakob A1 - Boockmeyer, Arne A1 - Polze, Andreas A1 - Röhrig, Ralf A1 - Schäbe, Hendrik A1 - Thiermann, Ricky T1 - RailChain BT - Abschlussbericht N2 - The RailChain project designed, implemented, and experimentally evaluated a juridical recorder that is based on a distributed consensus protocol. That juridical blockchain recorder has been realized as distributed ledger on board the advanced TrainLab (ICE-TD 605 017) of Deutsche Bahn. For the project, a consortium consisting of DB Systel, Siemens, Siemens Mobility, the Hasso Plattner Institute for Digital Engineering, Technische Universität Braunschweig, TÜV Rheinland InterTraffic, and Spherity has been formed. These partners not only concentrated competencies in railway operation, computer science, regulation, and approval, but also combined experiences from industry, research from academia, and enthusiasm from startups. Distributed ledger technologies (DLTs) define distributed databases and express a digital protocol for transactions between business partners without the need for a trusted intermediary. The implementation of a blockchain with real-time requirements for the local network of a railway system (e.g., interlocking or train) allows to log data in the distributed system verifiably in real-time. For this, railway-specific assumptions can be leveraged to make modifications to standard blockchains protocols. EULYNX and OCORA (Open CCS On-board Reference Architecture) are parts of a future European reference architecture for control command and signalling (CCS, Reference CCS Architecture – RCA). Both architectural concepts outline heterogeneous IT systems with components from multiple manufacturers. Such systems introduce novel challenges for the approved and safety-relevant CCS of railways which were considered neither for road-side nor for on-board systems so far. Logging implementations, such as the common juridical recorder on vehicles, can no longer be realized as a central component of a single manufacturer. All centralized approaches are in question. The research project RailChain is funded by the mFUND program and gives practical evidence that distributed consensus protocols are a proper means to immutably (for legal purposes) store state information of many system components from multiple manufacturers. The results of RailChain have been published, prototypically implemented, and experimentally evaluated in large-scale field tests on the advanced TrainLab. At the same time, the project showed how RailChain can be integrated into the road-side and on-board architecture given by OCORA and EULYNX. Logged data can now be analysed sooner and also their trustworthiness is being increased. This enables, e.g., auditable predictive maintenance, because it is ensured that data is authentic and unmodified at any point in time. N2 - Das Projekt RailChain hat einen verteilten Juridical Recorder entworfen, implementiert und experimentell evaluiert, der auf einem echtzeitfähigen verteilten Konsensprotokoll basiert. Dieser Juridical Blockchain Recorder wurde als distributed ledger an Bord des advanced TrainLabs der Deutschen Bahn (ICE-TD 605 017) umgesetzt. Für das Projekt hat sich ein Konsortium aus DB Systel, Siemens, Siemens Mobility, dem Hasso-Plattner-Institut für Digital Engineering, der Technischen Universität Braunschweig, sowie TÜV Rheinland InterTraffic und Spherity formiert und dabei Kompetenzen aus den Bereichen Bahnbetrieb, Informatik und Zulassungswesen gebündelt. Die Partner kombinieren Erfahrungen aus der Industrie und die akademische Forschung mit der Aufbruchstimmung aus dem Start-Up-Umfeld. Distributed-Ledger-Technologien (DLTs) definieren verteilte Datenbanken und stellen ein digitales Protokoll für Transaktionen zwischen Geschäftspartnern dar, ohne dass ein Mittelsmann beteiligt sein müsste. Die Implementierung einer Blockchain mit Echtzeitanforderungen für das lokale Netzwerk einer Eisenbahnanlage (z. B. Stellwerk oder Zug) erlaubt es, die im verteilten System entstehenden Daten nachweislich in Echtzeit zu protokollieren. Dabei können eisenbahnspezifische Randbedingungen ausgenutzt werden, um Standard-Blockchain-Protokolle anzupassen. EULYNX und OCORA (Open CCS On-board Reference Architecture) sind Bestandteile einer zukünftigen europäischen Referenzarchitektur für das Leit- und Sicherungssystem (Reference CCS Architecture – RCA, Control Command and Signalling – CCS). Beide Architekturkonzepte skizzieren herstellerübergreifende, komponentenbasierende heterogene IT-Systeme. Solche Systeme bergen neue Herausforderungen, die bislang im Kontext der zugelassenen, sicherheitsrelevanten Leit- und Sicherungstechnik der Bahn weder strecken- noch fahrzeugseitig adressiert werden mussten. Logbuch-Implementierungen, wie der gängige Juridical Recorder auf Fahrzeugen, können nun nicht mehr als zentrale Systemkomponente eines einzelnen Herstellers umgesetzt werden. Alle zentralisierten Lösungsansätze sind in Frage gestellt. Das mFUND-geförderte Forschungsprojekt erbringt den praktischen Nachweis, dass Zustandsinformationen über eine Vielzahl von Systemkomponenten herstellerübergreifend und gerichtsfest mittels verteilten Konsensprotokollen gespeichert werden können. Ergebnisse von RailChain wurden publiziert, prototypisch implementiert und in großen Feldtests auf dem advanced TrainLab experimentell evaluiert. Gleichzeitig wurde aufgezeigt, wie sich RailChain in den mit OCORA und EULYNX vorgegebenen fahrzeug- und streckenseitigen Architekturentwurf integrieren lässt. Daten können dadurch zeitnaher ausgewertet werden und gleichzeitig wird ihre Vertrauenswürdigkeit erhöht. Dies ermöglicht u. a. nachvollziehbare zustandsorientierte Wartung, denn es kann jederzeit sichergestellt werden, dass die Daten authentisch sind und auch nicht verändert wurden. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 152 KW - Distributed-Ledger-Technologie (DLT) KW - juridical recording KW - Konsensprotokolle KW - consensus protocols KW - Digitalisierung KW - digitalization KW - Bahnwesen KW - railways KW - Blockchain KW - asset management KW - selbstbestimmte Identitäten KW - self-sovereign identity KW - dezentrale Identitäten KW - decentral identities KW - überprüfbare Nachweise KW - verifiable credentials KW - Echtzeit KW - real-time KW - Standardisierung KW - standardization KW - Verlässlichkeit KW - dependability KW - Fehlertoleranz KW - fault tolerance Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-577409 SN - 978-3-86956-550-7 SN - 1613-5652 SN - 2191-1665 IS - 152 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Garus, Marcel A1 - Sawahn, Rohan A1 - Wanke, Jonas A1 - Tiedt, Clemens A1 - Granzow, Clara A1 - Kuffner, Tim A1 - Rosenbaum, Jannis A1 - Hagemann, Linus A1 - Wollnik, Tom A1 - Woth, Lorenz A1 - Auringer, Felix A1 - Kantusch, Tobias A1 - Roth, Felix A1 - Hanff, Konrad A1 - Schilli, Niklas A1 - Seibold, Leonard A1 - Lindner, Marc Fabian A1 - Raschack, Selina ED - Grapentin, Andreas ED - Tiedt, Clemens ED - Polze, Andreas T1 - Operating systems II - student projects N2 - This technical report presents the results of student projects which were prepared during the lecture “Operating Systems II” offered by the “Operating Systems and Middleware” group at HPI in the Summer term of 2020. The lecture covered ad- vanced aspects of operating system implementation and architecture on topics such as Virtualization, File Systems and Input/Output Systems. In addition to attending the lecture, the participating students were encouraged to gather practical experience by completing a project on a closely related topic over the course of the semester. The results of 10 selected exceptional projects are covered in this report. The students have completed hands-on projects on the topics of Operating System Design Concepts and Implementation, Hardware/Software Co-Design, Reverse Engineering, Quantum Computing, Static Source-Code Analysis, Operating Systems History, Application Binary Formats and more. It should be recognized that over the course of the semester all of these projects have achieved outstanding results which went far beyond the scope and the expec- tations of the lecture, and we would like to thank all participating students for their commitment and their effort in completing their respective projects, as well as their work on compiling this report. N2 - Dieser technische Bericht beschriebt die Ergebnisse der Projekte, welche im Rahmen der Lehrveranstaltung "Betriebssysteme II" on teilnehmenden Studierenden durchgeführt wurden. Die Lehrveranstaltung wurde von der "Betriebssysteme und Middleware" am HPI im Sommersemester 2020 durchgeführt und behandele fortgeschrittene Aspekte der Betriebssystemarchitektur und -Implementierung am Beispiel der Virtualisierung, der Dateisysteme und der Eingabe/Ausgabe (I/O) Systeme. Zusätzlich zu den Vorlesungen wurden die Studierenden angeleitet, durch die Durchführung eines begleitenden Projekts praktische Erfahrungen im Umgang mit den behandelten Themen zu sammeln. Die Ergebnisse von 10 ausgewählten, herausragenden Projekten werden in diesem Report vorgestellt. Die Studierenden haben unter anderem Projekte zu den Themen Betriebssystemdesign und -Implementierung, Hardware/Software Co-Design, Reverse Engineering, Quanten-Computing, Statische Quellcodeanalyse, Betriebssystemgeschichte, dem Binärformat von ausführbaren Dateien durchgeführt. Es ist anzuerkennen, dass alle teilnehmenden Studierenden im Verlauf des Semesters herausragende Ergebnisse erzielt haben, die weit über die Anforderungen der Lehrveranstaltung hinausgingen. Wir möchten uns bei allen teilnehmenden Studierenden für Ihren Einsatz bei der Durchführung der Projekte, sowie bei der Erstellung dieses Reports bedanken. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 142 KW - operating systems KW - network protocols KW - software/hardware co-design KW - static source-code analysis KW - reverse engineering KW - quantum computing KW - Betriebssysteme KW - Netzwerkprotokolle KW - Software/Hardware Co-Design KW - statische Quellcodeanalyse KW - Reverse Engineering KW - Quanten-Computing Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-526363 SN - 978-3-86956-524-8 SN - 1613-5652 SN - 2191-1665 IS - 142 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Shlaka, Souhad A1 - Ouahib, Sara A1 - Berrada, Khalid ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - A retrospective feedback of MOOCS in Morocco BT - what is the best scenario for the Moroccan higher education? JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - The integration of MOOCs into the Moroccan Higher Education (MHE) took place in 2013 by developing different partnerships and projects at national and international levels. As elsewhere, the Covid-19 crisis has played an important role in accelerating distance education in MHE. However, based on our experience as both university professors and specialists in educational engineering, the effective execution of the digital transition has not yet been implemented. Thus, in this article, we present a retrospective feedback of MOOCs in Morocco, focusing on the policies taken by the government to better support the digital transition in general and MOOCs in particular. We are therefore seeking to establish an optimal scenario for the promotion of MOOCs, which emphasizes the policies to be considered, and which recalls the importance of conducting a delicate articulation taking into account four levels, namely environmental, institutional, organizational and individual. We conclude with recommendations that are inspired by the Moroccan academic contex that focus on the major role that MOOCs plays for university students and on maintaining lifelong learning. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624826 SP - 317 EP - 327 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Weber, Benedikt T1 - Human pose estimation for decubitus prophylaxis T1 - Verwendung von Posenabschätzung zur Dekubitusprophylaxe N2 - Decubitus is one of the most relevant diseases in nursing and the most expensive to treat. It is caused by sustained pressure on tissue, so it particularly affects bed-bound patients. This work lays a foundation for pressure mattress-based decubitus prophylaxis by implementing a solution to the single-frame 2D Human Pose Estimation problem. For this, methods of Deep Learning are employed. Two approaches are examined, a coarse-to-fine Convolutional Neural Network for direct regression of joint coordinates and a U-Net for the derivation of probability distribution heatmaps. We conclude that training our models on a combined dataset of the publicly available Bodies at Rest and SLP data yields the best results. Furthermore, various preprocessing techniques are investigated, and a hyperparameter optimization is performed to discover an improved model architecture. Another finding indicates that the heatmap-based approach outperforms direct regression. This model achieves a mean per-joint position error of 9.11 cm for the Bodies at Rest data and 7.43 cm for the SLP data. We find that it generalizes well on data from mattresses other than those seen during training but has difficulties detecting the arms correctly. Additionally, we give a brief overview of the medical data annotation tool annoto we developed in the bachelor project and furthermore conclude that the Scrum framework and agile practices enhanced our development workflow. N2 - Dekubitus ist eine der relevantesten Krankheiten in der Krankenpflege und die kostspieligste in der Behandlung. Sie wird durch anhaltenden Druck auf Gewebe verursacht, betrifft also insbesondere bettlägerige Patienten. Diese Arbeit legt eine Grundlage für druckmatratzenbasierte Dekubitusprophylaxe, indem eine Lösung für das Einzelbild-2D-Posenabschätzungsproblem implementiert wird. Dafür werden Methoden des tiefen Lernens verwendet. Zwei Ansätze, basierend auf einem Gefalteten Neuronalen grob-zu-fein Netzwerk zur direkten Regression der Gelenkkoordinaten und auf einem U-Netzwerk zur Ableitung von Wahrscheinlichkeitsverteilungsbildern, werden untersucht. Wir schlussfolgern, dass das Training unserer Modelle auf einem kombinierten Datensatz, bestehend aus den frei verfügbaren Bodies at Rest und SLP Daten, die besten Ergebnisse liefert. Weiterhin werden diverse Vorverarbeitungsverfahren untersucht und eine Hyperparameteroptimierung zum Finden einer verbesserten Modellarchitektur durchgeführt. Der wahrscheinlichkeitsverteilungsbasierte Ansatz übertrifft die direkte Regression. Dieses Modell erreicht einen durchschnittlichen Pro-Gelenk-Positionsfehler von 9,11 cm auf den Bodies at Rest und von 7,43 cm auf den SLP Daten. Wir sehen, dass es gut auf Daten anderer als der im Training verwendeten Matratzen funktioniert, aber Schwierigkeiten mit der korrekten Erkennung der Arme hat. Weiterhin geben wir eine kurze Übersicht des medizinischen Datenannotationstools annoto, welches wir im Zusammenhang mit dem Bachelorprojekt entwickelt haben, und schlussfolgern außerdem, dass Scrum und agile Praktiken unseren Entwicklungsprozess verbessert haben. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 153 KW - machine learning KW - deep learning KW - convolutional neural networks KW - pose estimation KW - decubitus KW - telemedicine KW - maschinelles Lernen KW - tiefes Lernen KW - gefaltete neuronale Netze KW - Posenabschätzung KW - Dekubitus KW - Telemedizin Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-567196 SN - 978-3-86956-551-4 SN - 1613-5652 SN - 2191-1665 IS - 153 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Theeraroungchaisri, Anuchai A1 - Thammetar, Thapanee A1 - Duangchinda, Vorasuang A1 - Khlaisang, Jintavee ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Thai MOOC academy BT - extending the platform towards a sandbox for the National Credit Bank System in Thailand JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - Thai MOOC Academy is a national digital learning platform that has been serving as a mechanism for promoting lifelong learning in Thailand since 2017. It has recently undergone significant improvements and upgrades, including the implementation of a credit bank system and a learner’s eportfolio system interconnected with the platform. Thai MOOC Academy is introducing a national credit bank system for accreditation and management, which allows for the transfer of expected learning outcomes and educational qualifications between formal education, non-formal education, and informal education. The credit bank system has five distinct features, including issuing forgery-prevented certificates, recording learning results, transferring external credits within the same wallet, accumulating learning results, and creating a QR code for verification purposes. The paper discusses the features and future potential of Thai MOOC Academy, as it is extended towards a sandbox for the national credit bank system in Thailand. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624212 SP - 163 EP - 169 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Meinel, Christoph A1 - Galbas, Michael A1 - Hagebölling, David T1 - Digitale Souveränität: Erkenntnisse aus dem deutschen Bildungssektor T1 - Digital sovereignty: insights from Germany’s education sector N2 - Digitale Technologien bieten erhebliche politische, wirtschaftliche und gesellschaftliche Chancen. Zugleich ist der Begriff digitale Souveränität zu einem Leitmotiv im deutschen Diskurs über digitale Technologien geworden: das heißt, die Fähigkeit des Staates, seine Verantwortung wahrzunehmen und die Befähigung der Gesellschaft – und des Einzelnen – sicherzustellen, die digitale Transformation selbstbestimmt zu gestalten. Exemplarisch für die Herausforderung in Deutschland und Europa, die Vorteile digitaler Technologien zu nutzen und gleichzeitig Souveränitätsbedenken zu berücksichtigen, steht der Bildungssektor. Er umfasst Bildung als zentrales öffentliches Gut, ein schnell aufkommendes Geschäftsfeld und wachsende Bestände an hochsensiblen personenbezogenen Daten. Davon ausgehend beschreibt der Bericht Wege zur Entschärfung des Spannungsverhältnisses zwischen Digitalisierung und Souveränität auf drei verschiedenen Ebenen – Staat, Wirtschaft und Individuum – anhand konkreter technischer Projekte im Bildungsbereich: die HPI Schul-Cloud (staatliche Souveränität), die MERLOT-Datenräume (wirtschaftliche Souveränität) und die openHPI-Plattform (individuelle Souveränität). N2 - Digital technology offers significant political, economic, and societal opportunities. At the same time, the notion of digital sovereignty has become a leitmotif in German discourse: the state’s capacity to assume its responsibilities and safeguard society’s – and individuals’ – ability to shape the digital transformation in a self-determined way. The education sector is exemplary for the challenge faced by Germany, and indeed Europe, of harnessing the benefits of digital technology while navigating concerns around sovereignty. It encompasses education as a core public good, a rapidly growing field of business, and growing pools of highly sensitive personal data. The report describes pathways to mitigating the tension between digitalization and sovereignty at three different levels – state, economy, and individual – through the lens of concrete technical projects in the education sector: the HPI Schul-Cloud (state sovereignty), the MERLOT data spaces (economic sovereignty), and the openHPI platform (individual sovereignty). T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 156 KW - Digitalisierung KW - digitale Souveränität KW - digitale Bildung KW - HPI Schul-Cloud KW - MERLOT KW - openHPI KW - Europäische Union KW - digitalization KW - digital sovereignty KW - digital education KW - HPI Schul-Cloud KW - MERLOT KW - openHPI KW - European Union Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-595138 SN - 978-3-86956-560-6 SN - 1613-5652 SN - 2191-1665 IS - 156 SP - 1 EP - 29 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Meinel, Christoph A1 - Galbas, Michael A1 - Hagebölling, David T1 - Digital sovereignty: insights from Germany’s education sector T1 - Digitale Souveränität: Erkenntnisse aus dem deutschen Bildungssektor N2 - Digital technology offers significant political, economic, and societal opportunities. At the same time, the notion of digital sovereignty has become a leitmotif in German discourse: the state’s capacity to assume its responsibilities and safeguard society’s – and individuals’ – ability to shape the digital transformation in a self-determined way. The education sector is exemplary for the challenge faced by Germany, and indeed Europe, of harnessing the benefits of digital technology while navigating concerns around sovereignty. It encompasses education as a core public good, a rapidly growing field of business, and growing pools of highly sensitive personal data. The report describes pathways to mitigating the tension between digitalization and sovereignty at three different levels – state, economy, and individual – through the lens of concrete technical projects in the education sector: the HPI Schul-Cloud (state sovereignty), the MERLOT data spaces (economic sovereignty), and the openHPI platform (individual sovereignty). N2 - Digitale Technologien bieten erhebliche politische, wirtschaftliche und gesellschaftliche Chancen. Zugleich ist der Begriff digitale Souveränität zu einem Leitmotiv im deutschen Diskurs über digitale Technologien geworden: das heißt, die Fähigkeit des Staates, seine Verantwortung wahrzunehmen und die Befähigung der Gesellschaft – und des Einzelnen – sicherzustellen, die digitale Transformation selbstbestimmt zu gestalten. Exemplarisch für die Herausforderung in Deutschland und Europa, die Vorteile digitaler Technologien zu nutzen und gleichzeitig Souveränitätsbedenken zu berücksichtigen, steht der Bildungssektor. Er umfasst Bildung als zentrales öffentliches Gut, ein schnell aufkommendes Geschäftsfeld und wachsende Bestände an hochsensiblen personenbezogenen Daten. Davon ausgehend beschreibt der Bericht Wege zur Entschärfung des Spannungsverhältnisses zwischen Digitalisierung und Souveränität auf drei verschiedenen Ebenen – Staat, Wirtschaft und Individuum – anhand konkreter technischer Projekte im Bildungsbereich: die HPI Schul-Cloud (staatliche Souveränität), die MERLOT-Datenräume (wirtschaftliche Souveränität) und die openHPI-Plattform (individuelle Souveränität). T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 157 KW - digitalization KW - digital sovereignty KW - digital education KW - HPI Schul-Cloud KW - MERLOT KW - openHPI KW - European Union KW - Digitalisierung KW - digitale Souveränität KW - digitale Bildung KW - HPI Schul-Cloud KW - MERLOT KW - openHPI KW - Europäische Union Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-597723 SN - 978-3-86956-561-3 SN - 1613-5652 SN - 2191-1665 IS - 157 SP - 1 EP - 27 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Moura Santos, Ana A1 - Corti, Paola A1 - Felipe Coimbra Costa, Luis ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - How to reuse inclusive stem Moocs in blended settings to engage young girls to scientific careers JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - The FOSTWOM project (2019–2022), an ERASMUS+ funding, gave METID (Politecnico di Milano) and the MOOC Técnico (Instituto Superior Técnico, University of Lisbon), together with other partners, the opportunity to support the design and creation of gender-inclusive MOOCs. Among other project outputs, we designed a toolkit and a framework that enabled the production of two MOOCs for undergraduate and graduate students in Science, Technology, Engineering and Maths (STEM) and used them as academic content free of gender stereotypes about intellectual ability. In this short paper, the authors aim to 1) briefly share the main outputs of the project; 2) tell the story of how the FOSTWOM approach together with 3) a motivational strategy, the Heroine’s Learning Journey, proved to be effective in the context of rural and marginal areas in Brazil, with young girls as a specific target audience. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624756 SP - 271 EP - 278 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Thienen, Julia von A1 - Weinstein, Theresa Julia A1 - Meinel, Christoph T1 - Creative metacognition in design thinking BT - exploring theories, educational practices, and their implications for measurement JF - Frontiers in psychology N2 - Design thinking is a well-established practical and educational approach to fostering high-level creativity and innovation, which has been refined since the 1950s with the participation of experts like Joy Paul Guilford and Abraham Maslow. Through real-world projects, trainees learn to optimize their creative outcomes by developing and practicing creative cognition and metacognition. This paper provides a holistic perspective on creativity, enabling the formulation of a comprehensive theoretical framework of creative metacognition. It focuses on the design thinking approach to creativity and explores the role of metacognition in four areas of creativity expertise: Products, Processes, People, and Places. The analysis includes task-outcome relationships (product metacognition), the monitoring of strategy effectiveness (process metacognition), an understanding of individual or group strengths and weaknesses (people metacognition), and an examination of the mutual impact between environments and creativity (place metacognition). It also reviews measures taken in design thinking education, including a distribution of cognition and metacognition, to support students in their development of creative mastery. On these grounds, we propose extended methods for measuring creative metacognition with the goal of enhancing comprehensive assessments of the phenomenon. Proposed methodological advancements include accuracy sub-scales, experimental tasks where examinees explore problem and solution spaces, combinations of naturalistic observations with capability testing, as well as physiological assessments as indirect measures of creative metacognition. KW - accuracy KW - creativity KW - design thinking KW - education KW - measurement KW - metacognition KW - innovation KW - framework Y1 - 2023 U6 - https://doi.org/10.3389/fpsyg.2023.1157001 SN - 1664-1078 VL - 14 PB - Frontiers Research Foundation CY - Lausanne ER - TY - THES A1 - Podlesny, Nikolai Jannik T1 - Quasi-identifier discovery to prevent privacy violating inferences in large high dimensional datasets T1 - Erkennung von Quasi-Identifikatoren zum Schutz der Privatsphäre vor Rückschlüssen in hochdimensionalen Datensätzen N2 - Personal data privacy is considered to be a fundamental right. It forms a part of our highest ethical standards and is anchored in legislation and various best practices from the technical perspective. Yet, protecting against personal data exposure is a challenging problem from the perspective of generating privacy-preserving datasets to support machine learning and data mining operations. The issue is further compounded by the fact that devices such as consumer wearables and sensors track user behaviours on such a fine-grained level, thereby accelerating the formation of multi-attribute and large-scale high-dimensional datasets. In recent years, increasing news coverage regarding de-anonymisation incidents, including but not limited to the telecommunication, transportation, financial transaction, and healthcare sectors, have resulted in the exposure of sensitive private information. These incidents indicate that releasing privacy-preserving datasets requires serious consideration from the pre-processing perspective. A critical problem that appears in this regard is the time complexity issue in applying syntactic anonymisation methods, such as k-anonymity, l-diversity, or t-closeness to generating privacy-preserving data. Previous studies have shown that this problem is NP-hard. This thesis focuses on large high-dimensional datasets as an example of a special case of data that is characteristically challenging to anonymise using syntactic methods. In essence, large high-dimensional data contains a proportionately large number of attributes in proportion to the population of attribute values. Applying standard syntactic data anonymisation approaches to generating privacy-preserving data based on such methods results in high information-loss, thereby rendering the data useless for analytics operations or in low privacy due to inferences based on the data when information loss is minimised. We postulate that this problem can be resolved effectively by searching for and eliminating all the quasi-identifiers present in a high-dimensional dataset. Essentially, we quantify the privacy-preserving data sharing problem as the Find-QID problem. Further, we show that despite the complex nature of absolute privacy, the discovery of QID can be achieved reliably for large datasets. The risk of private data exposure through inferences can be circumvented, and both can be practicably achieved without the need for high-performance computers. For this purpose, we present, implement, and empirically assess both mathematical and engineering optimisation methods for a deterministic discovery of privacy-violating inferences. This includes a greedy search scheme by efficiently queuing QID candidates based on their tuple characteristics, projecting QIDs on Bayesian inferences, and countering Bayesian network’s state-space-explosion with an aggregation strategy taken from multigrid context and vectorised GPU acceleration. Part of this work showcases magnitudes of processing acceleration, particularly in high dimensions. We even achieve near real-time runtime for currently impractical applications. At the same time, we demonstrate how such contributions could be abused to de-anonymise Kristine A. and Cameron R. in a public Twitter dataset addressing the US Presidential Election 2020. Finally, this work contributes, implements, and evaluates an extended and generalised version of the novel syntactic anonymisation methodology, attribute compartmentation. Attribute compartmentation promises sanitised datasets without remaining quasi-identifiers while minimising information loss. To prove its functionality in the real world, we partner with digital health experts to conduct a medical use case study. As part of the experiments, we illustrate that attribute compartmentation is suitable for everyday use and, as a positive side effect, even circumvents a common domain issue of base rate neglect. N2 - Der personenbezogene Datenschutz gilt als Grundrecht in der Europäischen Union. Dieser Schutz ist nicht nur Teil unserer höchsten ethischen Standards, sondern auch in diversen Gesetzgebungen, verschiedenen bewährten Praktiken und den höchsten Gerichtsentscheidungen verankert. In der jüngeren Vergangenheit gab es zunehmend mehr Zwischenfälle, bei dem der Datenschutz von Individuellen nicht gewahrt werden konnte. Berichterstattung zu diesen Ereignissen schließen ein, sind aber nicht beschränkt auf die Sektoren der Telekommunikation, Transport, Finanztransaktionen und Gesundheitswesen. Nach diesen Vorfällen ist die Freigabe datenschutzrechtlicher Datensätze mit Problemen behaftet. Eines dieser Probleme ist die zeitliche Komplexitätsbeschränkung syntaktischer Anonymisierungsmethoden, durch die ihre Erforschung weitgehend zum Erliegen kam. Ansätze wie k-anonymity, l-diversity oder t-closeness haben sich in Ihrer Rechenzeit als sehr komplex und zeitaufwändig erwiesen. Auch Methoden der differenziellen Privatsphäre ("differential privacy") als probabilistische Anonymisierungstechnik weisen essentielle Einschränkungen für den Schutz von personenbezogenen Daten auf. Die Kombination von mehreren, unscheinbaren Datenpunkten können Quasi-Identifikatoren bilden, welche wiederum Angreifern in Kombination mit Hilfsdaten Schlussforderungen ermöglichen um private Informationen abzuleiten. Solche beobachteten Muster entfalten ihr volles Potenzial in dünn besiedelten, hochdimensionalen Daten, da ihre große Informationsvielfalt eine extreme Vielfalt von Schlussfolgerungen fördert. Die Suche nach und Beseitigung von Schlussfolgerung-Faktoren, die als Quasi-Identifikatoren (QID) fungieren, sind für das Problem des datenschutzschonenden Datenaustauschs von wesentlicher Bedeutung. Technologische Verbesserungen wie tragbare Fitnessgeräte für Verbraucher und Sensoren, die das Alltagsverhalten verfolgen, beschleunigen die Existenz von Datensätzen mit vielen Attributen und großen Datenmengen. Diese zusätzlichen Datenquellen bieten ein enormes Versprechen, erschweren aber gleichzeitig die Anonymisierungsbemühungen aufgrund der zunehmenden Komplexität. Als Teil dieser Arbeit wird das Finden von Quasi-Identifikatoren als "Find-QID"-Problem formalisiert, mathematische und technische Optimierungsmethoden vorgestellt, implementiert und experimentell verglichen. Ferner werden Charakteristika von Quasi-Identifikatoren erforscht, neue Entdeckungsmethoden vorgestellt und experimentell abgewogen und ebenfalls neue Anonymisierungsverfahren entworfen um die Existenz selbiger Quasi-Identifikatoren nachhaltig auszuschließen. In Summe wird aufgezeigt, wie diese Neuerungen sogar eine nahezu Echtzeit-Laufzeit für derzeit un-praktizierbare Anwendungen ermöglicht. Gleichzeitig wir aufgezeigt, wie selbige Beiträge zweckentfremdet werden können, um beispielhaft Kristine A. und Cameron R. in einem öffentlichen Datensatz zur US-Präsidentschaftswahl 2020 wiederzufinden. KW - data privacy KW - quasi-identifier discovery KW - de-anonymisation KW - mpmUCC KW - Datenschutz KW - Deanonymisierung KW - Erkennung von Quasi-Identifikatoren KW - mpmUCC Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-587843 ER - TY - JOUR A1 - Steinbeck, Hendrik A1 - Meinel, Christoph ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - What makes an educational video? BT - deconstructing characteristics of video production styles for MOOCs JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - In an effort to describe and produce different formats for video instruction, the research community in technology-enhanced learning, and MOOC scholars in particular, have focused on the general style of video production: whether it is a digitally scripted “talk-and-chalk” or a “talking head” version of a learning unit. Since these production styles include various sub-elements, this paper deconstructs the inherited elements of video production in the context of educational live-streams. Using over 700 videos – both from synchronous and asynchronous modalities of large video-based platforms (YouTube and Twitch), 92 features were found in eight categories of video production. These include commonly analyzed features such as the use of green screen and a visible instructor, but also less studied features such as social media connections and changing camera perspective depending on the topic being covered. Overall, the research results enable an analysis of common video production styles and a toolbox for categorizing new formats – independent of their final (a)synchronous use in MOOCs. Keywords: video production, MOOC video styles, live-streaming. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-622086 SP - 47 EP - 58 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Kristine Jonson Carlon, May A1 - Yokoi, Kensuke A1 - Maurice Gayed, John A1 - Suyama, Hiroshi A1 - Cross, Jeffrey ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Cross, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Preparing for Society 5.0 with MOOC Capabilities Extension BT - an industry-academia collaboration on learning analytics dashboard development JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - Academia-industry collaborations are beneficial when both sides bring strengths to the partnership and the collaboration outcome is of mutual benefit. These types of collaboration projects are seen as a low-risk learning opportunity for both parties. In this paper, government initiatives that can change the business landscape and academia-industry collaborations that can provide upskilling opportunities to fill emerging business needs are discussed. In light of Japan’s push for next-level modernization, a Japanese software company took a positive stance towards building new capabilities outside what it had been offering its customers. Consequently, an academic research group is laying out infrastructure for learning analytics research. An existing learning analytics dashboard was modularized to allow the research group to focus on natural language processing experiments while the software company explores a development framework suitable for data visualization techniques and artificial intelligence development. The results of this endeavor demonstrate that companies working with academia can creatively explore collaborations outside typical university-supported avenues. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-620809 SP - 9 EP - 20 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Jin, Tonje ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - “One video fit for all” BT - game inspired online TEACHING in mathematics in STEM education JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - Online learning in mathematics has always been challenging, especially for mathematics in STEM education. This paper presents how to make “one fit for all” lecture videos for mathematics in STEM education. In general, we do believe that there is no such thing as “one fit for all” video. The curriculum requires a high level of prior knowledge in mathematics from high school to get a good understanding, and the variation of prior knowledge levels among STEM education students is often high. This creates challenges for both online teaching and on-campus teaching. This article presents experimenting and researching on a video format where students can get a real-time feeling, and which fits their needs regarding their existing prior knowledge. They have the possibility to ask and receive answers during the video without having to feel that they must jump into different sources, which helps to reduce unnecessary distractions. The fundamental video format presented here is that of dynamic branching videos, which has to little degree been researched in education related studies. The reason might be that this field is quite new for higher education, and there is relatively high requirement on the video editing skills from the teachers’ side considering the platforms that are available so far. The videos are implemented for engineering students who take the Linear Algebra course at the Norwegian University of Science and Technology in spring 2023. Feedback from the students gathered via anonymous surveys so far (N = 21) is very positive. With the high suitability for online teaching, this video format might lead the trend of online learning in the future. The design and implementation of dynamic videos in mathematics in higher education was presented for the first time at the EMOOCs conference 2023. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-621080 SP - 21 EP - 35 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Xue, Wei A1 - Bruillard, Éric ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - MOOC in private Chinese universities BT - behavior and attitude of students learning foreign languages JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - This paper investigates private university students’ language learning activities in MOOC platforms and their attitude toward it. The study explores the development of MOOC use in Chinese private universities, with a focus on two modes: online et blended. We conducted empirical studies with students learning French and Japanese as a second foreign language, using questionnaires (N = 387) and interviews (N = 20) at a private university in Wuhan. Our results revealed that the majority of students used the MOOC platform more than twice a week and focused on the MOOC video, materials and assignments. However, we also found that students showed less interest in online communication (forums). Those who worked in the blended learning mode, especially Japanese learning students, had a more positive attitude toward MOOCs than other students. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-621811 SP - 37 EP - 45 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - van Esveld, Selma A1 - de Vries, Nardo A1 - Becchetti, Sibilla A1 - Dopper, Sofia A1 - van Valkenburg, Willem ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Cross, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Impact of Mooc and Other Online Course Development on Campus Education JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - The TU Delft Extension School for Continuing Education develops and delivers MOOCs, programs and other online courses for lifelong learners and professionals worldwide focused on Science, Engineering & Design. At the beginning of 2022, we started a project to examine whether creating an online course had any impact on TU Delft campus education. Through a survey, we collected feedback from 68 TU Delft lecturers involved in developing and offering online courses and programs for lifelong learners and professionals. The lecturers reported on the impact of developing an online course on a personal and curricular level. The results showed that the developed online materials, and the acquired skills and experiences from creating online courses, were beneficial for campus education, especially during the transition to remote emergency teaching in the COVID-19 lockdown periods. In this short paper, we will describe the responses in detail and map the benefits and challenges experienced by lecturers when implementing their online course materials and newly acquired educational skills on campus. Finally, we will explore future possibilities to extend the reported, already relevant, impact of MOOCs and of other online courses on campus education. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-620785 SP - 1 EP - 8 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - CHAP A1 - Corazza, Giovanni Emanuele A1 - Thienen, Julia von ED - Glăveanu, Vlad Petre T1 - Invention T2 - The Palgrave encyclopedia of the possible N2 - This entry addresses invention from five different perspectives: (i) definition of the term, (ii) mechanisms underlying invention processes, (iii) (pre-)history of human inventions, (iv) intellectual property protection vs open innovation, and (v) case studies of great inventors. Regarding the definition, an invention is the outcome of a creative process taking place within a technological milieu, which is recognized as successful in terms of its effectiveness as an original technology. In the process of invention, a technological possibility becomes realized. Inventions are distinct from either discovery or innovation. In human creative processes, seven mechanisms of invention can be observed, yielding characteristic outcomes: (1) basic inventions, (2) invention branches, (3) invention combinations, (4) invention toolkits, (5) invention exaptations, (6) invention values, and (7) game-changing inventions. The development of humanity has been strongly shaped by inventions ever since early stone tools and the conception of agriculture. An “explosion of creativity” has been associated with Homo sapiens, and inventions in all fields of human endeavor have followed suit, engendering an exponential growth of cumulative culture. This culture development emerges essentially through a reuse of previous inventions, their revision, amendment and rededication. In sociocultural terms, humans have increasingly regulated processes of invention and invention-reuse through concepts such as intellectual property, patents, open innovation and licensing methods. Finally, three case studies of great inventors are considered: Edison, Marconi, and Montessori, next to a discussion of human invention processes as collaborative endeavors. KW - invention KW - creativity KW - invention mechanism KW - cumulative culture KW - technology KW - innovation KW - patent KW - open innovation Y1 - 2023 SN - 978-3-030-90912-3 SN - 978-3-030-90913-0 U6 - https://doi.org/10.1007/978-3-030-90913-0_14 SP - 806 EP - 814 PB - Springer International Publishing CY - Cham ER - TY - THES A1 - Traifeh, Hanadi T1 - Design Thinking in the Arab world T1 - Design Thinking in der Arabischen Welt BT - perspectives, challenges and opportunities BT - Perspektiven, Herausforderungen und Potentiale N2 - Design Thinking is a human-centered approach to innovation that has become increasingly popular globally over the last decade. While the spread of Design Thinking is well understood and documented in the Western cultural contexts, particularly in Europe and the US due to the popularity of the Stanford-Potsdam Design Thinking education model, this is not the case when it comes to non-Western cultural contexts. This thesis fills a gap identified in the literature regarding how Design Thinking emerged, was perceived, adopted, and practiced in the Arab world. The culture in that part of the world differs from that of the Western context, which impacts the mindset of people and how they interact with Design Thinking tools and methods. A mixed-methods research approach was followed in which both quantitative and qualitative methods were employed. First, two methods were used in the quantitative phase: a social media analysis using Twitter as a source of data, and an online questionnaire. The results and analysis of the quantitative data informed the design of the qualitative phase in which two methods were employed: ten semi-structured interviews, and participant observation of seven Design Thinking training events. According to the analyzed data, the Arab world appears to have had an early, though relatively weak, and slow, adoption of Design Thinking since 2006. Increasing adoption, however, has been witnessed over the last decade, especially in Saudi Arabia, the United Arab Emirates and Egypt. The results also show that despite its limited spread, Design Thinking has been practiced the most in education, information technology and communication, administrative services, and the non-profit sectors. The way it is being practiced, though, is not fully aligned with how it is being practiced and taught in the US and Europe, as most people in the region do not necessarily believe in all mindset attributes introduced by the Stanford-Potsdam tradition. Practitioners in the Arab world also seem to shy away from the 'wild side' of Design Thinking in particular, and do not fully appreciate the connection between art-design, and science-engineering. This questions the role of the educational institutions in the region since -according to the findings- they appear to be leading the movement in promoting and developing Design Thinking in the Arab world. Nonetheless, it is notable that people seem to be aware of the positive impact of applying Design Thinking in the region, and its potential to bring meaningful transformation. However, they also seem to be concerned about the current cultural, social, political, and economic challenges that may challenge this transformation. Therefore, they call for more awareness and demand to create Arabic, culturally appropriate programs to respond to the local needs. On another note, the lack of Arabic content and local case studies on Design Thinking were identified by several interviewees and were also confirmed by the participant observation as major challenges that are slowing down the spread of Design Thinking or sometimes hampering capacity building in the region. Other challenges that were revealed by the study are: changing the mindset of people, the lack of dedicated Design Thinking spaces, and the need for clear instructions on how to apply Design Thinking methods and activities. The concept of time and how Arabs deal with it, gender management during trainings, and hierarchy and power dynamics among training participants are also among the identified challenges. Another key finding revealed by the study is the confirmation of التفكير التصميمي as the Arabic term to be most widely adopted in the region to refer to Design Thinking, since four other Arabic terms were found to be associated with Design Thinking. Based on the findings of the study, the thesis concludes by presenting a list of recommendations on how to overcome the mentioned challenges and what factors should be considered when designing and implementing culturally-customized Design Thinking training in the Arab region. N2 - Design Thinking ist ein nutzerzentrierter Innovationsansatz, der in den letzten zehn Jahren weltweit an Bekanntheit gewonnen hat. Während die Verbreitung von Design Thinking im westlichen Kulturkreis – insbesondere in Europa und den USA – aufgrund der Bedeutung des Stanford-Potsdam Design Thinking-Ausbildungsmodells gut verstanden und dokumentiert ist, ist dies nicht der Fall, wenn es sich um nicht-westliche Kulturkreise handelt. Diese Arbeit schließt eine Lücke in der Literatur darüber, wie Design Thinking in der arabischen Welt entstanden ist, wahrgenommen, angenommen und praktiziert wurde. Die vorhandenen kulturellen Unterschiede zwischen der westlichen und der arabischen Welt wirken sich auch auf die Denkweise der Menschen aus, unddarauf, wie sie mit Design Thinking-Tools und -Methoden umgehen. Es wurde ein ‚Mixed Methods‘-Forschungsansatz verfolgt, d.h. sowohl quantitative als auch qualitative Methoden wurden eingesetzt. In der quantitativen Phase kamen zunächst zwei Methoden zum Einsatz: eine Social-Media-Analyse mit Twitter als Datenquelle und ein Online-Fragebogen. Die Ergebnisse und die Analyse der quantitativen Daten bildeten die Grundlage für die Gestaltung der qualitativen Phase, in der zwei Methoden angewendet wurden: zehn halbstrukturierte Interviews und die teilnehmende Beobachtung von sieben Design Thinking-Trainings. Den analysierten Daten zufolge scheint es in der arabischen Welt seit 2006 eine frühe, wenn auch relativ schwache und langsame Einführung von Design Thinking gegeben zu haben. In den letzten zehn Jahren ist jedoch eine zunehmende Akzeptanz zu beobachten, insbesondere in Saudi-Arabien, den Vereinigten Arabischen Emiraten und Ägypten. Die Ergebnisse zeigen auch, dass Design Thinking trotz seiner begrenzten Verbreitung am häufigsten im Bildungswesen, in der Informationstechnologie und Kommunikation, in der Verwaltung und im Non-Profit-Sektor angewandt wird. Die Art und Weise, wie Design Thinking praktiziert wird, stimmt jedoch nicht vollständig mit der Art und Weise überein, wie es in den USA und Europa praktiziert und gelehrt wird, da die meisten Menschen in der Region nicht unbedingt an alle Denkattribute glauben, die im Stanford-Potsdam-Modell eingeführt wurden. Die Praktiker in der arabischen Welt scheinen auch vor der "wilden Seite" des Design Thinking zurückzuschrecken und die Verbindung zwischen Kunst und Design auf der einen sowie Wissenschaft und Technik auf der anderen Seite nicht vollumfänglich zu schätzen. Dies wirft die Frage nach der Rolle von Bildungseinrichtungen in der Region auf, da sie - den Ergebnissen zufolge - die Bewegung zur Förderung und Entwicklung von Design Thinking in der arabischen Welt anzuführen scheinen. Nichtsdestotrotz ist es bemerkenswert, dass sich die Menschen der positiven Auswirkungen der Anwendung von Design Thinking in der Region und seines Potenzials, sinnvolle Veränderungen zu bewirken, bewusst zu sein scheinen. Sie scheinen jedoch auch besorgt zu sein über die aktuellen kulturellen, sozialen, politischen und wirtschaftlichen Herausforderungen, die diese Transformation in Frage stellen könnten. Daher fordern sie eine stärkere Sensibilisierung und die Schaffung von arabischen, kulturell angemessenen Programmen, um auf die lokalen Bedürfnisse einzugehen. Auch das Fehlen arabischer Inhalte und lokaler Fallstudien zu Design Thinking wurde von mehreren Befragten genannt und durch die teilnehmende Beobachtung bestätigt, da dies die Verbreitung von Design Thinking verlangsamt oder den Aufbau von Kapazitäten in der Region behindert. Weitere Herausforderungen, die sich aus der Studie ergaben, sind: die Veränderung des Mindsets der Menschen, das Fehlen spezieller Design-Thinking-Räume und der Bedarf an klaren Anweisungen zur Anwendung von Design-Thinking-Methoden und -Aktivitäten. Das Konzept von Zeit und der Umgang der arabischen Welt damit, Gender-Management während der Schulungen sowie Hierarchie und Machtdynamik unter den Schulungsteilnehmern gehören ebenfalls zu den identifizierten Herausforderungen. Ein weiteres wichtiges Ergebnis der Studie ist die Bestätigung von التفكير التصميمي als dem in der Region am weitesten verbreiteten arabischen Begriff für Design Thinking, da vier weitere arabische Begriffe mit Design Thinking in Verbindung gebracht werden konnten. Basierend auf den Ergebnissen der Studie schließt die Arbeit mit einer Liste von Empfehlungen, wie die genannten Herausforderungen überwunden werden können und welche Faktoren bei der Entwicklung und Implementierung von kulturell angepassten Design Thinking-Trainings in der arabischen Welt berücksichtigt werden sollten. KW - Design Thinking KW - human-centered design KW - the Arab world KW - emergence KW - adoption KW - implementation KW - culture KW - Design Thinking KW - Annahme KW - Kultur KW - Entstehung KW - menschenzentriertes Design KW - Implementierung KW - die arabische Welt Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-598911 ER - TY - JOUR A1 - Alario Hoyos, Carlos A1 - Delgado Kloos, Carlos A1 - Kiendl, Doris A1 - Terzieva, Liliya ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Innovat MOOC BT - teacher training on educational innovation in higher education JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - The COVID-19 pandemic has revealed the importance for university teachers to have adequate pedagogical and technological competences to cope with the various possible educational scenarios (face-to-face, online, hybrid, etc.), making use of appropriate active learning methodologies and supporting technologies to foster a more effective learning environment. In this context, the InnovaT project has been an important initiative to support the development of pedagogical and technological competences of university teachers in Latin America through several trainings aiming to promote teacher innovation. These trainings combined synchronous online training through webinars and workshops with asynchronous online training through the MOOC “Innovative Teaching in Higher Education.” This MOOC was released twice. The first run took place right during the lockdown of 2020, when Latin American teachers needed urgent training to move to emergency remote teaching overnight. The second run took place in 2022 with the return to face-to-face teaching and the implementation of hybrid educational models. This article shares the results of the design of the MOOC considering the constraints derived from the lockdowns applied in each country, the lessons learned from the delivery of such a MOOC to Latin American university teachers, and the results of the two runs of the MOOC. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624560 SP - 229 EP - 237 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Xiaoxiao, Wang A1 - Shuangshuang, Guo ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Promoting global higher education cooperation BT - taking global MOOC and online education alliance as an example JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - The massive growth of MOOCs in 2011 laid the groundwork for the achievement of SDG 4. With the various benefits of MOOCs, there is also anticipation that online education should focus on more interactivity and global collaboration. In this context, the Global MOOC and Online Education Alliance (GMA) established a diverse group of 17 world-leading universities and three online education platforms from across 14 countries on all six continents in 2020. Through nearly three years of exploration, GMA has gained experience and achieved progress in fostering global cooperation in higher education. First, in joint teaching, GMA has promoted in-depth cooperation between members inside and outside the alliance. Examples include promoting the exchange of high-quality MOOCs, encouraging the creation of Global Hybrid Classroom, and launching Global Hybrid Classroom Certificate Programs. Second, in capacity building and knowledge sharing, GMA has launched Online Education Dialogues and the Global MOOC and Online Education Conference, inviting global experts to share best practices and attracting more than 10 million viewers around the world. Moreover, GMA is collaborating with international organizations to support teachers’ professional growth, create an online learning community, and serve as a resource for further development. Third, in public advocacy, GMA has launched the SDG Hackathon and Global Massive Open Online Challenge (GMOOC) and attracted global learners to acquire knowledge and incubate their innovative ideas within a cross-cultural community to solve real-world problems that all humans face and jointly create a better future. Based on past experiences and challenges, GMA will explore more diverse cooperation models with more partners utilizing advanced technology, provide more support for digital transformation in higher education, and further promote global cooperation towards building a human community with a shared future. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-623865 SP - 85 EP - 93 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Khaneboubi, Mehdi ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Visualizing students flows to monitor persistence JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - Founded in 2013, OpenClassrooms is a French online learning company that offers both paid courses and free MOOCs on a wide range of topics, including computer science and education. In 2021, in partnership with the EDA research unit, OpenClassrooms shared a database to solve the problem of how to increase persistence in their paid courses, which consist of a series of MOOCs and human mentoring. Our statistical analysis aims to identify reasons for dropouts that are due to the course design rather than demographic predictors or external factors.We aim to identify at-risk students, i.e. those who are on the verge of dropping out at a specific moment. To achieve this, we use learning analytics to characterize student behavior. We conducted data analysis on a sample of data related to the “Web Designers” and “Instructional Design” courses. By visualizing the student flow and constructing speed and acceleration predictors, we can identify which parts of the course need to be calibrated and when particular attention should be paid to these at-risk students. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-623906 SP - 121 EP - 131 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Doğu Özdemir, Paker A1 - Can Bayer, Burak A1 - Mercan, Duygu A1 - Buyurucu, Gamze ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - MOOC-based Personalized Learning Experience (Ple) BT - an innovative approach to elective courses JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - This qualitative study explores the impact of Personalized Learning Experience (PLE) courses at a higher education institution from the perspective of undergraduate students. The PLE program requires students to take at least one of their elective courses in the form of MOOCs during their undergraduate studies. Drawing on interviews with six students across different faculties, the study identified four key themes that encapsulate the effects of PLE courses: (1) Certificate driven learning with a focus on occupation skill enhancement, (2) diverse course offerings to enhance personal and academic development, (3) learning flexibility, and (4) student satisfaction. The findings suggest that PLE courses offered through MOOC platforms allow students to broaden their academic horizons, gain valuable skills, and tailor their education to better align with their interests and goals. Furthermore, this study highlights the potential benefits of incorporating PLE courses in higher education institutions, emphasizing their role in promoting a more dynamic and student-centered learning environment. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-622098 SP - 59 EP - 66 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Ebner, Martin A1 - Edelsbrunner, Sarah A1 - Hohla-Sejkora, Katharina A1 - Lipp, Silvia A1 - Schön, Sandra ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Role of MOOCs and Imoox for Austrian Universities BT - analysis of performance agreements and activities at imoox JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - This research paper provides an overview of the current state of MOOCs (massive open online courses) and universities in Austria, focusing on the national MOOC platform iMooX.at. The study begins by presenting the results of an analysis of the performance agreements of 22 Austrian public universities for the period 2022–2024, with a specific focus on the mention of MOOC activities and iMooX. The authors find that 12 of 22 (55 %) Austrian public universities use at least one of these terms, indicating a growing interest in MOOCs and online learning. Additionally, the authors analyze internal documentation data to share insights into how many universities in Austria have produced and/or used a MOOC on the iMooX platform since its launch in 2014. These findings provide a valuable measure of the current usage and monitoring of MOOCs and iMooX among Austrian higher education institutions. Overall, this research contributes to a better understanding of the current state of MOOCs and their integration within Austrian higher education. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-622134 SP - 77 EP - 84 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Egloffstein, Marc A1 - Hünemohr, Holger A1 - Ifenthaler, Dirk ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Modularization of open online courses on the eGov-Campus BT - prospects and challenges JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - Modularization describes the transformation of MOOCs from a comprehensive academic course format into smaller, more manageable learning offerings. It can be seen as one of the prerequisites for the successful implementation of MOOC-based micro-credentials in professional education and training. This short paper reports on the development and application of a modularization framework for Open Online Courses. Using the example of eGov-Campus, a German MOOC provider for the public sector linked to both academia and formal professional development, the structural specifications for modularized MOOC offerings and a methodology for course transformation as well as associated challenges in technology, organization and educational design are outlined. Following on from this, future prospects are discussed under the headings of individualization, certification and integration. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-623888 SP - 105 EP - 112 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Neuböck, Kristina A1 - Linschinger, Nadine ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Central elements of knowledge and competence development with MOOCs BT - using the example of the OER-MOOC JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - To implement OERs at HEIs sustainably, not just technical infrastructure is required, but also well-trained staff. The University of Graz is in charge of an OER training program for university staff as part of the collaborative project Open Education Austria Advanced (OEAA) with the aim of ensuring long-term competence growth in the use and creation of OERs. The program consists of a MOOC and a guided blended learning format that was evaluated to find out which accompanying teaching and learning concepts can best facilitate targeted competence development. The evaluation of the program shows that learning videos, self-study assignments and synchronous sessions are most useful for the learning process. The results indicate that the creation of OERs is a complex process that can be undergone more effectively in the guided program. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624668 SP - 255 EP - 262 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Khlaisang, Jintavee A1 - Duangchinda, Vorasuang A1 - Thammetar, Thapanee A1 - Theeraroungchaisri, Anuchai ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Instructional design for work-based skill MOOCs BT - challenges for workforce development in Thailand JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - As Thailand moves towards becoming an innovation-driven economy, the need for human capital development has become crucial. Work-based skill MOOCs, offered on Thai MOOC, a national digital learning platform launched by Thailand Cyber University Project, ministry of Higher Education, Science, Research and Innovation, provide an effective way to overcome this challenge. This paper discusses the challenges faced in designing an instruction for work-based skill MOOCs that can serve as a foundation model for many more to come. The instructional design of work-based skill courses in Thai MOOC involves four simple steps, including course selection, learning from accredited providers, course requirements completion, and certification of acquired skills. The development of such courses is ongoing at the higher education level, vocational level, and pre-university level, which serve as a foundation model for many more work-based skill MOOC that will be offered on Thai MOOC soon. The instructional design of work-based skills courses should focus on the development of currently demanded professional competencies and skills, increasing the efficiency of work in the organization, creativity, and happiness in life that meets the human resources needs of industries in the 4.0 economy era in Thailand. This paper aims to present the challenges of designing instruction for work-based skill MOOCs and suggests effective ways to design instruction to enhance workforce development in Thailand. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624318 SP - 221 EP - 227 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Dixon, Fred A1 - Trabucchi, Stefania ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Using analytics in a large virtual classroom for Open edX JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - The main aim of this article is to explore how learning analytics and synchronous collaboration could improve course completion and learner outcomes in MOOCs, which traditionally have been delivered asynchronously. Based on our experience with developing BigBlueButton, a virtual classroom platform that provides educators with live analytics, this paper explores three scenarios with business focused MOOCs to improve outcomes and strengthen learned skills. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-623895 SP - 113 EP - 120 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Nohr, Magnus A1 - Haugsbakken, Halvdan ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - A taxonomy of video genres as a scaffolding strategy for video making in education JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - This research paper aims to introduce a novel practitioner-oriented and research-based taxonomy of video genres. This taxonomy can serve as a scaffolding strategy to support educators throughout the entire educational system in creating videos for pedagogical purposes. A taxonomy of video genres is essential as videos are highly valued resources among learners. Although the use of videos in education has been extensively researched and well-documented in systematic research reviews, gaps remain in the literature. Predominantly, researchers employ sophisticated quantitative methods and similar approaches to measure the performance of videos. This trend has led to the emergence of a strong learning analytics research tradition with its embedded literature. This body of research includes analysis of performance of videos in online courses such as Massive Open Online Courses (MOOCs). Surprisingly, this same literature is limited in terms of research outlining approaches to designing and creating educational videos, which applies to both video-based learning and online courses. This issue results in a knowledge gap, highlighting the need for developing pedagogical tools and strategies for video making. These can be found in frameworks, guidelines, and taxonomies, which can serve as scaffolding strategies. In contrast, there appears to be very few frameworks available for designing and creating videos for pedagogica purposes, apart from a few well-known frameworks. In this regard, this research paper proposes a novel taxonomy of video genres that educators can utilize when creating videos intended for use in either video-based learning environments or online courses. To create this taxonomy, a large number of videos from online courses were collected and analyzed using a mixed-method research design approach. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624294 SP - 201 EP - 220 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Staubitz, Thomas A1 - Serth, Sebastian A1 - Thomas, Max A1 - Ebner, Martin A1 - Koschutnig-Ebner, Markus A1 - Rampelt, Florian A1 - von Stetten, Alexander A1 - Wittke, Andreas ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - A metastandard for the international exchange of MOOCs BT - the MOOChub as first prototype JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - The MOOChub is a joined web-based catalog of all relevant German and Austrian MOOC platforms that lists well over 750 Massive Open Online Courses (MOOCs). Automatically building such a catalog requires that all partners describe and publicly offer the metadata of their courses in the same way. The paper at hand presents the genesis of the idea to establish a common metadata standard and the story of its subsequent development. The result of this effort is, first, an open-licensed de-facto-standard, which is based on existing commonly used standards and second, a first prototypical platform that is using this standard: the MOOChub, which lists all courses of the involved partners. This catalog is searchable and provides a more comprehensive overview of basically all MOOCs that are offered by German and Austrian MOOC platforms. Finally, the upcoming developments to further optimize the catalog and the metadata standard are reported. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624154 SP - 147 EP - 161 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Giannatelli, Ada A1 - Tomasini, Alessandra ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Descriptors and EU Standards to support the recognition of MOOCs JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - Digital technologies have enabled a variety of learning offers that opened new challenges in terms of recognition of formal, informal and non-formal learning, such as MOOCs. This paper focuses on how providing relevant data to describe a MOOC is conducive to increase the transparency of information and, ultimately, the flexibility of European higher education. The EU-funded project ECCOE took up these challenges and developed a solution by identifying the most relevant descriptors of a learning opportunity with a view to supporting a European system for micro-credentials. Descriptors indicate the specific properties of a learning opportunity according to European standards. They can provide a recognition framework also for small volumes of learning (micro-credentials) to support the integration of non-formal learning (MOOCs) into formal learning (e.g. institutional university courses) and to tackle skills shortage, upskilling and reskilling by acquiring relevant competencies. The focus on learning outcomes can facilitate the recognition of skills and competences of students and enhance both virtual and physical mobility and employability. This paper presents two contexts where ECCOE descriptors have been adopted: the Politecnico di Milano MOOC platform (Polimi Open Knowledge – POK), which is using these descriptors as the standard information to document the features of its learning opportunities, and the EU-funded Uforest project on urban forestry, which developed a blended training program for students of partner universities whose MOOCs used the ECCOE descriptors. Practice with ECCOE descriptors shows how they can be used not only to detail MOOC features, but also as a compass to design the learning offer. In addition, some rules of thumb can be derived and applied when using specific descriptors. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-623967 SP - 133 EP - 146 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Concia, Francesca A1 - Distler, Petr A1 - Law, Gareth A1 - Macerata, Elena A1 - Mariani, Mario A1 - Mossini, Eros A1 - Negrin, Maddalena A1 - Štrok, Marko ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - An experience in developing models to use MOOCs in teaching and to advocate OERs JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - Loss of expertise in the fields of Nuclear- and Radio-Chemistry (NRC) is problematic at a scientific and social level. This has been addressed by developing a MOOC, in order to let students in scientific matters discover all the benefits of NRC to society and improving their awareness of this discipline. The MOOC “Essential Radiochemistry for Society” includes current societal challenges related to health, clean and sustainable energy for safety and quality of food and agriculture. NRC teachers belonging to CINCH network were invited to use the MOOC in their teaching, according to various usage models: on the basis of these different experiences, some usage patterns were designed, describing context characteristics (number and age of students, course), activities’ scheduling and organization, results and students’ feedback, with the aim of encouraging the use of MOOCs in university teaching, as an opportunity for both lecturers and students. These models were the basis of a “toolkit for teachers”. By experiencing digital teaching resources created by different lecturers, CINCH teachers took a first meaningful step towards understanding the worth of Open Educational Resources (OER) and the importance of their creation, adoption and sharing for knowledge progress. In this paper, the entire path from MOOC concept to MOOC different usage models, to awareness-raising regarding OER is traced in conceptual stages. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624609 SP - 239 EP - 254 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Ebner, Martin A1 - Edelsbrunner, Sarah A1 - Hohla-Sejkora, Katharina A1 - Mair, Bettina A1 - Schön, Sandra A1 - Lipp, Silvia A1 - Steinkellner, Iris A1 - Stojcevic, Ivana A1 - Zwiauer, Charlotte ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Impact assessment of a MOOC platform BT - considerations, development, and results JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - In 2020, the project “iMooX – The MOOC Platform as a Service for all Austrian Universities” was launched. It is co-financed by the Austrian Ministry of Education, Science and Research. After half of the funding period, the project management wants to assess and share results and outcomes but also address (potential) additional “impacts” of the MOOC platform. Building upon work on OER impact assessment, this contribution describes in detail how the specific iMooX.at approach of impact measurement was developed. Literature review, stakeholder analysis, and problem-based interviews were the base for developing a questionnaire addressing the defined key stakeholder “MOOC creators”. The article also presents the survey results in English for the first time but focuses more on the development, strengths, and weaknesses of the selected methods. The article is seen as a contribution to the further development of impact assessment for MOOC platforms. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624222 SP - 171 EP - 186 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Haugsbakken, Halvdan A1 - Hagelia, Marianne ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - An asynchronous cooperative leaning design in a Small Private Online Course (SPOC) JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - This short paper sets out to propose a novel and interesting learning design that facilitates for cooperative learning in which students do not conduct traditional group work in an asynchronous online education setting. This learning design will be explored in a Small Private Online Course (SPOC) among teachers and school managers at a teacher education. Such an approach can be made possible by applying specific criteria commonly used to define collaborative learning. Collaboration can be defined, among other things, as a structured way of working among students that includes elements of co-laboring. The cooperative learning design involves adapting various traditional collaborative learning approaches for use in an online learning environment. A critical component of this learning design is that students work on a self-defined case project related to their professional practices. Through an iterative process, students will receive ongoing feedback and formative assessments from instructors and follow students at specific points, meaning that co-constructing of knowledge and learning takes place as the SPOC progresses. This learning design can contribute to better learning experiences and outcomes for students, and be a valuable contribution to current research discussions on learning design in Massive Open Online Courses (MOOCs). KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-622107 SP - 67 EP - 76 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Thirouard, Maria A1 - de la Villèsbrunne, Marie A1 - Bernaert, Oliver ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - From MOOC to “2M-POC” BT - an approach to transform a traditional MOOC to an efficient multi-modal learning path for companies JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - IFP School develops and produces MOOCs since 2014. After the COVID-19 crisis, the demand of our industrial and international partners to offer continuous training to their employees increased drastically in an energy transition and sustainable mobility environment that finds itself in constant and rapid evolution. Therefore, it is time for a new format of digital learning tools to efficiently and rapidly train an important number of employees. To address this new demand, in a more and more digital learning environment, we have completely changed our initial MOOC model to propose an innovative SPOC business model mixing synchronous and asynchronous modules. This paper describes the work that has been done to transform our MOOCs to a hybrid SPOC model. We changed the format itself from a standard MOOC model of several weeks to small modules of one week average more adapted to our client’s demand. We precisely engineered the exchanges between learners and the social aspect all along the SPOC duration. We propose a multimodal approach with a combination of asynchronous activities like online module, exercises, and synchronous activities like webinars with experts, and after-work sessions. Additionally, this new format increases the number of uses of the MOOC resources by our professors in our own master programs. With all these actions, we were able to reach a completion rate between 80 and 96% – total enrolled –, compared to the completion rate of 15 to 28% – total enrolled – as to be recorded in our original MOOC format. This is to be observed for small groups (50–100 learners) as SPOC but also for large groups (more than 2500 learners), as a Massive and Multimodal Private Online Course (“2M-POC”). Today a MOOC is not a simple assembly of videos, text, discussions forums and validation exercises but a complete multimodal learning path including social learning, personal followup, synchronous and asynchronous modules. We conclude that the original MOOC format is not at all suitable to propose efficient training to companies, and we must re-engineer the learning path to have a SPOC hybrid and multimodal training compatible with a cost-effective business model. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624268 SP - 187 EP - 200 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Morales-Chan, Miguel A1 - Amado-Salvatierra, Héctor R. A1 - Hernández-Rizzardini, Rocael ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Optimizing the design, pedagogical decision-making and development of MOOCs through the use of Ai-Based tools JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - This work explores the use of different generative AI tools in the design of MOOC courses. Authors in this experience employed a variety of AI-based tools, including natural language processing tools (e.g. Chat-GPT), and multimedia content authoring tools (e.g. DALLE-2, Midjourney, Tome.ai) to assist in the course design process. The aim was to address the unique challenges of MOOC course design, which includes to create engaging and effective content, to design interactive learning activities, and to assess student learning outcomes. The authors identified positive results with the incorporation of AI-based tools, which significantly improved the quality and effectiveness of MOOC course design. The tools proved particularly effective in analyzing and categorizing course content, identifying key learning objectives, and designing interactive learning activities that engaged students and facilitated learning. Moreover, the use of AI-based tools, streamlined the course design process, significantly reducing the time required to design and prepare the courses. In conclusion, the integration of generative AI tools into the MOOC course design process holds great potential for improving the quality and efficiency of these courses. Researchers and course designers should consider the advantages of incorporating generative AI tools into their design process to enhance their course offerings and facilitate student learning outcomes while also reducing the time and effort required for course development. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-623870 SP - 95 EP - 103 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - THES A1 - Santuber, Joaquin T1 - Designing for digital justice T1 - Designing for Digital Justice T1 - Diseñar para la justicia digital BT - an entanglement of people, law, and technologies in Chilean courts BT - eine Verflechtung von Menschen, Recht und Technologien in chilenischen Gerichten BT - una maraña de personas, leyes y tecnologías en los tribunales chilenos N2 - At the beginning of 2020, with COVID-19, courts of justice worldwide had to move online to continue providing judicial service. Digital technologies materialized the court practices in ways unthinkable shortly before the pandemic creating resonances with judicial and legal regulation, as well as frictions. A better understanding of the dynamics at play in the digitalization of courts is paramount for designing justice systems that serve their users better, ensure fair and timely dispute resolutions, and foster access to justice. Building on three major bodies of literature —e-justice, digitalization and organization studies, and design research— Designing for Digital Justice takes a nuanced approach to account for human and more-than-human agencies. Using a qualitative approach, I have studied in depth the digitalization of Chilean courts during the pandemic, specifically between April 2020 and September 2022. Leveraging a comprehensive source of primary and secondary data, I traced back the genealogy of the novel materializations of courts’ practices structured by the possibilities offered by digital technologies. In five (5) cases studies, I show in detail how the courts got to 1) work remotely, 2) host hearings via videoconference, 3) engage with users via social media (i.e., Facebook and Chat Messenger), 4) broadcast a show with judges answering questions from users via Facebook Live, and 5) record, stream, and upload judicial hearings to YouTube to fulfil the publicity requirement of criminal hearings. The digitalization of courts during the pandemic is characterized by a suspended normativity, which makes innovation possible yet presents risks. While digital technologies enabled the judiciary to provide services continuously, they also created the risk of displacing traditional judicial and legal regulation. Contributing to liminal innovation and digitalization research, Designing for Digital Justice theorizes four phases: 1) the pre-digitalization phase resulting in the development of regulation, 2) the hotspot of digitalization resulting in the extension of regulation, 3) the digital innovation redeveloping regulation (moving to a new, preliminary phase), and 4) the permanence of temporal practices displacing regulation. Contributing to design research Designing for Digital Justice provides new possibilities for innovation in the courts, focusing at different levels to better address tensions generated by digitalization. Fellow researchers will find in these pages a sound theoretical advancement at the intersection of digitalization and justice with novel methodological references. Practitioners will benefit from the actionable governance framework Designing for Digital Justice Model, which provides three fields of possibilities for action to design better justice systems. Only by taking into account digital, legal, and social factors can we design better systems that promote access to justice, the rule of law, and, ultimately social peace. N2 - Durch COVID-19 mussten zu Beginn des Jahres 2020 die Gerichte weltweit, um ihren Dienst fortzusetzen, Onlinekommunikation und digitale Technologien nutzen. Die digitalen Technologien haben die Gerichtspraktiken in einer Weise verändert, die kurz vor der Pandemie noch undenkbar war, was zu Resonanzen mit der Rechtsprechung und der gesetzlichen Regelung sowie zu Reibungen führte. Ein besseres Verständnis der Dynamik, die bei der Digitalisierung von Gerichten im Spiel ist, ist von entscheidender Bedeutung für die Gestaltung von Justizsystemen, die ihren Nutzern besser dienen, faire und zeitnahe Streitbeilegung gewährleisten und den Zugang zur Justiz und zur Rechtsstaatlichkeit fördern. Aufbauend auf den drei großen Themenkomplexen E-Justiz, Digitalisierung und Organisationen sowie Designforschung verfolgt „Designing for Digital Justice“ einen nuancierten Ansatz, um menschliche und nicht-menschliche Akteure zu berücksichtigen. Mit Hilfe eines qualitativen Forschungsansatzes habe ich die Digitalisierung der chilenischen Gerichte während der Pandemie, insbesondere im Zeitraum von April 2020 und September 2022, eingehend untersucht. Auf der Grundlage einer umfassenden Quelle von Primär- und Sekundärdaten habe ich die Genealogie der neuartigen Materialisierung von Gerichtspraktiken zurückverfolgt, die durch die Möglichkeiten der digitalen Technologien strukturiert wurden. In fünf (5) Fallstudien zeige ich im Detail, wie die Gerichte 1) aus der Ferne arbeiten, 2) Anhörungen per Videokonferenz abhalten, 3) mit Nutzern über soziale Medien (beispielsweise Facebook und Chat Messenger) in Kontakt treten, 4) eine Sendung mit Richtern, die Fragen von Nutzern beantworten, über Facebook Live ausstrahlen und 5) Gerichtsverhandlungen aufzeichnen, streamen und auf YouTube hochladen, um die Anforderungen an die Öffentlichkeit von Strafverhandlungen zu erfüllen. Hierbei zeigt sich, dass digitale Technologien der Justiz zwar eine kontinuierliche Bereitstellung von Dienstleistungen ermöglichten. Sie bergen aber auch die Gefahr, dass sie die traditionelle gerichtliche und rechtliche Regulierung verdrängen. Als Beitrag zum Forschungsstrom zu „Liminal Innovation“ und Digitalisierung theoretisiert „Designing for Digital Justice“ vier Phasen: 1) Vor-Digitalisierung, die zur Entwicklung von Regulierung führt, 2) der Hotspot der Digitalisierung, der zur Ausweitung der Regulierung führt, 3) digitale Innovation, die die Regulierung neu entwickelt (Übergang zu einer neuen, provisorischen Phase) und 4) die Permanenz der temporären Praktiken, die die Regulierung verdrängt. Als Beitrag zur Designforschung bietet „Designing for Digital Justice“ neue Möglichkeiten für die Gestaltung von Justizsystemen, indem es Spannungen und Interventionsebenen miteinander verbindet. Forscherkolleg*innen finden auf diesen Seiten eine fundierte theoretische Weiterentwicklung an der Schnittstelle von Digitalisierung und Gerechtigkeit sowie neue methodische Hinweise. Praktiker sollen von dem Handlungsrahmen „Designing for Digital Justice Model“ profitieren, der drei Handlungsfelder für die Gestaltung besserer Justizsysteme bietet. Nur wenn wir die digitalen, rechtlichen und sozialen Akteure berücksichtigen, können wir bessere Systeme entwerfen, die sich für den Zugang zur Justiz, die Rechtsstaatlichkeit und letztlich den sozialen Frieden einsetzen. N2 - A principios de 2020, con la COVID-19, los tribunales de justicia de todo el mundo tuvieron que ponerse en línea para continuar con el servicio. Las tecnologías digitales materializaron las prácticas de los tribunales de formas impensables poco antes de la pandemia, creando resonancias con la regulación judicial y legal, así como fricciones. Comprender mejor las dinámicas en juego en la digitalización de los tribunales es primordial para diseñar sistemas de justicia que sirvan mejor a sus usuarios, garanticen una resolución de conflictos justa y oportuna y fomenten el acceso a la justicia. Sobre la base de tres grandes temas en la literatura -justicia electrónica, digitalización y organizaciones, e investigación del diseño-, Designing for Digital Justice adopta un enfoque matizado para tener en cuenta los organismos humanos y más que humanos. Utilizando un enfoque cualitativo, he estudiado en profundidad la digitalización de los tribunales chilenos durante la pandemia, concretamente entre abril de 2020 y septiembre de 2022. Aprovechando una amplia fuente de datos primarios y secundarios, he rastreado la genealogía de las nuevas materializaciones de las prácticas de los tribunales estructuradas por las posibilidades que ofrecen las tecnologías digitales. En cinco (5) estudios de caso, muestro en detalle cómo los tribunales llegaron a 1) trabajar a distancia, 2) celebrar audiencias por videoconferencia, 3) relacionarse con los usuarios a través de las redes sociales (es decir, Facebook y Chat Messenger), 4) emitir un espectáculo con jueces que responden a las preguntas de los usuarios a través de Facebook Live, y 5) grabar, transmitir y subir las audiencias judiciales a YouTube para cumplir con el requisito de publicidad de las audiencias penales. La digitalización de los tribunales durante la pandemia se caracteriza por una normatividad suspendida, que posibilita la innovación, pero presenta riesgos. Si bien las tecnologías digitales permitieron al poder judicial prestar servicios de forma continua, también crearon el riesgo de desplazar la normativa judicial y legal tradicional. Contribuyendo a la teoría de la innovación liminar y digitalización, Designing for Digital Justice teoriza cuatro fases: 1) la fase de pre-digitalización que da lugar al desarrollo de la regulación, 2) el hotspot de digitalización que da lugar a la ampliación de la regulación, 3) la innovación liminal que vuelve a desarrollar la regulación (pasando a una nueva fase preliminar), y 4) la permanencia de prácticas temporales que desplaza la regulación. Contribuyendo a la investigación sobre el diseño, Designing for Digital Justice ofrece nuevas posibilidades de intervención para el diseño de la justicia, conectando las tensiones y los niveles para intervenir en ellos. Los colegas investigadores encontrarán en estas páginas un sólido avance teórico en la intersección de la digitalización y la justicia y novedosas referencias metodológicas. Los profesionales se beneficiarán del marco de gobernanza Designing for Digital Justice Model, que ofrece tres campos de posibilidades de actuación para diseñar mejores sistemas de justicia. Sólo teniendo en cuenta las agencias digitales, jurídicas y sociales podremos diseñar mejores sistemas que se comprometan con el acceso a la justicia, el Estado de Derecho y, en última instancia, la paz social. KW - digitalisation KW - courts of justice KW - COVID-19 KW - Chile KW - online courts KW - design KW - law KW - organization studies KW - innovation KW - COVID-19 KW - Chile KW - Gerichtsbarkeit KW - Design KW - Digitalisierung KW - Innovation KW - Recht KW - Online-Gerichte KW - Organisationsstudien KW - COVID-19 KW - Chile KW - tribunales de justicia KW - diseño KW - digitalización KW - innovación KW - Derecho KW - tribunales en línea KW - estudios de organización Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-604178 ER - TY - THES A1 - Najafi, Pejman T1 - Leveraging data science & engineering for advanced security operations T1 - Der Einsatz von Data Science & Engineering für fortschrittliche Security Operations N2 - The Security Operations Center (SOC) represents a specialized unit responsible for managing security within enterprises. To aid in its responsibilities, the SOC relies heavily on a Security Information and Event Management (SIEM) system that functions as a centralized repository for all security-related data, providing a comprehensive view of the organization's security posture. Due to the ability to offer such insights, SIEMS are considered indispensable tools facilitating SOC functions, such as monitoring, threat detection, and incident response. Despite advancements in big data architectures and analytics, most SIEMs fall short of keeping pace. Architecturally, they function merely as log search engines, lacking the support for distributed large-scale analytics. Analytically, they rely on rule-based correlation, neglecting the adoption of more advanced data science and machine learning techniques. This thesis first proposes a blueprint for next-generation SIEM systems that emphasize distributed processing and multi-layered storage to enable data mining at a big data scale. Next, with the architectural support, it introduces two data mining approaches for advanced threat detection as part of SOC operations. First, a novel graph mining technique that formulates threat detection within the SIEM system as a large-scale graph mining and inference problem, built on the principles of guilt-by-association and exempt-by-reputation. The approach entails the construction of a Heterogeneous Information Network (HIN) that models shared characteristics and associations among entities extracted from SIEM-related events/logs. Thereon, a novel graph-based inference algorithm is used to infer a node's maliciousness score based on its associations with other entities in the HIN. Second, an innovative outlier detection technique that imitates a SOC analyst's reasoning process to find anomalies/outliers. The approach emphasizes explainability and simplicity, achieved by combining the output of simple context-aware univariate submodels that calculate an outlier score for each entry. Both approaches were tested in academic and real-world settings, demonstrating high performance when compared to other algorithms as well as practicality alongside a large enterprise's SIEM system. This thesis establishes the foundation for next-generation SIEM systems that can enhance today's SOCs and facilitate the transition from human-centric to data-driven security operations. N2 - In einem Security Operations Center (SOC) werden alle sicherheitsrelevanten Prozesse, Daten und Personen einer Organisation zusammengefasst. Das Herzstück des SOCs ist ein Security Information and Event Management (SIEM)-System, welches als zentraler Speicher aller sicherheitsrelevanten Daten fungiert und einen Überblick über die Sicherheitslage einer Organisation geben kann. SIEM-Systeme sind unverzichtbare Werkzeuge für viele SOC-Funktionen wie Monitoring, Threat Detection und Incident Response. Trotz der Fortschritte bei Big-Data-Architekturen und -Analysen können die meisten SIEMs nicht mithalten. Sie fungieren nur als Protokollsuchmaschine und unterstützen keine verteilte Data Mining und Machine Learning. In dieser Arbeit wird zunächst eine Blaupause für die nächste Generation von SIEM-Systemen vorgestellt, welche Daten verteilt, verarbeitet und in mehreren Schichten speichert, damit auch Data Mining im großen Stil zu ermöglichen. Zudem werden zwei Data Mining-Ansätze vorgeschlagen, mit denen auch anspruchsvolle Bedrohungen erkannt werden können. Der erste Ansatz ist eine neue Graph-Mining-Technik, bei der SIEM-Daten als Graph strukturiert werden und Reputationsinferenz mithilfe der Prinzipien guiltby-association (Kontaktschuld) und exempt-by-reputation (Reputationsbefreiung) implementiert wird. Der Ansatz nutzt ein heterogenes Informationsnetzwerk (HIN), welches gemeinsame Eigenschaften und Assoziationen zwischen Entitäten aus Event Logs verknüpft. Des Weiteren ermöglicht ein neuer Inferenzalgorithmus die Bestimmung der Schädlichkeit eines Kontos anhand seiner Verbindungen zu anderen Entitäten im HIN. Der zweite Ansatz ist eine innovative Methode zur Erkennung von Ausreißern, die den Entscheidungsprozess eines SOC-Analysten imitiert. Diese Methode ist besonders einfach und interpretierbar, da sie einzelne univariate Teilmodelle kombiniert, die sich jeweils auf eine kontextualisierte Eigenschaft einer Entität beziehen. Beide Ansätze wurden sowohl akademisch als auch in der Praxis getestet und haben im Vergleich mit anderen Methoden auch in großen Unternehmen eine hohe Qualität bewiesen. Diese Arbeit bildet die Grundlage für die nächste Generation von SIEM-Systemen, welche den Übergang von einer personalzentrischen zu einer datenzentrischen Perspektive auf SOCs ermöglichen. KW - cybersecurity KW - endpoint security KW - threat detection KW - intrusion detection KW - apt KW - advanced threats KW - advanced persistent threat KW - zero-day KW - security analytics KW - data-driven KW - data mining KW - data science KW - anomaly detection KW - outlier detection KW - graph mining KW - graph inference KW - machine learning KW - Advanced Persistent Threats KW - fortschrittliche Angriffe KW - Anomalieerkennung KW - APT KW - Cyber-Sicherheit KW - Data-Mining KW - Data-Science KW - datengetrieben KW - Endpunktsicherheit KW - Graphableitung KW - Graph-Mining KW - Einbruchserkennung KW - Machine-Learning KW - Ausreißererkennung KW - Sicherheitsanalyse KW - Bedrohungserkennung KW - 0-day Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-612257 ER - TY - JOUR A1 - Utunen, Heini A1 - Attias, Melissa ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - xMOOCs BT - modality for mass reach during the pandemic for the World Health Organization JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - The World Health Organization designed OpenWHO.org to provide an inclusive and accessible online environment to equip learners across the globe with critical up-to-date information and to be able to effectively protect themselves in health emergencies. The platform thus focuses on the eXtended Massive Open Online Course (xMOOC) modality – contentfocused and expert-driven, one-to-many modelled, and self-paced for scalable learning. In this paper, we describe how OpenWHO utilized xMOOCs to reach mass audiences during the COVID-19 pandemic; the paper specifically examines the accessibility, language inclusivity and adaptability of hosted xMOOCs. As of February 2023, OpenWHO had 7.5 million enrolments across 200 xMOOCs on health emergency, epidemic, pandemic and other public health topics available across 65 languages, including 46 courses targeted for the COVID-19 pandemic. Our results suggest that the xMOOC modality allowed OpenWHO to expand learning during the pandemic to previously underrepresented groups, including women, participants ages 70 and older, and learners younger than age 20. The OpenWHO use case shows that xMOOCs should be considered when there is a need for massive knowledge transfer in health emergency situations, yet the approach should be context-specific according to the type of health emergency, targeted population and region. Our evidence also supports previous calls to put intervention elements that contribute to removing barriers to access at the core of learning and health information dissemination. Equity must be the fundamental principle and organizing criteria for public health work. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624788 SP - 279 EP - 289 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Thomas, Max A1 - Staubitz, Thomas A1 - Meinel, Christoph ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Preparing MOOChub metadata for the future of online learning BT - optimizing for AI recommendation services JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - With the growing number of online learning resources, it becomes increasingly difficult and overwhelming to keep track of the latest developments and to find orientation in the plethora of offers. AI-driven services to recommend standalone learning resources or even complete learning paths are discussed as a possible solution for this challenge. To function properly, such services require a well-defined set of metadata provided by the learning resource. During the last few years, the so-called MOOChub metadata format has been established as a de-facto standard by a group of MOOC providers in German-speaking countries. This format, which is based on schema.org, already delivers a quite comprehensive set of metadata. So far, this set has been sufficient to list, display, sort, filter, and search for courses on several MOOC and open educational resources (OER) aggregators. AI recommendation services and further automated integration, beyond a plain listing, have special requirements, however. To optimize the format for proper support of such systems, several extensions and modifications have to be applied. We herein report on a set of suggested changes to prepare the format for this task. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624830 SP - 329 EP - 338 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Dietz, Michael A1 - Roth, Dennis ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Student-centered re-design of an online course with card sorting BT - how to quickly get a mental model of students JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - “How can a course structure be redesigned based on empirical data to enhance the learning effectiveness through a student-centered approach using objective criteria?”, was the research question we asked. “Digital Twins for Virtual Commissioning of Production Machines” is a course using several innovative concepts including an in-depth practical part with online experiments, called virtual labs. The teaching-learning concept is continuously evaluated. Card Sorting is a popular method for designing information architectures (IA), “a practice of effectively organizing, structuring, and labeling the content of a website or application into a structuref that enables efficient navigation” [11]. In the presented higher education context, a so-called hybrid card sort was used, in which each participants had to sort 70 cards into seven predefined categories or create new categories themselves. Twelve out of 28 students voluntarily participated in the process and short interviews were conducted after the activity. The analysis of the category mapping creates a quantitative measure of the (dis-)similarity of the keywords in specific categories using hierarchical clustering (HCA). The learning designer could then interpret the results to make decisions about the number, labeling and order of sections in the course. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624843 SP - 339 EP - 350 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Kennedy, Eileen A1 - Laurillard, Diana A1 - Zeitoun, Samar ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - The Comooc model for global professional collaboration on sustainability JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - This paper presents a new design for MOOCs for professional development of skills needed to meet the UN Sustainable Development Goals – the CoMOOC or Co-designed Massive Open Online Collaboration. The CoMOOC model is based on co-design with multiple stakeholders including end-users within the professional communities the CoMOOC aims to reach. This paper shows how the CoMOOC model could help the tertiary sector deliver on the UN Sustainable Development Goals (UNSDGs) – including but not limited to SDG 4 Education – by providing a more effective vehicle for professional development at a scale that the UNSDGs require. Interviews with professionals using MOOCs, and design-based research with professionals have informed the development of the Co-MOOC model. This research shows that open, online, collaborative learning experiences are highly effective for building professional community knowledge. Moreover, this research shows that the collaborative learning design at the heart of the CoMOOC model is feasible cross-platform Research with teachers working in crisis contexts in Lebanon, many of whom were refugees, will be presented to show how this form of large scale, co-designed, online learning can support professionals, even in the most challenging contexts, such as mass displacement, where expertise is urgently required. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624803 SP - 291 EP - 303 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Wasilewski, Julie A1 - Khaneboubi, Mehdi A1 - Bruillard, Éric ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - How to detect At-Risk learners in professional finance MOOCs BT - step one JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - “Financial Analysis” is an online course designed for professionals consisting of three MOOCs, offering a professionally and institutionally recognized certificate in finance. The course is open but not free of charge and attracts mostly professionals from the banking industry. The primary objective of this study is to identify indicators that can predict learners at high risk of failure. To achieve this, we analyzed data from a previous course that had 875 enrolled learners and involve in the course during Fall 2021. We utilized correspondence analysis to examine demographic and behavioral variables. The initial results indicate that demographic factors have a minor impact on the risk of failure in comparison to learners’ behaviors on the course platform. Two primary profiles were identified: (1) successful learners who utilized all the documents offered and spent between one to two hours per week, and (2) unsuccessful learners who used less than half of the proposed documents and spent less than one hour per week. Between these groups, at-risk students were identified as those who used more than half of the proposed documents and spent more than two hours per week. The goal is to identify those in group 1 who may be at risk of failing and those in group 2 who may succeed in the current MOOC, and to implement strategies to assist all learners in achieving success. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624818 SP - 305 EP - 316 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Lorenz, Anja A1 - Bock, Stefanie A1 - Schulte-Ostermann, Juleka ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Scott, Jeffrey ED - Kristine Jonson Carlon, May ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - Challenges and proposals for introducing digital certificates in higher education infrastructures JF - EMOOCs 2023 : Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - Questions about the recognition of MOOCs within and outside higher education were already being raised in the early 2010s. Today, recognition decisions are still made more or less on a case-by-case basis. However, digital certification approaches are now emerging that could automate recognition processes. The technical development of the required machinereadable documents and infrastructures is already well advanced in some cases. The DigiCerts consortium has developed a solution based on a collective blockchain. There are ongoing and open discussions regarding the particular technology, but the institutional implementation of digital certificates raises further questions. A number of workshops have been held at the Institute for Interactive Systems at Technische Hochschule Lübeck, which have identified the need for new responsibilities for issuing certificates. It has also become clear that all members of higher education institutions need to develop skills in the use of digital certificates. KW - Digitale Bildung KW - Kursdesign KW - MOOC KW - Micro Degree KW - Online-Lehre KW - Onlinekurs KW - Onlinekurs-Produktion KW - digital education KW - e-learning KW - micro degree KW - micro-credential KW - online course creation KW - online course design KW - online teaching Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624701 SP - 263 EP - 270 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Barkowsky, Matthias A1 - Giese, Holger T1 - Triple graph grammars for multi-version models N2 - Like conventional software projects, projects in model-driven software engineering require adequate management of multiple versions of development artifacts, importantly allowing living with temporary inconsistencies. In the case of model-driven software engineering, employed versioning approaches also have to handle situations where different artifacts, that is, different models, are linked via automatic model transformations. In this report, we propose a technique for jointly handling the transformation of multiple versions of a source model into corresponding versions of a target model, which enables the use of a more compact representation that may afford improved execution time of both the transformation and further analysis operations. Our approach is based on the well-known formalism of triple graph grammars and a previously introduced encoding of model version histories called multi-version models. In addition to showing the correctness of our approach with respect to the standard semantics of triple graph grammars, we conduct an empirical evaluation that demonstrates the potential benefit regarding execution time performance. N2 - Ähnlich zu konventionellen Softwareprojekten erfordern Projekte im Bereich der modellgetriebenen Softwareentwicklung eine adäquate Verwaltung mehrerer Versionen von Entwicklungsartefakten. Eine solche Versionsverwaltung muss es insbesondere ermöglichen, zeitweise mit Inkonsistenzen zu leben. Im Fall der modellgetriebenen Softwareentwicklung muss ein verwendeter Ansatz zusätzlich mit Situationen umgehen können, in denen verschiedene Entwicklungsartefakte, das heißt verschiedene Modelle, durch automatische Modelltransformationen verknüpft sind. In diesem Bericht schlagen wir eine Technik für die integrierte Transformation mehrerer Versionen eines Quellmodells in entsprechende Versionen eines Zielmodells vor. Dies ermöglicht die Verwendung einer kompakteren Repräsentation der Modelle, was zu verbesserten Laufzeiteigenschaften der Transformation und weiterführender Operationen führen kann. Unser Ansatz basiert auf dem bekannten Formalismus der Tripel-Graph-Grammatiken und einer in früheren Arbeiten eingeführten Kodierung von Versionshistorien von Modellen. Neben einem Beweis der Korrektheit des Ansatzes in Bezug auf die standardmäßige Semantik von Tripel-Graph-Grammatiken führen wir eine empirische Evaluierung durch, die den potenziellen Performancevorteil der Technik demonstriert. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 155 KW - triple graph grammars KW - multi-version models KW - Tripel-Graph-Grammatiken KW - Modelle mit mehreren Versionen Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-573994 SN - 978-3-86956-556-9 SN - 1613-5652 SN - 2191-1665 IS - 155 SP - 28 EP - 28 ER - TY - CHAP A1 - Esveld, Selma van A1 - Vries, Nardo de A1 - Becchetti, Sibilla A1 - Dopper, Sofia A1 - Valkenburg, Willem van A1 - Carlon, May Kristine Jonson A1 - Yokoi, Kensuke A1 - Gayed, John Maurice A1 - Suyama, Hiroshi A1 - Cross, Jeffrey Scott A1 - Jin, Tonje A1 - Xue, Wei A1 - Bruillard, Éric A1 - Steinbeck, Hendrik A1 - Meinel, Christoph A1 - Özdemir, Paker Doğu A1 - Can Bayer, Burak A1 - Mercan, Duygu A1 - Buyurucu, Gamze A1 - Haugsbakken, Halvdan A1 - Hagelia, Marianne A1 - Ebner, Martin A1 - Edelsbrunner, Sarah A1 - Hohla-Sejkora, Katharina A1 - Lipp, Silvia A1 - Schön, Sandra A1 - Xiaoxiao, Wang A1 - Shuangshuang, Guo A1 - Morales-Chan, Miguel A1 - Amado-Salvatierra, Héctor R. A1 - Hernández-Rizzardini, Rocael A1 - Egloffstein, Marc A1 - Hünemohr, Holger A1 - Ifenthaler, Dirk A1 - Dixon, Fred A1 - Trabucchi, Stefania A1 - Khaneboubi, Mehdi A1 - Giannatelli, Ada A1 - Tomasini, Alessandra A1 - Staubitz, Thomas A1 - Serth, Sebastian A1 - Thomas, Max A1 - Koschutnig-Ebner, Markus A1 - Rampelt, Florian A1 - Stetten, Alexander von A1 - Wittke, Andreas A1 - Theeraroungchaisri, Anuchai A1 - Thammetar, Thapanee A1 - Duangchinda, Vorasuang A1 - Khlaisang, Jintavee A1 - Mair, Bettina A1 - Steinkellner, Iris A1 - Stojcevic, Ivana A1 - Zwiauer, Charlotte A1 - Thirouard, Maria A1 - Villèsbrunne, Marie de la A1 - Bernaert, Oliver A1 - Nohr, Magnus A1 - Alario Hoyos, Carlos A1 - Delgado Kloos, Carlos A1 - Kiendl, Doris A1 - Terzieva, Liliya A1 - Concia, Francesca A1 - Distler, Petr A1 - Law, Gareth A1 - Macerata, Elena A1 - Mariani, Mario A1 - Mossini, Eros A1 - Negrin, Maddalena A1 - Štrok, Marko A1 - Neuböck, Kristina A1 - Linschinger, Nadine A1 - Lorenz, Anja A1 - Bock, Stefanie A1 - Schulte-Ostermann, Juleka A1 - Moura Santos, Ana A1 - Corti, Paola A1 - Costa, Luis Felipe Coimbra A1 - Utunen, Heini A1 - Attias, Melissa A1 - Tokar, Anna A1 - Kennedy, Eileen A1 - Laurillard, Diana A1 - Zeitoun, Samar A1 - Wasilewski, Julie A1 - Shlaka, Souhad A1 - Ouahib, Sara A1 - Berrada, Khalid A1 - Dietz, Michael A1 - Roth, Dennis ED - Meinel, Christoph ED - Schweiger, Stefanie ED - Staubitz, Thomas ED - Conrad, Robert ED - Alario Hoyos, Carlos ED - Ebner, Martin ED - Sancassani, Susanna ED - Żur, Agnieszka ED - Friedl, Christian ED - Halawa, Sherif ED - Gamage, Dilrukshi ED - Cross, Jeffrey ED - Jonson Carlon, May Kristine ED - Deville, Yves ED - Gaebel, Michael ED - Delgado Kloos, Carlos ED - von Schmieden, Karen T1 - EMOOCs 2023 BT - Post-Covid Prospects for Massive Open Online Courses - Boost or Backlash? N2 - From June 14 to June 16, 2023, Hasso Plattner Institute, Potsdam, hosted the eighth European MOOC Stakeholder Summit (EMOOCs 2023). The pandemic is fortunately over. It has once again shown how important digital education is. How well-prepared a country was could be seen in our schools, universities, and companies. In different countries, the problems manifested themselves differently. The measures and approaches to solving the problems varied accordingly. Digital education, whether micro-credentials, MOOCs, blended learning formats, or other e-learning tools, received a major boost. EMOOCs 2023 focusses on the effects of this emergency situation. How has it affected the development and delivery of MOOCs and other e-learning offerings all over Europe? Which projects can serve as models for successful digital learning and teaching? Which roles can MOOCs and micro-credentials bear in the current business transformation? Is there a backlash to the routine we knew from pre-Corona times? Or have many things become firmly established in the meantime, e.g. remote work, hybrid conferences, etc.? Furthermore, EMOOCs 2023 has a closer look at the development and formalization of digital learning. Micro-credentials are just the starting point. Further steps in this direction would be complete online study programs or full online universities. Another main topic is the networking of learning offers and the standardization of formats and metadata. Examples of fruitful cooperations are the MOOChub, the European MOOC Consortium, and the Common Micro-Credential Framework. The learnings, derived from practical experience and research, are explored in EMOOCs 2023 in four tracks and additional workshops, covering various aspects of this field. In this publication, we present papers from the conference’s Research & Experience Track, the Business Track and the International Track. N2 - Vom 14. bis 16. Juni 2023 fand am Hasso-Plattner-Institut in Potsdam der achte European MOOC Stakeholder Summit (EMOOCs 2023) statt. Die Pandemie ist zum Glück vorbei. Sie hat einmal mehr gezeigt, wie wichtig digitale Bildung ist. Wie gut ein Land darauf vorbereitet war, zeigte sich in unseren Schulen, Universitäten und Unternehmen. In den verschiedenen Ländern haben sich die Probleme unterschiedlich manifestiert. Entsprechend unterschiedlich waren auch die Maßnahmen und Lösungsansätze. Die digitale Bildung, ob Micro-Credentials, MOOCs, Blended-Learning-Formate oder andere E-Learning-Tools, erhielt einen großen Schub. EMOOCs 2023 befasst sich mit den Auswirkungen dieser Notsituation. Wie hat sie die Entwicklung und Bereitstellung von MOOCs und anderen E-Learning-Angeboten in ganz Europa beeinflusst? Welche Projekte können als Modelle für erfolgreiches digitales Lernen und Lehren dienen? Welche Rolle können MOOCs und Micro-Credentials bei der aktuellen Transformation der Wirtschaft spielen? Gibt es eine Rückbesinnung auf die Routine, die wir aus der Zeit vor Corona kennen? Oder haben sich viele Dinge inzwischen fest etabliert, z.B. Remote Work, hybride Konferenzen, etc. Darüber hinaus wirft EMOOCs 2023 einen genaueren Blick auf die Entwicklung und Formalisierung des digitalen Lernens. Microcredentials sind nur der Anfang. Weitere Schritte in diese Richtung wären komplette Online-Studiengänge oder vollständige Online-Universitäten. Ein weiteres Schwerpunktthema ist die Vernetzung von Lernangeboten und die Standardisierung von Formaten und Metadaten. Beispiele für fruchtbare Kooperationen sind der MOOChub, das European MOOC Consortium und das Common Micro-Credential Framework. Die aus der Praxis und der Forschung gewonnenen Erkenntnisse werden auf der EMOOCs 2023 in vier Tracks und zusätzlichen Workshops zu verschiedenen Aspekten des Themas vertieft. In dieser Publikation stellen wir Beiträge aus dem Research & Experience Track, dem Business Track und dem International Track vor. KW - MOOC KW - digital education KW - e-learning KW - online course design KW - online course creation KW - micro-credential KW - micro degree KW - online teaching KW - MOOC KW - Onlinekurs KW - Digitale Bildung KW - Online-Lehre KW - Kursdesign KW - Onlinekurs-Produktion KW - Micro Degree Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-576450 ER - TY - JOUR A1 - Puri, Manish A1 - Varde, Aparna S. A1 - Melo, Gerard de T1 - Commonsense based text mining on urban policy JF - Language resources and evaluation N2 - Local laws on urban policy, i.e., ordinances directly affect our daily life in various ways (health, business etc.), yet in practice, for many citizens they remain impervious and complex. This article focuses on an approach to make urban policy more accessible and comprehensible to the general public and to government officials, while also addressing pertinent social media postings. Due to the intricacies of the natural language, ranging from complex legalese in ordinances to informal lingo in tweets, it is practical to harness human judgment here. To this end, we mine ordinances and tweets via reasoning based on commonsense knowledge so as to better account for pragmatics and semantics in the text. Ours is pioneering work in ordinance mining, and thus there is no prior labeled training data available for learning. This gap is filled by commonsense knowledge, a prudent choice in situations involving a lack of adequate training data. The ordinance mining can be beneficial to the public in fathoming policies and to officials in assessing policy effectiveness based on public reactions. This work contributes to smart governance, leveraging transparency in governing processes via public involvement. We focus significantly on ordinances contributing to smart cities, hence an important goal is to assess how well an urban region heads towards a smart city as per its policies mapping with smart city characteristics, and the corresponding public satisfaction. KW - Commonsense reasoning KW - Opinion mining KW - Ordinances KW - Smart cities KW - Social KW - media KW - Text mining Y1 - 2022 U6 - https://doi.org/10.1007/s10579-022-09584-6 SN - 1574-020X SN - 1574-0218 VL - 57 SP - 733 EP - 763 PB - Springer CY - Dordrecht [u.a.] ER - TY - JOUR A1 - Hagedorn, Christiane A1 - Serth, Sebastian A1 - Meinel, Christoph T1 - The mysterious adventures of Detective Duke BT - how storified programming MOOCs support learners in achieving their learning goals JF - Frontiers in education N2 - About 15 years ago, the first Massive Open Online Courses (MOOCs) appeared and revolutionized online education with more interactive and engaging course designs. Yet, keeping learners motivated and ensuring high satisfaction is one of the challenges today's course designers face. Therefore, many MOOC providers employed gamification elements that only boost extrinsic motivation briefly and are limited to platform support. In this article, we introduce and evaluate a gameful learning design we used in several iterations on computer science education courses. For each of the courses on the fundamentals of the Java programming language, we developed a self-contained, continuous story that accompanies learners through their learning journey and helps visualize key concepts. Furthermore, we share our approach to creating the surrounding story in our MOOCs and provide a guideline for educators to develop their own stories. Our data and the long-term evaluation spanning over four Java courses between 2017 and 2021 indicates the openness of learners toward storified programming courses in general and highlights those elements that had the highest impact. While only a few learners did not like the story at all, most learners consumed the additional story elements we provided. However, learners' interest in influencing the story through majority voting was negligible and did not show a considerable positive impact, so we continued with a fixed story instead. We did not find evidence that learners just participated in the narrative because they worked on all materials. Instead, for 10-16% of learners, the story was their main course motivation. We also investigated differences in the presentation format and concluded that several longer audio-book style videos were most preferred by learners in comparison to animated videos or different textual formats. Surprisingly, the availability of a coherent story embedding examples and providing a context for the practical programming exercises also led to a slightly higher ranking in the perceived quality of the learning material (by 4%). With our research in the context of storified MOOCs, we advance gameful learning designs, foster learner engagement and satisfaction in online courses, and help educators ease knowledge transfer for their learners. KW - gameful learning KW - storytelling KW - programming KW - learner engagement KW - course design KW - MOOCs KW - content gamification KW - narrative Y1 - 2023 U6 - https://doi.org/10.3389/feduc.2022.1016401 SN - 2504-284X VL - 7 PB - Frontiers Media CY - Lausanne ER - TY - JOUR A1 - Hecker, Pascal A1 - Steckhan, Nico A1 - Eyben, Florian A1 - Schuller, Björn Wolfgang A1 - Arnrich, Bert T1 - Voice Analysis for Neurological Disorder Recognition – A Systematic Review and Perspective on Emerging Trends JF - Frontiers in Digital Health N2 - Quantifying neurological disorders from voice is a rapidly growing field of research and holds promise for unobtrusive and large-scale disorder monitoring. The data recording setup and data analysis pipelines are both crucial aspects to effectively obtain relevant information from participants. Therefore, we performed a systematic review to provide a high-level overview of practices across various neurological disorders and highlight emerging trends. PRISMA-based literature searches were conducted through PubMed, Web of Science, and IEEE Xplore to identify publications in which original (i.e., newly recorded) datasets were collected. Disorders of interest were psychiatric as well as neurodegenerative disorders, such as bipolar disorder, depression, and stress, as well as amyotrophic lateral sclerosis amyotrophic lateral sclerosis, Alzheimer's, and Parkinson's disease, and speech impairments (aphasia, dysarthria, and dysphonia). Of the 43 retrieved studies, Parkinson's disease is represented most prominently with 19 discovered datasets. Free speech and read speech tasks are most commonly used across disorders. Besides popular feature extraction toolkits, many studies utilise custom-built feature sets. Correlations of acoustic features with psychiatric and neurodegenerative disorders are presented. In terms of analysis, statistical analysis for significance of individual features is commonly used, as well as predictive modeling approaches, especially with support vector machines and a small number of artificial neural networks. An emerging trend and recommendation for future studies is to collect data in everyday life to facilitate longitudinal data collection and to capture the behavior of participants more naturally. Another emerging trend is to record additional modalities to voice, which can potentially increase analytical performance. KW - neurological disorders KW - voice KW - speech KW - everyday life KW - multiple modalities KW - machine learning KW - disorder recognition Y1 - 2022 U6 - https://doi.org/10.3389/fdgth.2022.842301 SN - 2673-253X PB - Frontiers Media SA CY - Lausanne, Schweiz ER - TY - JOUR A1 - Ziegler, Joceline A1 - Pfitzner, Bjarne A1 - Schulz, Heinrich A1 - Saalbach, Axel A1 - Arnrich, Bert T1 - Defending against Reconstruction Attacks through Differentially Private Federated Learning for Classification of Heterogeneous Chest X-ray Data JF - Sensors N2 - Privacy regulations and the physical distribution of heterogeneous data are often primary concerns for the development of deep learning models in a medical context. This paper evaluates the feasibility of differentially private federated learning for chest X-ray classification as a defense against data privacy attacks. To the best of our knowledge, we are the first to directly compare the impact of differentially private training on two different neural network architectures, DenseNet121 and ResNet50. Extending the federated learning environments previously analyzed in terms of privacy, we simulated a heterogeneous and imbalanced federated setting by distributing images from the public CheXpert and Mendeley chest X-ray datasets unevenly among 36 clients. Both non-private baseline models achieved an area under the receiver operating characteristic curve (AUC) of 0.940.94 on the binary classification task of detecting the presence of a medical finding. We demonstrate that both model architectures are vulnerable to privacy violation by applying image reconstruction attacks to local model updates from individual clients. The attack was particularly successful during later training stages. To mitigate the risk of a privacy breach, we integrated Rényi differential privacy with a Gaussian noise mechanism into local model training. We evaluate model performance and attack vulnerability for privacy budgets ε∈{1,3,6,10}�∈{1,3,6,10}. The DenseNet121 achieved the best utility-privacy trade-off with an AUC of 0.940.94 for ε=6�=6. Model performance deteriorated slightly for individual clients compared to the non-private baseline. The ResNet50 only reached an AUC of 0.760.76 in the same privacy setting. Its performance was inferior to that of the DenseNet121 for all considered privacy constraints, suggesting that the DenseNet121 architecture is more robust to differentially private training. KW - federated learning KW - privacy and security KW - privacy attack KW - X-ray Y1 - 2022 U6 - https://doi.org/10.3390/s22145195 SN - 1424-8220 VL - 22 PB - MDPI CY - Basel, Schweiz ET - 14 ER - TY - JOUR A1 - Fehr, Jana A1 - Jaramillo-Gutierrez, Giovanna A1 - Oala, Luis A1 - Gröschel, Matthias I. A1 - Bierwirth, Manuel A1 - Balachandran, Pradeep A1 - Werneck-Leite, Alixandro A1 - Lippert, Christoph T1 - Piloting a Survey-Based Assessment of Transparency and Trustworthiness with Three Medical AI Tools JF - Healthcare N2 - Artificial intelligence (AI) offers the potential to support healthcare delivery, but poorly trained or validated algorithms bear risks of harm. Ethical guidelines stated transparency about model development and validation as a requirement for trustworthy AI. Abundant guidance exists to provide transparency through reporting, but poorly reported medical AI tools are common. To close this transparency gap, we developed and piloted a framework to quantify the transparency of medical AI tools with three use cases. Our framework comprises a survey to report on the intended use, training and validation data and processes, ethical considerations, and deployment recommendations. The transparency of each response was scored with either 0, 0.5, or 1 to reflect if the requested information was not, partially, or fully provided. Additionally, we assessed on an analogous three-point scale if the provided responses fulfilled the transparency requirement for a set of trustworthiness criteria from ethical guidelines. The degree of transparency and trustworthiness was calculated on a scale from 0% to 100%. Our assessment of three medical AI use cases pin-pointed reporting gaps and resulted in transparency scores of 67% for two use cases and one with 59%. We report anecdotal evidence that business constraints and limited information from external datasets were major obstacles to providing transparency for the three use cases. The observed transparency gaps also lowered the degree of trustworthiness, indicating compliance gaps with ethical guidelines. All three pilot use cases faced challenges to provide transparency about medical AI tools, but more studies are needed to investigate those in the wider medical AI sector. Applying this framework for an external assessment of transparency may be infeasible if business constraints prevent the disclosure of information. New strategies may be necessary to enable audits of medical AI tools while preserving business secrets. KW - artificial intelligence for health KW - quality assessment KW - transparency KW - trustworthiness Y1 - 2022 U6 - https://doi.org/10.3390/healthcare10101923 SN - 2227-9032 VL - 10 IS - 10 PB - MDPI CY - Basel, Schweiz ER - TY - THES A1 - Repke, Tim T1 - Machine-learning-assisted corpus exploration and visualisation N2 - Text collections, such as corpora of books, research articles, news, or business documents are an important resource for knowledge discovery. Exploring large document collections by hand is a cumbersome but necessary task to gain new insights and find relevant information. Our digitised society allows us to utilise algorithms to support the information seeking process, for example with the help of retrieval or recommender systems. However, these systems only provide selective views of the data and require some prior knowledge to issue meaningful queries and asses a system’s response. The advancements of machine learning allow us to reduce this gap and better assist the information seeking process. For example, instead of sighting countless business documents by hand, journalists and investigator scan employ natural language processing techniques, such as named entity recognition. Al-though this greatly improves the capabilities of a data exploration platform, the wealth of information is still overwhelming. An overview of the entirety of a dataset in the form of a two-dimensional map-like visualisation may help to circumvent this issue. Such overviews enable novel interaction paradigms for users, which are similar to the exploration of digital geographical maps. In particular, they can provide valuable context by indicating how apiece of information fits into the bigger picture.This thesis proposes algorithms that appropriately pre-process heterogeneous documents and compute the layout for datasets of all kinds. Traditionally, given high-dimensional semantic representations of the data, so-called dimensionality reduction algorithms are usedto compute a layout of the data on a two-dimensional canvas. In this thesis, we focus on text corpora and go beyond only projecting the inherent semantic structure itself. Therefore,we propose three dimensionality reduction approaches that incorporate additional information into the layout process: (1) a multi-objective dimensionality reduction algorithm to jointly visualise semantic information with inherent network information derived from the underlying data; (2) a comparison of initialisation strategies for different dimensionality reduction algorithms to generate a series of layouts for corpora that grow and evolve overtime; (3) and an algorithm that updates existing layouts by incorporating user feedback provided by pointwise drag-and-drop edits. This thesis also contains system prototypes to demonstrate the proposed technologies, including pre-processing and layout of the data and presentation in interactive user interfaces. N2 - Der Großteil unseres Wissens steckt in Textsammlungen, wie etwa Korpora von Büchern, Forschungsartikeln, Nachrichten, sowie Geschäftsunterlagen. Sie bieten somit eine wertvolle Grundlage um neue Erkennisse zu gewinnen oder relevante Informationen zu finden, allerdings sind manuelle Recherchen aufgrund stetig wachsender Datenmengen schier unmöglich. Dank der Digitalisierung können Suchmaschinen Recherchen erheblich unterstützten. Sie bieten jedoch lediglich eine selektive Sicht auf die darunterliegenden Daten und erfordern ein gewisses Vorwissen um aussagekräftige Anfragen zu stellen und die Ergebnisse richtig einzuordnen. Die Fortschritte im Bereich des maschinellen Lernens eröffnen völlig neue Möglichkeiten zur Interaktion mit Daten. Anstatt zahllose Geschäftsdokumente von Hand zu sichten, können Journalisten und Ermittler beispielsweise Techniken aus der Computerlinguistik einsetzen um automatisch Personen oder Orte im Text erkennen. Ein daraus gebildeter sogenannter Knowledge Graph kann Suchmaschinen deutlich verbessern, allerdings ist die Fülle an Informationen weiterhin überwältigend. Eine Übersicht eines gesamten Datensatzes, ähnlich einer geographischen Landkarte, ermöglicht innovative Interaktionsparadigmen und ermöglicht es Nutzern zu erkennen, wie sich bestimmte Informationen in Kontext des Gesamtbilds einfügen. In dieser Arbeit werden Algorithmen entwickelt um heterogene Daten vorzuverarbeiten und sie auf zweidimensionalen kartenähnlichen Ansichten zu verorten. Traditionell werden zur Verortung hochdimensionale semantische Vektorrepräsentationen der Daten verwendet, die anschließend mit Dimensionsreduktionsalgorithmen auf eine zweidimensionale Ebene projiziert werden. Wir fokussieren uns auf die Visualisierung von Textkorpora und gehen dabei über die Projektion der reinen inhärenten semantischen Struktur hinaus. Hierzu wurden drei Ansätze zur Dimensionsreduktion entwickelt, die zusätzliche Informationen bei der Berechnung der Positionen einbeziehen: (1) Dimensionsreduktion mit mehren Kriterien, bei der sowohl semantische Informationen, als auch inhärente Netzwerkinformationen, die aus den zugrundeliegenden Daten abgeleitet werden, zur Positionsberechnung verwendet werden; (2) Analyse des Einflusses von Initialisierungsstrategien für verschiedene Dimensionsreduktionsalgorithmen, um eine zeitlich kohärente Serie an Projektionen zu erzeugen um Korpora abzubilden, welche im Laufe der Zeit wachsen; (3) Anpassung bereits vorhandener Projektionen auf der Basis einzelner, händisch verschobener Datenpunkte. Diese Arbeit beschreibt darüber hinaus Prototypen für Benutzeroberflächen, die zur Demonstration der beschriebenen Technologien entwickelt wurden. KW - dimensionality reduction KW - corpus exploration KW - data visualisation KW - Korpusexploration KW - Datenvisualisierung KW - Dimensionsreduktion Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-562636 ER - TY - THES A1 - Jiang, Lan T1 - Discovering metadata in data files N2 - It is estimated that data scientists spend up to 80% of the time exploring, cleaning, and transforming their data. A major reason for that expenditure is the lack of knowledge about the used data, which are often from different sources and have heterogeneous structures. As a means to describe various properties of data, metadata can help data scientists understand and prepare their data, saving time for innovative and valuable data analytics. However, metadata do not always exist: some data file formats are not capable of storing them; metadata were deleted for privacy concerns; legacy data may have been produced by systems that were not designed to store and handle meta- data. As data are being produced at an unprecedentedly fast pace and stored in diverse formats, manually creating metadata is not only impractical but also error-prone, demanding automatic approaches for metadata detection. In this thesis, we are focused on detecting metadata in CSV files – a type of plain-text file that, similar to spreadsheets, may contain different types of content at arbitrary positions. We propose a taxonomy of metadata in CSV files and specifically address the discovery of three different metadata: line and cell type, aggregations, and primary keys and foreign keys. Data are organized in an ad-hoc manner in CSV files, and do not follow a fixed structure, which is assumed by common data processing tools. Detecting the structure of such files is a prerequisite of extracting information from them, which can be addressed by detecting the semantic type, such as header, data, derived, or footnote, of each line or each cell. We propose the supervised- learning approach Strudel to detect the type of lines and cells. CSV files may also include aggregations. An aggregation represents the arithmetic relationship between a numeric cell and a set of other numeric cells. Our proposed AggreCol algorithm is capable of detecting aggregations of five arithmetic functions in CSV files. Note that stylistic features, such as font style and cell background color, do not exist in CSV files. Our proposed algorithms address the respective problems by using only content, contextual, and computational features. Storing a relational table is also a common usage of CSV files. Primary keys and foreign keys are important metadata for relational databases, which are usually not present for database instances dumped as plain-text files. We propose the HoPF algorithm to holistically detect both constraints in relational databases. Our approach is capable of distinguishing true primary and foreign keys from a great amount of spurious unique column combinations and inclusion dependencies, which can be detected by state-of-the-art data profiling algorithms. N2 - Schätzungen zufolge verbringen Datenwissenschaftler bis zu 80% ihrer Zeit mit der Erkundung, Bereinigung und Umwandlung ihrer Daten. Ein Hauptgrund für diesen Aufwand ist das fehlende Wissen über die verwendeten Daten, die oft aus unterschiedlichen Quellen stammen und heterogene Strukturen aufweisen. Als Mittel zur Beschreibung verschiedener Dateneigenschaften können Metadaten Datenwissenschaftlern dabei helfen, ihre Daten zu verstehen und aufzubereiten, und so wertvolle Zeit die Datenanalysen selbst sparen. Metadaten sind jedoch nicht immer vorhanden: Zum Beispiel sind einige Dateiformate nicht in der Lage, sie zu speichern; Metadaten können aus Datenschutzgründen gelöscht worden sein; oder ältere Daten wurden möglicherweise von Systemen erzeugt, die nicht für die Speicherung und Verarbeitung von Metadaten konzipiert waren. Da Daten in einem noch nie dagewesenen Tempo produziert und in verschiedenen Formaten gespeichert werden, ist die manuelle Erstellung von Metadaten nicht nur unpraktisch, sondern auch fehleranfällig, so dass automatische Ansätze zur Metadatenerkennung erforderlich sind. In dieser Arbeit konzentrieren wir uns auf die Erkennung von Metadaten in CSV-Dateien - einer Art von Klartextdateien, die, ähnlich wie Tabellenkalkulationen, verschiedene Arten von Inhalten an beliebigen Positionen enthalten können. Wir schlagen eine Taxonomie der Metadaten in CSV-Dateien vor und befassen uns speziell mit der Erkennung von drei verschiedenen Metadaten: Zeile und Zellensemantischer Typ, Aggregationen sowie Primärschlüssel und Fremdschlüssel. Die Daten sind in CSV-Dateien ad-hoc organisiert und folgen keiner festen Struktur, wie sie von gängigen Datenverarbeitungsprogrammen angenommen wird. Die Erkennung der Struktur solcher Dateien ist eine Voraussetzung für die Extraktion von Informationen aus ihnen, die durch die Erkennung des semantischen Typs jeder Zeile oder jeder Zelle, wie z. B. Kopfzeile, Daten, abgeleitete Daten oder Fußnote, angegangen werden kann. Wir schlagen den Ansatz des überwachten Lernens, genannt „Strudel“ vor, um den strukturellen Typ von Zeilen und Zellen zu klassifizieren. CSV-Dateien können auch Aggregationen enthalten. Eine Aggregation stellt die arithmetische Beziehung zwischen einer numerischen Zelle und einer Reihe anderer numerischer Zellen dar. Der von uns vorgeschlagene „Aggrecol“-Algorithmus ist in der Lage, Aggregationen von fünf arithmetischen Funktionen in CSV-Dateien zu erkennen. Da stilistische Merkmale wie Schriftart und Zellhintergrundfarbe in CSV-Dateien nicht vorhanden sind, die von uns vorgeschlagenen Algorithmen die entsprechenden Probleme, indem sie nur die Merkmale Inhalt, Kontext und Berechnungen verwenden. Die Speicherung einer relationalen Tabelle ist ebenfalls eine häufige Verwendung von CSV-Dateien. Primär- und Fremdschlüssel sind wichtige Metadaten für relationale Datenbanken, die bei Datenbankinstanzen, die als reine Textdateien gespeichert werden, normalerweise nicht vorhanden sind. Wir schlagen den „HoPF“-Algorithmus vor, um beide Constraints in relationalen Datenbanken ganzheitlich zu erkennen. Unser Ansatz ist in der Lage, echte Primär- und Fremdschlüssel von einer großen Menge an falschen eindeutigen Spaltenkombinationen und Einschlussabhängigkeiten zu unterscheiden, die von modernen Data-Profiling-Algorithmen erkannt werden können. KW - data preparation KW - metadata detection KW - data wrangling KW - Datenaufbereitung KW - Datentransformation KW - Erkennung von Metadaten Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-566204 ER - TY - GEN A1 - Ziegler, Joceline A1 - Pfitzner, Bjarne A1 - Schulz, Heinrich A1 - Saalbach, Axel A1 - Arnrich, Bert T1 - Defending against Reconstruction Attacks through Differentially Private Federated Learning for Classification of Heterogeneous Chest X-ray Data T2 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät N2 - Privacy regulations and the physical distribution of heterogeneous data are often primary concerns for the development of deep learning models in a medical context. This paper evaluates the feasibility of differentially private federated learning for chest X-ray classification as a defense against data privacy attacks. To the best of our knowledge, we are the first to directly compare the impact of differentially private training on two different neural network architectures, DenseNet121 and ResNet50. Extending the federated learning environments previously analyzed in terms of privacy, we simulated a heterogeneous and imbalanced federated setting by distributing images from the public CheXpert and Mendeley chest X-ray datasets unevenly among 36 clients. Both non-private baseline models achieved an area under the receiver operating characteristic curve (AUC) of 0.940.94 on the binary classification task of detecting the presence of a medical finding. We demonstrate that both model architectures are vulnerable to privacy violation by applying image reconstruction attacks to local model updates from individual clients. The attack was particularly successful during later training stages. To mitigate the risk of a privacy breach, we integrated Rényi differential privacy with a Gaussian noise mechanism into local model training. We evaluate model performance and attack vulnerability for privacy budgets ε∈{1,3,6,10}�∈{1,3,6,10}. The DenseNet121 achieved the best utility-privacy trade-off with an AUC of 0.940.94 for ε=6�=6. Model performance deteriorated slightly for individual clients compared to the non-private baseline. The ResNet50 only reached an AUC of 0.760.76 in the same privacy setting. Its performance was inferior to that of the DenseNet121 for all considered privacy constraints, suggesting that the DenseNet121 architecture is more robust to differentially private training. T3 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät - 14 KW - federated learning KW - privacy and security KW - privacy attack KW - X-ray Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-581322 IS - 14 ER - TY - THES A1 - Draisbach, Uwe T1 - Efficient duplicate detection and the impact of transitivity T1 - Effiziente Dublettenerkennung und der Einfluss von Transitivität N2 - Duplicate detection describes the process of finding multiple representations of the same real-world entity in the absence of a unique identifier, and has many application areas, such as customer relationship management, genealogy and social sciences, or online shopping. Due to the increasing amount of data in recent years, the problem has become even more challenging on the one hand, but has led to a renaissance in duplicate detection research on the other hand. This thesis examines the effects and opportunities of transitive relationships on the duplicate detection process. Transitivity implies that if record pairs ⟨ri,rj⟩ and ⟨rj,rk⟩ are classified as duplicates, then also record pair ⟨ri,rk⟩ has to be a duplicate. However, this reasoning might contradict with the pairwise classification, which is usually based on the similarity of objects. An essential property of similarity, in contrast to equivalence, is that similarity is not necessarily transitive. First, we experimentally evaluate the effect of an increasing data volume on the threshold selection to classify whether a record pair is a duplicate or non-duplicate. Our experiments show that independently of the pair selection algorithm and the used similarity measure, selecting a suitable threshold becomes more difficult with an increasing number of records due to an increased probability of adding a false duplicate to an existing cluster. Thus, the best threshold changes with the dataset size, and a good threshold for a small (possibly sampled) dataset is not necessarily a good threshold for a larger (possibly complete) dataset. As data grows over time, earlier selected thresholds are no longer a suitable choice, and the problem becomes worse for datasets with larger clusters. Second, we present with the Duplicate Count Strategy (DCS) and its enhancement DCS++ two alternatives to the standard Sorted Neighborhood Method (SNM) for the selection of candidate record pairs. DCS adapts SNMs window size based on the number of detected duplicates and DCS++ uses transitive dependencies to save complex comparisons for finding duplicates in larger clusters. We prove that with a proper (domain- and data-independent!) threshold, DCS++ is more efficient than SNM without loss of effectiveness. Third, we tackle the problem of contradicting pairwise classifications. Usually, the transitive closure is used for pairwise classifications to obtain a transitively closed result set. However, the transitive closure disregards negative classifications. We present three new and several existing clustering algorithms and experimentally evaluate them on various datasets and under various algorithm configurations. The results show that the commonly used transitive closure is inferior to most other clustering algorithms, especially for the precision of results. In scenarios with larger clusters, our proposed EMCC algorithm is, together with Markov Clustering, the best performing clustering approach for duplicate detection, although its runtime is longer than Markov Clustering due to the subexponential time complexity. EMCC especially outperforms Markov Clustering regarding the precision of the results and additionally has the advantage that it can also be used in scenarios where edge weights are not available. N2 - Dubletten sind mehrere Repräsentationen derselben Entität in einem Datenbestand. Diese zu identifizieren ist das Ziel der Dublettenerkennung, wobei in der Regel Paare von Datensätzen anhand von Ähnlichkeitsmaßen miteinander verglichen und unter Verwendung eines Schwellwerts als Dublette oder Nicht-Dublette klassifiziert werden. Für Dublettenerkennung existieren verschiedene Anwendungsbereiche, beispielsweise im Kundenbeziehungsmanagement, beim Onlineshopping, der Genealogie und in den Sozialwissenschaften. Der in den letzten Jahren zu beobachtende Anstieg des gespeicherten Datenvolumens erschwert die Dublettenerkennung, da die Anzahl der benötigten Vergleiche quadratisch mit der Anzahl der Datensätze wächst. Durch Verwendung eines geeigneten Paarauswahl-Algorithmus kann die Anzahl der zu vergleichenden Paare jedoch reduziert und somit die Effizienz gesteigert werden. Die Dissertation untersucht die Auswirkungen und Möglichkeiten transitiver Beziehungen auf den Dublettenerkennungsprozess. Durch Transitivität lässt sich beispielsweise ableiten, dass aufgrund einer Klassifikation der Datensatzpaare ⟨ri,rj⟩ und ⟨rj,rk⟩ als Dublette auch die Datensätze ⟨ri,rk⟩ eine Dublette sind. Dies kann jedoch im Widerspruch zu einer paarweisen Klassifizierung stehen, denn im Unterschied zur Äquivalenz ist die Ähnlichkeit von Objekten nicht notwendigerweise transitiv. Im ersten Teil der Dissertation wird die Auswirkung einer steigenden Datenmenge auf die Wahl des Schwellwerts zur Klassifikation von Datensatzpaaren als Dublette oder Nicht-Dublette untersucht. Die Experimente zeigen, dass unabhängig von dem gewählten Paarauswahl-Algorithmus und des gewählten Ähnlichkeitsmaßes die Wahl eines geeigneten Schwellwerts mit steigender Datensatzanzahl schwieriger wird, da die Gefahr fehlerhafter Cluster-Zuordnungen steigt. Der optimale Schwellwert eines Datensatzes variiert mit dessen Größe. So ist ein guter Schwellwert für einen kleinen Datensatz (oder eine Stichprobe) nicht notwendigerweise ein guter Schwellwert für einen größeren (ggf. vollständigen) Datensatz. Steigt die Datensatzgröße im Lauf der Zeit an, so muss ein einmal gewählter Schwellwert ggf. nachjustiert werden. Aufgrund der Transitivität ist dies insbesondere bei Datensätzen mit größeren Clustern relevant. Der zweite Teil der Dissertation beschäftigt sich mit Algorithmen zur Auswahl geeigneter Datensatz-Paare für die Klassifikation. Basierend auf der Sorted Neighborhood Method (SNM) werden mit der Duplicate Count Strategy (DCS) und ihrer Erweiterung DCS++ zwei neue Algorithmen vorgestellt. DCS adaptiert die Fenstergröße in Abhängigkeit der Anzahl gefundener Dubletten und DCS++ verwendet zudem die transitive Abhängigkeit, um kostspielige Vergleiche einzusparen und trotzdem größere Cluster von Dubletten zu identifizieren. Weiterhin wird bewiesen, dass mit einem geeigneten Schwellwert DCS++ ohne Einbußen bei der Effektivität effizienter als die Sorted Neighborhood Method ist. Der dritte und letzte Teil der Arbeit beschäftigt sich mit dem Problem widersprüchlicher paarweiser Klassifikationen. In vielen Anwendungsfällen wird die Transitive Hülle zur Erzeugung konsistenter Cluster verwendet, wobei hierbei paarweise Klassifikationen als Nicht-Dublette missachtet werden. Es werden drei neue und mehrere existierende Cluster-Algorithmen vorgestellt und experimentell mit verschiedenen Datensätzen und Konfigurationen evaluiert. Die Ergebnisse zeigen, dass die Transitive Hülle den meisten anderen Clustering-Algorithmen insbesondere bei der Precision, definiert als Anteil echter Dubletten an der Gesamtzahl klassifizierter Dubletten, unterlegen ist. In Anwendungsfällen mit größeren Clustern ist der vorgeschlagene EMCC-Algorithmus trotz seiner subexponentiellen Laufzeit zusammen mit dem Markov-Clustering der beste Clustering-Ansatz für die Dublettenerkennung. EMCC übertrifft Markov Clustering insbesondere hinsichtlich der Precision der Ergebnisse und hat zusätzlich den Vorteil, dass dieser auch ohne Ähnlichkeitswerte eingesetzt werden kann. KW - Datenqualität KW - Datenintegration KW - Dubletten KW - Duplikaterkennung KW - data quality KW - data integration KW - duplicate detection KW - deduplication KW - entity resolution Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-572140 ER - TY - THES A1 - Niephaus, Fabio T1 - Exploratory tool-building platforms for polyglot virtual machines N2 - Polyglot programming allows developers to use multiple programming languages within the same software project. While it is common to use more than one language in certain programming domains, developers also apply polyglot programming for other purposes such as to re-use software written in other languages. Although established approaches to polyglot programming come with significant limitations, for example, in terms of performance and tool support, developers still use them to be able to combine languages. Polyglot virtual machines (VMs) such as GraalVM provide a new level of polyglot programming, allowing languages to directly interact with each other. This reduces the amount of glue code needed to combine languages, results in better performance, and enables tools such as debuggers to work across languages. However, only a little research has focused on novel tools that are designed to support developers in building software with polyglot VMs. One reason is that tool-building is often an expensive activity, another one is that polyglot VMs are still a moving target as their use cases and requirements are not yet well understood. In this thesis, we present an approach that builds on existing self-sustaining programming systems such as Squeak/Smalltalk to enable exploratory programming, a practice for exploring and gathering software requirements, and re-use their extensive tool-building capabilities in the context of polyglot VMs. Based on TruffleSqueak, our implementation for the GraalVM, we further present five case studies that demonstrate how our approach helps tool developers to design and build tools for polyglot programming. We further show that TruffleSqueak can also be used by application developers to build and evolve polyglot applications at run-time and by language and runtime developers to understand the dynamic behavior of GraalVM languages and internals. Since our platform allows all these developers to apply polyglot programming, it can further help to better understand the advantages, use cases, requirements, and challenges of polyglot VMs. Moreover, we demonstrate that our approach can also be applied to other polyglot VMs and that insights gained through it are transferable to other programming systems. We conclude that our research on tools for polyglot programming is an important step toward making polyglot VMs more approachable for developers in practice. With good tool support, we believe polyglot VMs can make it much more common for developers to take advantage of multiple languages and their ecosystems when building software. N2 - Durch Polyglottes Programmieren können Softwareentwickler:innen mehrere Programmiersprachen für das Bauen von Software verwenden. Während diese Art von Programmierung in einigen Programmierdomänen üblich ist, wenden Entwickler:innen Polyglottes Programmieren auch aus anderen Gründen an, wie zum Beispiel, um Software über Programmiersprachen hinweg wiederverwenden zu können. Obwohl die bestehenden Ansätze zum Polyglotten Programmieren mit erheblichen Einschränkungen verbunden sind, wie beispielsweise in Bezug zur Laufzeitperformance oder der Unterstützung durch Programmierwerkzeuge, werden sie dennoch von Entwickler:innen genutzt, um Sprachen kombinieren zu können. Mehrsprachige Ausführungsumgebungen wie zum Beispiel GraalVM bieten Polyglottes Programmieren auf einer neuen Ebene an, welche es Sprachen erlaubt, direkt miteinander zu interagieren. Dadurch wird die Menge an notwendigem Glue Code beim Kombinieren von Sprachen reduziert und die Laufzeitperformance verbessert. Außerdem können Debugger und andere Programmierwerkzeuge über mehrere Sprachen hinweg verwendet werden. Jedoch hat sich bisher nur wenig wissenschaftliche Arbeit mit neuartigen Werkzeugen beschäftigt, die darauf ausgelegt sind, Entwickler:innen beim Polyglotten Programmieren mit mehrsprachigen Ausführungsumgebungen zu unterstützen. Ein Grund dafür ist, dass das Bauen von Werkzeugen üblicherweise sehr aufwendig ist. Ein anderer Grund ist, dass sich mehrsprachige Ausführungsumgebungen immer noch ständig weiterentwickeln, da ihre Anwendungsfälle und Anforderungen noch nicht ausreichend verstanden sind. In dieser Arbeit stellen wir einen Ansatz vor, der auf selbsttragenden Programmiersystemen wie zum Beispiel Squeak/Smalltalk aufbaut, um Exploratives Programmieren, eine Praktik zum Explorieren und Erfassen von Softwareanforderungen, sowie das Wiederverwenden ihrer umfangreichen Fähigkeiten zum Bauen von Werkzeugen im Rahmen von mehrsprachigen Ausführungsumgebungen zu ermöglichen. Basierend auf TruffleSqueak, unserer Implementierung für die GraalVM, zeigen wir anhand von fünf Fallstudien, wie unser Ansatz Werkzeugentwickler:innen dabei hilft, neue Werkzeuge zum Polyglotten Programmieren zu entwerfen und zu bauen. Außerdem demonstrieren wir, dass TruffleSqueak auch von Anwendungsentwickler:innen zum Bauen und Erweitern von polyglotten Anwendungen zur Laufzeit genutzt werden kann und Sprach- sowie Laufzeitentwickler:innen dabei hilft, das dynamische Verhalten von GraalVM-Sprachen und -Interna zu verstehen. Da unsere Plattform dabei all diesen Entwickler:innen Polyglottes Programmieren erlaubt, trägt sie außerdem dazu bei, dass Vorteile, Anwendungsfälle, Anforderungen und Herausforderungen von mehrsprachigen Ausführungsumgebungen besser verstanden werden können. Darüber hinaus zeigen wir, dass unser Ansatz auch auf andere mehrsprachige Ausführungsumgebungen angewandt werden kann und dass die Erkenntnisse, die man durch unseren Ansatz gewinnen kann, auch auf andere Programmiersysteme übertragbar sind. Wir schlussfolgern, dass unsere Forschung an Werkzeugen zum Polyglotten Programmieren ein wichtiger Schritt ist, um mehrsprachige Ausführungsumgebungen zugänglicher für Entwickler:innen in der Praxis zu machen. Wir sind davon überzeugt, dass diese Ausführungsumgebungen mit guter Werkzeugunterstützung dazu führen können, dass Softwareentwickler:innen häufiger von den Vorteilen der Verwendung mehrerer Programmiersprachen zum Bauen von Software profitieren wollen. KW - polyglot programming KW - polyglottes Programmieren KW - programming tools KW - Programmierwerkzeuge KW - Smalltalk KW - Smalltalk KW - GraalVM KW - GraalVM KW - virtual machines KW - virtuelle Maschinen Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-571776 ER - TY - GEN A1 - Fehr, Jana A1 - Jaramillo-Gutierrez, Giovanna A1 - Oala, Luis A1 - Gröschel, Matthias I. A1 - Bierwirth, Manuel A1 - Balachandran, Pradeep A1 - Werneck-Leite, Alixandro A1 - Lippert, Christoph T1 - Piloting a Survey-Based Assessment of Transparency and Trustworthiness with Three Medical AI Tools T2 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät N2 - Artificial intelligence (AI) offers the potential to support healthcare delivery, but poorly trained or validated algorithms bear risks of harm. Ethical guidelines stated transparency about model development and validation as a requirement for trustworthy AI. Abundant guidance exists to provide transparency through reporting, but poorly reported medical AI tools are common. To close this transparency gap, we developed and piloted a framework to quantify the transparency of medical AI tools with three use cases. Our framework comprises a survey to report on the intended use, training and validation data and processes, ethical considerations, and deployment recommendations. The transparency of each response was scored with either 0, 0.5, or 1 to reflect if the requested information was not, partially, or fully provided. Additionally, we assessed on an analogous three-point scale if the provided responses fulfilled the transparency requirement for a set of trustworthiness criteria from ethical guidelines. The degree of transparency and trustworthiness was calculated on a scale from 0% to 100%. Our assessment of three medical AI use cases pin-pointed reporting gaps and resulted in transparency scores of 67% for two use cases and one with 59%. We report anecdotal evidence that business constraints and limited information from external datasets were major obstacles to providing transparency for the three use cases. The observed transparency gaps also lowered the degree of trustworthiness, indicating compliance gaps with ethical guidelines. All three pilot use cases faced challenges to provide transparency about medical AI tools, but more studies are needed to investigate those in the wider medical AI sector. Applying this framework for an external assessment of transparency may be infeasible if business constraints prevent the disclosure of information. New strategies may be necessary to enable audits of medical AI tools while preserving business secrets. T3 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät - 15 KW - artificial intelligence for health KW - quality assessment KW - transparency KW - trustworthiness Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-583281 IS - 15 ER - TY - THES A1 - Rothenberger, Ralf T1 - Satisfiability thresholds for non-uniform random k-SAT T1 - Erfüllbarkeitsschwellwerte für nicht-uniformes zufälliges k-SAT N2 - Boolean Satisfiability (SAT) is one of the problems at the core of theoretical computer science. It was the first problem proven to be NP-complete by Cook and, independently, by Levin. Nowadays it is conjectured that SAT cannot be solved in sub-exponential time. Thus, it is generally assumed that SAT and its restricted version k-SAT are hard to solve. However, state-of-the-art SAT solvers can solve even huge practical instances of these problems in a reasonable amount of time. Why is SAT hard in theory, but easy in practice? One approach to answering this question is investigating the average runtime of SAT. In order to analyze this average runtime the random k-SAT model was introduced. The model generates all k-SAT instances with n variables and m clauses with uniform probability. Researching random k-SAT led to a multitude of insights and tools for analyzing random structures in general. One major observation was the emergence of the so-called satisfiability threshold: A phase transition point in the number of clauses at which the generated formulas go from asymptotically almost surely satisfiable to asymptotically almost surely unsatisfiable. Additionally, instances around the threshold seem to be particularly hard to solve. In this thesis we analyze a more general model of random k-SAT that we call non-uniform random k-SAT. In contrast to the classical model each of the n Boolean variables now has a distinct probability of being drawn. For each of the m clauses we draw k variables according to the variable distribution and choose their signs uniformly at random. Non-uniform random k-SAT gives us more control over the distribution of Boolean variables in the resulting formulas. This allows us to tailor distributions to the ones observed in practice. Notably, non-uniform random k-SAT contains the previously proposed models random k-SAT, power-law random k-SAT and geometric random k-SAT as special cases. We analyze the satisfiability threshold in non-uniform random k-SAT depending on the variable probability distribution. Our goal is to derive conditions on this distribution under which an equivalent of the satisfiability threshold conjecture holds. We start with the arguably simpler case of non-uniform random 2-SAT. For this model we show under which conditions a threshold exists, if it is sharp or coarse, and what the leading constant of the threshold function is. These are exactly the three ingredients one needs in order to prove or disprove the satisfiability threshold conjecture. For non-uniform random k-SAT with k=3 we only prove sufficient conditions under which a threshold exists. We also show some properties of the variable probabilities under which the threshold is sharp in this case. These are the first results on the threshold behavior of non-uniform random k-SAT. N2 - Das Boolesche Erfüllbarkeitsproblem (SAT) ist eines der zentralsten Probleme der theoretischen Informatik. Es war das erste Problem, dessen NP-Vollständigkeit nachgewiesen wurde, von Cook und Levin unabhängig voneinander. Heutzutage wird vermutet, dass SAT nicht in subexponentialler Zeit gelöst werden kann. Darum wird allgemein angenommen, dass SAT und seine eingeschränkte Version k-SAT nicht effizient zu lösen sind. Trotzdem können moderne SAT solver sogar riesige Echtweltinstanzen dieser Probleme in angemessener Zeit lösen. Warum ist SAT theoretisch schwer, aber einfach in der Praxis? Ein Ansatz um diese Frage zu beantworten ist die Untersuchung der durchschnittlichen Laufzeit von SAT. Um diese durchschnittliche oder typische Laufzeit analysieren zu können, wurde zufälliges k-SAT eingeführt. Dieses Modell erzeugt all k-SAT-Instanzen mit n Variablen und m Klauseln mit gleicher Wahrscheinlichkeit. Die Untersuchung des Zufallsmodells für k-SAT führte zu einer Vielzahl von Erkenntnissen und Techniken zur Untersuchung zufälliger Strukturen im Allgemeinen. Eine der größten Entdeckungen in diesem Zusammenhang war das Auftreten des sogenannten Erfüllbarkeitsschwellwerts: Ein Phasenübergang in der Anzahl der Klauseln, an dem die generierten Formeln von asymptotisch sicher erfüllbar zu asymptotisch sicher unerfüllbar wechseln. Zusätzlich scheinen Instanzen, die um diesen Übergang herum erzeugt werden, besonders schwer zu lösen zu sein. In dieser Arbeit analysieren wir ein allgemeineres Zufallsmodell für k-SAT, das wir nichtuniformes zufälliges k-SAT nennen. Im Gegensatz zum klassischen Modell, hat jede Boolesche Variable jetzt eine bestimmte Wahrscheinlichkeit gezogen zu werden. Für jede der m Klauseln ziehen wir k Variablen entsprechend ihrer Wahrscheinlichkeitsverteilung und wählen ihre Vorzeichen uniform zufällig. Nichtuniformes zufälliges k-SAT gibt uns mehr Kontrolle über die Verteilung Boolescher Variablen in den resultierenden Formeln. Das erlaubt uns diese Verteilungen auf die in der Praxis beobachteten zuzuschneiden. Insbesondere enthält nichtuniformes zufälliges k-SAT die zuvor vorgestellten Modelle zufälliges k-SAT, skalenfreies zufälliges k-SAT und geometrisches zufälliges k-SAT als Spezialfälle. Wir analysieren den Erfüllbarkeitsschwellwert in nichtuniformem zufälligen k-SAT abhängig von den Wahrscheinlichkeitsverteilungen für Variablen. Unser Ziel ist es, Bedingungen an diese Verteilungen abzuleiten, unter denen ein Äquivalent der Erfüllbarkeitsschwellwertsvermutung für zufälliges k-SAT gilt. Wir fangen mit dem wahrscheinlich einfacheren Modell nichtuniformem zufälligen 2-SAT an. Für dieses Modell zeigen wir, unter welchen Bedingungen ein Schwellwert existiert, ob er steil oder flach ansteigt und was die führende Konstante der Schwellwertfunktion ist. Das sind genau die Zutaten, die man benötigt um die Erfüllbarkeitsschwellwertsvermutung zu bestätigen oder zu widerlegen. Für nichtuniformes zufälliges k-SAT mit k≥3 zeigen wir nur hinreichende Bedingungen, unter denen ein Schwellwert existiert. Wir zeigen außerdem einige Eigenschaften der Variablenwahrscheinlichkeiten, die dazu führen, dass der Schwellwert steil ansteigt. Dies sind unseres Wissens nach die ersten allgemeinen Resultate zum Schwellwertverhalten von nichtuniformem zufälligen k-SAT. KW - Boolean satisfiability KW - random k-SAT KW - satisfiability threshold KW - non-uniform distribution KW - Boolsche Erfüllbarkeit KW - nicht-uniforme Verteilung KW - zufälliges k-SAT KW - Erfüllbarkeitsschwellwert Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-549702 ER - TY - JOUR A1 - Hagedorn, Christopher A1 - Huegle, Johannes A1 - Schlosser, Rainer T1 - Understanding unforeseen production downtimes in manufacturing processes using log data-driven causal reasoning JF - Journal of intelligent manufacturing N2 - In discrete manufacturing, the knowledge about causal relationships makes it possible to avoid unforeseen production downtimes by identifying their root causes. Learning causal structures from real-world settings remains challenging due to high-dimensional data, a mix of discrete and continuous variables, and requirements for preprocessing log data under the causal perspective. In our work, we address these challenges proposing a process for causal reasoning based on raw machine log data from production monitoring. Within this process, we define a set of transformation rules to extract independent and identically distributed observations. Further, we incorporate a variable selection step to handle high-dimensionality and a discretization step to include continuous variables. We enrich a commonly used causal structure learning algorithm with domain-related orientation rules, which provides a basis for causal reasoning. We demonstrate the process on a real-world dataset from a globally operating precision mechanical engineering company. The dataset contains over 40 million log data entries from production monitoring of a single machine. In this context, we determine the causal structures embedded in operational processes. Further, we examine causal effects to support machine operators in avoiding unforeseen production stops, i.e., by detaining machine operators from drawing false conclusions on impacting factors of unforeseen production stops based on experience. KW - Causal structure learning KW - Log data KW - Causal inference KW - Manufacturing KW - industry Y1 - 2022 U6 - https://doi.org/10.1007/s10845-022-01952-x SN - 0956-5515 SN - 1572-8145 VL - 33 IS - 7 SP - 2027 EP - 2043 PB - Springer CY - Dordrecht ER - TY - THES A1 - Jain, Nitisha T1 - Representation and curation of knowledge graphs with embeddings N2 - Knowledge graphs are structured repositories of knowledge that store facts about the general world or a particular domain in terms of entities and their relationships. Owing to the heterogeneity of use cases that are served by them, there arises a need for the automated construction of domain- specific knowledge graphs from texts. While there have been many research efforts towards open information extraction for automated knowledge graph construction, these techniques do not perform well in domain-specific settings. Furthermore, regardless of whether they are constructed automatically from specific texts or based on real-world facts that are constantly evolving, all knowledge graphs inherently suffer from incompleteness as well as errors in the information they hold. This thesis investigates the challenges encountered during knowledge graph construction and proposes techniques for their curation (a.k.a. refinement) including the correction of semantic ambiguities and the completion of missing facts. Firstly, we leverage existing approaches for the automatic construction of a knowledge graph in the art domain with open information extraction techniques and analyse their limitations. In particular, we focus on the challenging task of named entity recognition for artwork titles and show empirical evidence of performance improvement with our proposed solution for the generation of annotated training data. Towards the curation of existing knowledge graphs, we identify the issue of polysemous relations that represent different semantics based on the context. Having concrete semantics for relations is important for downstream appli- cations (e.g. question answering) that are supported by knowledge graphs. Therefore, we define the novel task of finding fine-grained relation semantics in knowledge graphs and propose FineGReS, a data-driven technique that discovers potential sub-relations with fine-grained meaning from existing pol- ysemous relations. We leverage knowledge representation learning methods that generate low-dimensional vectors (or embeddings) for knowledge graphs to capture their semantics and structure. The efficacy and utility of the proposed technique are demonstrated by comparing it with several baselines on the entity classification use case. Further, we explore the semantic representations in knowledge graph embed- ding models. In the past decade, these models have shown state-of-the-art results for the task of link prediction in the context of knowledge graph comple- tion. In view of the popularity and widespread application of the embedding techniques not only for link prediction but also for different semantic tasks, this thesis presents a critical analysis of the embeddings by quantitatively measuring their semantic capabilities. We investigate and discuss the reasons for the shortcomings of embeddings in terms of the characteristics of the underlying knowledge graph datasets and the training techniques used by popular models. Following up on this, we propose ReasonKGE, a novel method for generating semantically enriched knowledge graph embeddings by taking into account the semantics of the facts that are encapsulated by an ontology accompanying the knowledge graph. With a targeted, reasoning-based method for generating negative samples during the training of the models, ReasonKGE is able to not only enhance the link prediction performance, but also reduce the number of semantically inconsistent predictions made by the resultant embeddings, thus improving the quality of knowledge graphs. N2 - Wissensgraphen sind strukturierte Wissenssammlungen, die Fakten über die allgemeine Welt oder eine bestimmte Dom¨ane in Form von Entitäten und deren Beziehungen speichern. Aufgrund der Heterogenität der Anwendungsfälle, für die sie verwendet werden, besteht ein Bedarf an der automatischen Erstellung von domänenspezifischen Wissensgraphen aus Texten. Obwohl es viele Forschungsbem¨uhungen in Richtung offener Informationsextraktion für die automatische Konstruktion von Wissensgraphen gegeben hat, sind diese Techniken in domänenspezifischen Umgebungen nicht sehr leistungsfähig. Darüber hinaus leiden alle Wissensgraphen, unabhängig davon, ob sie automatisch aus spezifischen Texten oder auf der Grundlage realer Fakten, die sich ständig weiterentwickeln, konstruiert werden, unter Unvollständigkeit und Fehlern in den darin enthaltenen Informationen. Diese Arbeit untersucht die Herausforderungen, die bei der Konstruktion von Wissensgraphen auftreten, und schlägt Techniken zu ihrer Kuratierung (auch bekannt als Verfeinerung) vor, einschließlich der Korrektur semantischer Mehrdeutigkeiten und der Vervollständigung fehlender Fakten. Zunächst nutzen wir bestehende Ansätze für die automatische Erstellung eines Wissensgraphen im Kunstbereich mit offenen Informationsextraktionstechniken und analysieren deren Grenzen. Insbesondere konzentrieren wir uns auf die anspruchsvolle Aufgabe der Named Entity Recognition für Kunstwerke und zeigen empirische Belege für eine Leistungsverbesserung mit der von uns vorgeschlagenen Lösung für die Generierung von annotierten Trainingsdaten. Im Hinblick auf die Kuratierung bestehender Wissensgraphen identifizieren wir das Problem polysemer Relationen, die je nach Kontext unterschiedliche Semantiken repräsentieren. Konkrete Semantiken für Relationen sind wichtig für nachgelagerte Anwendungen (z.B. Fragenbeantwortung), die durch Wissensgraphen unterstützt werden. Daher definieren wir die neuartige Aufgabe, feinkörnige Relationssemantiken in Wissensgraphen zu finden und schlagen FineGReS vor, eine datengesteuerte Technik, die eine datengesteuerte Technik, die potenzielle Unterbeziehungen mit feinkörniger Bedeutung aus bestehenden polysemen Beziehungen entdeckt. Wir nutzen Lernmethoden zur Wissensrepräsentation, die niedrigdimensionale Vektoren (oder Einbettungen) für Wissensgraphen erzeugen, um deren Semantik und Struktur zu erfassen. Die Wirksamkeit und Nützlichkeit der vorgeschlagenen Technik wird durch den Vergleich mit verschiedenen Basisverfahren im Anwendungsfall der Entitätsklassifizierung demonstriert. Darüber hinaus untersuchen wir die semantischen Repräsentationen in Modellen zur Einbettung von Wissensgraphen. In den letzten zehn Jahren haben diese Modelle in den letzten zehn Jahren die besten Ergebnisse bei der Vorhersage von Links im Zusammenhang mit der Vervollständigung von Wissensgraphen erzielt. Angesichts der Popularität und der weit verbreiteten Anwendung der Einbettungstechniken nicht nur für die Linkvorhersage, sondern auch für andere semantische Aufgaben, wird in dieser Arbeit eine kritische Analyse der Einbettungen durch quantitative Messung ihrer semantischen Fähigkeiten vorgenommen. Wir untersuchen und diskutieren die Gründe für die Unzulänglichkeiten von Einbettungen in Bezug auf die Eigenschaften der zugrundeliegenden Wissensgraphen-Datensätze und die von den populären Modellen verwendeten Trainingstechniken. Darauf aufbauend schlagen wir ReasonKGE vor, eine neuartige Methode zur Erzeugung semantisch angereicherter Wissensgrapheneinbettungen durch Berücksichtigung der Semantik der Fakten, die durch eine den Wissensgraphen begleitende Ontologie gekapselt sind. Mit einer gezielten, schlussfolgernden Methode zur Erzeugung von Negativproben während des Trainings der Modelle ist ReasonKGE in der Lage, nicht nur die Leistung der Link-Vorhersage zu verbessern, sondern auch die Anzahl der semantisch inkonsistenten Vorhersagen der resultierenden Einbettungen zu reduzieren und damit die Qualität der Wissensgraphen zu verbessern. KW - knowledge graphs KW - embeddings KW - knowledge graph construction KW - knowledge graph refinement KW - domain-specific knowledge graphs KW - named entity recognition KW - semantic representations KW - domänenspezifisches Wissensgraphen KW - Einbettungen KW - Konstruktion von Wissensgraphen KW - Wissensgraphen Verfeinerung KW - Wissensgraphen KW - Named-Entity-Erkennung KW - semantische Repräsentationen Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-612240 ER - TY - JOUR A1 - Casel, Katrin A1 - Fischbeck, Philipp A1 - Friedrich, Tobias A1 - Göbel, Andreas A1 - Lagodzinski, J. A. Gregor T1 - Zeros and approximations of Holant polynomials on the complex plane JF - Computational complexity : CC N2 - We present fully polynomial time approximation schemes for a broad class of Holant problems with complex edge weights, which we call Holant polynomials. We transform these problems into partition functions of abstract combinatorial structures known as polymers in statistical physics. Our method involves establishing zero-free regions for the partition functions of polymer models and using the most significant terms of the cluster expansion to approximate them. Results of our technique include new approximation and sampling algorithms for a diverse class of Holant polynomials in the low-temperature regime (i.e. small external field) and approximation algorithms for general Holant problems with small signature weights. Additionally, we give randomised approximation and sampling algorithms with faster running times for more restrictive classes. Finally, we improve the known zero-free regions for a perfect matching polynomial. KW - Holant problems KW - approximate counting KW - partition functions KW - graph KW - polynomials Y1 - 2022 U6 - https://doi.org/10.1007/s00037-022-00226-5 SN - 1016-3328 SN - 1420-8954 VL - 31 IS - 2 PB - Springer CY - Basel ER - TY - GEN A1 - Hecker, Pascal A1 - Steckhan, Nico A1 - Eyben, Florian A1 - Schuller, Björn Wolfgang A1 - Arnrich, Bert T1 - Voice Analysis for Neurological Disorder Recognition – A Systematic Review and Perspective on Emerging Trends T2 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät N2 - Quantifying neurological disorders from voice is a rapidly growing field of research and holds promise for unobtrusive and large-scale disorder monitoring. The data recording setup and data analysis pipelines are both crucial aspects to effectively obtain relevant information from participants. Therefore, we performed a systematic review to provide a high-level overview of practices across various neurological disorders and highlight emerging trends. PRISMA-based literature searches were conducted through PubMed, Web of Science, and IEEE Xplore to identify publications in which original (i.e., newly recorded) datasets were collected. Disorders of interest were psychiatric as well as neurodegenerative disorders, such as bipolar disorder, depression, and stress, as well as amyotrophic lateral sclerosis amyotrophic lateral sclerosis, Alzheimer's, and Parkinson's disease, and speech impairments (aphasia, dysarthria, and dysphonia). Of the 43 retrieved studies, Parkinson's disease is represented most prominently with 19 discovered datasets. Free speech and read speech tasks are most commonly used across disorders. Besides popular feature extraction toolkits, many studies utilise custom-built feature sets. Correlations of acoustic features with psychiatric and neurodegenerative disorders are presented. In terms of analysis, statistical analysis for significance of individual features is commonly used, as well as predictive modeling approaches, especially with support vector machines and a small number of artificial neural networks. An emerging trend and recommendation for future studies is to collect data in everyday life to facilitate longitudinal data collection and to capture the behavior of participants more naturally. Another emerging trend is to record additional modalities to voice, which can potentially increase analytical performance. T3 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät - 13 KW - neurological disorders KW - voice KW - speech KW - everyday life KW - multiple modalities KW - machine learning KW - disorder recognition Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-581019 IS - 13 ER - TY - THES A1 - Kovács, Róbert T1 - Human-scale personal fabrication N2 - The availability of commercial 3D printers and matching 3D design software has allowed a wide range of users to create physical prototypes – as long as these objects are not larger than hand size. However, when attempting to create larger, "human-scale" objects, such as furniture, not only are these machines too small, but also the commonly used 3D design software is not equipped to design with forces in mind — since forces increase disproportionately with scale. In this thesis, we present a series of end-to-end fabrication software systems that support users in creating human-scale objects. They achieve this by providing three main functions that regular "small-scale" 3D printing software does not offer: (1) subdivision of the object into small printable components combined with ready-made objects, (2) editing based on predefined elements sturdy enough for larger scale, i.e., trusses, and (3) functionality for analyzing, detecting, and fixing structural weaknesses. The presented software systems also assist the fabrication process based on either 3D printing or steel welding technology. The presented systems focus on three levels of engineering challenges: (1) fabricating static load-bearing objects, (2) creating mechanisms that involve motion, such as kinematic installations, and finally (3) designing mechanisms with dynamic repetitive movement where power and energy play an important role. We demonstrate and verify the versatility of our systems by building and testing human-scale prototypes, ranging from furniture pieces, pavilions, to animatronic installations and playground equipment. We have also shared our system with schools, fablabs, and fabrication enthusiasts, who have successfully created human-scale objects that can withstand with human-scale forces. N2 - Die Verfügbarkeit kommerzieller 3D-Drucker und die dazugehörige Software ermöglicht einer großen Bandbreite von Nutzern, physikalische Prototypen selbst herzustellen. Allerdings gilt dies oft nur für handgroße Objekte. Diese Limitation ist auf der einen Seite den kleinen Maschinengrößen von 3D-Druckern geschuldet, andererseits müssen aber auch signifikante, einwirkende Kräfte bereits im Entwurf berücksichtigt werden, was in aktuellen Anwendungen lediglich Benutzern mit entsprechendem Know-How vorbehalten ist. In dieser Arbeit stelle ich eine Reihe von Software-Komplettlösungen vor, die es einer breiten Benutzergruppe erlaubt, große "human-scale" Strukturen, wie Möbel, zu entwerfen und herzustellen. Diese Systeme gehen in drei Kernaspekten über herkömmliche 3D-Druck-Entwurfsanwendungen hinaus: (1) Die Unterteilung von großen Strukturen in eine Kombination aus druckbaren Objekten und Standardteilen. (2) Entwurf von statisch tragenden Strukturen. (3) Funktionalität zum Erkennen, Analysieren und Beheben von strukturellen Schwachstellen. Dabei beschränkt sich diese Arbeit nicht auf Softwarelösungen, sondern unterstützt die Benutzer im gesamten Herstellungsprozess, sowohl bei Prozessen basierend auf dem FDM 3D-Druck, als auch beim Schweißen von Metallen. Die verschiedenen Systeme, die hier vorgestellt werden, ermöglichen die Erstellungen von tragfähigen, statischen Strukturen über kinematische Installation bis hin zu dynamischen Konstruktionen. Solche gefertigten Konstrukte wie Möbel, Pavillons, Spielplatzgeräte, als auch animierte Installationen demonstrieren die Funktionalität und das weite Anwendungsspektrum des Ansatzes. Ergebnisse dieser Arbeit kamen bereits an Schulen, FabLabs und bei Privatpersonen zum Einsatz, die mit der Software erfolgreich eigene und funktionale "human-scale"-Großstrukturen entwerfen und herstellen konnten. KW - 3D printing KW - fabrication KW - human-scale KW - load-bearing KW - dynamics KW - force KW - 3D Druck KW - Fabrikation KW - Großformat KW - Kraft KW - Tragfähigkeit KW - Dynamik Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-555398 ER - TY - GEN A1 - Monti, Remo A1 - Rautenstrauch, Pia A1 - Ghanbari, Mahsa A1 - Rani James, Alva A1 - Kirchler, Matthias A1 - Ohler, Uwe A1 - Konigorski, Stefan A1 - Lippert, Christoph T1 - Identifying interpretable gene-biomarker associations with functionally informed kernel-based tests in 190,000 exomes T2 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät N2 - Here we present an exome-wide rare genetic variant association study for 30 blood biomarkers in 191,971 individuals in the UK Biobank. We compare gene- based association tests for separate functional variant categories to increase interpretability and identify 193 significant gene-biomarker associations. Genes associated with biomarkers were ~ 4.5-fold enriched for conferring Mendelian disorders. In addition to performing weighted gene-based variant collapsing tests, we design and apply variant-category-specific kernel-based tests that integrate quantitative functional variant effect predictions for mis- sense variants, splicing and the binding of RNA-binding proteins. For these tests, we present a computationally efficient combination of the likelihood- ratio and score tests that found 36% more associations than the score test alone while also controlling the type-1 error. Kernel-based tests identified 13% more associations than their gene-based collapsing counterparts and had advantages in the presence of gain of function missense variants. We introduce local collapsing by amino acid position for missense variants and use it to interpret associations and identify potential novel gain of function variants in PIEZO1. Our results show the benefits of investigating different functional mechanisms when performing rare-variant association tests, and demonstrate pervasive rare-variant contribution to biomarker variability. T3 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät - 16 Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-586078 IS - 16 ER - TY - JOUR A1 - Monti, Remo A1 - Rautenstrauch, Pia A1 - Ghanbari, Mahsa A1 - Rani James, Alva A1 - Kirchler, Matthias A1 - Ohler, Uwe A1 - Konigorski, Stefan A1 - Lippert, Christoph T1 - Identifying interpretable gene-biomarker associations with functionally informed kernel-based tests in 190,000 exomes JF - Nature Communications N2 - Here we present an exome-wide rare genetic variant association study for 30 blood biomarkers in 191,971 individuals in the UK Biobank. We compare gene- based association tests for separate functional variant categories to increase interpretability and identify 193 significant gene-biomarker associations. Genes associated with biomarkers were ~ 4.5-fold enriched for conferring Mendelian disorders. In addition to performing weighted gene-based variant collapsing tests, we design and apply variant-category-specific kernel-based tests that integrate quantitative functional variant effect predictions for mis- sense variants, splicing and the binding of RNA-binding proteins. For these tests, we present a computationally efficient combination of the likelihood- ratio and score tests that found 36% more associations than the score test alone while also controlling the type-1 error. Kernel-based tests identified 13% more associations than their gene-based collapsing counterparts and had advantages in the presence of gain of function missense variants. We introduce local collapsing by amino acid position for missense variants and use it to interpret associations and identify potential novel gain of function variants in PIEZO1. Our results show the benefits of investigating different functional mechanisms when performing rare-variant association tests, and demonstrate pervasive rare-variant contribution to biomarker variability. Y1 - 2022 U6 - https://doi.org/10.1038/s41467-022-32864-2 SN - 2041-1723 VL - 13 PB - Nature Publishing Group UK CY - London ER - TY - JOUR A1 - Ulrich, Jens-Uwe A1 - Lutfi, Ahmad A1 - Rutzen, Kilian A1 - Renard, Bernhard Y. T1 - ReadBouncer BT - precise and scalable adaptive sampling for nanopore sequencing JF - Bioinformatics N2 - Motivation: Nanopore sequencers allow targeted sequencing of interesting nucleotide sequences by rejecting other sequences from individual pores. This feature facilitates the enrichment of low-abundant sequences by depleting overrepresented ones in-silico. Existing tools for adaptive sampling either apply signal alignment, which cannot handle human-sized reference sequences, or apply read mapping in sequence space relying on fast graphical processing units (GPU) base callers for real-time read rejection. Using nanopore long-read mapping tools is also not optimal when mapping shorter reads as usually analyzed in adaptive sampling applications. Results: Here, we present a new approach for nanopore adaptive sampling that combines fast CPU and GPU base calling with read classification based on Interleaved Bloom Filters. ReadBouncer improves the potential enrichment of low abundance sequences by its high read classification sensitivity and specificity, outperforming existing tools in the field. It robustly removes even reads belonging to large reference sequences while running on commodity hardware without GPUs, making adaptive sampling accessible for in-field researchers. Readbouncer also provides a user-friendly interface and installer files for end-users without a bioinformatics background. Y1 - 2022 U6 - https://doi.org/10.1093/bioinformatics/btac223 SN - 1367-4803 SN - 1460-2059 VL - 38 IS - SUPPL 1 SP - 153 EP - 160 PB - Oxford Univ. Press CY - Oxford ER - TY - JOUR A1 - Richly, Keven A1 - Schlosser, Rainer A1 - Boissier, Martin T1 - Budget-conscious fine-grained configuration optimization for spatio-temporal applications JF - Proceedings of the VLDB Endowment N2 - Based on the performance requirements of modern spatio-temporal data mining applications, in-memory database systems are often used to store and process the data. To efficiently utilize the scarce DRAM capacities, modern database systems support various tuning possibilities to reduce the memory footprint (e.g., data compression) or increase performance (e.g., additional indexes). However, the selection of cost and performance balancing configurations is challenging due to the vast number of possible setups consisting of mutually dependent individual decisions. In this paper, we introduce a novel approach to jointly optimize the compression, sorting, indexing, and tiering configuration for spatio-temporal workloads. Further, we consider horizontal data partitioning, which enables the independent application of different tuning options on a fine-grained level. We propose different linear programming (LP) models addressing cost dependencies at different levels of accuracy to compute optimized tuning configurations for a given workload and memory budgets. To yield maintainable and robust configurations, we extend our LP-based approach to incorporate reconfiguration costs as well as a worst-case optimization for potential workload scenarios. Further, we demonstrate on a real-world dataset that our models allow to significantly reduce the memory footprint with equal performance or increase the performance with equal memory size compared to existing tuning heuristics. KW - General Earth and Planetary Sciences KW - Water Science and Technology KW - Geography, Planning and Development Y1 - 2022 U6 - https://doi.org/10.14778/3565838.3565858 SN - 2150-8097 VL - 15 IS - 13 SP - 4079 EP - 4092 PB - Association for Computing Machinery (ACM) CY - [New York] ER - TY - JOUR A1 - Omolaoye, Temidayo S. A1 - Omolaoye, Victor Adelakun A1 - Kandasamy, Richard K. A1 - Hachim, Mahmood Yaseen A1 - Du Plessis, Stefan S. T1 - Omics and male infertility BT - highlighting the application of transcriptomic data JF - Life : open access journal N2 - Male infertility is a multifaceted disorder affecting approximately 50% of male partners in infertile couples. Over the years, male infertility has been diagnosed mainly through semen analysis, hormone evaluations, medical records and physical examinations, which of course are fundamental, but yet inefficient, because 30% of male infertility cases remain idiopathic. This dilemmatic status of the unknown needs to be addressed with more sophisticated and result-driven technologies and/or techniques. Genetic alterations have been linked with male infertility, thereby unveiling the practicality of investigating this disorder from the "omics" perspective. Omics aims at analyzing the structure and functions of a whole constituent of a given biological function at different levels, including the molecular gene level (genomics), transcript level (transcriptomics), protein level (proteomics) and metabolites level (metabolomics). In the current study, an overview of the four branches of omics and their roles in male infertility are briefly discussed; the potential usefulness of assessing transcriptomic data to understand this pathology is also elucidated. After assessing the publicly obtainable transcriptomic data for datasets on male infertility, a total of 1385 datasets were retrieved, of which 10 datasets met the inclusion criteria and were used for further analysis. These datasets were classified into groups according to the disease or cause of male infertility. The groups include non-obstructive azoospermia (NOA), obstructive azoospermia (OA), non-obstructive and obstructive azoospermia (NOA and OA), spermatogenic dysfunction, sperm dysfunction, and Y chromosome microdeletion. Findings revealed that 8 genes (LDHC, PDHA2, TNP1, TNP2, ODF1, ODF2, SPINK2, PCDHB3) were commonly differentially expressed between all disease groups. Likewise, 56 genes were common between NOA versus NOA and OA (ADAD1, BANF2, BCL2L14, C12orf50, C20orf173, C22orf23, C6orf99, C9orf131, C9orf24, CABS1, CAPZA3, CCDC187, CCDC54, CDKN3, CEP170, CFAP206, CRISP2, CT83, CXorf65, FAM209A, FAM71F1, FAM81B, GALNTL5, GTSF1, H1FNT, HEMGN, HMGB4, KIF2B, LDHC, LOC441601, LYZL2, ODF1, ODF2, PCDHB3, PDHA2, PGK2, PIH1D2, PLCZ1, PROCA1, RIMBP3, ROPN1L, SHCBP1L, SMCP, SPATA16, SPATA19, SPINK2, TEX33, TKTL2, TMCO2, TMCO5A, TNP1, TNP2, TSPAN16, TSSK1B, TTLL2, UBQLN3). These genes, particularly the above-mentioned 8 genes, are involved in diverse biological processes such as germ cell development, spermatid development, spermatid differentiation, regulation of proteolysis, spermatogenesis and metabolic processes. Owing to the stage-specific expression of these genes, any mal-expression can ultimately lead to male infertility. Therefore, currently available data on all branches of omics relating to male fertility can be used to identify biomarkers for diagnosing male infertility, which can potentially help in unravelling some idiopathic cases. KW - male infertility KW - omics KW - genomics KW - transcriptomics KW - proteomics KW - metabolomics Y1 - 2022 U6 - https://doi.org/10.3390/life12020280 SN - 2075-1729 VL - 12 IS - 2 PB - MDPI CY - Basel ER - TY - JOUR A1 - Wittig, Alice A1 - Miranda, Fabio Malcher A1 - Hölzer, Martin A1 - Altenburg, Tom A1 - Bartoszewicz, Jakub Maciej A1 - Beyvers, Sebastian A1 - Dieckmann, Marius Alfred A1 - Genske, Ulrich A1 - Giese, Sven Hans-Joachim A1 - Nowicka, Melania A1 - Richard, Hugues A1 - Schiebenhoefer, Henning A1 - Schmachtenberg, Anna-Juliane A1 - Sieben, Paul A1 - Tang, Ming A1 - Tembrockhaus, Julius A1 - Renard, Bernhard Y. A1 - Fuchs, Stephan T1 - CovRadar BT - continuously tracking and filtering SARS-CoV-2 mutations for genomic surveillance JF - Bioinformatics N2 - The ongoing pandemic caused by SARS-CoV-2 emphasizes the importance of genomic surveillance to understand the evolution of the virus, to monitor the viral population, and plan epidemiological responses. Detailed analysis, easy visualization and intuitive filtering of the latest viral sequences are powerful for this purpose. We present CovRadar, a tool for genomic surveillance of the SARS-CoV-2 Spike protein. CovRadar consists of an analytical pipeline and a web application that enable the analysis and visualization of hundreds of thousand sequences. First, CovRadar extracts the regions of interest using local alignment, then builds a multiple sequence alignment, infers variants and consensus and finally presents the results in an interactive app, making accessing and reporting simple, flexible and fast. Y1 - 2022 U6 - https://doi.org/10.1093/bioinformatics/btac411 SN - 1367-4803 SN - 1367-4811 VL - 38 IS - 17 SP - 4223 EP - 4225 PB - Oxford Univ. Press CY - Oxford ER - TY - THES A1 - Schirneck, Friedrich Martin T1 - Enumeration algorithms in data profiling N2 - Data profiling is the extraction of metadata from relational databases. An important class of metadata are multi-column dependencies. They come associated with two computational tasks. The detection problem is to decide whether a dependency of a given type and size holds in a database. The discovery problem instead asks to enumerate all valid dependencies of that type. We investigate the two problems for three types of dependencies: unique column combinations (UCCs), functional dependencies (FDs), and inclusion dependencies (INDs). We first treat the parameterized complexity of the detection variants. We prove that the detection of UCCs and FDs, respectively, is W[2]-complete when parameterized by the size of the dependency. The detection of INDs is shown to be one of the first natural W[3]-complete problems. We further settle the enumeration complexity of the three discovery problems by presenting parsimonious equivalences with well-known enumeration problems. Namely, the discovery of UCCs is equivalent to the famous transversal hypergraph problem of enumerating the hitting sets of a hypergraph. The discovery of FDs is equivalent to the simultaneous enumeration of the hitting sets of multiple input hypergraphs. Finally, the discovery of INDs is shown to be equivalent to enumerating the satisfying assignments of antimonotone, 3-normalized Boolean formulas. In the remainder of the thesis, we design and analyze discovery algorithms for unique column combinations. Since this is as hard as the general transversal hypergraph problem, it is an open question whether the UCCs of a database can be computed in output-polynomial time in the worst case. For the analysis, we therefore focus on instances that are structurally close to databases in practice, most notably, inputs that have small solutions. The equivalence between UCCs and hitting sets transfers the computational hardness, but also allows us to apply ideas from hypergraph theory to data profiling. We devise an discovery algorithm that runs in polynomial space on arbitrary inputs and achieves polynomial delay whenever the maximum size of any minimal UCC is bounded. Central to our approach is the extension problem for minimal hitting sets, that is, to decide for a set of vertices whether they are contained in any minimal solution. We prove that this is yet another problem that is complete for the complexity class W[3], when parameterized by the size of the set that is to be extended. We also give several conditional lower bounds under popular hardness conjectures such as the Strong Exponential Time Hypothesis (SETH). The lower bounds suggest that the running time of our algorithm for the extension problem is close to optimal. We further conduct an empirical analysis of our discovery algorithm on real-world databases to confirm that the hitting set perspective on data profiling has merits also in practice. We show that the resulting enumeration times undercut their theoretical worst-case bounds on practical data, and that the memory consumption of our method is much smaller than that of previous solutions. During the analysis we make two observations about the connection between databases and their corresponding hypergraphs. On the one hand, the hypergraph representations containing all relevant information are usually significantly smaller than the original inputs. On the other hand, obtaining those hypergraphs is the actual bottleneck of any practical application. The latter often takes much longer than enumerating the solutions, which is in stark contrast to the fact that the preprocessing is guaranteed to be polynomial while the enumeration may take exponential time. To make the first observation rigorous, we introduce a maximum-entropy model for non-uniform random hypergraphs and prove that their expected number of minimal hyperedges undergoes a phase transition with respect to the total number of edges. The result also explains why larger databases may have smaller hypergraphs. Motivated by the second observation, we present a new kind of UCC discovery algorithm called Hitting Set Enumeration with Partial Information and Validation (HPIValid). It utilizes the fast enumeration times in practice in order to speed up the computation of the corresponding hypergraph. This way, we sidestep the bottleneck while maintaining the advantages of the hitting set perspective. An exhaustive empirical evaluation shows that HPIValid outperforms the current state of the art in UCC discovery. It is capable of processing databases that were previously out of reach for data profiling. N2 - Data Profiling ist die Erhebung von Metadaten über relationale Datenbanken. Eine wichtige Klasse von Metadaten sind Abhängigkeiten zwischen verschiedenen Spalten. Für diese gibt es zwei wesentliche algorithmische Probleme. Beim Detektionsproblem soll entschieden werden, ob eine Datenbank eine Abhängigkeit eines bestimmt Typs und Größe aufweist; beim Entdeckungsproblem müssen dagegen alle gültigen Abhängigkeiten aufgezählt werden. Wir behandeln beide Probleme für drei Typen von Abhängigkeiten: eindeutige Spaltenkombinationen (UCCs), funktionale Abhängigkeiten (FDs) und Inklusionsabhängigkeiten (INDs). Wir untersuchen zunächst deren parametrisierte Komplexität und beweisen, dass die Detektion von UCCs und FDs W[2]-vollständig ist, wobei die Größe der Abhängigkeit als Parameter dient. Ferner identifizieren wir die Detektion von INDs als eines der ersten natürlichen W[3]-vollständigen Probleme. Danach klären wir die Aufzählungskomplexität der drei Entdeckungsprobleme, indem wir lösungserhaltende Äquivalenzen zu bekannten Aufzählungsproblemen konstruieren. Die Entdeckung von UCCs zeigt sich dabei als äquivalent zum berühmten Transversal-Hypergraph-Problem, bei dem die Hitting Sets eines Hypergraphens aufzuzählen sind. Die Entdeckung von FDs ist äquivalent zum simultanen Aufzählen der Hitting Sets mehrerer Hypergraphen und INDs sind äquivalent zu den erfüllenden Belegungen antimonotoner, 3-normalisierter boolescher Formeln. Anschließend beschäftigen wir uns mit dem Entwurf und der Analyse von Entdeckungsalgorithmen für eindeutige Spaltenkombinationen. Es ist unbekannt, ob alle UCCs einer Datenbank in worst-case ausgabepolynomieller Zeit berechnet werden können, da dies genauso schwer ist wie das allgemeine Transversal-Hypergraph-Problem. Wir konzentrieren uns daher bei der Analyse auf Instanzen, die strukturelle Ähnlichkeiten mit Datenbanken aus der Praxis aufweisen; insbesondere solche, deren Lösungen sehr klein sind. Die Äquivalenz zwischen UCCs und Hitting Sets überträgt zwar die algorithmische Schwere, erlaubt es uns aber auch Konzepte aus der Theorie von Hypergraphen auf das Data Profiling anzuwenden. Wir entwickeln daraus einen Entdeckungsalgorithmus, dessen Berechnungen auf beliebigen Eingaben nur polynomiellen Platz benötigen. Ist zusätzlich die Maximalgröße der minimalen UCCs durch eine Konstante beschränkt, so hat der Algorithmus außerdem polynomiell beschränkten Delay. Der zentrale Baustein unseres Ansatzes ist das Erweiterbarkeitsproblem für minimale Hitting Sets, das heißt, die Entscheidung, ob eine gegebene Knotenmenge in einer minimalen Lösung vorkommt. Wir zeigen, dass dies, mit der Größe der Knotenmenge als Parameter, ein weiteres natürliches Problem ist, welches vollständig für die Komplexitätsklasse W[3] ist. Außerdem beweisen wir bedingte untere Laufzeitschranken unter der Annahme gängiger Schwere-Vermutungen wie der Starken Exponentialzeithypothese (SETH). Dies belegt, dass die Laufzeit unseres Algorithmus für das Erweiterbarkeitsproblem beinahe optimal ist. Eine empirische Untersuchung unseres Entdeckungsalgorithmus auf realen Daten bestätigt, dass die Hitting-Set-Perspektive auch praktische Vorteile für das Data Profiling hat. So sind die Berechnungzeiten für das Finden der UCCs bereits sehr schnell und der Speicherverbrauch unseres Ansatzes ist deutlich geringer als der existierender Methoden. Die Untersuchung zeigt auch zwei interessante Verbindungen zwischen Datenbanken und ihren zugehörigen Hypergraphen: Einerseits sind die Hypergraphen, die alle relevanten Informationen enthalten, meist viel kleiner als die Eingabe-Datenbanken, andererseits ist die Berechnung dieser Hypergraphen die eigentliche Engstelle in der Praxis. Sie nimmt in der Regel viel mehr Zeit in Anspruch, als das Aufzählen aller Lösungen. Dies steht im deutlichen Gegensatz zu den bekannten theoretischen Resultaten, die besagen, dass die Hypergraph-Vorberechnung polynomiell ist, während der Aufzählungsschritt exponentielle Zeit benötigen kann. Um die erste Beobachtung zu formalisieren, führen wir ein Maximum-Entropie-Modell für nicht-uniforme Hypergraphen ein und zeigen, dass die erwartete Anzahl ihrer minimalen Hyperkanten einen Phasenübergang druchläuft. Unsere Ergebnisse erklären auch warum größere Datenbanken mitunter kleinere Hypergraphen haben. Die zweite Beobachtung inspiriert uns zu einen Entdeckungsalgorithmus neuer Art, „Hitting Set Enumeration with Partial Information and Validation“ (HPIValid). Dieser nutzt die schnellen Aufzählungszeiten auf praktischen Daten aus, um die langwierige Berechnung des zu Grunde liegenden Hypergraphens zu beschleunigen. Dadurch umgehen wir die Engstelle und können gleichzeitig die Vorteile der Hitting-Set-Perspektive beibehalten. Eine ausgiebige empirische Analyse zeigt, dass HPIValid den aktuellen Stand der Technik im Bereich der UCC-Entdeckung deutlich übertrifft. HPIValid kann Datenbanken verarbeiten, für die Data Profiling zuvor unmöglich war. T2 - Aufzählungsalgorithmen für das Data Profiling KW - Chernoff-Hoeffding theorem KW - data profiling KW - enumeration algorithms KW - hitting sets KW - PhD thesis KW - transversal hypergraph KW - unique column combinations KW - Satz von Chernoff-Hoeffding KW - Dissertation KW - Data Profiling KW - Aufzählungsalgorithmen KW - Hitting Sets KW - Transversal-Hypergraph KW - eindeutige Spaltenkombination Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-556726 ER - TY - BOOK A1 - Eichenroth, Friedrich A1 - Rein, Patrick A1 - Hirschfeld, Robert T1 - Fast packrat parsing in a live programming environment BT - improving left-recursion in parsing expression grammars T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam N2 - Language developers who design domain-specific languages or new language features need a way to make fast changes to language definitions. Those fast changes require immediate feedback. Also, it should be possible to parse the developed languages quickly to handle extensive sets of code. Parsing expression grammars provides an easy to understand method for language definitions. Packrat parsing is a method to parse grammars of this kind, but this method is unable to handle left-recursion properly. Existing solutions either partially rewrite left-recursive rules and partly forbid them, or use complex extensions to packrat parsing that are hard to understand and cost-intensive. We investigated methods to make parsing as fast as possible, using easy to follow algorithms while not losing the ability to make fast changes to grammars. We focused our efforts on two approaches. One is to start from an existing technique for limited left-recursion rewriting and enhance it to work for general left-recursive grammars. The second approach is to design a grammar compilation process to find left-recursion before parsing, and in this way, reduce computational costs wherever possible and generate ready to use parser classes. Rewriting parsing expression grammars is a task that, if done in a general way, unveils a large number of cases such that any rewriting algorithm surpasses the complexity of other left-recursive parsing algorithms. Lookahead operators introduce this complexity. However, most languages have only little portions that are left-recursive and in virtually all cases, have no indirect or hidden left-recursion. This means that the distinction of left-recursive parts of grammars from components that are non-left-recursive holds great improvement potential for existing parsers. In this report, we list all the required steps for grammar rewriting to handle left-recursion, including grammar analysis, grammar rewriting itself, and syntax tree restructuring. Also, we describe the implementation of a parsing expression grammar framework in Squeak/Smalltalk and the possible interactions with the already existing parser Ohm/S. We quantitatively benchmarked this framework directing our focus on parsing time and the ability to use it in a live programming context. Compared with Ohm, we achieved massive parsing time improvements while preserving the ability to use our parser it as a live programming tool. The work is essential because, for one, we outlined the difficulties and complexity that come with grammar rewriting. Also, we removed the existing limitations that came with left-recursion by eliminating them before parsing. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 135 KW - packrat parsing KW - parsing expression grammars KW - left recursion Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-491242 SN - 978-3-86956-503-3 SN - 1613-5652 SN - 2191-1665 IS - 135 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Freund, Rieke A1 - Rätsch, Jan Philip A1 - Hradilak, Franziska A1 - Vidic, Benedikt A1 - Heß, Oliver A1 - Lißner, Nils A1 - Wölert, Hendrik A1 - Lincke, Jens A1 - Beckmann, Tom A1 - Hirschfeld, Robert T1 - Implementing a crowd-sourced picture archive for Bad Harzburg N2 - Pictures are a medium that helps make the past tangible and preserve memories. Without context, they are not able to do so. Pictures are brought to life by their associated stories. However, the older pictures become, the fewer contemporary witnesses can tell these stories. Especially for large, analog picture archives, knowledge and memories are spread over many people. This creates several challenges: First, the pictures must be digitized to save them from decaying and make them available to the public. Since a simple listing of all the pictures is confusing, the pictures should be structured accessibly. Second, known information that makes the stories vivid needs to be added to the pictures. Users should get the opportunity to contribute their knowledge and memories. To make this usable for all interested parties, even for older, less technophile generations, the interface should be intuitive and error-tolerant. The resulting requirements are not covered in their entirety by any existing software solution without losing the intuitive interface or the scalability of the system. Therefore, we have developed our digital picture archive within the scope of a bachelor project in cooperation with the Bad Harzburg-Stiftung. For the implementation of this web application, we use the UI framework React in the frontend, which communicates via a GraphQL interface with the Content Management System Strapi in the backend. The use of this system enables our project partner to create an efficient process from scanning analog pictures to presenting them to visitors in an organized and annotated way. To customize the solution for both picture delivery and information contribution for our target group, we designed prototypes and evaluated them with people from Bad Harzburg. This helped us gain valuable insights into our system’s usability and future challenges as well as requirements. Our web application is already being used daily by our project partner. During the project, we still came up with numerous ideas for additional features to further support the exchange of knowledge. N2 - Bilder können dabei helfen, die Vergangenheit greifbar zu machen und Erinnerungen zu bewahren, doch alleinstehende Bilder ohne Kontext erreichen das nur schwer. Der große Wert besteht in den Geschichten, die mit den Bildern verbunden sind. Je älter die Bilder jedoch werden, desto weniger Zeitzeugen können von diesen Geschichten berichten. Besonders für große analoge Bildarchive, bei denen sich das Wissen und die Erinnerungen auf viele Personen verteilen, entstehen dadurch verschiedene Herausforderungen: Zunächst müssen die Bilder digitalisiert werden, um sie vor dem Zerfall zu schützen und um sie der Öffentlichkeit zugänglich machen zu können. Da eine einfache Aufreihung aller Bilder unübersichtlich ist, sollten die Bilder in eine zugängliche Struktur gebracht werden. Des Weiteren müssen zu den Bildern bekannte Informationen, aus denen ihre Geschichten erfahrbar werden, hinzugefügt werden. Nutzende sollen die Möglichkeit haben, eigenes Wissen und Erinnerungen beizutragen. Um dies für alle Interessierten, auch für ältere, evtl. wenig technikaffine Personen, nutzbar zu machen, sollte die Oberfläche eine intuitive und fehlertolerante Nutzung ermöglichen. Die sich daraus ergebenden Anforderungen werden von keiner existierenden Softwarelösung im Gesamten abgedeckt, ohne die intuitive Oberfläche oder die Skalierbarkeit des Systems zu verlieren. Daher haben wir im Rahmen eines Bachelorprojekts in Zusammenarbeit mit der Bad Harzburg-Stiftung ein eigenes digitales Bildarchiv entwickelt. Für die Umsetzung dieser Webapplikation nutzen wir das UI-Framework React im Frontend, welches über eine GraphQL-Schnittstelle mit dem Content Management System Strapi im Backend kommuniziert. Die Nutzung dieses Systems ermöglicht unserem Projektpartner einen effizienten Prozess vom Scannen der analogen Bilder bis zum geordneten und annotierten Darstellen für Besuchende. Um die Lösung sowohl für das Bereitstellen der Bilder als auch für das Beitragen von Informationen auf unsere Zielgruppe zuzuschneiden, haben wir Prototypen entworfen und mit Menschen aus Bad Harzburg getestet, um ihre Eindrücke auszuwerten. Mit diesen konnten wir wertvolle Erkenntnisse über die Nutzbarkeit und noch offene Herausforderungen und Anforderungen gewinnen. Unsere Webanwendung ist bei unserem Projektpartner bereits im täglichen Einsatz. Trotzdem haben wir während des Projekts noch zahlreiche Ideen für zusätzliche Funktionen erarbeitet, um den Wissensaustausch weiter zu fördern. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 149 KW - digital picture archive KW - analog-to-digital conversion KW - user-generated content KW - intuitive interfaces KW - digitales Bildarchiv KW - Analog-zu-Digital-Konvertierung KW - benutzergenerierte Inhalte KW - intuitive Benutzeroberflächen Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-560291 SN - 978-3-86956-545-3 SN - 1613-5652 SN - 2191-1665 IS - 149 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Schneider, Sven A1 - Maximova, Maria A1 - Giese, Holger T1 - Invariant Analysis for Multi-Agent Graph Transformation Systems using k-Induction N2 - The analysis of behavioral models such as Graph Transformation Systems (GTSs) is of central importance in model-driven engineering. However, GTSs often result in intractably large or even infinite state spaces and may be equipped with multiple or even infinitely many start graphs. To mitigate these problems, static analysis techniques based on finite symbolic representations of sets of states or paths thereof have been devised. We focus on the technique of k-induction for establishing invariants specified using graph conditions. To this end, k-induction generates symbolic paths backwards from a symbolic state representing a violation of a candidate invariant to gather information on how that violation could have been reached possibly obtaining contradictions to assumed invariants. However, GTSs where multiple agents regularly perform actions independently from each other cannot be analyzed using this technique as of now as the independence among backward steps may prevent the gathering of relevant knowledge altogether. In this paper, we extend k-induction to GTSs with multiple agents thereby supporting a wide range of additional GTSs. As a running example, we consider an unbounded number of shuttles driving on a large-scale track topology, which adjust their velocity to speed limits to avoid derailing. As central contribution, we develop pruning techniques based on causality and independence among backward steps and verify that k-induction remains sound under this adaptation as well as terminates in cases where it did not terminate before. N2 - Die Analyse von Verhaltensmodellen wie Graphtransformationssystemen (GTSs) ist von zentraler Bedeutung im Model Driven Engineering. GTSs führen jedoch häufig zu unhanhabbar großen oder sogar unendlichen Zustandsräumen und können mit mehreren oder sogar unendlich vielen Startgraphen ausgestattet sein. Um diese Probleme abzumildern, wurden statische Analysetechniken entwickelt, die auf endlichen symbolischen Darstellungen von Mengen von Zuständen oder Pfaden basieren. Wir konzentrieren uns auf die Technik der k-Induktion zur Ermittlung von Invarianten, die unter Verwendung von Graphbedingungen spezifiziert sind. Zum Zweck der Analyse erzeugt die k-Induktion symbolische Rückwärtspfade von einem symbolischen Zustand, der eine Verletzung einer Kandidateninvariante darstellt, um Informationen darüber zu sammeln, wie diese Verletzung erreicht werden konnte, wodurch möglicherweise Widersprüche zu angenommenen Invarianten gefunden werden. GTSs, bei denen mehrere Agenten regelmäßig unabhängig voneinander Aktionen ausführen, können derzeit jedoch nicht mit dieser Technik analysiert werden, da die Unabhängigkeit zwischen Rückwärtsschritten das Sammeln von relevantem Wissen möglicherweise verhindert. In diesem Artikel erweitern wir die k-Induktion auf GTSs mit mehreren Agenten und unterstützen dadurch eine breite Palette zusätzlicher GTSs. Als laufendes Beispiel betrachten wir eine unbegrenzte Anzahl von Shuttles, die auf einer großen Tracktopologie fahren und die ihre Geschwindigkeit an Geschwindigkeitsbegrenzungen anpassen, um ein Entgleisen zu vermeiden. Als zentralen Beitrag entwickeln wir Beschneidungstechniken basierend auf Kausalität und Unabhängigkeit zwischen Rückwärtsschritten und verifizieren, dass die k-Induktion unter dieser Anpassung korrekt bleibt und in Fällen terminiert, in denen sie zuvor nicht terminierte. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 143 KW - k-inductive invariant checking KW - causality KW - parallel and sequential independence KW - symbolic analysis KW - bounded backward model checking KW - k-induktive Invariantenprüfung KW - Kausalität KW - parallele und Sequentielle Unabhängigkeit KW - symbolische Analyse KW - Bounded Backward Model Checking Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-545851 SN - 978-3-86956-531-6 SN - 1613-5652 SN - 2191-1665 IS - 143 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Schneider, Sven A1 - Maximova, Maria A1 - Giese, Holger T1 - Probabilistic metric temporal graph logic N2 - Cyber-physical systems often encompass complex concurrent behavior with timing constraints and probabilistic failures on demand. The analysis whether such systems with probabilistic timed behavior adhere to a given specification is essential. When the states of the system can be represented by graphs, the rule-based formalism of Probabilistic Timed Graph Transformation Systems (PTGTSs) can be used to suitably capture structure dynamics as well as probabilistic and timed behavior of the system. The model checking support for PTGTSs w.r.t. properties specified using Probabilistic Timed Computation Tree Logic (PTCTL) has been already presented. Moreover, for timed graph-based runtime monitoring, Metric Temporal Graph Logic (MTGL) has been developed for stating metric temporal properties on identified subgraphs and their structural changes over time. In this paper, we (a) extend MTGL to the Probabilistic Metric Temporal Graph Logic (PMTGL) by allowing for the specification of probabilistic properties, (b) adapt our MTGL satisfaction checking approach to PTGTSs, and (c) combine the approaches for PTCTL model checking and MTGL satisfaction checking to obtain a Bounded Model Checking (BMC) approach for PMTGL. In our evaluation, we apply an implementation of our BMC approach in AutoGraph to a running example. N2 - Cyber-physische Systeme umfassen häufig ein komplexes nebenläufiges Verhalten mit Zeitbeschränkungen und probabilistischen Fehlern auf Anforderung. Die Analyse, ob solche Systeme mit probabilistischem gezeitetem Verhalten einer vorgegebenen Spezifikation entsprechen, ist essentiell. Wenn die Zustände des Systems durch Graphen dargestellt werden können, kann der regelbasierte Formalismus von probabilistischen gezeiteten Graphtransformationssystemen (PTGTSs) verwendet werden, um die Strukturdynamik sowie das probabilistische und gezeitete Verhalten des Systems geeignet zu erfassen. Die Modellprüfungsunterstützung für PTGTSs bzgl. Eigenschaften, die unter Verwendung von Probabilistic Timed Computation Tree Logic (PTCTL) spezifiziert wurden, wurde bereits entwickelt. Darüber hinaus wurde das gezeitete graphenbasierte Laufzeitmonitoring mittels metrischer temporaler Graphlogik (MTGL) entwickelt, um metrische temporale Eigenschaften auf identifizierten Untergraphen und ihre strukturellen Änderungen über die Zeit zu erfassen. In diesem Artikel (a) erweitern wir MTGL auf die probabilistische metrische temporale Graphlogik (PMTGL), indem wir die Spezifikation probabilistischer Eigenschaften zulassen, (b) passen unseren MTGL-Prüfungsansatz auf PTGTSs an und (c) kombinieren die Ansätze für PTCTL-Modellprüfung und MTGL-Prüfung, um einen beschränkten Modellprüfungsansatz (BMC-Ansatz) für PMTGL zu erhalten. In unserer Auswertung wenden wir eine Implementierung unseres BMC-Ansatzes in AutoGraph auf ein Beispiel an. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 146 KW - cyber-physical systems KW - probabilistic timed systems KW - qualitative analysis KW - quantitative analysis KW - bounded model checking KW - cyber-physische Systeme KW - probabilistische gezeitete Systeme KW - qualitative Analyse KW - quantitative Analyse KW - Bounded Model Checking Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-545867 SN - 978-3-86956-532-3 SN - 1613-5652 SN - 2191-1665 IS - 146 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Klinke, Paula A1 - Verhoeven, Silvan A1 - Roth, Felix A1 - Hagemann, Linus A1 - Alnawa, Tarik A1 - Lincke, Jens A1 - Rein, Patrick A1 - Hirschfeld, Robert T1 - Tool support for collaborative creation of interactive storytelling media N2 - Scrollytellings are an innovative form of web content. Combining the benefits of books, images, movies, and video games, they are a tool to tell compelling stories and provide excellent learning opportunities. Due to their multi-modality, creating high-quality scrollytellings is not an easy task. Different professions, such as content designers, graphics designers, and developers, need to collaborate to get the best out of the possibilities the scrollytelling format provides. Collaboration unlocks great potential. However, content designers cannot create scrollytellings directly and always need to consult with developers to implement their vision. This can result in misunderstandings. Often, the resulting scrollytelling will not match the designer’s vision sufficiently, causing unnecessary iterations. Our project partner Typeshift specializes in the creation of individualized scrollytellings for their clients. Examined existing solutions for authoring interactive content are not optimally suited for creating highly customized scrollytellings while still being able to manipulate all their elements programmatically. Based on their experience and expertise, we developed an editor to author scrollytellings in the lively.next live-programming environment. In this environment, a graphical user interface for content design is combined with powerful possibilities for programming behavior with the morphic system. The editor allows content designers to take on large parts of the creation process of scrollytellings on their own, such as creating the visible elements, animating content, and fine-tuning the scrollytelling. Hence, developers can focus on interactive elements such as simulations and games. Together with Typeshift, we evaluated the tool by recreating an existing scrollytelling and identified possible future enhancements. Our editor streamlines the creation process of scrollytellings. Content designers and developers can now both work on the same scrollytelling. Due to the editor inside of the lively.next environment, they can both work with a set of tools familiar to them and their traits. Thus, we mitigate unnecessary iterations and misunderstandings by enabling content designers to realize large parts of their vision of a scrollytelling on their own. Developers can add advanced and individual behavior. Thus, developers and content designers benefit from a clearer distribution of tasks while keeping the benefits of collaboration. N2 - Scrollytellings sind innovative Webinhalte. Indem sie die Vorteile von Büchern, Bildern, Filmen und Videospielen vereinen, sind sie ein Werkzeug um Geschichten fesselnd zu erzählen und Lehrinhalte besonders effektiv zu vermitteln. Die Erstellung von Scrollytellings ist aufgrund ihrer Multimodalität keine einfache Aufgabe. Verschiedene Berufszweige wie Content-Designer:innen, Grafikdesigner:innen und Entwickler:innen müssen zusammenarbeiten, um das volle Potential des Scrollytelingformats auszuschöpfen. Jedoch können ContentDesigner:innen Scrollytellings nicht direkt selbst erstellen, sondern müssen ihre Vision stets gemeinsam mit Entwickler:innen umsetzen. Dabei können unnötige Iterationen über das Scrollytelling auftreten, wenn dieses den Visionen der Content-Designer:innen noch nicht entspricht. Außerdem können Missverständnisse entstehen. Unser Projektpartner Typeshift hat sich auf die Erstellung von, für seine Kund:innen individualisierten, Scrollytellings spezialisiert. Aufbauend auf Typeshifts Erfahrungen und Expertise haben wir einen Editor entwickelt, um Scrollytellings in der Live-Programmierumgebung lively.next zu erstellen. In lively.next wird eine graphische Oberfläche für die Erstellung von Inhalten mit weitreichenden Möglichkeiten zur Programmierung von Verhalten durch das Morphic-System kombiniert. Der Editor erlaubt es Content-Designer:innen eigenständig große Teile des Erstellungsprozesses von Scrollytellings durchzuführen, zum Beispiel das Erzeugen visueller Elemente, deren Animation sowie die Feinjustierung des gesamten Scrollytellings. So können Entwickler:innen sich auf die Erstellung von komplexen interaktiven Elementen, wie Simulationen oder Spiele, konzentrieren. Zusammen mit Typeshift haben wir die Nutzbarkeit unseres Editors durch die Nachbildung eines bereits existierenden Scrollytellings evaluiert und mögliche Verbesserungen identifiziert. Unser Editor vereinfacht den Erstellungsprozess von Scrollytellings. Content Designer:innen und Entwickler:innen können jetzt beide an demselben Scrollytelling arbeiten. Durch den Editor, der in lively.next integriert ist, können beide Parteien mit den ihnen bekannten und vertrauten Werkzeugen arbeiten. Durch den Editor verringern wir unnötige Iterationen und Missverständnisse und erlauben Content-Designer:innen große Teile ihrer Vision eines Scrollytellings eigenständig umzusetzen. Entwickler:innen können zusätzliches, individuelles Verhalten hinzufügen. So profitieren Entwickler:innen und Content-Designer:innen von einer besseren Aufgabenteilung, während die Vorteile von Zusammenarbeit bestehen bleiben. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 141 KW - scrollytelling KW - interactive media KW - web-based development KW - Lively Kernel KW - Scrollytelling KW - interaktive Medien KW - webbasierte Entwicklung KW - Lively Kernel Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-518570 SN - 978-3-86956-521-7 SN - 1613-5652 SN - 2191-1665 IS - 141 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Dürsch, Falco A1 - Rein, Patrick A1 - Mattis, Toni A1 - Hirschfeld, Robert T1 - Learning from failure BT - a history-based, lightweight test prioritization technique connecting software changes to test failures N2 - Regression testing is a widespread practice in today's software industry to ensure software product quality. Developers derive a set of test cases, and execute them frequently to ensure that their change did not adversely affect existing functionality. As the software product and its test suite grow, the time to feedback during regression test sessions increases, and impedes programmer productivity: developers wait longer for tests to complete, and delays in fault detection render fault removal increasingly difficult. Test case prioritization addresses the problem of long feedback loops by reordering test cases, such that test cases of high failure probability run first, and test case failures become actionable early in the testing process. We ask, given test execution schedules reconstructed from publicly available data, to which extent can their fault detection efficiency improved, and which technique yields the most efficient test schedules with respect to APFD? To this end, we recover regression 6200 test sessions from the build log files of Travis CI, a popular continuous integration service, and gather 62000 accompanying changelists. We evaluate the efficiency of current test schedules, and examine the prioritization results of state-of-the-art lightweight, history-based heuristics. We propose and evaluate a novel set of prioritization algorithms, which connect software changes and test failures in a matrix-like data structure. Our studies indicate that the optimization potential is substantial, because the existing test plans score only 30% APFD. The predictive power of past test failures proves to be outstanding: simple heuristics, such as repeating tests with failures in recent sessions, result in efficiency scores of 95% APFD. The best-performing matrix-based heuristic achieves a similar score of 92.5% APFD. In contrast to prior approaches, we argue that matrix-based techniques are useful beyond the scope of effective prioritization, and enable a number of use cases involving software maintenance. We validate our findings from continuous integration processes by extending a continuous testing tool within development environments with means of test prioritization, and pose further research questions. We think that our findings are suited to propel adoption of (continuous) testing practices, and that programmers' toolboxes should contain test prioritization as an existential productivity tool. N2 - Regressionstests sind in der heutigen Softwareindustrie weit verbreitete Praxis um die Qualität eines Softwareprodukts abzusichern. Dabei leiten Entwickler von den gestellten Anforderungen Testfälle ab und führen diese wiederholt aus, um sicherzustellen, dass ihre Änderungen die bereits existierende Funktionalität nicht negativ beeinträchtigen. Steigt die Größe und Komplexität der Software und ihrer Testsuite, so wird die Feedbackschleife der Testausführungen länger, und mindert die Produktivität der Entwickler: Sie warten länger auf das Testergebnis, und die Fehlerbehebung gestaltet sich umso schwieriger, je länger die Ursache zurückliegt. Um die Feedbackschleife zu verkürzen, ändern Testpriorisierungs-Algorithmen die Reihenfolge der Testfälle, sodass Testfälle, die mit hoher Wahrscheinlichkeit fehlschlagen, zuerst ausgeführt werden. Der vorliegende Bericht beschäftigt sich mit der Frage nach der Effizienz von Testplänen, welche aus öffentlich einsehbaren Daten rekonstruierbar sind, und welche anwendbaren Priorisierungs-Techniken die effizienteste Testreihenfolge in Bezug auf APFD hervorbringen. Zu diesem Zweck werden 6200 Testsitzungen aus den Logdateien von Travis CI, einem oft verwendeten Dienst für Continuous Integration, und über 62000 Änderungslisten rekonstruiert. Auf dieser Grundlage wird die Effizienz der derzeitigen Testpläne bewertet, als auch solcher, die aus der Neupriorisierung durch leichtgewichtige, verlaufsbasierte Algorithmen hervorgehen. Zudem schlägt der vorliegende Bericht eine neue Gruppe von Ansätzen vor, die Testfehlschläge und Softwareänderungen mit Hilfe einer Matrix in Bezug setzt. Da die beobachteten Testreihenfolgen nur 30% APFD erzielen, liegt wesentliches Potential für Optimierung vor. Dabei besticht die Vorhersagekraft der unmittelbar vorangegangen Testfehlschläge: einfache Heuristiken, wie das Wiederholen von Tests, welche kürzlich fehlgeschlagen sind, führen zu Testplänen mit einer Effizienz von 95% APFD. Matrix-basierte Ansätze erreichen eine Fehlererkennungsrate von bis zu 92.5% APFD. Im Gegensatz zu den bisher bekannten Ansätzen sind die matrix-basierten Techniken auch über den Zweck der Testpriorisierung hinaus nützlich, und sind in der Softwarewartung anwendbar. Zusätzlich werden die Ergebnisse der vorliegenden Studie für Continuous Integration Systeme im Kontext integrierter Entwicklungsumgebungen validiert, indem ein Tool für Continuous Testing um Testpriorisierung erweitert wird. Dies führt zu neuen Forschungsfragen. Die Untersuchungsergebnisse sind geeignet die Einführung von Continuous Testing zu befördern, und untermauern, dass Werkzeuge der Testpriorisierung für produktive Softwareentwicklung essenziell sind. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 145 KW - test case prioritization KW - continuous integration KW - regression testing KW - version control KW - live programming KW - heuristics KW - data set KW - test results KW - GitHub KW - Java KW - Testpriorisierungs KW - kontinuierliche Integration KW - Regressionstests KW - Versionsverwaltung KW - Live-Programmierung KW - Heuristiken KW - Datensatz KW - Testergebnisse KW - GitHub KW - Java Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-537554 SN - 978-3-86956-528-6 SN - 1613-5652 SN - 2191-1665 IS - 145 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Bläsius, Thomas A1 - Friedrich, Tobias A1 - Lischeid, Julius A1 - Meeks, Kitty A1 - Schirneck, Friedrich Martin T1 - Efficiently enumerating hitting sets of hypergraphs arising in data profiling JF - Journal of computer and system sciences : JCSS N2 - The transversal hypergraph problem asks to enumerate the minimal hitting sets of a hypergraph. If the solutions have bounded size, Eiter and Gottlob [SICOMP'95] gave an algorithm running in output-polynomial time, but whose space requirement also scales with the output. We improve this to polynomial delay and space. Central to our approach is the extension problem, deciding for a set X of vertices whether it is contained in any minimal hitting set. We show that this is one of the first natural problems to be W[3]-complete. We give an algorithm for the extension problem running in time O(m(vertical bar X vertical bar+1) n) and prove a SETH-lower bound showing that this is close to optimal. We apply our enumeration method to the discovery problem of minimal unique column combinations from data profiling. Our empirical evaluation suggests that the algorithm outperforms its worst-case guarantees on hypergraphs stemming from real-world databases. KW - Data profiling KW - Enumeration algorithm KW - Minimal hitting set KW - Transversal hypergraph KW - Unique column combination KW - W[3]-Completeness Y1 - 2022 U6 - https://doi.org/10.1016/j.jcss.2021.10.002 SN - 0022-0000 SN - 1090-2724 VL - 124 SP - 192 EP - 213 PB - Elsevier CY - San Diego ER - TY - THES A1 - Hesse, Günter T1 - A benchmark for enterprise stream processing architectures T1 - Ein Benchmark für Architekturen zur Datenstromverarbeitung im Unternehmenskontext N2 - Data stream processing systems (DSPSs) are a key enabler to integrate continuously generated data, such as sensor measurements, into enterprise applications. DSPSs allow to steadily analyze information from data streams, e.g., to monitor manufacturing processes and enable fast reactions to anomalous behavior. Moreover, DSPSs continuously filter, sample, and aggregate incoming streams of data, which reduces the data size, and thus data storage costs. The growing volumes of generated data have increased the demand for high-performance DSPSs, leading to a higher interest in these systems and to the development of new DSPSs. While having more DSPSs is favorable for users as it allows choosing the system that satisfies their requirements the most, it also introduces the challenge of identifying the most suitable DSPS regarding current needs as well as future demands. Having a solution to this challenge is important because replacements of DSPSs require the costly re-writing of applications if no abstraction layer is used for application development. However, quantifying performance differences between DSPSs is a difficult task. Existing benchmarks fail to integrate all core functionalities of DSPSs and lack tool support, which hinders objective result comparisons. Moreover, no current benchmark covers the combination of streaming data with existing structured business data, which is particularly relevant for companies. This thesis proposes a performance benchmark for enterprise stream processing called ESPBench. With enterprise stream processing, we refer to the combination of streaming and structured business data. Our benchmark design represents real-world scenarios and allows for an objective result comparison as well as scaling of data. The defined benchmark query set covers all core functionalities of DSPSs. The benchmark toolkit automates the entire benchmark process and provides important features, such as query result validation and a configurable data ingestion rate. To validate ESPBench and to ease the use of the benchmark, we propose an example implementation of the ESPBench queries leveraging the Apache Beam software development kit (SDK). The Apache Beam SDK is an abstraction layer designed for developing stream processing applications that is applied in academia as well as enterprise contexts. It allows to run the defined applications on any of the supported DSPSs. The performance impact of Apache Beam is studied in this dissertation as well. The results show that there is a significant influence that differs among DSPSs and stream processing applications. For validating ESPBench, we use the example implementation of the ESPBench queries developed using the Apache Beam SDK. We benchmark the implemented queries executed on three modern DSPSs: Apache Flink, Apache Spark Streaming, and Hazelcast Jet. The results of the study prove the functioning of ESPBench and its toolkit. ESPBench is capable of quantifying performance characteristics of DSPSs and of unveiling differences among systems. The benchmark proposed in this thesis covers all requirements to be applied in enterprise stream processing settings, and thus represents an improvement over the current state-of-the-art. N2 - Data Stream Processing Systems (DSPSs) sind eine Schlüsseltechnologie, um kontinuierlich generierte Daten, wie beispielsweise Sensormessungen, in Unternehmensanwendungen zu integrieren. Die durch DSPSs ermöglichte permanente Analyse von Datenströmen kann dabei zur Überwachung von Produktionsprozessen genutzt werden, um möglichst zeitnah auf ungewollte Veränderungen zu reagieren. Darüber hinaus filtern, sampeln und aggregieren DSPSs einkommende Daten, was die Datengröße reduziert und so auch etwaige Kosten für die Datenspeicherung. Steigende Datenvolumen haben in den letzten Jahren den Bedarf für performante DSPSs steigen lassen, was zur Entwicklung neuer DSPSs führte. Während eine große Auswahl an verfügbaren Systemen generell gut für Nutzer ist, stellt es potentielle Anwender auch vor die Herausforderung, das für aktuelle und zukünftige Anforderungen passendste DSPS zu identifizieren. Es ist wichtig, eine Lösung für diese Herausforderung zu haben, da das Austauschen von einem DSPS zu teuren Anpassungen oder Neuentwicklungen der darauf laufenden Anwendungen erfordert, falls für deren Entwicklung keine Abstraktionsschicht verwendet wurde. Das quantitative Vergleichen von DSPSs ist allerdings eine schwierige Aufgabe. Existierende Benchmarks decken nicht alle Kernfunktionalitäten von DSPSs ab und haben keinen oder unzureichenden Tool-Support, was eine objektive Ergebnisberechnung hinsichtlich der Performanz erschwert. Zudem beinhaltet kein Benchmark die Integration von Streamingdaten und strukturierten Geschäftsdaten, was ein besonders für Unternehmen relevantes Szenario ist. Diese Dissertation stellt ESPBench vor, einen neuen Benchmark für Stream Processing-Szenarien im Unternehmenskontext. Der geschäftliche Kontext wird dabei durch die Verbindung von Streamingdaten und Geschäftsdaten dargestellt. Das Design von ESPBench repräsentiert Szenarien der realen Welt, stellt die objektive Berechnung von Benchmarkergebnissen sicher und erlaubt das Skalieren über Datencharakteristiken. Das entwickelte Toolkit des Benchmarks stellt wichtige Funktionalitäten bereit, wie beispielsweise die Automatisierung den kompletten Benchmarkprozesses sowie die Überprüfung der Abfrageergebnisse hinsichtlich ihrer Korrektheit. Um ESPBench zu validieren und die Anwendung weiter zu vereinfachen, haben wir eine Beispielimplementierung der Queries veröffentlicht. Die Implementierung haben wir mithilfe des in Industrie und Wissenschaft eingesetzten Softwareentwicklungsbaukastens Apache Beam durchgeführt, der es ermöglicht, entwickelte Anwendungen auf allen unterstützten DSPSs auszuführen. Den Einfluss auf die Performanz des Verwendens von Apache Beam wird dabei ebenfalls in dieser Arbeit untersucht. Weiterhin nutzen wir die veröffentlichte Beispielimplementierung der Queries um drei moderne DSPSs mit ESPBench zu untersuchen: Apache Flink, Apache Spark Streaming und Hazelcast Jet. Der Ergebnisse der Studie verdeutlichen die Funktionsfähigkeit von ESPBench und dessen Toolkit. ESPBench befähigt Performanzcharakteristiken von DSPSs zu quantifizieren und Unterschiede zwischen Systemen aufzuzeigen. Der in dieser Dissertation vorgestellte Benchmark erfüllt alle Anforderungen, um in Stream Processing-Szenarien im Unternehmenskontext eingesetzt zu werden und stellt somit eine Verbesserung der aktuellen Situation dar. KW - stream processing KW - performance KW - benchmarking KW - dsps KW - espbench KW - benchmark KW - Performanz KW - Datenstromverarbeitung KW - Benchmark Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-566000 ER - TY - JOUR A1 - Hiort, Pauline A1 - Schlaffner, Christoph N. A1 - Steen, Judith A. A1 - Renard, Bernhard Y. A1 - Steen, Hanno T1 - multiFLEX-LF: a computational approach to quantify the modification stoichiometries in label-free proteomics data sets JF - Journal of proteome research N2 - In liquid-chromatography-tandem-mass-spectrometry-based proteomics, information about the presence and stoichiometry ofprotein modifications is not readily available. To overcome this problem,we developed multiFLEX-LF, a computational tool that builds uponFLEXIQuant, which detects modified peptide precursors and quantifiestheir modification extent by monitoring the differences between observedand expected intensities of the unmodified precursors. multiFLEX-LFrelies on robust linear regression to calculate the modification extent of agiven precursor relative to a within-study reference. multiFLEX-LF cananalyze entire label-free discovery proteomics data sets in a precursor-centric manner without preselecting a protein of interest. To analyzemodification dynamics and coregulated modifications, we hierarchicallyclustered the precursors of all proteins based on their computed relativemodification scores. We applied multiFLEX-LF to a data-independent-acquisition-based data set acquired using the anaphase-promoting complex/cyclosome (APC/C) isolated at various time pointsduring mitosis. The clustering of the precursors allows for identifying varying modification dynamics and ordering the modificationevents. Overall, multiFLEX-LF enables the fast identification of potentially differentially modified peptide precursors and thequantification of their differential modification extent in large data sets using a personal computer. Additionally, multiFLEX-LF candrive the large-scale investigation of the modification dynamics of peptide precursors in time-series and case-control studies.multiFLEX-LF is available athttps://gitlab.com/SteenOmicsLab/multiflex-lf. KW - bioinformatics tool KW - label-free quantification KW - LC-MS KW - MS KW - post-translational modification KW - modification stoichiometry KW - PTM KW - quantification Y1 - 2022 U6 - https://doi.org/10.1021/acs.jproteome.1c00669 SN - 1535-3893 SN - 1535-3907 VL - 21 IS - 4 SP - 899 EP - 909 PB - American Chemical Society CY - Washington ER - TY - THES A1 - Sukmana, Muhammad Ihsan Haikal T1 - Security improvements for enterprise file sychronization and sharing system T1 - Sicherheitsverbesserungen für Enterprise File Synchronization und Sharing System N2 - With the fast rise of cloud computing adoption in the past few years, more companies are migrating their confidential files from their private data center to the cloud to help enterprise's digital transformation process. Enterprise file synchronization and share (EFSS) is one of the solutions offered for enterprises to store their files in the cloud with secure and easy file sharing and collaboration between its employees. However, the rapidly increasing number of cyberattacks on the cloud might target company's files on the cloud to be stolen or leaked to the public. It is then the responsibility of the EFSS system to ensure the company's confidential files to only be accessible by authorized employees. CloudRAID is a secure personal cloud storage research collaboration project that provides data availability and confidentiality in the cloud. It combines erasure and cryptographic techniques to securely store files as multiple encrypted file chunks in various cloud service providers (CSPs). However, several aspects of CloudRAID's concept are unsuitable for secure and scalable enterprise cloud storage solutions, particularly key management system, location-based access control, multi-cloud storage management, and cloud file access monitoring. This Ph.D. thesis focuses on CloudRAID for Business (CfB) as it resolves four main challenges of CloudRAID's concept for a secure and scalable EFSS system. First, the key management system is implemented using the attribute-based encryption scheme to provide secure and scalable intra-company and inter-company file-sharing functionalities. Second, an Internet-based location file access control functionality is introduced to ensure files could only be accessed at pre-determined trusted locations. Third, a unified multi-cloud storage resource management framework is utilized to securely manage cloud storage resources available in various CSPs for authorized CfB stakeholders. Lastly, a multi-cloud storage monitoring system is introduced to monitor the activities of files in the cloud using the generated cloud storage log files from multiple CSPs. In summary, this thesis helps CfB system to provide holistic security for company's confidential files on the cloud-level, system-level, and file-level to ensure only authorized company and its employees could access the files. N2 - Mit der raschen Verbreitung von Cloud Computing in den letzten Jahren verlagern immer mehr Unternehmen ihre vertraulichen Dateien von ihren privaten Rechenzentren in die Cloud, um den digitalen Transformationsprozess des Unternehmens zu unterstützen. Enterprise File Synchronization and Share (EFSS) ist eine der Lösungen, die Unternehmen angeboten werden, um ihre Dateien in der Cloud zu speichern und so eine sichere und einfache gemeinsame Nutzung von Dateien und die Zusammenarbeit zwischen den Mitarbeitern zu ermöglichen. Die schnell wachsende Zahl von Cyberangriffen auf die Cloud kann jedoch dazu führen, dass die in der Cloud gespeicherten Unternehmensdateien gestohlen werden oder an die Öffentlichkeit gelangen. Es liegt dann in der Verantwortung des EFSS-Systems, sicherzustellen, dass die vertraulichen Dateien des Unternehmens nur für autorisierte Mitarbeiter zugänglich sind. CloudRAID ist ein Forschungsprojekt für sichere persönliche Cloud-Speicher, das die Verfügbarkeit und Vertraulichkeit von Daten in der Cloud gewährleistet. Es kombiniert Lösch- und Verschlüsselungstechniken, um Dateien in Form von mehreren verschlüsselten Datei-Blöcken bei verschiedenen Cloud-Service-Providern (CSPs) sicher zu speichern. Mehrere Aspekte des CloudRAID-Konzepts sind jedoch für sichere und skalierbare Cloud-Speicherlösungen für Unternehmen ungeeignet, insbesondere das Schlüsselverwaltungssystem, die standortbasierte Zugriffskontrolle, die Verwaltung mehrerer Cloud-Speicher und die Überwachung des Zugriffs auf Cloud-Dateien. Diese Doktorarbeit konzentriert sich auf CloudRAID for Business (CfB), da es die vier wichtigsten Herausforderungen des CloudRAID-Konzepts für ein sicheres und skalierbares EFSS-System löst. Erstens wird das Verwaltungssystem der kryptografischen Schlüssel unter Verwendung des attributbasierten Verschlüsselungsschemas implementiert, um sichere und skalierbare unternehmensinterne und -übergreifende Dateifreigabefunktionen bereitzustellen. Zweitens wird eine internetbasierte Dateizugriffskontrolle eingeführt, um sicherzustellen, dass der Zugriff auf Dateien nur an vorher festgelegten vertrauenswürdigen Standorten möglich ist. Drittens wird ein einheitlicher Rahmen für die Verwaltung von Multi-Cloud-Speicherressourcen verwendet, um die in verschiedenen CSPs verfügbaren Cloud-Speicherressourcen für autorisierte CfB-Akteure sicher zu verwalten. Schließlich wird ein Multi-Cloud-Storage-Monitoring-System eingeführt, um die Aktivitäten von Dateien in der Cloud anhand der von mehreren CSPs generierten Cloud-Storage-Protokolldateien zu überwachen. Zusammenfassend lässt sich sagen, dass diese Arbeit dem CfB-System hilft, ganzheitliche Sicherheit für vertrauliche Unternehmensdateien auf Cloud-, System- und Dateiebene zu bieten, um sicherzustellen, dass nur autorisierte Unternehmen und ihre Mitarbeiter auf die Dateien zugreifen können. KW - CloudRAID KW - CloudRAID for Business KW - Cloud Computing KW - Cybersecurity KW - Cryptography KW - Access Control KW - Enterprise File Synchronization and Share KW - Zugriffskontrolle KW - Cloud Computing KW - CloudRAID KW - CloudRAID for Business KW - Kryptografie KW - Cybersicherheit KW - Unternehmensdateien synchronisieren und teilen Y1 - 2022 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-549996 ER -