TY - THES A1 - Repp, Leo T1 - Extending the automatic theorem prover nanoCoP with arithmetic procedures T1 - Erweiterung des automatischen Theorembeweisers nanoCoP um Arithmetik und Gleichheit behandelnde Verfahren N2 - In dieser Bachelorarbeit implementiere ich den automatischen Theorembeweiser nanoCoP-Ω. Es handelt sich bei diesem neuen System um das Ergebnis einer Portierung von Arithmetik-behandelnden Prozeduren aus dem automatischen Theorembeweiser mit Arithmetik leanCoP-Ω in das System nanoCoP 2.0. Dazu wird zuerst der mathematische Hintergrund zu automatischen Theorembeweisern und Arithmetik gegeben. Ich stelle die Vorgängerprojekte leanCoP, nanoCoP und leanCoP-Ω vor, auf dessen Vorlage nanoCoP-Ω entwickelt wurde. Es folgt eine ausführliche Erklärung der Konzepte, um welche der nicht-klausale Konnektionskalkül erweitert werden muss, um eine Behandlung von arithmetischen Ausdrücken und Gleichheiten in den Kalkül zu integrieren, sowie eine Beschreibung der Implementierung dieser Konzepte in nanoCoP-Ω. Als letztes folgt eine experimentelle Evaluation von nanoCoP-Ω. Es wurde ein ausführlicher Vergleich von Laufzeit und Anzahl gelöster Probleme im Vergleich zum ähnlich aufgebauten Theorembeweiser leanCoP-Ω auf Basis der TPTP-Benchmark durchgeführt. Ich komme zu dem Ergebnis, dass nanoCoP-Ω deutlich schneller ist als leanCoP-Ω ist, jedoch weniger gut geeignet für größere Probleme. Zudem konnte ich feststellen, dass nanoCoP-Ω falsche Beweise liefern kann. Ich bespreche, wie dieses Problem gelöst werden kann, sowie einige mögliche Optimierungen und Erweiterungen des Beweissystems. N2 - In this bachelor’s thesis I implement the automatic theorem prover nanoCoP-Ω. This system is the result of porting arithmetic and equality handling procedures first introduced in the automatic theorem prover with arithmetic leanCoP-Ω into the similar system nanoCoP 2.0. To understand these procedures, I first introduce the mathematical background to both automatic theorem proving and arithmetic expressions. I present the predecessor projects leanCoP, nanoCoP and leanCoP-Ω, out of which nanCoP-Ω was developed. This is followed by an extensive description of the concepts the non-clausal connection calculus needed to be extended by, to allow for proving arithmetic expressions and equalities, as well as of their implementation into nanoCoP-Ω. An extensive comparison between both the runtimes and the number of solved problems of the systems nanoCoP-Ω and leanCoP-Ω was made. I come to the conclusion, that nanoCoP-Ω is considerably faster than leanCoP-Ω for small problems, though less well suited for larger problems. Additionally, I was able to construct a non-theorem that nanoCoP-Ω generates a false proof for. I discuss how this pressing issue could be resolved, as well as some possible optimizations and expansions of the system. KW - automatic theorem prover KW - leanCoP KW - connection calculus KW - tptp KW - arithmetic procedures KW - equality KW - omega KW - arithmethische Prozeduren KW - automatisierter Theorembeweiser KW - Konnektionskalkül KW - Gleichheit KW - leanCoP KW - Omega KW - TPTP Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-576195 ER - TY - THES A1 - Molitor, Louise T1 - Strategic Residential Segregation N2 - Residential segregation is a widespread phenomenon that can be observed in almost every major city. In these urban areas, residents with different ethnical or socioeconomic backgrounds tend to form homogeneous clusters. In Schelling’s classical segregation model two types of agents are placed on a grid. An agent is content with its location if the fraction of its neighbors, which have the same type as the agent, is at least 𝜏, for some 0 < 𝜏 ≤ 1. Discontent agents simply swap their location with a randomly chosen other discontent agent or jump to a random empty location. The model gives a coherent explanation of how clusters can form even if all agents are tolerant, i.e., if they agree to live in mixed neighborhoods. For segregation to occur, all it needs is a slight bias towards agents preferring similar neighbors. Although the model is well studied, previous research focused on a random process point of view. However, it is more realistic to assume instead that the agents strategically choose where to live. We close this gap by introducing and analyzing game-theoretic models of Schelling segregation, where rational agents strategically choose their locations. As the first step, we introduce and analyze a generalized game-theoretic model that allows more than two agent types and more general underlying graphs modeling the residential area. We introduce different versions of Swap and Jump Schelling Games. Swap Schelling Games assume that every vertex of the underlying graph serving as a residential area is occupied by an agent and pairs of discontent agents can swap their locations, i.e., their occupied vertices, to increase their utility. In contrast, for the Jump Schelling Game, we assume that there exist empty vertices in the graph and agents can jump to these vacant vertices if this increases their utility. We show that the number of agent types as well as the structure of underlying graph heavily influence the dynamic properties and the tractability of finding an optimal strategy profile. As a second step, we significantly deepen these investigations for the swap version with 𝜏 = 1 by studying the influence of the underlying topology modeling the residential area on the existence of equilibria, the Price of Anarchy, and the dynamic properties. Moreover, we restrict the movement of agents locally. As a main takeaway, we find that both aspects influence the existence and the quality of stable states. Furthermore, also for the swap model, we follow sociological surveys and study, asking the same core game-theoretic questions, non-monotone singlepeaked utility functions instead of monotone ones, i.e., utility functions that are not monotone in the fraction of same-type neighbors. Our results clearly show that moving from monotone to non-monotone utilities yields novel structural properties and different results in terms of existence and quality of stable states. In the last part, we introduce an agent-based saturated open-city variant, the Flip Schelling Process, in which agents, based on the predominant type in their neighborhood, decide whether to change their types. We provide a general framework for analyzing the influence of the underlying topology on residential segregation and investigate the probability that an edge is monochrome, i.e., that both incident vertices have the same type, on random geometric and Erdős–Rényi graphs. For random geometric graphs, we prove the existence of a constant c > 0 such that the expected fraction of monochrome edges after the Flip Schelling Process is at least 1/2 + c. For Erdős–Rényi graphs, we show the expected fraction of monochrome edges after the Flip Schelling Process is at most 1/2 + o(1). N2 - Die Segregation von Wohngebieten ist ein weit verbreitetes Phänomen, das in fast jeder größeren Stadt zu beobachten ist. In diesen städtischen Gebieten neigen Bewohner mit unterschiedlichem ethnischen oder sozioökonomischen Hintergrund dazu, homogene Nachbarschaften zu bilden. In Schellings klassischem Segregationsmodell werden zwei Arten von Agenten auf einem Gitter platziert. Ein Agent ist mit seinem Standort zufrieden, wenn der Anteil seiner Nachbarn, die denselben Typ wie er haben, mindestens 𝜏 beträgt, für 0 < 𝜏 ≤ 1. Unzufriedene Agenten tauschen einfach ihren Standort mit einem zufällig ausgewählten anderen unzufriedenen Agenten oder springen auf einen zufälligen leeren Platz. Das Modell liefert eine kohärente Erklärung dafür, wie sich Cluster bilden können, selbst wenn alle Agenten tolerant sind, d.h. wenn sie damit einverstanden sind, in gemischten Nachbarschaften zu leben. Damit es zu Segregation kommt, genügt eine leichte Tendenz, dass die Agenten ähnliche Nachbarn bevorzugen. Obwohl das Modell gut untersucht ist, lag der Schwerpunkt der bisherigen Forschung eher auf dem Zufallsprozess. Es ist jedoch realistischer, davon auszugehen, dass Agenten strategisch ihren Wohnort aussuchen. Wir schließen diese Lücke, indem wir spieltheoretische Modelle der Schelling-Segregation einführen und analysieren, in welchen rationale Akteure ihre Standorte strategisch wählen. In einem ersten Schritt führen wir ein verallgemeinertes spieltheoretisches Modell ein, das mehr als zwei Agententypen und allgemeinere zugrundeliegende Graphen zur Modellierung des Wohngebiets zulässt und analysieren es. Zu diesem Zweck untersuchen wir verschiedene Versionen von Tausch- und Sprung-Schelling-Spielen. Bei den Tausch-Schelling-Spielen gehen wir davon aus, dass jeder Knoten des zugrunde liegenden Graphen, der als Wohngebiet dient, von einem Agenten besetzt ist und dass Paare von unzufriedenen Agenten ihre Standorte, d.h. ihre besetzten Knoten, tauschen können, um ihren Nutzen zu erhöhen. Im Gegensatz dazu gehen wir beim Sprung-Schelling-Spiel davon aus, dass es leere Knoten im Graphen gibt und die Agenten zu diesen unbesetzten Knoten springen können, wenn dies ihren Nutzen erhöht. Wir zeigen, dass die Anzahl der Agententypen sowie die zugrundeliegende Struktur des Graphen, die dynamischen Eigenschaften und die Komplexität der Berechenbarkeit eines optimalen Strategieprofils stark beeinflussen. In einem zweiten Schritt vertiefen wir diese Untersuchungen für die Tauschvariante mit 𝜏 = 1 erheblich, indem wir den Einfluss der zugrunde liegenden Topologie, die dasWohngebiet modelliert, auf die Existenz von Gleichgewichten, den Preis der Anarchie und die dynamischen Eigenschaften hin untersuchen. Darüber hinaus schränken wir die Bewegung der Agenten lokal ein. Die wichtigste Erkenntnis ist, dass beide Aspekte die Existenz als auch die Qualität stabiler Zustände beeinflussen. Desweiteren folgen wir, auch für das Tauschmodell, soziologischen Untersuchungen und untersuchen für dieselben zentralen spieltheoretischen Fragen nicht-monotone einspitzige Nutzenfunktionen anstelle von monotonen, d.h. Nutzenfunktionen, die nicht monoton bezüglich des Anteils der gleichartigen Nachbarn sind. Unsere Ergebnisse zeigen deutlich, dass der Übergang von monotonen zu nicht-monotonen Nutzenfunktionen zu neuen strukturellen Eigenschaften und anderen Ergebnissen in Bezug auf die Existenz und Qualität stabiler Zustände führt. Im letzten Teil führen wir eine agentenbasierte gesättigte Offene-Stadt-Variante ein, den Flip-Schelling-Prozess, bei dem Agenten auf der Grundlage des vorherrschenden Typs in ihrer Nachbarschaft entscheiden, ob sie ihren Typ wechseln. Wir stellen einen allgemeinen Rahmen für die Analyse des Einflusses der zugrundeliegenden Topologie auf dieWohnsegregation zur Verfügung und untersuchen die Wahrscheinlichkeit, dass eine Kante einfarbig auf zufälligen geometrischen und Erdős–Rényi-Graphen ist, d.h. dass beide inzidenten Knoten denselben Typ haben. Für zufällige geometrische Graphen beweisen wir die Existenz einer Konstante c > 0, so dass der erwartete Anteil einfarbiger Kanten nach dem Flip-Schelling-Prozess mindestens 1/2 + c beträgt. Für Erdős–Rényi-Graphen zeigen wir, dass der erwartete Anteil einfarbiger Kanten nach dem Flip-Schelling-Prozess höchstens 1/2 + o(1) ist. T2 - Strategische Wohnsegregation KW - Schelling Segregation KW - Algorithmic Game Theory KW - Schelling Process KW - Price of Anarchy KW - Game Dynamics KW - Algorithmische Spieltheorie KW - Spieldynamiken KW - Preis der Anarchie KW - Schelling Prozess KW - Schelling Segregation Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-601359 ER - TY - THES A1 - Doskoč, Vanja T1 - Mapping restrictions in behaviourally correct learning N2 - In this thesis, we investigate language learning in the formalisation of Gold [Gol67]. Here, a learner, being successively presented all information of a target language, conjectures which language it believes to be shown. Once these hypotheses converge syntactically to a correct explanation of the target language, the learning is considered successful. Fittingly, this is termed explanatory learning. To model learning strategies, we impose restrictions on the hypotheses made, for example requiring the conjectures to follow a monotonic behaviour. This way, we can study the impact a certain restriction has on learning. Recently, the literature shifted towards map charting. Here, various seemingly unrelated restrictions are contrasted, unveiling interesting relations between them. The results are then depicted in maps. For explanatory learning, the literature already provides maps of common restrictions for various forms of data presentation. In the case of behaviourally correct learning, where the learners are required to converge semantically instead of syntactically, the same restrictions as in explanatory learning have been investigated. However, a similarly complete picture regarding their interaction has not been presented yet. In this thesis, we transfer the map charting approach to behaviourally correct learning. In particular, we complete the partial results from the literature for many well-studied restrictions and provide full maps for behaviourally correct learning with different types of data presentation. We also study properties of learners assessed important in the literature. We are interested whether learners are consistent, that is, whether their conjectures include the data they are built on. While learners cannot be assumed consistent in explanatory learning, the opposite is the case in behaviourally correct learning. Even further, it is known that learners following different restrictions may be assumed consistent. We contribute to the literature by showing that this is the case for all studied restrictions. We also investigate mathematically interesting properties of learners. In particular, we are interested in whether learning under a given restriction may be done with strongly Bc-locking learners. Such learners are of particular value as they allow to apply simulation arguments when, for example, comparing two learning paradigms to each other. The literature gives a rich ground on when learners may be assumed strongly Bc-locking, which we complete for all studied restrictions. N2 - In dieser Arbeit untersuchen wir das Sprachenlernen in der Formalisierung von Gold [Gol67]. Dabei stellt ein Lerner, dem nacheinander die volle Information einer Zielsprache präsentiert wird, Vermutungen darüber auf, welche Sprache er glaubt, präsentiert zu bekommen. Sobald diese Hypothesen syntaktisch zu einer korrekten Erklärung der Zielsprache konvergieren, wird das Lernen als erfolgreich angesehen. Dies wird passenderweise als erklärendes Lernen bezeichnet. Um Lernstrategien zu modellieren, werden den aufgestellten Hypothesen Einschränkungen auferlegt, zum Beispiel, dass die Vermutungen einem monotonen Verhalten folgen müssen. Auf diese Weise können wir untersuchen, welche Auswirkungen eine bestimmte Einschränkung auf das Lernen hat. In letzter Zeit hat sich die Literatur in Richtung Kartographie verlagert. Hier werden verschiedene, scheinbar nicht zusammenhängende Restriktionen einander gegenübergestellt, wodurch interessante Beziehungen zwischen ihnen aufgedeckt werden. Die Ergebnisse werden dann in so genannten Karten dargestellt. Für das erklärende Lernen gibt es in der Literatur bereits Karten geläufiger Einschränkungen für verschiedene Formen der Datenpräsentation. Im Falle des verhaltenskorrekten Lernens, bei dem die Lerner nicht syntaktisch, sondern semantisch konvergieren sollen, wurden die gleichen Einschränkungen wie beim erklärenden Lernen untersucht. Ein ähnlich vollständiges Bild hinsichtlich ihrer Interaktion wurde jedoch noch nicht präsentiert. In dieser Arbeit übertragen wir den Kartographie-Ansatz auf das verhaltenskorrekte Lernen. Insbesondere vervollständigen wir die Teilergebnisse aus der Literatur für viele gut untersuchte Restriktionen und liefern Karten für verhaltenskorrektes Lernen mit verschiedenen Arten der Datenpräsentation. Wir untersuchen auch Eigenschaften von Lernern, die in der Literatur als wichtig eingestuft werden. Uns interessiert, ob die Lerner konsistent sind, das heißt ob ihre Vermutungen die Daten einschließen, auf denen sie aufgebaut sind. Während man beim erklärenden Lernen nicht davon ausgehen kann, dass die Lerner konsistent sind, ist beim verhaltenskorrekten Lernen das Gegenteil der Fall. Es ist sogar bekannt, dass Lerner, die verschiedenen Einschränkungen folgen, als konsistent angenommen werden können. Wir tragen zur Literatur bei, indem wir zeigen, dass dies für alle untersuchten Restriktionen der Fall ist. Wir untersuchen auch mathematisch interessante Eigenschaften von Lernern. Insbesondere interessiert uns, ob das Lernen unter einer gegebenen Restriktion mit stark Bc-sperrenden Lernern durchgeführt werden kann. Solche Lerner sind von besonderem Wert, da sie es erlauben, Simulationsargumente anzuwenden, wenn man zum Beispiel zwei Lernparadigmen miteinander vergleicht. Die Literatur bietet eine reichhaltige Grundlage dafür, wann Lerner als stark Bc-sperrend angenommen werden können, die wir auf alle untersuchten Einschränkungen erweitern. KW - language learning in the limit KW - behaviourally correct learning KW - maps KW - consistent learning KW - strongly behaviourally correct locking KW - verhaltenskorrektes Lernen KW - konsistentes Lernen KW - Sprachlernen im Limes KW - Karten KW - stark verhaltenskorrekt sperrend Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-593110 ER - TY - THES A1 - Hagedorn, Christopher T1 - Parallel execution of causal structure learning on graphics processing units T1 - Parallele Ausführung von kausalem Strukturlernen auf Grafikprozessoren N2 - Learning the causal structures from observational data is an omnipresent challenge in data science. The amount of observational data available to Causal Structure Learning (CSL) algorithms is increasing as data is collected at high frequency from many data sources nowadays. While processing more data generally yields higher accuracy in CSL, the concomitant increase in the runtime of CSL algorithms hinders their widespread adoption in practice. CSL is a parallelizable problem. Existing parallel CSL algorithms address execution on multi-core Central Processing Units (CPUs) with dozens of compute cores. However, modern computing systems are often heterogeneous and equipped with Graphics Processing Units (GPUs) to accelerate computations. Typically, these GPUs provide several thousand compute cores for massively parallel data processing. To shorten the runtime of CSL algorithms, we design efficient execution strategies that leverage the parallel processing power of GPUs. Particularly, we derive GPU-accelerated variants of a well-known constraint-based CSL method, the PC algorithm, as it allows choosing a statistical Conditional Independence test (CI test) appropriate to the observational data characteristics. Our two main contributions are: (1) to reflect differences in the CI tests, we design three GPU-based variants of the PC algorithm tailored to CI tests that handle data with the following characteristics. We develop one variant for data assuming the Gaussian distribution model, one for discrete data, and another for mixed discrete-continuous data and data with non-linear relationships. Each variant is optimized for the appropriate CI test leveraging GPU hardware properties, such as shared or thread-local memory. Our GPU-accelerated variants outperform state-of-the-art parallel CPU-based algorithms by factors of up to 93.4× for data assuming the Gaussian distribution model, up to 54.3× for discrete data, up to 240× for continuous data with non-linear relationships and up to 655× for mixed discrete-continuous data. However, the proposed GPU-based variants are limited to datasets that fit into a single GPU’s memory. (2) To overcome this shortcoming, we develop approaches to scale our GPU-based variants beyond a single GPU’s memory capacity. For example, we design an out-of-core GPU variant that employs explicit memory management to process arbitrary-sized datasets. Runtime measurements on a large gene expression dataset reveal that our out-of-core GPU variant is 364 times faster than a parallel CPU-based CSL algorithm. Overall, our proposed GPU-accelerated variants speed up CSL in numerous settings to foster CSL’s adoption in practice and research. N2 - Das Lernen von kausalen Strukturen aus Beobachtungsdatensätzen ist eine allgegenwärtige Herausforderung im Data Science-Bereich. Die für die Algorithmen des kausalen Strukturlernens (CSL) zur Verfügung stehende Menge von Beobachtungsdaten nimmt zu, da heutzutage mit hoher Frequenz Daten aus vielen Datenquellen gesammelt werden. Während die Verarbeitung von höheren Datenmengen im Allgemeinen zu einer höheren Genauigkeit bei CSL führt, hindert die damit einhergehende Erhöhung der Laufzeit von CSL-Algorithmen deren breite Anwendung in der Praxis. CSL ist ein parallelisierbares Problem. Bestehende parallele CSL-Algorithmen eignen sich für die Ausführung auf Mehrkern-Hauptprozessoren (CPUs) mit Dutzenden von Rechenkernen. Moderne Computersysteme sind jedoch häufig heterogen. Um notwendige Berechnungen zu beschleunigen, sind die Computersysteme typischerweise mit Grafikprozessoren (GPUs) ausgestattet, wobei diese GPUs mehrere tausend Rechenkerne für eine massive parallele Datenverarbeitung bereitstellen. Um die Laufzeit von Algorithmen für das kausale Strukturlernen zu verkürzen, entwickeln wir im Rahmen dieser Arbeit effiziente Ausführungsstrategien, die die parallele Verarbeitungsleistung von GPUs nutzen. Dabei entwerfen wir insbesondere GPU-beschleunigte Varianten des PC-Algorithmus, der eine bekannte Constraint-basierte CSL-Methode ist. Dieser Algorithmus ermöglicht die Auswahl eines – den Eigenschaften der Beobachtungsdaten entsprechenden – statistischen Tests auf bedingte Unabhängigkeit (CI-Test). Wir leisten in dieser Doktorarbeit zwei wissenschaftliche Hauptbeiträge: (1) Um den Unterschieden in den CI-Tests Rechnung zu tragen, entwickeln wir drei GPU-basierte, auf CI-Tests zugeschnittene Varianten des PC-Algorithmus. Dadurch können Daten mit den folgenden Merkmalen verarbeitet werden: eine Variante fokussiert sich auf Daten, die das Gaußsche Verteilungsmodell annehmen, eine weitere auf diskrete Daten und die dritte Variante setzt den Fokus auf gemischte diskret-kontinuierliche Daten sowie Daten mit nicht-linearen funktionalen Beziehungen. Jede Variante ist für den entsprechenden CI-Test optimiert und nutzt Eigenschaften der GPU-Hardware wie beispielsweise ”Shared Memory” oder ”Thread-local Memory” aus. Unsere GPU-beschleunigten Varianten übertreffen die modernsten parallelen CPU-basierten Algorithmen um Faktoren von bis zu 93,4x für Daten, die das Gaußsche Verteilungsmodell annehmen, bis zu 54,3x für diskrete Daten, bis zu 240x für kontinuierliche Daten mit nichtlinearen Beziehungen und bis zu 655x für gemischte diskret-kontinuierliche Daten. Die vorgeschlagenen GPU-basierten Varianten sind dabei jedoch auf Datensätze beschränkt, die in den Speicher einer einzelnen GPU passen. (2) Um diese Schwachstelle zu beseitigen, entwickeln wir Ansätze zur Skalierung unserer GPU-basierten Varianten über die Speicherkapazität einer einzelnen GPU hinaus. So entwerfen wir beispielsweise eine auf einer expliziten Speicherverwaltung aufbauenden Out-of-Core-Variante für eine einzelne GPU, um Datensätze beliebiger Größe zu verarbeiten. Laufzeitmessungen auf einem großen Genexpressionsdatensatz zeigen, dass unsere Out-of-Core GPU-Variante 364-mal schneller ist als ein paralleler CPU-basierter CSL-Algorithmus. Insgesamt beschleunigen unsere vorgestellten GPU-basierten Varianten das kausale Strukturlernen in zahlreichen Situationen und unterstützen dadurch die breite Anwendung des kausalen Strukturlernens in Praxis und Forschung. KW - causal structure learning KW - GPU acceleration KW - causal discovery KW - parallel processing KW - GPU-Beschleunigung KW - kausale Entdeckung KW - kausales Strukturlernen KW - parallele Verarbeitung Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-597582 ER - TY - BOOK A1 - Barkowsky, Matthias A1 - Giese, Holger T1 - Modular and incremental global model management with extended generalized discrimination networks T1 - Modulares und inkrementelles Globales Modellmanagement mit erweiterten Generalized Discrimination Networks N2 - Complex projects developed under the model-driven engineering paradigm nowadays often involve several interrelated models, which are automatically processed via a multitude of model operations. Modular and incremental construction and execution of such networks of models and model operations are required to accommodate efficient development with potentially large-scale models. The underlying problem is also called Global Model Management. In this report, we propose an approach to modular and incremental Global Model Management via an extension to the existing technique of Generalized Discrimination Networks (GDNs). In addition to further generalizing the notion of query operations employed in GDNs, we adapt the previously query-only mechanism to operations with side effects to integrate model transformation and model synchronization. We provide incremental algorithms for the execution of the resulting extended Generalized Discrimination Networks (eGDNs), as well as a prototypical implementation for a number of example eGDN operations. Based on this prototypical implementation, we experiment with an application scenario from the software development domain to empirically evaluate our approach with respect to scalability and conceptually demonstrate its applicability in a typical scenario. Initial results confirm that the presented approach can indeed be employed to realize efficient Global Model Management in the considered scenario. N2 - Komplexe Projekte, die unter dem Paradigma der modellgetriebenen Entwicklung entwickelt werden, nutzen heutzutage oft mehrere miteinander in Beziehung stehende Modelle, die durch eine Vielzahl von Modelloperationen automatiscsh verarbeitet werden. Die modulare und inkrementelle Konstruktion und Ausführung solcher Netzwerke von Modelloperationen ist eine Voraussetzung für effiziente Entwicklung mit potenziell sehr großen Modellen. Das zugrunde liegende Forschungsproblem heißt auch Globales Modellmanagement. In diesem Bericht schlagen wir einen Ansatz für modulares und inkrementelles Globales Modellmanagement vor, der auf einer Erweiterung der existierenden Technik der Generalized Discrimination Networks (GDNs) basiert. Neben einer weiteren Verallgemeinerung des Konzepts der Anfrageoperationen in GDNs erweitern wir den zuvor rein lesenden Mechanismus auf Operationen mit Seiteneffekten, um Modelltransformationen und Modellsynchronisationen zu integrieren. Wir präsentieren inkrementelle Algorithmen für die Ausführung der resultierenden erweiterten GDNs (eGDNs) sowie eine prototypische Implementierung von Beispieloperationen für eGDNs. Mithilfe dieser prototypischen Implementierung evaluieren wir unsere Lösung hinsichtlich ihrer Skalierbarkeit in einem Anwendungsszenario aus dem Bereich der Softwareentwicklung. Außerdem demonstrieren wir die Anwendbarkeit der entwickelten Technik konzeptionell anhand eines typischen Anwendugsszenario. Unsere ersten Ergebnisse bestätigen, dass die Lösung genutzt werden kann, um effizientes Globales Modellmanagement im betrachteten Szenario zu realisieren. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 154 KW - global model management KW - generalized discrimination networks KW - globales Modellmanagement KW - Generalized Discrimination Networks Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-573965 SN - 978-3-86956-555-2 SN - 1613-5652 SN - 2191-1665 IS - 154 SP - 63 EP - 63 ER - TY - THES A1 - Shekhar, Sumit T1 - Image and video processing based on intrinsic attributes N2 - Advancements in computer vision techniques driven by machine learning have facilitated robust and efficient estimation of attributes such as depth, optical flow, albedo, and shading. To encapsulate all such underlying properties associated with images and videos, we evolve the concept of intrinsic images towards intrinsic attributes. Further, rapid hardware growth in the form of high-quality smartphone cameras, readily available depth sensors, mobile GPUs, or dedicated neural processing units have made image and video processing pervasive. In this thesis, we explore the synergies between the above two advancements and propose novel image and video processing techniques and systems based on them. To begin with, we investigate intrinsic image decomposition approaches and analyze how they can be implemented on mobile devices. We propose an approach that considers not only diffuse reflection but also specular reflection; it allows us to decompose an image into specularity, albedo, and shading on a resource constrained system (e.g., smartphones or tablets) using the depth data provided by the built-in depth sensors. In addition, we explore how on-device depth data can further be used to add an immersive dimension to 2D photos, e.g., showcasing parallax effects via 3D photography. In this regard, we develop a novel system for interactive 3D photo generation and stylization on mobile devices. Further, we investigate how adaptive manipulation of baseline-albedo (i.e., chromaticity) can be used for efficient visual enhancement under low-lighting conditions. The proposed technique allows for interactive editing of enhancement settings while achieving improved quality and performance. We analyze the inherent optical flow and temporal noise as intrinsic properties of a video. We further propose two new techniques for applying the above intrinsic attributes for the purpose of consistent video filtering. To this end, we investigate how to remove temporal inconsistencies perceived as flickering artifacts. One of the techniques does not require costly optical flow estimation, while both provide interactive consistency control. Using intrinsic attributes for image and video processing enables new solutions for mobile devices – a pervasive visual computing device – and will facilitate novel applications for Augmented Reality (AR), 3D photography, and video stylization. The proposed low-light enhancement techniques can also improve the accuracy of high-level computer vision tasks (e.g., face detection) under low-light conditions. Finally, our approach for consistent video filtering can extend a wide range of image-based processing for videos. N2 - Fortschritte im Bereich der Computer-Vision-Techniken, die durch Maschinelles Lernen vorangetrieben werden, haben eine robuste und effiziente Schätzung von Attributen wie Tiefe, optischer Fluss, Albedo, und Schattierung ermöglicht. Um all diese zugrundeliegenden Eigenschaften von Bildern und Videos zu erfassen, entwickeln wir das Konzept der intrinsischen Bilder zu intrinsischen Attributen weiter. Darüber hinaus hat die rasante Entwicklung der Hardware in Form von hochwertigen Smartphone-Kameras, leicht verfügbaren Tiefensensoren, mobilen GPUs, oder speziellen neuronalen Verarbeitungseinheiten die Bild- und Videoverarbeitung allgegenwärtig gemacht. In dieser Arbeit erforschen wir die Synergien zwischen den beiden oben genannten Fortschritten und schlagen neue Bild- und Videoverarbeitungstechniken und -systeme vor, die auf ihnen basieren. Zunächst untersuchen wir intrinsische Bildzerlegungsansätze und analysieren, wie sie auf mobilen Geräten implementiert werden können. Wir schlagen einen Ansatz vor, der nicht nur die diffuse Reflexion, sondern auch die spiegelnde Reflexion berücksichtigt; er ermöglicht es uns, ein Bild auf einem ressourcenbeschränkten System (z. B. Smartphones oder Tablets) unter Verwendung der von den eingebauten Tiefensensoren bereitgestellten Tiefendaten in Spiegelung, Albedo und Schattierung zu zerlegen. Darüber hinaus erforschen wir, wie geräteinterne Tiefendaten genutzt werden können, um 2D-Fotos eine immersive Dimension hinzuzufügen, z. B. um Parallaxen-Effekte durch 3D-Fotografie darzustellen. In diesem Zusammenhang entwickeln wir ein neuartiges System zur interaktiven 3D-Fotoerstellung und -Stylisierung auf mobilen Geräten. Darüber hinaus untersuchen wir, wie eine adaptive Manipulation der Grundlinie-Albedo (d.h. der Farbintensität) für eine effiziente visuelle Verbesserung bei schlechten Lichtverhältnissen genutzt werden kann. Die vorgeschlagene Technik ermöglicht die interaktive Bearbeitung von Verbesserungseinstellungen bei verbesserter Qualität und Leistung. Wir analysieren den inhärenten optischen Fluss und die zeitliche Konsistenz als intrinsische Eigenschaften eines Videos. Darüber hinaus schlagen wir zwei neue Techniken zur Anwendung der oben genannten intrinsischen Attribute zum Zweck der konsistenten Videofilterung vor. Zu diesem Zweck untersuchen wir, wie zeitliche Inkonsistenzen, die als Flackerartefakte wahrgenommen werden, entfernt werden können. Eine der Techniken erfordert keine kostspielige optische Flussschätzung, während beide eine interaktive Konsistenzkontrolle bieten. Die Verwendung intrinsischer Attribute für die Bild- und Videoverarbeitung ermöglicht neue Lösungen für mobile Geräte - ein visuelles Computergerät, das aufgrund seiner weltweiten Verbreitung von großer Bedeutung ist - und wird neuartige Anwendungen für Augmented Reality (AR), 3D-Fotografie und Videostylisierung ermöglichen. Die vorgeschlagenen Low-Light-Enhancement-Techniken können auch die Genauigkeit von High-Level-Computer-Vision-Aufgaben (z. B. Objekt-Tracking) unter schlechten Lichtverhältnissen verbessern. Schließlich kann unser Ansatz zur konsistenten Videofilterung eine breite Palette von bildbasierten Verarbeitungen für Videos erweitern. KW - image processing KW - image-based rendering KW - non-photorealistic rendering KW - image stylization KW - computational photography KW - Bildverarbeitung KW - bildbasiertes Rendering KW - Non-photorealistic Rendering KW - Computational Photography Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-620049 ER - TY - CHAP A1 - Desel, Jörg A1 - Opel, Simone A1 - Siegeris, Juliane A1 - Draude, Claude A1 - Weber, Gerhard A1 - Schell, Timon A1 - Schwill, Andreas A1 - Thorbrügge, Carsten A1 - Schäfer, Len Ole A1 - Netzer, Cajus Marian A1 - Gerstenberger, Dietrich A1 - Winkelnkemper, Felix A1 - Schulte, Carsten A1 - Böttcher, Axel A1 - Thurner, Veronika A1 - Häfner, Tanja A1 - Ottinger, Sarah A1 - Große-Bölting, Gregor A1 - Scheppach, Lukas A1 - Mühling, Andreas A1 - Baberowski, David A1 - Leonhardt, Thiemo A1 - Rentsch, Susanne A1 - Bergner, Nadine A1 - Bonorden, Leif A1 - Stemme, Jonas A1 - Hoppe, Uwe A1 - Weicker, Karsten A1 - Bender, Esther A1 - Barbas, Helena A1 - Hamann, Fabian A1 - Soll, Marcus A1 - Sitzmann, Daniel ED - Desel, Jörg ED - Opel, Simone ED - Siegeris, Juliane T1 - Hochschuldidaktik Informatik HDI 2021 BT - 9. Fachtagung des GI-Fachbereichs Informatik und Ausbildung/Didaktik der Informatik 15.–16. September 2021 in Dortmund T2 - Commentarii informaticae didacticae N2 - Die Fachtagungen HDI (Hochschuldidaktik Informatik) beschäftigen sich mit den unterschiedlichen Aspekten informatischer Bildung im Hochschulbereich. Neben den allgemeinen Themen wie verschiedenen Lehr- und Lernformen, dem Einsatz von Informatiksystemen in der Hochschullehre oder Fragen der Gewinnung von geeigneten Studierenden, deren Kompetenzerwerb oder auch der Betreuung der Studierenden widmet sich die HDI immer auch einem Schwerpunktthema. Im Jahr 2021 war dies die Berücksichtigung von Diversität in der Lehre. Diskutiert wurden beispielsweise die Einbeziehung von besonderen fachlichen und überfachlichen Kompetenzen Studierender, der Unterstützung von Durchlässigkeit aus nichtakademischen Berufen, aber auch die Gestaltung inklusiver Lehr- und Lernszenarios, Aspekte des Lebenslangen Lernens oder sich an die Diversität von Studierenden adaptierte oder adaptierende Lehrsysteme. Dieser Band enthält ausgewählte Beiträge der 9. Fachtagung 2021, die in besonderer Weise die Konferenz und die dort diskutierten Themen repräsentieren. T3 - Commentarii informaticae didacticae (CID) - 13 KW - Hochschuldidaktik KW - Informatikdidaktik KW - HDI KW - Hochschullehre KW - digitale Hochschullehre KW - Diversität KW - Heterogenität KW - Lebenslanges Lernen KW - Informatikstudium KW - Didaktische Konzepte KW - Assessment Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-565070 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - CHAP A1 - Rojahn, Marcel A1 - Gronau, Norbert T1 - Digital platform concepts for manufacturing companies BT - a review T2 - 10th International Conference on Future Internet of Things and Cloud (FiCloud) N2 - Digital Platforms (DPs) has established themself in recent years as a central concept of the Information Technology Science. Due to the great diversity of digital platform concepts, clear definitions are still required. Furthermore, DPs are subject to dynamic changes from internal and external factors, which pose challenges for digital platform operators, developers and customers. Which current digital platform research directions should be taken to address these challenges remains open so far. The following paper aims to contribute to this by outlining a systematic literature review (SLR) on digital platform concepts in the context of the Industrial Internet of Things (IIoT) for manufacturing companies and provides a basis for (1) a selection of definitions of current digital platform and ecosystem concepts and (2) a selection of current digital platform research directions. These directions are diverted into (a) occurrence of digital platforms, (b) emergence of digital platforms, (c) evaluation of digital platforms, (d) development of digital platforms, and (e) selection of digital platforms. Y1 - 2023 SN - 979-8-3503-1635-3 U6 - https://doi.org/10.1109/FiCloud58648.2023.00030 SP - 149 EP - 158 PB - IEEE CY - [Erscheinungsort nicht ermittelbar] ER - TY - JOUR A1 - Marx, Julian A1 - Stieglitz, Stefan A1 - Brünker, Felix A1 - Mirbabaie, Milad T1 - Home (office) is where your heart is BT - exploring the identity of the ‘corporate nomad’ knowledge worker archetype JF - Business & information systems engineering N2 - Working conditions of knowledge workers have been subject to rapid change recently. Digital nomadism is no longer a phenomenon that relates only to entrepreneurs, freelancers, and gig workers. Corporate employees, too, have begun to uncouple their work from stationary (home) offices and 9-to-5 schedules. However, pursuing a permanent job in a corporate environment is still subject to fundamentally different values than postulated by the original notion of digital nomadism. Therefore, this paper explores the work identity of what is referred to as ‘corporate nomads’. By drawing on identity theory and the results of semi-structured interviews, the paper proposes a conceptualization of the corporate nomad archetype and presents nine salient identity issues of corporate nomads (e.g., holding multiple contradictory identities, the flexibility paradox, or collaboration constraints). By introducing the ‘corporate nomad’ archetype to the Information Systems literature, this article helps to rethink established conceptions of “home office” and socio-spatial configurations of knowledge work. KW - corporate nomadism KW - identity theory KW - home office KW - knowledge work KW - digital nomadism Y1 - 2023 U6 - https://doi.org/10.1007/s12599-023-00807-w SN - 2363-7005 SN - 1867-0202 VL - 65 IS - 3 SP - 293 EP - 308 PB - Springer Gabler CY - Wiesbaden ER - TY - JOUR A1 - Hofeditz, Lennart A1 - Mirbabaie, Milad A1 - Ortmann, Mara T1 - Ethical challenges for human–agent interaction in virtual collaboration at work JF - International journal of human computer interaction N2 - In virtual collaboration at the workplace, a growing number of teams apply supportive conversational agents (CAs). They take on different work-related tasks for teams and single users such as scheduling meetings or stimulating creativity. Previous research merely focused on these positive aspects of introducing CAs at the workplace, omitting ethical challenges faced by teams using these often artificial intelligence (AI)-enabled technologies. Thus, on the one hand, CAs can present themselves as benevolent teammates, but on the other hand, they can collect user data, reduce worker autonomy, or foster social isolation by their service. In this work, we conducted 15 expert interviews with senior researchers from the fields of ethics, collaboration, and computer science in order to derive ethical guidelines for introducing CAs in virtual team collaboration. We derived 14 guidelines and seven research questions to pave the way for future research on the dark sides of human–agent interaction in organizations. KW - conversational agents KW - human–computer interaction KW - virtual collaboration KW - ethics KW - virtual teams KW - trust Y1 - 2023 U6 - https://doi.org/10.1080/10447318.2023.2279400 SN - 1044-7318 SN - 1532-7590 PB - Taylor & Francis CY - New York, NY ER - TY - JOUR A1 - Brünker, Felix A1 - Marx, Julian A1 - Mirbabaie, Milad A1 - Stieglitz, Stefan T1 - Proactive digital workplace transformation BT - unpacking identity change mechanisms in remote-first organisations JF - Journal of information technology N2 - Digital transformation fundamentally changes the way individuals conduct work in organisations. In accordance with this statement, prevalent literature understands digital workplace transformation as a second-order effect of implementing new information technology to increase organisational effectiveness or reach other strategic goals. This paper, in contrast, provides empirical evidence from two remote-first organisations that undergo a proactive rather than reactive digital workplace transformation. The analysis of these cases suggests that new ways of working can be the consequence of an identity change that is a precondition for introducing new information technology rather than its outcome. The resulting process model contributes a competing argument to the existing debate in digital transformation literature. Instead of issuing digital workplace transformation as a deliverable of technological progress and strategic goals, this paper supports a notion of digital workplace transformation that serves a desired identity based on work preferences. KW - digital transformation KW - digital workplace transformation KW - remote-first KW - identity theory Y1 - 2023 U6 - https://doi.org/10.1177/02683962231219516 SN - 0268-3962 SN - 1466-4437 PB - Sage Publishing CY - London ER - TY - JOUR A1 - Draude, Claude T1 - Working with Diversity in Informatics JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Diversity is a term that is broadly used and challenging for informatics research, development and education. Diversity concerns may relate to unequal participation, knowledge and methodology, curricula, institutional planning etc. For a lot of these areas, measures, guidelines and best practices on diversity awareness exist. A systemic, sustainable impact of diversity measures on informatics is still largely missing. In this paper I explore what working with diversity and gender concepts in informatics entails, what the main challenges are and provide thoughts for improvement. The paper includes definitions of diversity and intersectionality, reflections on the disciplinary basis of informatics and practical implications of integrating diversity in informatics research and development. In the final part, two concepts from the social sciences and the humanities, the notion of “third space”/hybridity and the notion of “feminist ethics of care”, serve as a lens to foster more sustainable ways of working with diversity in informatics. KW - Gender KW - Diversity KW - Intersectionality KW - Sociotechnical Design KW - Informatics Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-613787 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 13 EP - 33 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Gerstenberger, Dietrich A1 - Winkelnkemper, Felix A1 - Schulte, Carsten T1 - Nutzung der Personas-Methode zum Umgang mit der Heterogenität von Informatikstudierenden JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Informatikstudiengänge verzeichnen hohe Abbruchquoten innerhalb der ersten beiden Semester, die häufig mit Leistungsdefiziten oder Motivationsproblemen begründet werden. Eine Ursache dafür, dass trotz intensiver Bemühungen um bessere Lehre und motivationsfördernde Maßnahmen diese Situation imWesentlichen unverändert bleibt, könnte darin liegen, dass nicht die eine Maßnahme oder der eine Ansatz das Problem im Ganzen lösen kann, sondern dass eine heterogene Studierendenschaft vielmehr nach unterschiedlichen Maßnahmen verlangt. Bisher findet sich wenig Forschung zu differenzierten Studierendentypen in der Informatik. Wir stellen in dieser Arbeit einen Ansatz dafür vor, die Heterogenität der Informatikstudierenden zu ergründen, und beschreiben die Ergebnisse erster Versuche mit diesem Ansatz. Um die große Anzahl von Studierenden auf eine überschaubare Anzahl von Typen mit jeweils ähnlichen Bedürfnissen und Erwartungen zu reduzieren, wird dazu die im Produktmanagement bewährte Personas-Methode adaptiert. Im Rahmen einer Befragung von 170 Informatikstudierenden konnten hierzu bereits einige Personas mit unterschiedlichen Merkmalshäufungen ausgearbeitet werden, die eine gute Grundlage darstellen, um auf dieser Basis differenzierte Interventionen zur Förderung und Motivation der Informatikstudierenden zu entwickeln. KW - Informatik KW - Studium KW - Studienabbruch KW - Lernzentrum KW - Interventionen KW - Personas KW - Identität Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-615682 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 117 EP - 135 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Bonorden, Leif T1 - Forschendes Lernen im Bachelorseminar „Software Engineering“ JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Forschendes Lernen ist eine Lehr-Lernform, in der Studierende einen eigenen Forschungsprozess vollständig durchlaufen. In Informatikstudiengängen und insbesondere in Informatikbachelorstudiengängen ist die Forschungsorientierung allerdings nur gering ausgeprägt: Forschendes Lernen wird kaum eingesetzt, obwohl dies möglich und sinnvoll ist. Dieser Artikel stellt ein Konzept für ein Seminar Software Engineering im Bachelorstudium vor und beschreibt dessen Durchführung. Abschließend wird das Konzept diskutiert und sowohl aus Studierenden- als auch aus Lehrendensicht positiv evaluiert. KW - forschendes Lernen KW - studentische Forschung KW - Seminarkonzept KW - Bachelorstudium KW - wissenschaftliches Arbeiten KW - wissenschaftliches Schreiben Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-616009 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 213 EP - 230 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Große-Bölting, Gregor A1 - Scheppach, Lukas A1 - Mühling, Andreas T1 - The Place of Ethics in Computer Science Education JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Ethical issues surrounding modern computing technologies play an increasingly important role in the public debate. Yet, ethics still either doesn’t appear at all or only to a very small extent in computer science degree programs. This paper provides an argument for the value of ethics beyond a pure responsibility perspective and describes the positive value of ethical debate for future computer scientists. It also provides a systematic analysis of the module handbooks of 67 German universities and shows that there is indeed a lack of ethics in computer science education. Finally, we present a principled design of a compulsory course for undergraduate students. KW - Ethics KW - Diversity KW - Social impact KW - Bachelor KW - Curriculum analysis KW - Course development Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-615982 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 173 EP - 187 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Bender, Esther A1 - Barbas, Helena A1 - Hamann, Fabian A1 - Soll, Marcus A1 - Sitzmann, Daniel T1 - Fähigkeiten und Kenntnisse bei Studienanfänger*innen in der Informatik: Was erwarten die Dozent*innen? BT - Ergebnisse einer deutschlandweiten Umfrage unter Informatik-Hochschuldozent*innen JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Viele Studieneingangs- und Eignungstests haben zum Ziel, für den entsprechenden Studiengang geeignete Studierende zu finden, die das Studium erfolgreich beenden können. Gerade in der Informatik ist aber häufig unklar, welche Eigenschaften geeignete Studierende haben sollten – auch stimmen mutmaßlich nicht alle Dozierenden in ihren Erwartungen an Studienanfänger*innen überein; Untersuchungen hierzu fehlen jedoch bislang. Um die Erwartungen von Dozent*innen an Studienanfänger*innen im Fach Informatik an deutschen Hochschulen zu analysieren, hat das Projekt MINTFIT im Sommer 2019 eine deutschlandweite Online-Befragung durchgeführt, an der 588 Hochschuldozent* innen aus allen Bundesländern teilnahmen. Die Umfrage hat gezeigt, dass überwiegend allgemeine Fähigkeiten, wie Motivation und logisches Denkvermögen, und nur wenig fachliches Vorwissen, wie Programmieren oder Formale Sprache, erwartet wird. Nach Einschätzung der Dozent*innen sind die problembehafteten Bereiche überwiegend in der theoretischen Informatik und in formellen Aspekten (z. B. Formale Sprache) zu finden. Obwohl Tendenzen erkennbar sind, zeigt die Umfrage, dass bei Anwendung strenger Akzeptanzkriterien keine Fähigkeiten und Kenntnisse explizit vorausgesetzt werden, was darauf hindeutet, dass noch kein deutschlandweiter Konsens unter den Lehrenden vorhanden ist. KW - Informatikstudium KW - Vorkenntnisse KW - Studienanfänger*innen KW - Studieneingangsphase KW - Umfrage Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-616039 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 279 EP - 299 ER - TY - BOOK A1 - Schwarzer, Ingo A1 - Weiß-Saoumi, Said A1 - Kittel, Roland A1 - Friedrich, Tobias A1 - Kaynak, Koraltan A1 - Durak, Cemil A1 - Isbarn, Andreas A1 - Diestel, Jörg A1 - Knittel, Jens A1 - Franz, Marquart A1 - Morra, Carlos A1 - Stahnke, Susanne A1 - Braband, Jens A1 - Dittmann, Johannes A1 - Griebel, Stephan A1 - Krampf, Andreas A1 - Link, Martin A1 - Müller, Matthias A1 - Radestock, Jens A1 - Strub, Leo A1 - Bleeke, Kai A1 - Jehl, Leander A1 - Kapitza, Rüdiger A1 - Messadi, Ines A1 - Schmidt, Stefan A1 - Schwarz-Rüsch, Signe A1 - Pirl, Lukas A1 - Schmid, Robert A1 - Friedenberger, Dirk A1 - Beilharz, Jossekin Jakob A1 - Boockmeyer, Arne A1 - Polze, Andreas A1 - Röhrig, Ralf A1 - Schäbe, Hendrik A1 - Thiermann, Ricky T1 - RailChain BT - Abschlussbericht N2 - The RailChain project designed, implemented, and experimentally evaluated a juridical recorder that is based on a distributed consensus protocol. That juridical blockchain recorder has been realized as distributed ledger on board the advanced TrainLab (ICE-TD 605 017) of Deutsche Bahn. For the project, a consortium consisting of DB Systel, Siemens, Siemens Mobility, the Hasso Plattner Institute for Digital Engineering, Technische Universität Braunschweig, TÜV Rheinland InterTraffic, and Spherity has been formed. These partners not only concentrated competencies in railway operation, computer science, regulation, and approval, but also combined experiences from industry, research from academia, and enthusiasm from startups. Distributed ledger technologies (DLTs) define distributed databases and express a digital protocol for transactions between business partners without the need for a trusted intermediary. The implementation of a blockchain with real-time requirements for the local network of a railway system (e.g., interlocking or train) allows to log data in the distributed system verifiably in real-time. For this, railway-specific assumptions can be leveraged to make modifications to standard blockchains protocols. EULYNX and OCORA (Open CCS On-board Reference Architecture) are parts of a future European reference architecture for control command and signalling (CCS, Reference CCS Architecture – RCA). Both architectural concepts outline heterogeneous IT systems with components from multiple manufacturers. Such systems introduce novel challenges for the approved and safety-relevant CCS of railways which were considered neither for road-side nor for on-board systems so far. Logging implementations, such as the common juridical recorder on vehicles, can no longer be realized as a central component of a single manufacturer. All centralized approaches are in question. The research project RailChain is funded by the mFUND program and gives practical evidence that distributed consensus protocols are a proper means to immutably (for legal purposes) store state information of many system components from multiple manufacturers. The results of RailChain have been published, prototypically implemented, and experimentally evaluated in large-scale field tests on the advanced TrainLab. At the same time, the project showed how RailChain can be integrated into the road-side and on-board architecture given by OCORA and EULYNX. Logged data can now be analysed sooner and also their trustworthiness is being increased. This enables, e.g., auditable predictive maintenance, because it is ensured that data is authentic and unmodified at any point in time. N2 - Das Projekt RailChain hat einen verteilten Juridical Recorder entworfen, implementiert und experimentell evaluiert, der auf einem echtzeitfähigen verteilten Konsensprotokoll basiert. Dieser Juridical Blockchain Recorder wurde als distributed ledger an Bord des advanced TrainLabs der Deutschen Bahn (ICE-TD 605 017) umgesetzt. Für das Projekt hat sich ein Konsortium aus DB Systel, Siemens, Siemens Mobility, dem Hasso-Plattner-Institut für Digital Engineering, der Technischen Universität Braunschweig, sowie TÜV Rheinland InterTraffic und Spherity formiert und dabei Kompetenzen aus den Bereichen Bahnbetrieb, Informatik und Zulassungswesen gebündelt. Die Partner kombinieren Erfahrungen aus der Industrie und die akademische Forschung mit der Aufbruchstimmung aus dem Start-Up-Umfeld. Distributed-Ledger-Technologien (DLTs) definieren verteilte Datenbanken und stellen ein digitales Protokoll für Transaktionen zwischen Geschäftspartnern dar, ohne dass ein Mittelsmann beteiligt sein müsste. Die Implementierung einer Blockchain mit Echtzeitanforderungen für das lokale Netzwerk einer Eisenbahnanlage (z. B. Stellwerk oder Zug) erlaubt es, die im verteilten System entstehenden Daten nachweislich in Echtzeit zu protokollieren. Dabei können eisenbahnspezifische Randbedingungen ausgenutzt werden, um Standard-Blockchain-Protokolle anzupassen. EULYNX und OCORA (Open CCS On-board Reference Architecture) sind Bestandteile einer zukünftigen europäischen Referenzarchitektur für das Leit- und Sicherungssystem (Reference CCS Architecture – RCA, Control Command and Signalling – CCS). Beide Architekturkonzepte skizzieren herstellerübergreifende, komponentenbasierende heterogene IT-Systeme. Solche Systeme bergen neue Herausforderungen, die bislang im Kontext der zugelassenen, sicherheitsrelevanten Leit- und Sicherungstechnik der Bahn weder strecken- noch fahrzeugseitig adressiert werden mussten. Logbuch-Implementierungen, wie der gängige Juridical Recorder auf Fahrzeugen, können nun nicht mehr als zentrale Systemkomponente eines einzelnen Herstellers umgesetzt werden. Alle zentralisierten Lösungsansätze sind in Frage gestellt. Das mFUND-geförderte Forschungsprojekt erbringt den praktischen Nachweis, dass Zustandsinformationen über eine Vielzahl von Systemkomponenten herstellerübergreifend und gerichtsfest mittels verteilten Konsensprotokollen gespeichert werden können. Ergebnisse von RailChain wurden publiziert, prototypisch implementiert und in großen Feldtests auf dem advanced TrainLab experimentell evaluiert. Gleichzeitig wurde aufgezeigt, wie sich RailChain in den mit OCORA und EULYNX vorgegebenen fahrzeug- und streckenseitigen Architekturentwurf integrieren lässt. Daten können dadurch zeitnaher ausgewertet werden und gleichzeitig wird ihre Vertrauenswürdigkeit erhöht. Dies ermöglicht u. a. nachvollziehbare zustandsorientierte Wartung, denn es kann jederzeit sichergestellt werden, dass die Daten authentisch sind und auch nicht verändert wurden. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 152 KW - Distributed-Ledger-Technologie (DLT) KW - juridical recording KW - Konsensprotokolle KW - consensus protocols KW - Digitalisierung KW - digitalization KW - Bahnwesen KW - railways KW - Blockchain KW - asset management KW - selbstbestimmte Identitäten KW - self-sovereign identity KW - dezentrale Identitäten KW - decentral identities KW - überprüfbare Nachweise KW - verifiable credentials KW - Echtzeit KW - real-time KW - Standardisierung KW - standardization KW - Verlässlichkeit KW - dependability KW - Fehlertoleranz KW - fault tolerance Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-577409 SN - 978-3-86956-550-7 SN - 1613-5652 SN - 2191-1665 IS - 152 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Böttcher, Axel A1 - Thurner, Veronika A1 - Häfner, Tanja A1 - Ottinger, Sarah T1 - Erkenntnisse aus der Analyse von Studienverlaufsdaten als Grundlage für die Gestaltung von Beratungsangeboten JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Viele Studierende stoßen im Rahmen ihres Informatikstudiums auf Probleme und benötigen individuell bedarfsgerechte Unterstützung, um beispielsweise trotz gewisser Startschwierigkeiten ihr Studium erfolgreich zu Ende zu führen. In die damit verbundene Lern- bzw. Studienberatung fließen Empfehlungen zur weiteren Studienverlaufsplanung ein. Anhand einer Datenanalyse über den Prüfungsleistungsdaten der Studierenden überprüfen wir die hinter diesen Empfehlungen liegenden Hypothesen und leiten aus den dabei gewonnenen Erkenntnissen Konsequenzen für die Beratung ab. Insgesamt zeigt sich, dass sich nach den ersten Semestern ein mittlerer Bereich von Studierenden identifizieren lässt, bei denen Studienabbruch und Studienerfolg etwa gleich wahrscheinlich sind. Für diese Personengruppe ist Beratungsbedarf dringend gegeben. Gleichzeitig stößt die Datenanalyse auch an gewisse Grenzen, denn es zeigen sich insgesamt keine echt trennscharfen Muster, die frühzeitig im Studium eindeutig Erfolg oder Misserfolg prognostizieren. Dieses Ergebnis ist jedoch insofern erfreulich, als es bedeutet, dass jede:r Studierende:r auch nach einem suboptimalen Start ins Studium noch eine Chance auf einen Abschluss hat. KW - Learning Analytics KW - Datenanalyse KW - Studienverläufe KW - Erfolgsmessung KW - Datenschutz Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-615693 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 137 EP - 156 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Stemme, Jonas A1 - Hoppe, Uwe T1 - Evolutionäre Entwicklung eines Inverted Classroom Formats unter Berücksichtigung des Student Engagement BT - Eine Analyse der Outcomes von Studierenden im Kontext von COVID-19 JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - 1,7 Milliarden Studierende waren von der ad hoc Umstellung der Lehre an Hochschulen durch den Ausbruch der COVID-19-Pandemie im Jahr 2020 betroffen. Innerhalb kürzester Zeit mussten Lehr- und Lernformate digital transformiert werden, um ein Distanzlernen für Studierende überall auf der Welt zu ermöglichen. Etwa zwei Jahre später können die Erfahrungen aus der Entwicklung von digitalen Lehr- und Lernformaten dazu genutzt werden, um Blended Learning Formate zielgerecht weiterzuentwickeln. Die nachfolgende Untersuchung zeigt einerseits einen Prozess der evolutionären Entwicklung am Beispiel eines Inverted Classrooms auf. Andererseits wird das Modell des Student Engagement genutzt, um die Einflussfaktoren, im Speziellen die des Verhaltens, zielgerecht anzupassen und so die Outcomes in Form von besseren Noten und einer erhöhten Zufriedenheit bei den Studierenden zu erzielen. Grundlage für die Untersuchung bildet die Lehrveranstaltung Projektmanagement, die an einer deutschen Hochschule durchgeführt wird. KW - Inverted Classroom KW - Lehr- und Lernformate KW - Student Engagement KW - HEI KW - COVID-19 Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-616016 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 231 EP - 253 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Siegeris, Juliane T1 - Attracting a new clientele for computer science with a women-only IT degree course JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - A degree course in IT and business administration solely for women (FIW) has been offered since 2009 at the HTW Berlin – University of Applied Sciences. This contribution discusses student motivations for enrolling in such a women only degree course and gives details of our experience over recent years. In particular, the approach to attracting new female students is described and the composition of the intake is discussed. It is shown that the women-only setting together with other factors can attract a new clientele for computer science. KW - Women and IT KW - STEM KW - Course marketing KW - Courses for female students KW - Curricula Development Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-615712 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 157 EP - 170 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - von Steinau-Steinrück, Robert A1 - Sura, Stephan T1 - Die (Rest-)Zulässigkeit von Verboten religiöser Zeichen am Arbeitsplatz JF - NJW spezial N2 - In einer Reihe von Urteilen hat der EuGH seit 2017 die Zulässigkeit von Verboten religiöser Zeichen und Kleidung am Arbeitsplatz bewertet. Obwohl die Einordnungen des Gerichtshofs der deutschen Rechtslage zunächst diametral entgegenstanden, hat sich diese letztlich nicht verändert. Y1 - 2023 UR - https://beck-online.beck.de/Bcid/Y-300-Z-NJW-SPEZIAL-B-2023-S-242-N-1 SN - 1613-4621 VL - 20 IS - 8 SP - 242 EP - 243 PB - C.H. Beck CY - München ER - TY - BOOK A1 - Weber, Benedikt T1 - Human pose estimation for decubitus prophylaxis T1 - Verwendung von Posenabschätzung zur Dekubitusprophylaxe N2 - Decubitus is one of the most relevant diseases in nursing and the most expensive to treat. It is caused by sustained pressure on tissue, so it particularly affects bed-bound patients. This work lays a foundation for pressure mattress-based decubitus prophylaxis by implementing a solution to the single-frame 2D Human Pose Estimation problem. For this, methods of Deep Learning are employed. Two approaches are examined, a coarse-to-fine Convolutional Neural Network for direct regression of joint coordinates and a U-Net for the derivation of probability distribution heatmaps. We conclude that training our models on a combined dataset of the publicly available Bodies at Rest and SLP data yields the best results. Furthermore, various preprocessing techniques are investigated, and a hyperparameter optimization is performed to discover an improved model architecture. Another finding indicates that the heatmap-based approach outperforms direct regression. This model achieves a mean per-joint position error of 9.11 cm for the Bodies at Rest data and 7.43 cm for the SLP data. We find that it generalizes well on data from mattresses other than those seen during training but has difficulties detecting the arms correctly. Additionally, we give a brief overview of the medical data annotation tool annoto we developed in the bachelor project and furthermore conclude that the Scrum framework and agile practices enhanced our development workflow. N2 - Dekubitus ist eine der relevantesten Krankheiten in der Krankenpflege und die kostspieligste in der Behandlung. Sie wird durch anhaltenden Druck auf Gewebe verursacht, betrifft also insbesondere bettlägerige Patienten. Diese Arbeit legt eine Grundlage für druckmatratzenbasierte Dekubitusprophylaxe, indem eine Lösung für das Einzelbild-2D-Posenabschätzungsproblem implementiert wird. Dafür werden Methoden des tiefen Lernens verwendet. Zwei Ansätze, basierend auf einem Gefalteten Neuronalen grob-zu-fein Netzwerk zur direkten Regression der Gelenkkoordinaten und auf einem U-Netzwerk zur Ableitung von Wahrscheinlichkeitsverteilungsbildern, werden untersucht. Wir schlussfolgern, dass das Training unserer Modelle auf einem kombinierten Datensatz, bestehend aus den frei verfügbaren Bodies at Rest und SLP Daten, die besten Ergebnisse liefert. Weiterhin werden diverse Vorverarbeitungsverfahren untersucht und eine Hyperparameteroptimierung zum Finden einer verbesserten Modellarchitektur durchgeführt. Der wahrscheinlichkeitsverteilungsbasierte Ansatz übertrifft die direkte Regression. Dieses Modell erreicht einen durchschnittlichen Pro-Gelenk-Positionsfehler von 9,11 cm auf den Bodies at Rest und von 7,43 cm auf den SLP Daten. Wir sehen, dass es gut auf Daten anderer als der im Training verwendeten Matratzen funktioniert, aber Schwierigkeiten mit der korrekten Erkennung der Arme hat. Weiterhin geben wir eine kurze Übersicht des medizinischen Datenannotationstools annoto, welches wir im Zusammenhang mit dem Bachelorprojekt entwickelt haben, und schlussfolgern außerdem, dass Scrum und agile Praktiken unseren Entwicklungsprozess verbessert haben. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 153 KW - machine learning KW - deep learning KW - convolutional neural networks KW - pose estimation KW - decubitus KW - telemedicine KW - maschinelles Lernen KW - tiefes Lernen KW - gefaltete neuronale Netze KW - Posenabschätzung KW - Dekubitus KW - Telemedizin Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-567196 SN - 978-3-86956-551-4 SN - 1613-5652 SN - 2191-1665 IS - 153 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - CHAP A1 - Corazza, Giovanni Emanuele A1 - Thienen, Julia von ED - Glăveanu, Vlad Petre T1 - Invention T2 - The Palgrave encyclopedia of the possible N2 - This entry addresses invention from five different perspectives: (i) definition of the term, (ii) mechanisms underlying invention processes, (iii) (pre-)history of human inventions, (iv) intellectual property protection vs open innovation, and (v) case studies of great inventors. Regarding the definition, an invention is the outcome of a creative process taking place within a technological milieu, which is recognized as successful in terms of its effectiveness as an original technology. In the process of invention, a technological possibility becomes realized. Inventions are distinct from either discovery or innovation. In human creative processes, seven mechanisms of invention can be observed, yielding characteristic outcomes: (1) basic inventions, (2) invention branches, (3) invention combinations, (4) invention toolkits, (5) invention exaptations, (6) invention values, and (7) game-changing inventions. The development of humanity has been strongly shaped by inventions ever since early stone tools and the conception of agriculture. An “explosion of creativity” has been associated with Homo sapiens, and inventions in all fields of human endeavor have followed suit, engendering an exponential growth of cumulative culture. This culture development emerges essentially through a reuse of previous inventions, their revision, amendment and rededication. In sociocultural terms, humans have increasingly regulated processes of invention and invention-reuse through concepts such as intellectual property, patents, open innovation and licensing methods. Finally, three case studies of great inventors are considered: Edison, Marconi, and Montessori, next to a discussion of human invention processes as collaborative endeavors. KW - invention KW - creativity KW - invention mechanism KW - cumulative culture KW - technology KW - innovation KW - patent KW - open innovation Y1 - 2023 SN - 978-3-030-90912-3 SN - 978-3-030-90913-0 U6 - https://doi.org/10.1007/978-3-030-90913-0_14 SP - 806 EP - 814 PB - Springer International Publishing CY - Cham ER - TY - THES A1 - Najafi, Pejman T1 - Leveraging data science & engineering for advanced security operations T1 - Der Einsatz von Data Science & Engineering für fortschrittliche Security Operations N2 - The Security Operations Center (SOC) represents a specialized unit responsible for managing security within enterprises. To aid in its responsibilities, the SOC relies heavily on a Security Information and Event Management (SIEM) system that functions as a centralized repository for all security-related data, providing a comprehensive view of the organization's security posture. Due to the ability to offer such insights, SIEMS are considered indispensable tools facilitating SOC functions, such as monitoring, threat detection, and incident response. Despite advancements in big data architectures and analytics, most SIEMs fall short of keeping pace. Architecturally, they function merely as log search engines, lacking the support for distributed large-scale analytics. Analytically, they rely on rule-based correlation, neglecting the adoption of more advanced data science and machine learning techniques. This thesis first proposes a blueprint for next-generation SIEM systems that emphasize distributed processing and multi-layered storage to enable data mining at a big data scale. Next, with the architectural support, it introduces two data mining approaches for advanced threat detection as part of SOC operations. First, a novel graph mining technique that formulates threat detection within the SIEM system as a large-scale graph mining and inference problem, built on the principles of guilt-by-association and exempt-by-reputation. The approach entails the construction of a Heterogeneous Information Network (HIN) that models shared characteristics and associations among entities extracted from SIEM-related events/logs. Thereon, a novel graph-based inference algorithm is used to infer a node's maliciousness score based on its associations with other entities in the HIN. Second, an innovative outlier detection technique that imitates a SOC analyst's reasoning process to find anomalies/outliers. The approach emphasizes explainability and simplicity, achieved by combining the output of simple context-aware univariate submodels that calculate an outlier score for each entry. Both approaches were tested in academic and real-world settings, demonstrating high performance when compared to other algorithms as well as practicality alongside a large enterprise's SIEM system. This thesis establishes the foundation for next-generation SIEM systems that can enhance today's SOCs and facilitate the transition from human-centric to data-driven security operations. N2 - In einem Security Operations Center (SOC) werden alle sicherheitsrelevanten Prozesse, Daten und Personen einer Organisation zusammengefasst. Das Herzstück des SOCs ist ein Security Information and Event Management (SIEM)-System, welches als zentraler Speicher aller sicherheitsrelevanten Daten fungiert und einen Überblick über die Sicherheitslage einer Organisation geben kann. SIEM-Systeme sind unverzichtbare Werkzeuge für viele SOC-Funktionen wie Monitoring, Threat Detection und Incident Response. Trotz der Fortschritte bei Big-Data-Architekturen und -Analysen können die meisten SIEMs nicht mithalten. Sie fungieren nur als Protokollsuchmaschine und unterstützen keine verteilte Data Mining und Machine Learning. In dieser Arbeit wird zunächst eine Blaupause für die nächste Generation von SIEM-Systemen vorgestellt, welche Daten verteilt, verarbeitet und in mehreren Schichten speichert, damit auch Data Mining im großen Stil zu ermöglichen. Zudem werden zwei Data Mining-Ansätze vorgeschlagen, mit denen auch anspruchsvolle Bedrohungen erkannt werden können. Der erste Ansatz ist eine neue Graph-Mining-Technik, bei der SIEM-Daten als Graph strukturiert werden und Reputationsinferenz mithilfe der Prinzipien guiltby-association (Kontaktschuld) und exempt-by-reputation (Reputationsbefreiung) implementiert wird. Der Ansatz nutzt ein heterogenes Informationsnetzwerk (HIN), welches gemeinsame Eigenschaften und Assoziationen zwischen Entitäten aus Event Logs verknüpft. Des Weiteren ermöglicht ein neuer Inferenzalgorithmus die Bestimmung der Schädlichkeit eines Kontos anhand seiner Verbindungen zu anderen Entitäten im HIN. Der zweite Ansatz ist eine innovative Methode zur Erkennung von Ausreißern, die den Entscheidungsprozess eines SOC-Analysten imitiert. Diese Methode ist besonders einfach und interpretierbar, da sie einzelne univariate Teilmodelle kombiniert, die sich jeweils auf eine kontextualisierte Eigenschaft einer Entität beziehen. Beide Ansätze wurden sowohl akademisch als auch in der Praxis getestet und haben im Vergleich mit anderen Methoden auch in großen Unternehmen eine hohe Qualität bewiesen. Diese Arbeit bildet die Grundlage für die nächste Generation von SIEM-Systemen, welche den Übergang von einer personalzentrischen zu einer datenzentrischen Perspektive auf SOCs ermöglichen. KW - cybersecurity KW - endpoint security KW - threat detection KW - intrusion detection KW - apt KW - advanced threats KW - advanced persistent threat KW - zero-day KW - security analytics KW - data-driven KW - data mining KW - data science KW - anomaly detection KW - outlier detection KW - graph mining KW - graph inference KW - machine learning KW - Advanced Persistent Threats KW - fortschrittliche Angriffe KW - Anomalieerkennung KW - APT KW - Cyber-Sicherheit KW - Data-Mining KW - Data-Science KW - datengetrieben KW - Endpunktsicherheit KW - Graphableitung KW - Graph-Mining KW - Einbruchserkennung KW - Machine-Learning KW - Ausreißererkennung KW - Sicherheitsanalyse KW - Bedrohungserkennung KW - 0-day Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-612257 ER - TY - CHAP A1 - Gonnermann, Jana A1 - Teichmann, Malte T1 - Influence of pre-experience on learning, usability and cognitive load in a virtual learning environment T2 - Americas conference on information systems N2 - Virtual reality can have advantages for education and learning. However, it must be adequately designed so that the learner benefits from the technological possibilities. Understanding the underlying effects of the virtual learning environment and the learner’s prior experience with virtual reality or prior knowledge of the content is necessary to design a proper virtual learning environment. This article presents a pre-study testing the design of a virtual learning environment for engineering vocational training courses. In the pre-study, 12 employees of two companies joined the training course in one of the two degrees of immersion (desktop VR and VR HMD). Quantitative results on learning success, cognitive load, usability, and motivation and qualitative learning process data were presented. The qualitative data assessment shows that overall, the employees were satisfied with the learning environment regardless of the level of immersion and that the participants asked for more guidance and structure accompanying the learning process. Further research is needed to test for solid group differences. KW - immersion KW - virtual learning environments KW - learner characteristics KW - vocational training KW - cognitive load theory Y1 - 2023 UR - https://aisel.aisnet.org/amcis2023/sig_ed/sig_ed/25/ IS - 1871 PB - AIS CY - Atlanta ER - TY - BOOK A1 - Barkowsky, Matthias A1 - Giese, Holger T1 - Triple graph grammars for multi-version models N2 - Like conventional software projects, projects in model-driven software engineering require adequate management of multiple versions of development artifacts, importantly allowing living with temporary inconsistencies. In the case of model-driven software engineering, employed versioning approaches also have to handle situations where different artifacts, that is, different models, are linked via automatic model transformations. In this report, we propose a technique for jointly handling the transformation of multiple versions of a source model into corresponding versions of a target model, which enables the use of a more compact representation that may afford improved execution time of both the transformation and further analysis operations. Our approach is based on the well-known formalism of triple graph grammars and a previously introduced encoding of model version histories called multi-version models. In addition to showing the correctness of our approach with respect to the standard semantics of triple graph grammars, we conduct an empirical evaluation that demonstrates the potential benefit regarding execution time performance. N2 - Ähnlich zu konventionellen Softwareprojekten erfordern Projekte im Bereich der modellgetriebenen Softwareentwicklung eine adäquate Verwaltung mehrerer Versionen von Entwicklungsartefakten. Eine solche Versionsverwaltung muss es insbesondere ermöglichen, zeitweise mit Inkonsistenzen zu leben. Im Fall der modellgetriebenen Softwareentwicklung muss ein verwendeter Ansatz zusätzlich mit Situationen umgehen können, in denen verschiedene Entwicklungsartefakte, das heißt verschiedene Modelle, durch automatische Modelltransformationen verknüpft sind. In diesem Bericht schlagen wir eine Technik für die integrierte Transformation mehrerer Versionen eines Quellmodells in entsprechende Versionen eines Zielmodells vor. Dies ermöglicht die Verwendung einer kompakteren Repräsentation der Modelle, was zu verbesserten Laufzeiteigenschaften der Transformation und weiterführender Operationen führen kann. Unser Ansatz basiert auf dem bekannten Formalismus der Tripel-Graph-Grammatiken und einer in früheren Arbeiten eingeführten Kodierung von Versionshistorien von Modellen. Neben einem Beweis der Korrektheit des Ansatzes in Bezug auf die standardmäßige Semantik von Tripel-Graph-Grammatiken führen wir eine empirische Evaluierung durch, die den potenziellen Performancevorteil der Technik demonstriert. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 155 KW - triple graph grammars KW - multi-version models KW - Tripel-Graph-Grammatiken KW - Modelle mit mehreren Versionen Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-573994 SN - 978-3-86956-556-9 SN - 1613-5652 SN - 2191-1665 IS - 155 SP - 28 EP - 28 ER - TY - JOUR A1 - Baberowski, David A1 - Leonhardt, Thiemo A1 - Rentsch, Susanne A1 - Bergner, Nadine T1 - Aufbau informatischer Kompetenzen im Kontext KI bei Lehramtsstudierenden des Faches Politik JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Lehrkräfte aller Fächer benötigen informatische Kompetenzen, um der wachsenden Alltagsrelevanz von Informatik und aktuell gültigen Lehrplänen gerecht zu werden. Beispielsweise verweist in Sachsen der Lehrplan für das Fach Gemeinschaftskunde, Rechtserziehung und Wirtschaft am Gymnasium mit dem für die Jahrgangsstufe 11 vorgesehenem Thema „Digitalisierung und sozialer Wandel“ auf Künstliche Intelligenz (KI) und explizit auf die Bedeutung der informatischen Bildung. Um die nötigen informatischen Grundlagen zu vermitteln, wurde für Lehramtsstudierende des Faches Politik ein Workshop erarbeitet, der die Grundlagen der Funktionsweise von KI anhand von überwachtem maschinellen Lernen in neuronalen Netzen vermittelt. Inhalt des Workshops ist es, mit Bezug auf gesellschaftliche Implikationen wie Datenschutz bei Trainingsdaten und algorithmic bias einen informierten Diskurs zu politischen Themen zu ermöglichen. Ziele des Workshops für Lehramtsstudierende mit dem Fach Politik sind: (1) Aufbau informatischer Kompetenzen in Bezug zum Thema KI, (2) Stärkung der Diskussionsfähigkeiten der Studierenden durch passende informatische Kompetenzen und (3) Anregung der Studierenden zum Transfer auf passende Themenstellungen im Politikunterricht. Das Evaluationskonzept umfasst eine Pre-Post-Befragung zur Zuversicht zur Vermittlungskompetenz unter Bezug auf maschinelles Lernen in neuronalen Netzen im Unterricht, sowie die Analyse einer abschließenden Diskussion. Für die Pre-Post-Befragung konnte eine Steigerung der Zuversicht zur Vermittlungskompetenz beobachtet werden. Die Analyse der Diskussion zeigte das Bewusstsein der Alltagsrelevanz des Themas KI bei den Teilnehmenden, aber noch keine Anwendung der informatischen Inhalte des Workshops zur Stützung der Argumente in der Diskussion. KW - informatische Grundkompetenzen KW - Lehramtsstudium KW - KI KW - maschinelles Lernen KW - fächerverbindend Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-615995 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 189 EP - 209 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Thorbrügge, Carsten A1 - Desel, Jörg A1 - Schäfer, Len Ole T1 - Vorqualifikationen und Anerkennungsoptionen im Informatikstudium JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Viele Informatikstudierende sammeln bereits vor ihrem Studium berufliche Erfahrungen im Informatikbereich, ohne dass diese inhaltlich und didaktisch im Studium berücksichtigt werden. Dieser Beitrag geht der Frage nach, welche Kompetenzen aus beruflichen Vorqualifikationen bei Informatikstudierenden existieren und wie diese in Bezug zu Anerkennungsoptionen gesetzt werden können. Betrachtet werden: die pauschale Anerkennung, die auf erworbenen Zertifikaten beruht; die individuelle Anerkennung, bei der individuell erworbene Kompetenzen nachgewiesen werden; die Adaption von individuellen Lernwegen, die Teilkompetenzen der Studierenden berücksichtigt. Es wird eine Interviewstudie vorgestellt, in der Kompetenzen für ein Sample von Informatikstudierenden mit Vorqualifikation als Fachinformatiker/in erhoben und eine Zuordnung zu den Anerkennungsoptionen vorgenommen wurde. Für die präzisere Gestaltung von Anerkennungsprozessen und zur kritischen Reflexion der eingesetzten hochschuldidaktischen Konzepte wurde eine empirische Basis geschaffen. Die vorhandenen Konzepte richten sich traditionell an Abiturienten/ innen mit sehr geringem Informatikhintergrund und berücksichtigen die tatsächlich existierende Heterogenität der Studienanfänger/innen nicht angemessen. Die Ergebnisse zeigen, dass die Befragten aus ihrer Vorqualifikation relevante fachliche Kompetenzen mitbringen, die mit den Anerkennungsoptionen korrespondieren und deren Weiterentwicklung dienen können. Darüber hinaus werden aus überfachlichen Kompetenzen wie Selbststeuerungskompetenzen weitere Erkenntnisse zur Studiengestaltung gewonnen. KW - Durchlässigkeit KW - Anerkennung KW - Studiengestaltung KW - Informatik B. Sc. KW - Berufsausbildung KW - Fachinformatik Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-613942 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 73 EP - 89 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Weicker, Karsten T1 - Peer-Review als Katalysator im Lernprozess JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Peer-Reviews werden seit geraumer Zeit in unterschiedlichen Lehrszenarien eingesetzt. In diesem Paper wird untersucht, inwieweit das Peer- Review die Auseinandersetzung mit den Inhalten eines Grundlagenmoduls in einem präsenzfreien Lehrszenario befördern kann. Dabei scheint in den Ergebnissen die Qualität der selbst erstellten Reviews einer der wichtigsten Einflussfaktoren für den Lernerfolg zu sein, während Experten-Feedback und weitere Faktoren deutlich untergeordnet erscheinen. Die Fähigkeit ausführliche Peer-Reviews zu verfassen geht einher mit dem Erwerb von fachlicher Kompetenz bzw. entsprechenden fachlichen Vorkenntnissen. KW - Distanzlehre KW - Feedback KW - Diskussionskultur KW - Peer-Review KW - Lernerfolg Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-616025 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 257 EP - 277 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Opel, Simone A1 - Netzer, Cajus Marian A1 - Desel, Jörg T1 - Adaption von Lernwegen in adaptierten Lehrmaterialien für Studierende mit Berufsausbildungsabschluss JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Obwohl immer mehr Menschen nicht direkt ein Studium aufnehmen, sondern zuvor eine berufliche Ausbildung absolvieren, werden die in der Ausbildung erworbenen Kompetenzen von den Hochschulen inhaltlich und didaktisch meist ignoriert. Ein Ansatz, diese Kompetenzen zu würdigen, ist die formale Anrechnung von mitgebrachten Kompetenzen als (für den Studienabschluss erforderliche) Leistungspunkte. Eine andere Variante ist der Einsatz von speziell für die Zielgruppe der Studierenden mit Vorkenntnissen adaptiertem Lehr-Lernmaterial. Um darüber hinaus individuelle Unterschiede zu berücksichtigen, erlaubt eine weitere Adaption individueller Lernpfade den Lernenden, genau die jeweils fehlenden Kompetenzen zu erwerben. In diesem Beitrag stellen wir die exemplarische Entwicklung derartigen Materials anhand des Kurses „Datenbanken“ für die Zielgruppe der Studierenden mit einer abgeschlossenen Ausbildung zum Fachinformatiker bzw. zur Fachinformatikerin vor. KW - Informatik KW - Anrechnung KW - Adaption KW - individuelle Lernwege KW - Vorwissen KW - Kompetenz KW - Datenbanken KW - Hochschule KW - Fachinformatiker Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-614188 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 91 EP - 114 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Weber, Gerhard T1 - Informatik und Barrierefreiheit JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Barrierefreiheit kann durch Methoden der Informatik hergestellt und ausgebaut werden. Dieser eingeladene Beitrag stellt die Anforderungen von Menschen mit den umfangreichsten Benutzererfordernissen an Software vor, die z. B. eigene Schriftsysteme wie Braille und entsprechende taktile Ausgabegeräte verwenden. Assistive Technologien umfassen dabei auch Software verschiedenster Art. Es werden die wichtigsten Kompetenzen dafür vorgestellt. Im Curriculum der Informatik können diese Kompetenzen im Rahmen von speziellen Vorlesungen und Übungen vermittelt werden oder sie werden in die jeweiligen Fachgebiete integriert. Um den Studienbetrieb ebenfalls barrierefrei zu gestalten, sind weitere Anstrengungen notwendig, die Lehrende, Verwaltung und die Hochschulleitung einbeziehen. KW - Barrierefreiheit KW - Informatik KW - Mensch-Computer-Interaktion Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-613874 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 35 EP - 50 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Schell, Timon A1 - Schwill, Andreas T1 - „Es ist kompliziert, alles inklusive Privatleben unter einen Hut zu bekommen“ BT - Eine Studie zu Nutzen und Schaden von Arbeitsverhältnissen für das Informatikstudium JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Eine übliche Erzählung verknüpft lange Studienzeiten und hohe Abbrecherquoten im Informatikstudium zum einen mit der sehr gut bezahlten Nebentätigkeit von Studierenden in der Informatikbranche, die deutlich studienzeitverlängernd sei; zum anderen werde wegen des hohen Bedarfs an Informatikern ein formeller Studienabschluss von den Studierenden häufig als entbehrlich betrachtet und eine Karriere in der Informatikbranche ohne abgeschlossenes Studium begonnen. In dieser Studie, durchgeführt an der Universität Potsdam, untersuchen wir, wie viele Informatikstudierende neben dem Studium innerhalb und außerhalb der Informatikbranche arbeiten, welche Erwartungen sie neben der Bezahlung damit verbinden und wie sich die Tätigkeit auf ihr Studium und ihre spätere berufliche Perspektive auswirkt. Aus aktuellem Anlass interessieren uns auch die Auswirkungen der Covid-19-Pandemie auf die Arbeitstätigkeiten der Informatikstudierenden. KW - Informatikstudium KW - Studienabbrecher KW - Studentenjobs KW - Studiendauer Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-613882 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 53 EP - 71 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - THES A1 - Schulz-Hanke, Christian T1 - BCH Codes mit kombinierter Korrektur und Erkennung T1 - BCH codes with combined error correction and detection N2 - BCH Codes mit kombinierter Korrektur und Erkennung In dieser Arbeit wird auf Grundlage des BCH Codes untersucht, wie eine Fehlerkorrektur mit einer Erkennung höherer Fehleranzahlen kombiniert werden kann. Mit dem Verfahren der 1-Bit Korrektur mit zusätzlicher Erkennung höherer Fehler wurde ein Ansatz entwickelt, welcher die Erkennung zusätzlicher Fehler durch das parallele Lösen einfacher Gleichungen der Form s_x = s_1^x durchführt. Die Anzahl dieser Gleichungen ist linear zu der Anzahl der zu überprüfenden höheren Fehler. In dieser Arbeit wurde zusätzlich für bis zu 4-Bit Korrekturen mit zusätzlicher Erkennung höherer Fehler ein weiterer allgemeiner Ansatz vorgestellt. Dabei werden parallel für alle korrigierbaren Fehleranzahlen spekulative Fehlerkorrekturen durchgeführt. Aus den bestimmten Fehlerstellen werden spekulative Syndromkomponenten erzeugt, durch welche die Fehlerstellen bestätigt und höhere erkennbare Fehleranzahlen ausgeschlossen werden können. Die vorgestellten Ansätze unterscheiden sich von dem in entwickelten Ansatz, bei welchem die Anzahl der Fehlerstellen durch die Berechnung von Determinanten in absteigender Reihenfolge berechnet wird, bis die erste Determinante 0 bildet. Bei dem bekannten Verfahren ist durch die Berechnung der Determinanten eine faktorielle Anzahl an Berechnungen in Relation zu der Anzahl zu überprüfender Fehler durchzuführen. Im Vergleich zu dem bekannten sequentiellen Verfahrens nach Berlekamp Massey besitzen die Berechnungen im vorgestellten Ansatz simple Gleichungen und können parallel durchgeführt werden.Bei dem bekannten Verfahren zur parallelen Korrektur von 4-Bit Fehlern ist eine Gleichung vierten Grades im GF(2^m) zu lösen. Dies erfolgt, indem eine Hilfsgleichung dritten Grades und vier Gleichungen zweiten Grades parallel gelöst werden. In der vorliegenden Arbeit wurde gezeigt, dass sich eine Gleichung zweiten Grades einsparen lässt, wodurch sich eine Vereinfachung der Hardware bei einer parallelen Realisierung der 4-Bit Korrektur ergibt. Die erzielten Ergebnisse wurden durch umfangreiche Simulationen in Software und Hardwareimplementierungen überprüft. N2 - Based on the BCH code, this thesis investigates how an BCH error correction approach can be combined with an additional detection of higher numbers of errors. With the method of 1-bit correction with additional detection of higher errors, an approach is developed that performs the additional detection of higher errors by solving simple equations of the form s_x = s_1^x in parallel. The number of these equations is in a linear relationship to the number of higher errors to be checked. In this thesis, a generalization for such an approach is presented for up to 4-bit correction with additional detection of higher errors. Therefore, a speculative error correction is carried out in parallel fashion for each correctable error count. For each of the generated speculative error positions, a speculative syndrome is generated, which can be used to confirm the error positions and exclude detectable errors of higher number. The presented approach differs from the approach developed in, in which the number of errors is determined by calculating specific determinants in descending order until the first determinant is 0. In the well-known method, the calculation of the determinants involves performing a factorial number of calculations in relation to the number of errors to be checked. Compared to the well-known sequential method according to Berlekamp Massey, the calculations in the presented approach can be performed by solving simple equations and can be carried out in parallel. In the well-known method for parallel correction of 4-bit errors, an equation of fourth degree in the GF(2^m) has to be solved. This is done by solving a third-degree auxiliary equation and four second-degree equations in parallel. In the present thesis it was shown that a second-degree equation can be saved, resulting in a simplification of the hardware for a parallel realization of the 4-bit correction. The results obtained were verified by extensive simulations in software and hardware implementations. KW - Code KW - BCH KW - Fehlerkorrektur KW - Fehlererkennung KW - linearer Code KW - BCH KW - code KW - error correction KW - error detection KW - linear code Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-617943 ER - TY - CHAP A1 - Vladova, Gergana A1 - Ullrich, André A1 - Sultanow, Eldar A1 - Tobolla, Marinho A1 - Sebrak, Sebastian A1 - Czarnecki, Christian A1 - Brockmann, Carsten ED - Klein, Maike ED - Krupka, Daniel ED - Winter, Cornelia ED - Wohlgemuth, Volker T1 - Visual analytics for knowledge management BT - advantages for organizations and interorganizational teams T2 - Informatik 2023 N2 - The management of knowledge in organizations considers both established long-term processes and cooperation in agile project teams. Since knowledge can be both tacit and explicit, its transfer from the individual to the organizational knowledge base poses a challenge in organizations. This challenge increases when the fluctuation of knowledge carriers is exceptionally high. Especially in large projects in which external consultants are involved, there is a risk that critical, company-relevant knowledge generated in the project will leave the company with the external knowledge carrier and thus be lost. In this paper, we show the advantages of an early warning system for knowledge management to avoid this loss. In particular, the potential of visual analytics in the context of knowledge management systems is presented and discussed. We present a project for the development of a business-critical software system and discuss the first implementations and results. KW - knowledge management KW - visual analytics KW - knowledge transfer KW - teamwork KW - knowledge management system KW - tacit knowledge KW - explicit knowledge Y1 - 2023 SN - 978-3-88579-731-9 U6 - https://doi.org/10.18420/inf2023_187 SN - 1617-5468 SP - 1851 EP - 1870 PB - Gesellschaft für Informatik e.V. (GI) CY - Bonn ER - TY - JOUR A1 - Hagemann, Linus A1 - Abramova, Olga T1 - Emotions and information diffusion on social media BT - a replication in the context of political communication on Twitter JF - AIS transactions on replication research N2 - This paper presents a methodological and conceptual replication of Stieglitz and Dang-Xuan’s (2013) investigation of the role of sentiment in information-sharing behavior on social media. Whereas Stieglitz and Dang-Xuan (2013) focused on Twitter communication prior to the state parliament elections in the German states Baden-Wurttemberg, Rheinland-Pfalz, and Berlin in 2011, we test their theoretical propositions in the context of the state parliament elections in Saxony-Anhalt (Germany) 2021. We confirm the positive link between sentiment in a political Twitter message and its number of retweets in a methodological replication. In a conceptual replication, where sentiment was assessed with the alternative dictionary-based tool LIWC, the sentiment was negatively associated with the retweet volume. In line with the original study, the strength of association between sentiment and retweet time lag insignificantly differs between tweets with negative sentiment and tweets with positive sentiment. We also found that the number of an author’s followers was an essential determinant of sharing behavior. However, two hypotheses supported in the original study did not hold for our sample. Precisely, the total amount of sentiments was insignificantly linked to the time lag to the first retweet. Finally, in our data, we do not observe that the association between the overall sentiment and retweet quantity is stronger for tweets with negative sentiment than for those with positive sentiment. KW - Twitter KW - information diffusion KW - sentiment KW - elections Y1 - 2023 U6 - https://doi.org/10.17705/1atrr.00079 SN - 2473-3458 VL - 9 IS - 1 SP - 1 EP - 19 PB - AIS CY - Atlanta ER - TY - JOUR A1 - Puri, Manish A1 - Varde, Aparna S. A1 - Melo, Gerard de T1 - Commonsense based text mining on urban policy JF - Language resources and evaluation N2 - Local laws on urban policy, i.e., ordinances directly affect our daily life in various ways (health, business etc.), yet in practice, for many citizens they remain impervious and complex. This article focuses on an approach to make urban policy more accessible and comprehensible to the general public and to government officials, while also addressing pertinent social media postings. Due to the intricacies of the natural language, ranging from complex legalese in ordinances to informal lingo in tweets, it is practical to harness human judgment here. To this end, we mine ordinances and tweets via reasoning based on commonsense knowledge so as to better account for pragmatics and semantics in the text. Ours is pioneering work in ordinance mining, and thus there is no prior labeled training data available for learning. This gap is filled by commonsense knowledge, a prudent choice in situations involving a lack of adequate training data. The ordinance mining can be beneficial to the public in fathoming policies and to officials in assessing policy effectiveness based on public reactions. This work contributes to smart governance, leveraging transparency in governing processes via public involvement. We focus significantly on ordinances contributing to smart cities, hence an important goal is to assess how well an urban region heads towards a smart city as per its policies mapping with smart city characteristics, and the corresponding public satisfaction. KW - Commonsense reasoning KW - Opinion mining KW - Ordinances KW - Smart cities KW - Social KW - media KW - Text mining Y1 - 2022 U6 - https://doi.org/10.1007/s10579-022-09584-6 SN - 1574-020X SN - 1574-0218 VL - 57 SP - 733 EP - 763 PB - Springer CY - Dordrecht [u.a.] ER - TY - JOUR A1 - Garrels, Tim A1 - Khodabakhsh, Athar A1 - Renard, Bernhard Y. A1 - Baum, Katharina T1 - LazyFox: fast and parallelized overlapping community detection in large graphs JF - PEERJ Computer Science N2 - The detection of communities in graph datasets provides insight about a graph's underlying structure and is an important tool for various domains such as social sciences, marketing, traffic forecast, and drug discovery. While most existing algorithms provide fast approaches for community detection, their results usually contain strictly separated communities. However, most datasets would semantically allow for or even require overlapping communities that can only be determined at much higher computational cost. We build on an efficient algorithm, FOX, that detects such overlapping communities. FOX measures the closeness of a node to a community by approximating the count of triangles which that node forms with that community. We propose LAZYFOX, a multi-threaded adaptation of the FOX algorithm, which provides even faster detection without an impact on community quality. This allows for the analyses of significantly larger and more complex datasets. LAZYFOX enables overlapping community detection on complex graph datasets with millions of nodes and billions of edges in days instead of weeks. As part of this work, LAZYFOX's implementation was published and is available as a tool under an MIT licence at https://github.com/TimGarrels/LazyFox. KW - Overlapping community detection KW - Large networks KW - Weighted clustering coefficient KW - Heuristic triangle estimation KW - Parallelized algorithm KW - C++ tool KW - Runtime improvement KW - Open source KW - Graph algorithm KW - Community analysis Y1 - 2023 U6 - https://doi.org/10.7717/peerj-cs.1291 SN - 2376-5992 VL - 9 PB - PeerJ Inc. CY - London ER - TY - JOUR A1 - Vitagliano, Gerardo A1 - Hameed, Mazhar A1 - Jiang, Lan A1 - Reisener, Lucas A1 - Wu, Eugene A1 - Naumann, Felix T1 - Pollock: a data loading benchmark JF - Proceedings of the VLDB Endowment N2 - Any system at play in a data-driven project has a fundamental requirement: the ability to load data. The de-facto standard format to distribute and consume raw data is CSV. Yet, the plain text and flexible nature of this format make such files often difficult to parse and correctly load their content, requiring cumbersome data preparation steps. We propose a benchmark to assess the robustness of systems in loading data from non-standard CSV formats and with structural inconsistencies. First, we formalize a model to describe the issues that affect real-world files and use it to derive a systematic lpollutionz process to generate dialects for any given grammar. Our benchmark leverages the pollution framework for the csv format. To guide pollution, we have surveyed thousands of real-world, publicly available csv files, recording the problems we encountered. We demonstrate the applicability of our benchmark by testing and scoring 16 different systems: popular csv parsing frameworks, relational database tools, spreadsheet systems, and a data visualization tool. Y1 - 2023 U6 - https://doi.org/10.14778/3594512.3594518 SN - 2150-8097 VL - 16 IS - 8 SP - 1870 EP - 1882 PB - Association for Computing Machinery CY - New York ER - TY - GEN A1 - Konigorski, Stefan A1 - Wernicke, Sarah A1 - Slosarek, Tamara A1 - Zenner, Alexander Maximilian A1 - Strelow, Nils A1 - Ruether, Darius Ferenc A1 - Henschel, Florian A1 - Manaswini, Manisha A1 - Pottbäcker, Fabian A1 - Edelman, Jonathan Antonio A1 - Owoyele, Babajide A1 - Danieletto, Matteo A1 - Golden, Eddye A1 - Zweig, Micol A1 - Nadkarni, Girish N. A1 - Böttinger, Erwin T1 - StudyU: A Platform for Designing and Conducting Innovative Digital N-of-1 Trials T2 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät N2 - N-of-1 trials are the gold standard study design to evaluate individual treatment effects and derive personalized treatment strategies. Digital tools have the potential to initiate a new era of N-of-1 trials in terms of scale and scope, but fully functional platforms are not yet available. Here, we present the open source StudyU platform, which includes the StudyU Designer and StudyU app. With the StudyU Designer, scientists are given a collaborative web application to digitally specify, publish, and conduct N-of-1 trials. The StudyU app is a smartphone app with innovative user-centric elements for participants to partake in trials published through the StudyU Designer to assess the effects of different interventions on their health. Thereby, the StudyU platform allows clinicians and researchers worldwide to easily design and conduct digital N-of-1 trials in a safe manner. We envision that StudyU can change the landscape of personalized treatments both for patients and healthy individuals, democratize and personalize evidence generation for self-optimization and medicine, and can be integrated in clinical practice. T3 - Zweitveröffentlichungen der Universität Potsdam : Reihe der Digital Engineering Fakultät - 12 KW - digital interventions KW - N-of-1 trial KW - SCED KW - single-case experimental design KW - web application KW - mobile application KW - app KW - digital health Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-580370 IS - 12 ER - TY - BOOK A1 - Garus, Marcel A1 - Sawahn, Rohan A1 - Wanke, Jonas A1 - Tiedt, Clemens A1 - Granzow, Clara A1 - Kuffner, Tim A1 - Rosenbaum, Jannis A1 - Hagemann, Linus A1 - Wollnik, Tom A1 - Woth, Lorenz A1 - Auringer, Felix A1 - Kantusch, Tobias A1 - Roth, Felix A1 - Hanff, Konrad A1 - Schilli, Niklas A1 - Seibold, Leonard A1 - Lindner, Marc Fabian A1 - Raschack, Selina ED - Grapentin, Andreas ED - Tiedt, Clemens ED - Polze, Andreas T1 - Operating systems II - student projects N2 - This technical report presents the results of student projects which were prepared during the lecture “Operating Systems II” offered by the “Operating Systems and Middleware” group at HPI in the Summer term of 2020. The lecture covered ad- vanced aspects of operating system implementation and architecture on topics such as Virtualization, File Systems and Input/Output Systems. In addition to attending the lecture, the participating students were encouraged to gather practical experience by completing a project on a closely related topic over the course of the semester. The results of 10 selected exceptional projects are covered in this report. The students have completed hands-on projects on the topics of Operating System Design Concepts and Implementation, Hardware/Software Co-Design, Reverse Engineering, Quantum Computing, Static Source-Code Analysis, Operating Systems History, Application Binary Formats and more. It should be recognized that over the course of the semester all of these projects have achieved outstanding results which went far beyond the scope and the expec- tations of the lecture, and we would like to thank all participating students for their commitment and their effort in completing their respective projects, as well as their work on compiling this report. N2 - Dieser technische Bericht beschriebt die Ergebnisse der Projekte, welche im Rahmen der Lehrveranstaltung "Betriebssysteme II" on teilnehmenden Studierenden durchgeführt wurden. Die Lehrveranstaltung wurde von der "Betriebssysteme und Middleware" am HPI im Sommersemester 2020 durchgeführt und behandele fortgeschrittene Aspekte der Betriebssystemarchitektur und -Implementierung am Beispiel der Virtualisierung, der Dateisysteme und der Eingabe/Ausgabe (I/O) Systeme. Zusätzlich zu den Vorlesungen wurden die Studierenden angeleitet, durch die Durchführung eines begleitenden Projekts praktische Erfahrungen im Umgang mit den behandelten Themen zu sammeln. Die Ergebnisse von 10 ausgewählten, herausragenden Projekten werden in diesem Report vorgestellt. Die Studierenden haben unter anderem Projekte zu den Themen Betriebssystemdesign und -Implementierung, Hardware/Software Co-Design, Reverse Engineering, Quanten-Computing, Statische Quellcodeanalyse, Betriebssystemgeschichte, dem Binärformat von ausführbaren Dateien durchgeführt. Es ist anzuerkennen, dass alle teilnehmenden Studierenden im Verlauf des Semesters herausragende Ergebnisse erzielt haben, die weit über die Anforderungen der Lehrveranstaltung hinausgingen. Wir möchten uns bei allen teilnehmenden Studierenden für Ihren Einsatz bei der Durchführung der Projekte, sowie bei der Erstellung dieses Reports bedanken. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 142 KW - operating systems KW - network protocols KW - software/hardware co-design KW - static source-code analysis KW - reverse engineering KW - quantum computing KW - Betriebssysteme KW - Netzwerkprotokolle KW - Software/Hardware Co-Design KW - statische Quellcodeanalyse KW - Reverse Engineering KW - Quanten-Computing Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-526363 SN - 978-3-86956-524-8 SN - 1613-5652 SN - 2191-1665 IS - 142 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Meinel, Christoph A1 - Galbas, Michael A1 - Hagebölling, David T1 - Digitale Souveränität: Erkenntnisse aus dem deutschen Bildungssektor T1 - Digital sovereignty: insights from Germany’s education sector N2 - Digitale Technologien bieten erhebliche politische, wirtschaftliche und gesellschaftliche Chancen. Zugleich ist der Begriff digitale Souveränität zu einem Leitmotiv im deutschen Diskurs über digitale Technologien geworden: das heißt, die Fähigkeit des Staates, seine Verantwortung wahrzunehmen und die Befähigung der Gesellschaft – und des Einzelnen – sicherzustellen, die digitale Transformation selbstbestimmt zu gestalten. Exemplarisch für die Herausforderung in Deutschland und Europa, die Vorteile digitaler Technologien zu nutzen und gleichzeitig Souveränitätsbedenken zu berücksichtigen, steht der Bildungssektor. Er umfasst Bildung als zentrales öffentliches Gut, ein schnell aufkommendes Geschäftsfeld und wachsende Bestände an hochsensiblen personenbezogenen Daten. Davon ausgehend beschreibt der Bericht Wege zur Entschärfung des Spannungsverhältnisses zwischen Digitalisierung und Souveränität auf drei verschiedenen Ebenen – Staat, Wirtschaft und Individuum – anhand konkreter technischer Projekte im Bildungsbereich: die HPI Schul-Cloud (staatliche Souveränität), die MERLOT-Datenräume (wirtschaftliche Souveränität) und die openHPI-Plattform (individuelle Souveränität). N2 - Digital technology offers significant political, economic, and societal opportunities. At the same time, the notion of digital sovereignty has become a leitmotif in German discourse: the state’s capacity to assume its responsibilities and safeguard society’s – and individuals’ – ability to shape the digital transformation in a self-determined way. The education sector is exemplary for the challenge faced by Germany, and indeed Europe, of harnessing the benefits of digital technology while navigating concerns around sovereignty. It encompasses education as a core public good, a rapidly growing field of business, and growing pools of highly sensitive personal data. The report describes pathways to mitigating the tension between digitalization and sovereignty at three different levels – state, economy, and individual – through the lens of concrete technical projects in the education sector: the HPI Schul-Cloud (state sovereignty), the MERLOT data spaces (economic sovereignty), and the openHPI platform (individual sovereignty). T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 156 KW - Digitalisierung KW - digitale Souveränität KW - digitale Bildung KW - HPI Schul-Cloud KW - MERLOT KW - openHPI KW - Europäische Union KW - digitalization KW - digital sovereignty KW - digital education KW - HPI Schul-Cloud KW - MERLOT KW - openHPI KW - European Union Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-595138 SN - 978-3-86956-560-6 SN - 1613-5652 SN - 2191-1665 IS - 156 SP - 1 EP - 29 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Meinel, Christoph A1 - Galbas, Michael A1 - Hagebölling, David T1 - Digital sovereignty: insights from Germany’s education sector T1 - Digitale Souveränität: Erkenntnisse aus dem deutschen Bildungssektor N2 - Digital technology offers significant political, economic, and societal opportunities. At the same time, the notion of digital sovereignty has become a leitmotif in German discourse: the state’s capacity to assume its responsibilities and safeguard society’s – and individuals’ – ability to shape the digital transformation in a self-determined way. The education sector is exemplary for the challenge faced by Germany, and indeed Europe, of harnessing the benefits of digital technology while navigating concerns around sovereignty. It encompasses education as a core public good, a rapidly growing field of business, and growing pools of highly sensitive personal data. The report describes pathways to mitigating the tension between digitalization and sovereignty at three different levels – state, economy, and individual – through the lens of concrete technical projects in the education sector: the HPI Schul-Cloud (state sovereignty), the MERLOT data spaces (economic sovereignty), and the openHPI platform (individual sovereignty). N2 - Digitale Technologien bieten erhebliche politische, wirtschaftliche und gesellschaftliche Chancen. Zugleich ist der Begriff digitale Souveränität zu einem Leitmotiv im deutschen Diskurs über digitale Technologien geworden: das heißt, die Fähigkeit des Staates, seine Verantwortung wahrzunehmen und die Befähigung der Gesellschaft – und des Einzelnen – sicherzustellen, die digitale Transformation selbstbestimmt zu gestalten. Exemplarisch für die Herausforderung in Deutschland und Europa, die Vorteile digitaler Technologien zu nutzen und gleichzeitig Souveränitätsbedenken zu berücksichtigen, steht der Bildungssektor. Er umfasst Bildung als zentrales öffentliches Gut, ein schnell aufkommendes Geschäftsfeld und wachsende Bestände an hochsensiblen personenbezogenen Daten. Davon ausgehend beschreibt der Bericht Wege zur Entschärfung des Spannungsverhältnisses zwischen Digitalisierung und Souveränität auf drei verschiedenen Ebenen – Staat, Wirtschaft und Individuum – anhand konkreter technischer Projekte im Bildungsbereich: die HPI Schul-Cloud (staatliche Souveränität), die MERLOT-Datenräume (wirtschaftliche Souveränität) und die openHPI-Plattform (individuelle Souveränität). T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 157 KW - digitalization KW - digital sovereignty KW - digital education KW - HPI Schul-Cloud KW - MERLOT KW - openHPI KW - European Union KW - Digitalisierung KW - digitale Souveränität KW - digitale Bildung KW - HPI Schul-Cloud KW - MERLOT KW - openHPI KW - Europäische Union Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-597723 SN - 978-3-86956-561-3 SN - 1613-5652 SN - 2191-1665 IS - 157 SP - 1 EP - 27 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - THES A1 - Vitagliano, Gerardo T1 - Modeling the structure of tabular files for data preparation T1 - Modellierung der Struktur von Tabellarische Dateien für die Datenaufbereitung N2 - To manage tabular data files and leverage their content in a given downstream task, practitioners often design and execute complex transformation pipelines to prepare them. The complexity of such pipelines stems from different factors, including the nature of the preparation tasks, often exploratory or ad-hoc to specific datasets; the large repertory of tools, algorithms, and frameworks that practitioners need to master; and the volume, variety, and velocity of the files to be prepared. Metadata plays a fundamental role in reducing this complexity: characterizing a file assists end users in the design of data preprocessing pipelines, and furthermore paves the way for suggestion, automation, and optimization of data preparation tasks. Previous research in the areas of data profiling, data integration, and data cleaning, has focused on extracting and characterizing metadata regarding the content of tabular data files, i.e., about the records and attributes of tables. Content metadata are useful for the latter stages of a preprocessing pipeline, e.g., error correction, duplicate detection, or value normalization, but they require a properly formed tabular input. Therefore, these metadata are not relevant for the early stages of a preparation pipeline, i.e., to correctly parse tables out of files. In this dissertation, we turn our focus to what we call the structure of a tabular data file, i.e., the set of characters within a file that do not represent data values but are required to parse and understand the content of the file. We provide three different approaches to represent file structure, an explicit representation based on context-free grammars; an implicit representation based on file-wise similarity; and a learned representation based on machine learning. In our first contribution, we use the grammar-based representation to characterize a set of over 3000 real-world csv files and identify multiple structural issues that let files deviate from the csv standard, e.g., by having inconsistent delimiters or containing multiple tables. We leverage our learnings about real-world files and propose Pollock, a benchmark to test how well systems parse csv files that have a non-standard structure, without any previous preparation. We report on our experiments on using Pollock to evaluate the performance of 16 real-world data management systems. Following, we characterize the structure of files implicitly, by defining a measure of structural similarity for file pairs. We design a novel algorithm to compute this measure, which is based on a graph representation of the files' content. We leverage this algorithm and propose Mondrian, a graphical system to assist users in identifying layout templates in a dataset, classes of files that have the same structure, and therefore can be prepared by applying the same preparation pipeline. Finally, we introduce MaGRiTTE, a novel architecture that uses self-supervised learning to automatically learn structural representations of files in the form of vectorial embeddings at three different levels: cell level, row level, and file level. We experiment with the application of structural embeddings for several tasks, namely dialect detection, row classification, and data preparation efforts estimation. Our experimental results show that structural metadata, either identified explicitly on parsing grammars, derived implicitly as file-wise similarity, or learned with the help of machine learning architectures, is fundamental to automate several tasks, to scale up preparation to large quantities of files, and to provide repeatable preparation pipelines. N2 - Anwender müssen häufig komplexe Pipelines zur Aufbereitung von tabellarischen Dateien entwerfen, um diese verwalten und ihre Inhalte für nachgelagerte Aufgaben nutzen zu können. Die Komplexität solcher Pipelines ergibt sich aus verschiedenen Faktoren, u.a. (i) aus der Art der Aufbereitungsaufgaben, die oft explorativ oder ad hoc für bestimmte Datensätze durchgeführt werden, (ii) aus dem großen Repertoire an Werkzeugen, Algorithmen und Frameworks, die von den Anwendern beherrscht werden müssen, sowie (iii) aus der Menge, der Größe und der Verschiedenartigkeit der aufzubereitenden Dateien. Metadaten spielen eine grundlegende Rolle bei der Verringerung dieser Komplexität: Die Charakterisierung einer Datei hilft den Nutzern bei der Gestaltung von Datenaufbereitungs-Pipelines und ebnet darüber hinaus den Weg für Vorschläge, Automatisierung und Optimierung von Datenaufbereitungsaufgaben. Bisherige Forschungsarbeiten in den Bereichen Data Profiling, Datenintegration und Datenbereinigung konzentrierten sich auf die Extraktion und Charakterisierung von Metadaten über die Inhalte der tabellarischen Dateien, d.h. über die Datensätze und Attribute von Tabellen. Inhalts-basierte Metadaten sind für die letzten Phasen einer Aufbereitungspipeline nützlich, z.B. für die Fehlerkorrektur, die Erkennung von Duplikaten oder die Normalisierung von Werten, aber sie erfordern eine korrekt geformte tabellarische Eingabe. Daher sind diese Metadaten für die frühen Phasen einer Aufbereitungspipeline, d.h. für das korrekte Parsen von Tabellen aus Dateien, nicht relevant. In dieser Dissertation konzentrieren wir uns die Struktur einer tabellarischen Datei nennen, d.h. die Menge der Zeichen in einer Datei, die keine Datenwerte darstellen, aber erforderlich sind, um den Inhalt der Datei zu analysieren und zu verstehen. Wir stellen drei verschiedene Ansätze zur Darstellung der Dateistruktur vor: eine explizite Darstellung auf der Grundlage kontextfreier Grammatiken, eine implizite Darstellung auf der Grundlage von Dateiähnlichkeiten und eine erlernte Darstellung auf der Grundlage von maschinellem Lernen. In unserem ersten Ansatz verwenden wir die grammatikbasierte Darstellung, um eine Menge von über 3000 realen CSV-Dateien zu charakterisieren und mehrere strukturelle Probleme zu identifizieren, die dazu führen, dass Dateien vom CSV-Standard abweichen, z.B. durch inkonsistente Begrenzungszeichen oder dem Enthalten mehrere Tabellen in einer einzelnen Datei. Wir nutzen unsere Erkenntnisse aus realen Dateien und schlagen Pollock vor, einen Benchmark, der testet, wie gut Systeme unaufbereitete CSV-Dateien parsen. Wir berichten über unsere Experimente zur Verwendung von Pollock, in denen wir die Leistung von 16 realen Datenverwaltungssystemen bewerten. Anschließend charakterisieren wir die Struktur von Dateien implizit, indem wir ein Maß für die strukturelle Ähnlichkeit von Dateipaaren definieren. Wir entwickeln einen neuartigen Algorithmus zur Berechnung dieses Maßes, der auf einer Graphen-basierten Darstellung des Dateiinhalts basiert. Wir nutzen diesen Algorithmus und schlagen Mondrian vor, ein grafisches System zur Unterstützung der Benutzer bei der Identifizierung von Layout Vorlagen in einem Datensatz, d.h. von Dateiklassen, die die gleiche Struktur aufweisen und daher mit der gleichen Pipeline aufbereitet werden können. Schließlich stellen wir MaGRiTTE vor, eine neuartige Architektur, die selbst- überwachtes Lernen verwendet, um automatisch strukturelle Darstellungen von Dateien in Form von vektoriellen Einbettungen auf drei verschiedenen Ebenen zu lernen: auf Zellebene, auf Zeilenebene und auf Dateiebene. Wir experimentieren mit der Anwendung von strukturellen Einbettungen für verschiedene Aufgaben, nämlich Dialekterkennung, Zeilenklassifizierung und der Schätzung des Aufwands für die Datenaufbereitung. Unsere experimentellen Ergebnisse zeigen, dass strukturelle Metadaten, die entweder explizit mit Hilfe von Parsing-Grammatiken identifiziert, implizit als Dateiähnlichkeit abgeleitet oder mit Machine-Learning Architekturen erlernt werden, von grundlegender Bedeutung für die Automatisierung verschiedener Aufgaben, die Skalierung der Aufbereitung auf große Mengen von Dateien und die Bereitstellung wiederholbarer Aufbereitungspipelines sind. KW - data preparation KW - file structure KW - Datenaufbereitung KW - tabellarische Dateien KW - Dateistruktur KW - tabular data Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-624351 ER - TY - THES A1 - Halfpap, Stefan T1 - Integer linear programming-based heuristics for partially replicated database clusters and selecting indexes T1 - Auf ganzzahliger linearer Optimierung basierende Heuristiken für partiell-replizierte Datenbankcluster und das Auswählen von Indizes N2 - Column-oriented database systems can efficiently process transactional and analytical queries on a single node. However, increasing or peak analytical loads can quickly saturate single-node database systems. Then, a common scale-out option is using a database cluster with a single primary node for transaction processing and read-only replicas. Using (the naive) full replication, queries are distributed among nodes independently of the accessed data. This approach is relatively expensive because all nodes must store all data and apply all data modifications caused by inserts, deletes, or updates. In contrast to full replication, partial replication is a more cost-efficient implementation: Instead of duplicating all data to all replica nodes, partial replicas store only a subset of the data while being able to process a large workload share. Besides lower storage costs, partial replicas enable (i) better scaling because replicas must potentially synchronize only subsets of the data modifications and thus have more capacity for read-only queries and (ii) better elasticity because replicas have to load less data and can be set up faster. However, splitting the overall workload evenly among the replica nodes while optimizing the data allocation is a challenging assignment problem. The calculation of optimized data allocations in a partially replicated database cluster can be modeled using integer linear programming (ILP). ILP is a common approach for solving assignment problems, also in the context of database systems. Because ILP is not scalable, existing approaches (also for calculating partial allocations) often fall back to simple (e.g., greedy) heuristics for larger problem instances. Simple heuristics may work well but can lose optimization potential. In this thesis, we present optimal and ILP-based heuristic programming models for calculating data fragment allocations for partially replicated database clusters. Using ILP, we are flexible to extend our models to (i) consider data modifications and reallocations and (ii) increase the robustness of allocations to compensate for node failures and workload uncertainty. We evaluate our approaches for TPC-H, TPC-DS, and a real-world accounting workload and compare the results to state-of-the-art allocation approaches. Our evaluations show significant improvements for varied allocation’s properties: Compared to existing approaches, we can, for example, (i) almost halve the amount of allocated data, (ii) improve the throughput in case of node failures and workload uncertainty while using even less memory, (iii) halve the costs of data modifications, and (iv) reallocate less than 90% of data when adding a node to the cluster. Importantly, we can calculate the corresponding ILP-based heuristic solutions within a few seconds. Finally, we demonstrate that the ideas of our ILP-based heuristics are also applicable to the index selection problem. N2 - Spaltenorientierte Datenbanksysteme können transaktionale und analytische Abfragen effizient auf einem einzigen Rechenknoten verarbeiten. Steigende Lasten oder Lastspitzen können Datenbanksysteme mit nur einem Rechenknoten jedoch schnell überlasten. Dann besteht eine gängige Skalierungsmöglichkeit darin, einen Datenbankcluster mit einem einzigen Rechenknoten für die Transaktionsverarbeitung und Replikatknoten für lesende Datenbankanfragen zu verwenden. Bei der (naiven) vollständigen Replikation werden Anfragen unabhängig von den Daten, auf die zugegriffen wird, auf die Knoten verteilt. Dieser Ansatz ist relativ teuer, da alle Knoten alle Daten speichern und alle Datenänderungen anwenden müssen, die durch das Einfügen, Löschen oder Aktualisieren von Datenbankeinträgen verursacht werden. Im Gegensatz zur vollständigen Replikation ist die partielle Replikation eine kostengünstige Alternative: Anstatt alle Daten auf alle Replikationsknoten zu duplizieren, speichern partielle Replikate nur eine Teilmenge der Daten und können gleichzeitig einen großen Anteil der Anfragelast verarbeiten. Neben niedrigeren Speicherkosten ermöglichen partielle Replikate (i) eine bessere Skalierung, da Replikate potenziell nur Teilmengen der Datenänderungen synchronisieren müssen und somit mehr Kapazität für lesende Anfragen haben, und (ii) eine bessere Elastizität, da Replikate weniger Daten laden müssen und daher schneller eingesetzt werden können. Die gleichmäßige Lastbalancierung auf die Replikatknoten bei gleichzeitiger Optimierung der Datenzuweisung ist jedoch ein schwieriges Zuordnungsproblem. Die Berechnung einer optimierten Datenverteilung in einem Datenbankcluster mit partiellen Replikaten kann mithilfe der ganzzahligen linearen Optimierung (engl. integer linear programming, ILP) durchgeführt werden. ILP ist ein gängiger Ansatz zur Lösung von Zuordnungsproblemen, auch im Kontext von Datenbanksystemen. Da ILP nicht skalierbar ist, greifen bestehende Ansätze (auch zur Berechnung von partiellen Replikationen) für größere Probleminstanzen oft auf einfache Heuristiken (z.B. Greedy-Algorithmen) zurück. Einfache Heuristiken können gut funktionieren, aber auch Optimierungspotenzial einbüßen. In dieser Arbeit stellen wir optimale und ILP-basierte heuristische Ansätze zur Berechnung von Datenzuweisungen für partiell-replizierte Datenbankcluster vor. Mithilfe von ILP können wir unsere Ansätze flexibel erweitern, um (i) Datenänderungen und -umverteilungen zu berücksichtigen und (ii) die Robustheit von Zuweisungen zu erhöhen, um Knotenausfälle und Unsicherheiten bezüglich der Anfragelast zu kompensieren. Wir evaluieren unsere Ansätze für TPC-H, TPC-DS und eine reale Buchhaltungsanfragelast und vergleichen die Ergebnisse mit herkömmlichen Verteilungsansätzen. Unsere Auswertungen zeigen signifikante Verbesserungen für verschiedene Eigenschaften der berechneten Datenzuordnungen: Im Vergleich zu bestehenden Ansätzen können wir beispielsweise (i) die Menge der gespeicherten Daten in Cluster fast halbieren, (ii) den Anfragedurchsatz bei Knotenausfällen und unsicherer Anfragelast verbessern und benötigen dafür auch noch weniger Speicher, (iii) die Kosten von Datenänderungen halbieren, und (iv) weniger als 90 % der Daten umverteilen, wenn ein Rechenknoten zum Cluster hinzugefügt wird. Wichtig ist, dass wir die entsprechenden ILP-basierten heuristischen Lösungen innerhalb weniger Sekunden berechnen können. Schließlich demonstrieren wir, dass die Ideen von unseren ILP-basierten Heuristiken auch auf das Indexauswahlproblem anwendbar sind. KW - database systems KW - integer linear programming KW - partial replication KW - index selection KW - load balancing KW - Datenbanksysteme KW - Indexauswahl KW - ganzzahlige lineare Optimierung KW - Lastverteilung KW - partielle Replikation Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-633615 ER - TY - CHAP A1 - Rojahn, Marcel A1 - Gronau, Norbert ED - Bui, Tung X. T1 - Openness indicators for the evaluation of digital platforms between the launch and maturity phase T2 - Proceedings of the 57th Annual Hawaii International Conference on System Sciences N2 - In recent years, the evaluation of digital platforms has become an important focus in the field of information systems science. The identification of influential indicators that drive changes in digital platforms, specifically those related to openness, is still an unresolved issue. This paper addresses the challenge of identifying measurable indicators and characterizing the transition from launch to maturity in digital platforms. It proposes a systematic analytical approach to identify relevant openness indicators for evaluation purposes. The main contributions of this study are the following (1) the development of a comprehensive procedure for analyzing indicators, (2) the categorization of indicators as evaluation metrics within a multidimensional grid-box model, (3) the selection and evaluation of relevant indicators, (4) the identification and assessment of digital platform architectures during the launch-to-maturity transition, and (5) the evaluation of the applicability of the conceptualization and design process for digital platform evaluation. KW - federated industrial platform ecosystems KW - technologies KW - business models KW - data-driven artifacts KW - design-science research KW - digital platform openness KW - evaluation KW - morphological analysis Y1 - 2024 SN - 978-0-99813-317-1 SP - 4516 EP - 4525 PB - Department of IT Management Shidler College of Business University of Hawaii CY - Honolulu, HI ER - TY - THES A1 - Taleb, Aiham T1 - Self-supervised deep learning methods for medical image analysis T1 - Selbstüberwachte Deep Learning Methoden für die medizinische Bildanalyse N2 - Deep learning has seen widespread application in many domains, mainly for its ability to learn data representations from raw input data. Nevertheless, its success has so far been coupled with the availability of large annotated (labelled) datasets. This is a requirement that is difficult to fulfil in several domains, such as in medical imaging. Annotation costs form a barrier in extending deep learning to clinically-relevant use cases. The labels associated with medical images are scarce, since the generation of expert annotations of multimodal patient data at scale is non-trivial, expensive, and time-consuming. This substantiates the need for algorithms that learn from the increasing amounts of unlabeled data. Self-supervised representation learning algorithms offer a pertinent solution, as they allow solving real-world (downstream) deep learning tasks with fewer annotations. Self-supervised approaches leverage unlabeled samples to acquire generic features about different concepts, enabling annotation-efficient downstream task solving subsequently. Nevertheless, medical images present multiple unique and inherent challenges for existing self-supervised learning approaches, which we seek to address in this thesis: (i) medical images are multimodal, and their multiple modalities are heterogeneous in nature and imbalanced in quantities, e.g. MRI and CT; (ii) medical scans are multi-dimensional, often in 3D instead of 2D; (iii) disease patterns in medical scans are numerous and their incidence exhibits a long-tail distribution, so it is oftentimes essential to fuse knowledge from different data modalities, e.g. genomics or clinical data, to capture disease traits more comprehensively; (iv) Medical scans usually exhibit more uniform color density distributions, e.g. in dental X-Rays, than natural images. Our proposed self-supervised methods meet these challenges, besides significantly reducing the amounts of required annotations. We evaluate our self-supervised methods on a wide array of medical imaging applications and tasks. Our experimental results demonstrate the obtained gains in both annotation-efficiency and performance; our proposed methods outperform many approaches from related literature. Additionally, in case of fusion with genetic modalities, our methods also allow for cross-modal interpretability. In this thesis, not only we show that self-supervised learning is capable of mitigating manual annotation costs, but also our proposed solutions demonstrate how to better utilize it in the medical imaging domain. Progress in self-supervised learning has the potential to extend deep learning algorithms application to clinical scenarios. N2 - Deep Learning findet in vielen Bereichen breite Anwendung, vor allem wegen seiner Fähigkeit, Datenrepräsentationen aus rohen Eingabedaten zu lernen. Dennoch war der Erfolg bisher an die Verfügbarkeit großer annotatierter Datensätze geknüpft. Dies ist eine Anforderung, die in verschiedenen Bereichen, z. B. in der medizinischen Bildgebung, schwer zu erfüllen ist. Die Kosten für die Annotation stellen ein Hindernis für die Ausweitung des Deep Learning auf klinisch relevante Anwendungsfälle dar. Die mit medizinischen Bildern verbundenen Annotationen sind rar, da die Erstellung von Experten Annotationen für multimodale Patientendaten in großem Umfang nicht trivial, teuer und zeitaufwändig ist. Dies unterstreicht den Bedarf an Algorithmen, die aus den wachsenden Mengen an unbeschrifteten Daten lernen. Selbstüberwachte Algorithmen für das Repräsentationslernen bieten eine mögliche Lösung, da sie die Lösung realer (nachgelagerter) Deep-Learning-Aufgaben mit weniger Annotationen ermöglichen. Selbstüberwachte Ansätze nutzen unannotierte Stichproben, um generisches Eigenschaften über verschiedene Konzepte zu erlangen und ermöglichen so eine annotationseffiziente Lösung nachgelagerter Aufgaben. Medizinische Bilder stellen mehrere einzigartige und inhärente Herausforderungen für existierende selbstüberwachte Lernansätze dar, die wir in dieser Arbeit angehen wollen: (i) medizinische Bilder sind multimodal, und ihre verschiedenen Modalitäten sind von Natur aus heterogen und in ihren Mengen unausgewogen, z.B. (ii) medizinische Scans sind mehrdimensional, oft in 3D statt in 2D; (iii) Krankheitsmuster in medizinischen Scans sind zahlreich und ihre Häufigkeit weist eine Long-Tail-Verteilung auf, so dass es oft unerlässlich ist, Wissen aus verschiedenen Datenmodalitäten, z. B. Genomik oder klinische Daten, zu verschmelzen, um Krankheitsmerkmale umfassender zu erfassen; (iv) medizinische Scans weisen in der Regel eine gleichmäßigere Farbdichteverteilung auf, z. B. in zahnmedizinischen Röntgenaufnahmen, als natürliche Bilder. Die von uns vorgeschlagenen selbstüberwachten Methoden adressieren diese Herausforderungen und reduzieren zudem die Menge der erforderlichen Annotationen erheblich. Wir evaluieren unsere selbstüberwachten Methoden in verschiedenen Anwendungen und Aufgaben der medizinischen Bildgebung. Unsere experimentellen Ergebnisse zeigen, dass die von uns vorgeschlagenen Methoden sowohl die Effizienz der Annotation als auch die Leistung steigern und viele Ansätze aus der verwandten Literatur übertreffen. Darüber hinaus ermöglichen unsere Methoden im Falle der Fusion mit genetischen Modalitäten auch eine modalübergreifende Interpretierbarkeit. In dieser Arbeit zeigen wir nicht nur, dass selbstüberwachtes Lernen in der Lage ist, die Kosten für manuelle Annotationen zu senken, sondern auch, wie man es in der medizinischen Bildgebung besser nutzen kann. Fortschritte beim selbstüberwachten Lernen haben das Potenzial, die Anwendung von Deep-Learning-Algorithmen auf klinische Szenarien auszuweiten. KW - Artificial Intelligence KW - machine learning KW - unsupervised learning KW - representation learning KW - Künstliche Intelligenz KW - maschinelles Lernen KW - Representationlernen KW - selbstüberwachtes Lernen Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-644089 ER - TY - CHAP A1 - Marx, Julian A1 - Brünker, Felix A1 - Mirbabaie, Milad A1 - Stieglitz, Stefan ED - Bui, Tung X. T1 - Digital activism on social media BT - the role of brand ambassadors and corporate reputation management T2 - Proceedings of the 57th Annual Hawaii International Conference on System Sciences N2 - Social media constitute an important arena for public debates and steady interchange of issues relevant to society. To boost their reputation, commercial organizations also engage in political, social, or environmental debates on social media. To engage in this type of digital activism, organizations increasingly utilize the social media profiles of executive employees and other brand ambassadors. However, the relationship between brand ambassadors’ digital activism and corporate reputation is only vaguely understood. The results of a qualitative inquiry suggest that digital activism via brand ambassadors can be risky (e.g., creating additional surface for firestorms, financial loss) and rewarding (e.g., emitting authenticity, employing ‘megaphones’ for industry change) at the same time. The paper informs both scholarship and practitioners about strategic trade-offs that need to be considered when employing brand ambassadors for digital activism. KW - the bright and dark side of social media in the marginalized contexts KW - brand ambassadors KW - digital activism KW - reputation management KW - social media Y1 - 2024 UR - https://hdl.handle.net/10125/107250 SN - 978-0-99813-317-1 SP - 7205 EP - 7214 PB - Department of IT Management Shidler College of Business University of Hawaii CY - Honolulu, HI ER - TY - CHAP A1 - Mirbabaie, Milad A1 - Rieskamp, Jonas A1 - Hofeditz, Lennart A1 - Stieglitz, Stefan ED - Bui, Tung X. T1 - Breaking down barriers BT - how conversational agents facilitate open science and data sharing T2 - Proceedings of the 57th Annual Hawaii International Conference on System Sciences N2 - Many researchers hesitate to provide full access to their datasets due to a lack of knowledge about research data management (RDM) tools and perceived fears, such as losing the value of one's own data. Existing tools and approaches often do not take into account these fears and missing knowledge. In this study, we examined how conversational agents (CAs) can provide a natural way of guidance through RDM processes and nudge researchers towards more data sharing. This work offers an online experiment in which researchers interacted with a CA on a self-developed RDM platform and a survey on participants’ data sharing behavior. Our findings indicate that the presence of a guiding and enlightening CA on an RDM platform has a constructive influence on both the intention to share data and the actual behavior of data sharing. Notably, individual factors do not appear to impede or hinder this effect. KW - open science practices in information systems research KW - conversational agents KW - data sharing KW - digital nudging KW - open science KW - research data management Y1 - 2024 UR - https://hdl.handle.net/10125/106457 SN - 978-0-99813-317-1 SP - 672 EP - 681 PB - Department of IT Management Shidler College of Business University of Hawaii CY - Honolulu, HI ER - TY - THES A1 - Huegle, Johannes T1 - Causal discovery in practice: Non-parametric conditional independence testing and tooling for causal discovery T1 - Kausale Entdeckung in der Praxis: Nichtparametrische bedingte Unabhängigkeitstests und Werkzeuge für die Kausalentdeckung N2 - Knowledge about causal structures is crucial for decision support in various domains. For example, in discrete manufacturing, identifying the root causes of failures and quality deviations that interrupt the highly automated production process requires causal structural knowledge. However, in practice, root cause analysis is usually built upon individual expert knowledge about associative relationships. But, "correlation does not imply causation", and misinterpreting associations often leads to incorrect conclusions. Recent developments in methods for causal discovery from observational data have opened the opportunity for a data-driven examination. Despite its potential for data-driven decision support, omnipresent challenges impede causal discovery in real-world scenarios. In this thesis, we make a threefold contribution to improving causal discovery in practice. (1) The growing interest in causal discovery has led to a broad spectrum of methods with specific assumptions on the data and various implementations. Hence, application in practice requires careful consideration of existing methods, which becomes laborious when dealing with various parameters, assumptions, and implementations in different programming languages. Additionally, evaluation is challenging due to the lack of ground truth in practice and limited benchmark data that reflect real-world data characteristics. To address these issues, we present a platform-independent modular pipeline for causal discovery and a ground truth framework for synthetic data generation that provides comprehensive evaluation opportunities, e.g., to examine the accuracy of causal discovery methods in case of inappropriate assumptions. (2) Applying constraint-based methods for causal discovery requires selecting a conditional independence (CI) test, which is particularly challenging in mixed discrete-continuous data omnipresent in many real-world scenarios. In this context, inappropriate assumptions on the data or the commonly applied discretization of continuous variables reduce the accuracy of CI decisions, leading to incorrect causal structures. Therefore, we contribute a non-parametric CI test leveraging k-nearest neighbors methods and prove its statistical validity and power in mixed discrete-continuous data, as well as the asymptotic consistency when used in constraint-based causal discovery. An extensive evaluation of synthetic and real-world data shows that the proposed CI test outperforms state-of-the-art approaches in the accuracy of CI testing and causal discovery, particularly in settings with low sample sizes. (3) To show the applicability and opportunities of causal discovery in practice, we examine our contributions in real-world discrete manufacturing use cases. For example, we showcase how causal structural knowledge helps to understand unforeseen production downtimes or adds decision support in case of failures and quality deviations in automotive body shop assembly lines. N2 - Kenntnisse über die Strukturen zugrundeliegender kausaler Mechanismen sind eine Voraussetzung für die Entscheidungsunterstützung in verschiedenen Bereichen. In der Fertigungsindustrie beispielsweise erfordert die Fehler-Ursachen-Analyse von Störungen und Qualitätsabweichungen, die den hochautomatisierten Produktionsprozess unterbrechen, kausales Strukturwissen. In Praxis stützt sich die Fehler-Ursachen-Analyse in der Regel jedoch auf individuellem Expertenwissen über assoziative Zusammenhänge. Aber "Korrelation impliziert nicht Kausalität", und die Fehlinterpretation assoziativer Zusammenhänge führt häufig zu falschen Schlussfolgerungen. Neueste Entwicklungen von Methoden des kausalen Strukturlernens haben die Möglichkeit einer datenbasierten Betrachtung eröffnet. Trotz seines Potenzials zur datenbasierten Entscheidungsunterstützung wird das kausale Strukturlernen in der Praxis jedoch durch allgegenwärtige Herausforderungen erschwert. In dieser Dissertation leisten wir einen dreifachen Beitrag zur Verbesserung des kausalen Strukturlernens in der Praxis. (1) Das wachsende Interesse an kausalem Strukturlernen hat zu einer Vielzahl von Methoden mit spezifischen statistischen Annahmen über die Daten und verschiedenen Implementierungen geführt. Daher erfordert die Anwendung in der Praxis eine sorgfältige Prüfung der vorhandenen Methoden, was eine Herausforderung darstellt, wenn verschiedene Parameter, Annahmen und Implementierungen in unterschiedlichen Programmiersprachen betrachtet werden. Hierbei wird die Evaluierung von Methoden des kausalen Strukturlernens zusätzlich durch das Fehlen von "Ground Truth" in der Praxis und begrenzten Benchmark-Daten, welche die Eigenschaften realer Datencharakteristiken widerspiegeln, erschwert. Um diese Probleme zu adressieren, stellen wir eine plattformunabhängige modulare Pipeline für kausales Strukturlernen und ein Tool zur Generierung synthetischer Daten vor, die umfassende Evaluierungsmöglichkeiten bieten, z.B. um Ungenauigkeiten von Methoden des Lernens kausaler Strukturen bei falschen Annahmen an die Daten aufzuzeigen. (2) Die Anwendung von constraint-basierten Methoden des kausalen Strukturlernens erfordert die Wahl eines bedingten Unabhängigkeitstests (CI-Test), was insbesondere bei gemischten diskreten und kontinuierlichen Daten, die in vielen realen Szenarien allgegenwärtig sind, die Anwendung erschwert. Beispielsweise führen falsche Annahmen der CI-Tests oder die Diskretisierung kontinuierlicher Variablen zu einer Verschlechterung der Korrektheit der Testentscheidungen, was in fehlerhaften kausalen Strukturen resultiert. Um diese Probleme zu adressieren, stellen wir einen nicht-parametrischen CI-Test vor, der auf Nächste-Nachbar-Methoden basiert, und beweisen dessen statistische Validität und Trennschärfe bei gemischten diskreten und kontinuierlichen Daten, sowie dessen asymptotische Konsistenz in constraint-basiertem kausalem Strukturlernen. Eine umfangreiche Evaluation auf synthetischen und realen Daten zeigt, dass der vorgeschlagene CI-Test bestehende Verfahren hinsichtlich der Korrektheit der Testentscheidung und gelernter kausaler Strukturen übertrifft, insbesondere bei geringen Stichprobengrößen. (3) Um die Anwendbarkeit und Möglichkeiten kausalen Strukturlernens in der Praxis aufzuzeigen, untersuchen wir unsere Beiträge in realen Anwendungsfällen aus der Fertigungsindustrie. Wir zeigen an mehreren Beispielen aus der automobilen Karosseriefertigungen wie kausales Strukturwissen helfen kann, unvorhergesehene Produktionsausfälle zu verstehen oder eine Entscheidungsunterstützung bei Störungen und Qualitätsabweichungen zu geben. KW - causal discovery KW - causal structure learning KW - causal AI KW - non-parametric conditional independence testing KW - manufacturing KW - causal reasoning KW - mixed data KW - kausale KI KW - kausale Entdeckung KW - kausale Schlussfolgerung KW - kausales Strukturlernen KW - Fertigung KW - gemischte Daten KW - nicht-parametrische bedingte Unabhängigkeitstests Y1 - 2024 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-635820 ER - TY - JOUR A1 - XinYing, Chew A1 - Tiberius, Victor A1 - Alnoor, Alhamzah A1 - Camilleri, Mark A1 - Khaw, Khai Wah T1 - The dark side of metaverse: a multi-perspective of deviant behaviors from PLS-SEM and fsQCA findings JF - International journal of human–computer interaction N2 - The metaverse has created a huge buzz of interest because such a phenomenon is emerging. The behavioral aspect of the metaverse includes user engagement and deviant behaviors in the metaverse. Such technology has brought various dangers to individuals and society. There are growing cases reported of sexual abuse, racism, harassment, hate speech, and bullying because of online disinhibition make us feel more relaxed. This study responded to the literature call by investigating the effect of technical and social features through mediating roles of security and privacy on deviant behaviors in the metaverse. The data collected from virtual network users reached 1121 respondents. Partial Least Squares based structural equation modeling (PLS-SEM) and fuzzy set Qualitative Comparative Analysis (fsQCA) were used. PLS-SEM results revealed that social features such as user-to-user interaction, homophily, social ties, and social identity, and technical design such as immersive experience and invisibility significantly affect users’ deviant behavior in the metaverse. The fsQCA results provided insights into the multiple causal solutions and configurations. This study is exceptional because it provided decisive results by understanding the deviant behavior of users based on the symmetrical and asymmetrical approach to virtual networks. KW - deviant behaviors KW - metaverse KW - sociotechnical KW - perspective KW - privacy KW - fsQCA Y1 - 2024 U6 - https://doi.org/10.1080/10447318.2024.2331875 SN - 1044-7318 SN - 1532-7590 PB - Taylor & Francis CY - London ER -