TY  - THES
A1  - Lopes, Pedro
T1  - Interactive Systems Based on Electrical Muscle Stimulation
N2  - How can interactive devices connect with users in the most immediate and intimate way? This question has driven interactive computing for decades. Throughout the last decades, we witnessed how mobile devices moved computing into users’ pockets, and recently, wearables put computing in constant physical contact with the user’s skin. In both cases moving the devices closer to users allowed devices to sense more of the user, and thus act more personal. The main question that drives our research is: what is the next logical step? 
Some researchers argue that the next generation of interactive devices will move past the user’s skin and be directly implanted inside the user’s body. This has already happened in that we have pacemakers, insulin pumps, etc. However, we argue that what we see is not devices moving towards the inside of the user’s body, but rather towards the body’s biological “interface” they need to address in order to perform their function.
To implement our vision, we created a set of devices that intentionally borrow parts of the user’s body for input and output, rather than adding more technology to the body. 
In this dissertation we present one specific flavor of such devices, i.e., devices that borrow the user’s muscles. We engineered I/O devices that interact with the user by reading and controlling muscle activity. To achieve the latter, our devices are based on medical-grade signal generators and electrodes attached to the user’s skin that send electrical impulses to the user’s muscles; these impulses then cause the user’s muscles to contract. 
While electrical muscle stimulation (EMS) devices have been used to regenerate lost motor functions in rehabilitation medicine since the 1960s, in this dissertation, we propose a new perspective: EMS as a means for creating interactive systems. 
We start by presenting seven prototypes of interactive devices that we have created to illustrate several benefits of EMS.  These devices form two main categories: (1) Devices that allow users eyes-free access to information by means of their proprioceptive sense, such as the value of a variable in a computer system, a tool, or a plot; (2) Devices that increase immersion in virtual reality by simulating large forces, such as wind, physical impact, or walls and heavy objects. 
Then, we analyze the potential of EMS to build interactive systems that miniaturize well and discuss how they leverage our proprioceptive sense as an I/O modality. We proceed by laying out the benefits and disadvantages of both EMS and mechanical haptic devices, such as exoskeletons. 
We conclude by sketching an outline for future research on EMS by listing open technical, ethical and philosophical questions that we left unanswered.
N2  - Wie können interaktive Geräte auf unmittelbare und eng verknüpfte Weise mit dem Nutzer kommunizieren? Diese Frage beschäftigt die Forschung im Bereich Computer Interaktion seit Jahrzehnten. Besonders in den letzten Jahren haben wir miterlebt, wie Nutzer interaktive Geräte dauerhaft bei sich führen, im Falle von sogenannten Wearables sogar als Teil der Kleidung oder als Accessoires. In beiden Fällen sind die Geräte näher an den Nutzer gerückt, wodurch sie mehr Informationen vom Nutzer sammeln können und daher persönlicher erscheinen. Die Hauptfrage, die unsere Forschung antreibt, ist: Was ist der nächste logische Schritt in der Entwicklung interaktiver Geräte?
Mache Wissenschaftler argumentieren, dass die Haut nicht mehr die Barriere für die nächste Generation von interaktiven Geräten sein wird, sondern dass diese direkt in den Körper der Nutzer implantiert werden. Zum Teil ist dies auch bereits passiert, wie Herzschrittmacher oder Insulinpumpen zeigen. Wir argumentieren jedoch, dass Geräte sich in Zukunft nicht zwingend innerhalb des Körpers befinden müssen, sondern sich an der richtigen „Schnittstelle“ befinden sollen, um die Funktion des Gerätes zu ermöglichen. 
Um diese Entwicklung voranzutreiben haben wir Geräte entwickelt, die Teile des Körpers selbst als Ein- und Ausgabe-Schnittstelle verwenden, anstatt weitere Geräte an den Körper anzubringen.
In dieser Dissertation zeigen wir eine bestimmte Art dieser Geräte, nämlich solche, die Muskeln verwenden. Wir haben Ein-/Ausgabegeräte gebaut, die mit dem Nutzer interagieren indem sie Muskelaktivität erkennen und kontrollieren. Um Muskelaktivität zu kontrollieren benutzen wir Signalgeber von medizinischer Qualität, die mithilfe von auf die Haut geklebten Elektroden elektrische Signale an die Muskeln des Nutzers senden. Diese Signale bewirken dann eine Kontraktion des Muskels.
Geräte zur elektrischen Muskelstimulation (EMS) werden seit den 1960er-Jahren zur Regeneration von motorischen Funktionen verwendet. In dieser Dissertation schlagen wir jedoch einen neuen Ansatz vor: elektrische Muskelstimulation als Kommunikationskanal zwischen Mensch und interaktiven Computersysteme. 
Zunächst stellen wir unsere sieben interaktiven Prototypen vor, welche die zahlreichen Vorteile von EMS demonstrieren. Diese Geräte können in zwei Hauptkategorien unterteilt werden: (1) Geräte, die Nutzern Zugang zu Information direkt über ihre propriozeptive Wahrnehmung geben ohne einen visuellen Reiz. Diese Informationen können zum Beispiel Variablen, Diagramme oder die Handhabung von Werkzeugen beinhalten. (2) Des Weiteren zeigen wir Geräte, welche die Immersion in virtuelle Umgebungen erhöhen indem sie physikalische Kräfte wie Wind, physischen Kontakt, Wände oder schwere Objekte, simulieren.
Wir analysieren in dieser Arbeit außerdem das Potential von EMS für miniaturisierte interaktive Systeme und diskutieren, wie solche EMS Systeme die propriozeptive Wahrnehmung wirksam als Ein-/Ausgabemodalität nutzen können. Dazu stellen wir die Vor- und Nachteile von EMS und mechanisch-haptischen Geräten, wie zum Beispiel Exoskeletten, gegenüber. 
Zum Abschluss skizzieren wir zukünftige Richtungen in der Erforschung von interaktiven EMS Systemen, indem wir bislang offen gebliebene technische, ethische und philosophische Fragen aufzeigen.
KW  - electrical muscle stimulation
KW  - wearables
KW  - virtual reality
KW  - Wearable
KW  - elektrische Muskelstimulation
KW  - virtuelle Realität
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-421165
ER  - 
TY  - THES
A1  - Herzberg, Nico
T1  - Integrating events into non-automated business process environments
BT  - enabling transparency, traceability, and optimization for business processes driven by humans
Y1  - 2018
ER  - 
TY  - THES
A1  - Cheng, Lung-Pan
T1  - Human actuation
T1  - Menschlicher Aktuator
N2  - Ever since the conception of the virtual reality headset in 1968, many researchers have argued that the next step in virtual reality is to allow users to not only see and hear, but also feel virtual worlds. One approach is to use mechanical equipment to provide haptic feedback, e.g., robotic arms, exoskeletons and motion platforms. However, the size and the weight of such mechanical equipment tends to be proportional to its target’s size and weight, i.e., providing human-scale haptic feedback requires human-scale equipment, often restricting them to arcades and lab environments. 

The key idea behind this dissertation is to bypass mechanical equipment by instead leveraging human muscle power. We thus create software systems that orchestrate humans in doing such mechanical labor—this is what we call human actuation.  A potential benefit of such systems is that humans are more generic, flexible, and versatile than machines. This brings a wide range of haptic feedback to modern virtual reality systems. 

We start with a proof-of-concept system—Haptic Turk, focusing on delivering motion experiences just like a motion platform. All Haptic Turk setups consist of a user who is supported by one or more human actuators. The user enjoys an interactive motion simulation such as a hang glider experience, but the motion is generated by those human actuators who manually lift, tilt, and push the user’s limbs or torso. To get the timing and force right, timed motion instructions in a format familiar from rhythm games are generated by the system. 

Next, we extend the concept of human actuation from 3-DoF to 6-DoF virtual reality where users have the freedom to walk around. TurkDeck tackles this problem by orchestrating a group of human actuators to reconfigure a set of passive props on the fly while the user is progressing in the virtual environment. TurkDeck schedules human actuators by their distances from the user, and instructs them to reconfigure the props to the right place on the right time using laser projection and voice output. 

Our studies in Haptic Turk and TurkDeck showed that human actuators enjoyed the experience but not as much as users. To eliminate the need of dedicated human actuators, Mutual Turk makes everyone a user by exchanging mechanical actuation between two or more users. Mutual Turk’s main functionality is that it orchestrates the users so as to actuate props at just the right moment and with just the right force to produce the correct feedback in each other's experience. 

Finally, we further eliminate the need of another user, making human actuation applicable to single-user experiences. iTurk makes the user constantly reconfigure and animate otherwise passive props. This allows iTurk to provide virtual worlds with constantly varying or even animated haptic effects, even though the only animate entity present in the system is the user. Our demo experience features one example each of iTurk’s two main types of props, i.e., reconfigurable props (the foldable board from TurkDeck) and animated props (the pendulum).

We conclude this dissertation by summarizing the findings of our explorations and pointing out future directions. We discuss the development of human actuation compare to traditional machine actuation, the possibility of combining human and machine actuators and interaction models that involve more human actuators.
N2  - Seit der Konzeption des Virtual-Reality-Headsets im Jahr 1968 argumentieren Forscher, der nächste Schritt in der virtuellen Realität ist nicht nur zu sehen und zu hören, sondern in virtuelle Welten auch fühlen zu können. Ein Ansatz solch haptisches Feedback zu geben ist die Verwendung mechanischer Ausrüstung, etwa Roboterarme, Exoskelette und Bewegungsplattformen. Jedoch sind die Größe und das Gewicht solcher Ausrüstung proportional zur Größe und Gewicht der Person, d. h. haptisches Feedback für einen Menschen erfordert Ausrüstung mit Größe und Gewicht eines Menschen. Dieses Ausmaß an Gerätschaften ist oft limitiert auf Arkaden oder Laborumgebungen.

Der Schlüsselgedanke dieser Dissertation besteht darin, mechanische Geräte zu umgehen und stattdessen menschliche Muskelkraft zu nutzen. Wir erstellen Softwaresystem, die Menschen bei mechanischen Arbeiten orchestrieren, um anderen Menschen haptisches Feedback zu geben. Dies nennen wir „Human Actuation“ – menschliche Aktuierung. Ein möglicher Vorteil solcher Systeme ist es, dass Menschen generischer, flexibler und vielseitiger sind als gängige mechanische Ausrüstung. Dies bringt eine neue Bandbreite von haptischen Feedbackmöglichkeiten in moderne Virtual-Reality-Systeme. 

Wir beginnen mit einem Proof-of-Concept-System– Haptic Turk, mit Schwerpunkt auf die Bewegungserlebnisse, die eine solche menschliche Bewegungsplattform liefert. Alle Haptic Turk Konfigurationen bestehen aus einem Nutzer, sowie einem oder mehreren Menschen, die den Nutzer unterstützen, den Aktuatoren. Der Nutzer genießt eine interaktive Bewegungssimulation wie zum Beispiel die Simulation eines Hängegleiters, jedoch wird die Bewegung von Menschen erzeugt, die die Gliedmaßen des Benutzers manuell heben, kippen und drücken. Um das Timing einzuhalten, folgen Sie den Anweisungen des Systems. Ein aus Rhythmusspielen bekanntes Format wird dabei dynamisch von dem System erzeugt. 

Als nächstes erweitern wir das Konzept von „Human Actuation“ um 3-DoF auf 6-DoF Virtual Reality. Das heißt, Nutzer haben nun die Freiheit in der virtuellen Welt umherzugehen. TurkDeck löst dieses Problem, indem es eine Gruppe menschlicher Aktuatoren orchestriert, die eine Reihe von Requisiten rekonfigurieren, die der Nutzer fühlen kann, während er sich in der virtuellen Umgebung fortbewegt. TurkDeck plant die Positionierung der Menschen und weist sie zur richtigen Zeit an, die Requisiten an den richtigen Ort zu stellen. TurkDeck erreicht dies mit Hilfe von Laserprojektion und einer Anweisung gebender synthetischen Stimme. 

Unsere Studien zu Haptic Turk und TurkDeck zeigen, dass menschliche Aktuatoren ihre Erfahrung zwar genießen, jedoch in dem Ausmaß wie der Nutzer selbst. Um menschliche Aktuatoren mehr einzubeziehen macht Mutual Turk aus jedem Aktuator einen Nutzer, d.h. mehrere Nutzer geben sich gegenseitig haptisches Feedback. Die Hauptfunktion von Mutual Turk besteht darin, dass es seine Nutzer so orchestriert, dass sie die richtigen Requisiten im richtigen Moment und im richtigen Ausmaß betätigen, um so das richtige Feedback in der Erfahrung des Anderen zu erzeugen. 

Schlussendlich eliminieren wir die Notwendigkeit anderer Nutzer gänzlich und ermöglichen Erfahrungen für Einzelnutzer. iTurk lässt seinen Nutzer passive Requisiten neu konfigurieren und animieren. Dadurch kann iTurk virtuelle Welten mit stetig wechselnden Möglichkeiten bereitstellen oder sogar haptische Effekte generieren, obwohl jede Bewegung im System vom Nutzer selbst ausgelöst wird. Unsere Demo-Applikation verfügt über je ein Beispiel der von iTurk ermöglichten zwei Haupttypen von Requisiten - rekonfigurierbare Requisiten (eine faltbare Tafel aus TurkDeck) und animierter Requisiten (ein Pendel). 

Wir schließen die Dissertation mit Verweisen auf mögliche Forschungsrichtungen ab, die sich durch die präsentierten Systeme ergeben. Wir diskutieren „Human Actuation“ sowohl im Vergleich zu herkömmlichen mechanischen Geräten, aber auch in der Kombination, da sich mechanische Geräte und Menschen gegenseitig ergänzen können. Zudem erkunden wir mögliche Interaktionsmodelle, die sich durch das Einbeziehen von menschlichen Aktuatoren ergeben.
KW  - haptic feedback
KW  - Virtual Reality
KW  - motion and force
KW  - props
KW  - haptisches Feedback
KW  - virtuelle Realität
KW  - Bewegung
KW  - Requisit
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-418371
ER  - 
TY  - BOOK
A1  - Meinel, Christoph
A1  - Gayvoronskaya, Tatiana
A1  - Schnjakin, Maxim
T1  - Blockchain
BT  - hype or innovation
N2  - The term blockchain has recently become a buzzword, but only few know what exactly lies behind this approach. According to a survey, issued in the first quarter of 2017, the term is only known by 35 percent of German medium-sized enterprise representatives. However, the blockchain technology is very interesting for the mass media because of its rapid development and global capturing of different markets.

For example, many see blockchain technology either as an all-purpose weapon— which only a few have access to—or as a hacker technology for secret deals in the darknet. The innovation of blockchain technology is found in its successful combination of already existing approaches: such as decentralized networks, cryptography, and consensus models. This innovative concept makes it possible to exchange values in a decentralized system. At the same time, there is no requirement for trust between its nodes (e.g. users).

With this study the Hasso Plattner Institute would like to help readers form their own opinion about blockchain technology, and to distinguish between truly innovative properties and hype.

The authors of the present study analyze the positive and negative properties of the blockchain architecture and suggest possible solutions, which can contribute to the efficient use of the technology. We recommend that every company define a clear target for the intended application, which is achievable with a reasonable cost-benefit ration, before deciding on this technology. Both the possibilities and the limitations of blockchain technology need to be considered. The relevant steps that must be taken in this respect are summarized /summed up for the reader in this study.

Furthermore, this study elaborates on urgent problems such as the scalability of the blockchain, appropriate consensus algorithm and security, including various types of possible attacks and their countermeasures. New blockchains, for example, run the risk of reducing security, as changes to existing technology can lead to lacks in the security and failures.

After discussing the innovative properties and problems of the blockchain technology, its implementation is discussed. There are a lot of implementation opportunities for companies available who are interested in the blockchain realization. The numerous applications have either their own blockchain as a basis or use existing and widespread blockchain systems. Various consortia and projects offer "blockchain-as-a-serviceänd help other companies to develop, test and deploy their own applications.

This study gives a detailed overview of diverse relevant applications and projects in the field of blockchain technology. As this technology is still a relatively young and fast developing approach, it still lacks uniform standards to allow the cooperation of different systems and to which all developers can adhere. Currently, developers are orienting themselves to Bitcoin, Ethereum and Hyperledger systems, which serve as the basis for many other blockchain applications.

The goal is to give readers a clear and comprehensive overview of blockchain technology and its capabilities.
N2  - Der Begriff Blockchain ist in letzter Zeit zu einem Schlagwort geworden, aber nur wenige wissen, was sich genau dahinter verbirgt. Laut einer Umfrage, die im ersten Quartal 2017 veröffentlicht wurde, ist der Begriff nur bei 35 Prozent der deutschen Mittelständler bekannt. Dabei ist die Blockchain-Technologie durch ihre rasante Entwicklung und die globale Eroberung unterschiedlicher Märkte für Massenmedien sehr interessant.

So sehen viele die Blockchain-Technologie entweder als eine Allzweckwaffe, zu der aber nur wenige einen Zugang haben, oder als eine Hacker-Technologie für geheime Geschäfte im Darknet. Dabei liegt die Innovation der Blockchain-Technologie in ihrer erfolgreichen Zusammensetzung bereits vorhandener Ansätze: dezentrale Netzwerke, Kryptographie, Konsensfindungsmodelle. Durch das innovative Konzept wird ein Werte-Austausch in einem dezentralen System möglich. Dabei wird kein Vertrauen zwischen dessen Knoten (z.B. Nutzer) vorausgesetzt.

Mit dieser Studie möchte das Hasso-Plattner-Institut den Lesern helfen, ihren eigenen Standpunkt zur Blockchain-Technologie zu finden und dabei dazwischen unterscheiden zu können, welche Eigenschaften wirklich innovativ und welche nichts weiter als ein Hype sind.

Die Autoren der vorliegenden Arbeit analysieren positive und negative Eigenschaften, welche die Blockchain-Architektur prägen, und stellen mögliche Anpassungs- und Lösungsvorschläge vor, die zu einem effizienten Einsatz der Technologie beitragen können. Jedem Unternehmen, bevor es sich für diese Technologie entscheidet, wird dabei empfohlen, für den geplanten Anwendungszweck zunächst ein klares Ziel zu definieren, das mit einem angemessenen Kosten-Nutzen-Verhältnis angestrebt werden kann. Dabei sind sowohl die Möglichkeiten als auch die Grenzen der Blockchain-Technologie zu beachten. Die relevanten Schritte, die es in diesem Zusammenhang zu beachten gilt, fasst die Studie für die Leser übersichtlich zusammen.

Es wird ebenso auf akute Fragestellungen wie Skalierbarkeit der Blockchain, geeigneter Konsensalgorithmus und Sicherheit eingegangen, darunter verschiedene Arten möglicher Angriffe und die entsprechenden Gegenmaßnahmen zu deren Abwehr. Neue Blockchains etwa laufen Gefahr, geringere Sicherheit zu bieten, da Änderungen an der bereits bestehenden Technologie zu Schutzlücken und Mängeln führen können.

Nach Diskussion der innovativen Eigenschaften und Probleme der Blockchain-Technologie wird auf ihre Umsetzung eingegangen. Interessierten Unternehmen stehen viele Umsetzungsmöglichkeiten zur Verfügung. Die zahlreichen Anwendungen haben entweder eine eigene Blockchain als Grundlage oder nutzen bereits bestehende und weitverbreitete Blockchain-Systeme. Zahlreiche Konsortien und Projekte bieten „Blockchain-as-a-Service“ an und unterstützen andere Unternehmen beim Entwickeln, Testen und Bereitstellen von Anwendungen.

Die Studie gibt einen detaillierten Überblick über zahlreiche relevante Einsatzbereiche und Projekte im Bereich der Blockchain-Technologie. Dadurch, dass sie noch relativ jung ist und sich schnell entwickelt, fehlen ihr noch einheitliche Standards, die Zusammenarbeit der verschiedenen Systeme erlauben und an die sich alle Entwickler halten können. Aktuell orientieren sich Entwickler an Bitcoin-, Ethereum- und Hyperledger-Systeme, diese dienen als Grundlage für viele weitere Blockchain-Anwendungen.

Ziel ist, den Lesern einen klaren und umfassenden Überblick über die Blockchain-Technologie und deren Möglichkeiten zu vermitteln.
T3  - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 124 
KW  - ACINQ
KW  - altchain
KW  - alternative chain
KW  - ASIC
KW  - atomic swap
KW  - Australian securities exchange
KW  - bidirectional payment channels
KW  - Bitcoin Core
KW  - bitcoins
KW  - BitShares
KW  - Blockchain Auth
KW  - blockchain consortium
KW  - cross-chain
KW  - inter-chain
KW  - blocks
KW  - blockchain
KW  - Blockstack ID
KW  - Blockstack
KW  - blumix platform
KW  - BTC
KW  - Byzantine Agreement
KW  - chain
KW  - cloud
KW  - Colored Coins
KW  - confirmation period
KW  - contest period
KW  - DAO
KW  - Delegated Proof-of-Stake
KW  - decentralized autonomous organization
KW  - Distributed Proof-of-Research
KW  - double hashing
KW  - DPoS
KW  - ECDSA
KW  - Eris
KW  - Ether
KW  - Ethereum
KW  - E-Wallet
KW  - Federated Byzantine Agreement
KW  - federated voting
KW  - FollowMyVote
KW  - Fork
KW  - Gridcoin
KW  - Hard Fork
KW  - Hashed Timelock Contracts
KW  - hashrate
KW  - identity management
KW  - smart contracts
KW  - Internet of Things
KW  - IoT
KW  - BCCC
KW  - Japanese Blockchain Consortium
KW  - consensus algorithm
KW  - consensus protocol
KW  - ledger assets
KW  - Lightning Network
KW  - Lock-Time-Parameter
KW  - merged mining
KW  - merkle root
KW  - micropayment
KW  - micropayment channels
KW  - Microsoft Azur
KW  - miner
KW  - mining
KW  - mining hardware
KW  - minting
KW  - Namecoin
KW  - NameID
KW  - NASDAQ
KW  - nonce
KW  - off-chain transaction
KW  - Onename
KW  - OpenBazaar
KW  - Oracles
KW  - Orphan Block
KW  - P2P
KW  - Peercoin
KW  - peer-to-peer network
KW  - pegged sidechains
KW  - PoB
KW  - PoS
KW  - PoW
KW  - Proof-of-Burn
KW  - Proof-of-Stake
KW  - Proof-of-Work
KW  - quorum slices
KW  - Ripple
KW  - rootstock
KW  - scarce tokens
KW  - difficulty
KW  - SCP
KW  - SHA
KW  - sidechain
KW  - Simplified Payment Verification
KW  - scalability of blockchain
KW  - Slock.it
KW  - Soft Fork
KW  - SPV
KW  - Steemit
KW  - Stellar Consensus Protocol
KW  - Storj
KW  - The Bitfury Group
KW  - transaction
KW  - Two-Way-Peg
KW  - The DAO
KW  - Unspent Transaction Output
KW  - contracts
KW  - Watson IoT
KW  - difficulty target
KW  - Zookos triangle
KW  - Blockchain-Konsortium R3
KW  - blockchain-übergreifend
KW  - Blöcke
KW  - Blockkette
KW  - Blumix-Plattform
KW  - dezentrale autonome Organisation
KW  - doppelter Hashwert
KW  - Identitätsmanagement
KW  - intelligente Verträge
KW  - Internet der Dinge
KW  - Japanisches Blockchain-Konsortium
KW  - Kette
KW  - Konsensalgorithmus
KW  - Konsensprotokoll
KW  - Micropayment-Kanäle
KW  - Off-Chain-Transaktionen
KW  - Peer-to-Peer Netz
KW  - Schwierigkeitsgrad
KW  - Skalierbarkeit der Blockchain
KW  - Transaktion
KW  - Verträge
KW  - Zielvorgabe
KW  - Zookos Dreieck
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-414525
SN  - 978-3-86956-441-8
SN  - 1613-5652
SN  - 2191-1665
IS  - 124
PB  - Universitätsverlag Potsdam
CY  - Potsdam
ER  - 
TY  - BOOK
A1  - Giese, Holger
A1  - Maximova, Maria
A1  - Sakizloglou, Lucas
A1  - Schneider, Sven
T1  - Metric temporal graph logic over typed attributed graphs
N2  - Various kinds of typed attributed graphs are used to represent states of systems from a broad range of domains. For dynamic systems, established formalisms such as graph transformations provide a formal model for defining state sequences. We consider the extended case where time elapses between states and introduce a logic to reason about these sequences. With this logic we express properties on the structure and attributes of states as well as on the temporal occurrence of states that are related by their inner structure, which no formal logic over graphs accomplishes concisely so far. Firstly, we introduce graphs with history by equipping every graph element with the timestamp of its creation and, if applicable, its deletion. Secondly, we define a logic on graphs by integrating the temporal operator until into the well-established logic of nested graph conditions. Thirdly, we prove that our logic is equally expressive to nested graph conditions by providing a suitable reduction. Finally, the implementation of this reduction allows for the tool-based analysis of metric temporal properties for state sequences.
N2  - Verschiedene Arten von getypten attributierten Graphen werden benutzt, um Zustände von Systemen in vielen unterschiedlichen Anwendungsbereichen zu beschreiben. Der etablierte Formalismus der Graphtransformationen bietet ein formales Model, um Zustandssequenzen für dynamische Systeme zu definieren. Wir betrachten den erweiterten Fall von solchen Sequenzen, in dem Zeit zwischen zwei verschiedenen Systemzuständen vergeht, und führen eine Logik ein, um solche Sequenzen zu beschreiben. Mit dieser Logik drücken wir zum einen Eigenschaften über die Struktur und die Attribute von Zuständen aus und beschreiben zum anderen temporale Vorkommen von Zuständen, die durch ihre innere Struktur verbunden sind. Solche Eigenschaften können bisher von keiner der existierenden Logiken auf Graphen vergleichbar darstellt werden. Erstens führen wir Graphen mit Änderungshistorie ein, indem wir jedes Graphelement mit einem Zeitstempel seiner Erzeugung und, wenn nötig, seiner Löschung versehen. Zweitens definieren wir eine Logik auf Graphen, indem wir den Temporaloperator Until in die wohl-etablierte Logik der verschachtelten Graphbedingungen integrieren. Drittens beweisen wir, dass unsere Logik gleich ausdrucksmächtig ist, wie die Logik der verschachtelten Graphbedingungen, indem wir eine passende Reduktionsoperation definieren. Zuletzt erlaubt uns die Implementierung dieser Reduktionsoperation die werkzeukbasierte Analyse von metrisch-temporallogischen Eigenschaften für Zustandssequenzen zu führen.
T3  - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 123 
KW  - nested graph conditions
KW  - sequence properties
KW  - symbolic graphs
KW  - typed attributed graphs
KW  - metric temporal logic
KW  - temporal logic
KW  - runtime monitoring
KW  - verschachtelte Anwendungsbedingungen
KW  - Sequenzeigenschaften
KW  - symbolische Graphen
KW  - getypte Attributierte Graphen
KW  - metrische Temporallogik
KW  - Temporallogik
KW  - Runtime-monitoring
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-411351
SN  - 978-3-86956-433-3
SN  - 1613-5652
SN  - 2191-1665
IS  - 123
PB  - Universitätsverlag Potsdam
CY  - Potsdam
ER  - 
TY  - BOOK
A1  - van der Walt, Estee
A1  - Odun-Ayo, Isaac
A1  - Bastian, Matthias
A1  - Eldin Elsaid, Mohamed Esam
T1  - Proceedings of the Fifth HPI Cloud Symposium "Operating the Cloud“ 2017
N2  - Every year, the Hasso Plattner Institute (HPI) invites guests from industry and academia to a collaborative scientific workshop on the topic Operating the Cloud. Our goal is to provide a forum for the exchange of knowledge and experience between industry and academia. Co-located with the event is the HPI’s Future SOC Lab day, which offers an additional attractive and conducive environment for scientific and industry related discussions. Operating the Cloud aims to be a platform for productive interactions of innovative ideas, visions, and upcoming technologies in the field of cloud operation and administration.

In these proceedings, the results of the fifth HPI cloud symposium Operating the Cloud 2017 are published. We thank the authors for exciting presentations and insights into their current work and research. Moreover, we look forward to more interesting submissions for the upcoming symposium in 2018.
N2  - Jedes Jahr lädt das Hasso-Plattner-Institut (HPI) Gäste aus der Industrie und der Wissenschaft zu einem kooperativen und wissenschaftlichen Symposium zum Thema Cloud Computing ein. Unser Ziel ist es, ein Forum für den Austausch von Wissen und Erfahrungen zwischen der Industrie und der Wissenschaft zu bieten. Parallel zur Veranstaltung findet der HPI Future SOC Lab Tag statt, der eine zusätzliche attraktive Umgebung für wissenschaftliche und branchenbezogene Diskussionen bietet. Das Symposium zielt darauf ab, eine Plattform für produktive Interaktionen von innovativen Ideen, Visionen und aufkommenden Technologien im Bereich von Cloud Computing zu bitten. 

Anlässlich dieses Symposiums fordern wir die Einreichung von Forschungsarbeiten und Erfahrungsberichte. Dieser technische Bericht umfasst eine Zusammenstellung der im Rahmen des fünften HPI Cloud Symposiums "Operating the Cloud" 2017 angenommenen Forschungspapiere. Wir danken den Autoren für spannende Vorträge und Einblicke in ihre aktuelle Arbeit und Forschung. Darüber hinaus freuen wir uns auf weitere interessante Einreichungen für das kommende Symposium im Laufe des Jahres.
T3  - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 122 
KW  - Sicherheit
KW  - verteilte Leistungsüberwachung
KW  - Identitätsmanagement
KW  - Leistungsmodelle von virtuellen Maschinen
KW  - Privatsphäre
KW  - security
KW  - distributed performance monitoring
KW  - identity management
KW  - performance models of virtual machines
KW  - privacy
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-411330
SN  - 978-3-86956-432-6
SN  - 1613-5652
SN  - 2191-1665
IS  - 122
PB  - Universitätsverlag Potsdam
CY  - Potsdam
ER  - 
TY  - THES
A1  - Hildebrandt, Dieter
T1  - Service-oriented 3D geovisualization systems
T1  - Serviceorientierte 3D-Geovisualisierungssysteme
N2  - 3D geovisualization systems (3DGeoVSs) that use 3D geovirtual environments as a conceptual and technical framework are increasingly used for various applications. They facilitate obtaining insights from ubiquitous geodata by exploiting human abilities that other methods cannot provide. 3DGeoVSs are often complex and evolving systems required to be adaptable and to leverage distributed resources. Designing a 3DGeoVS based on service-oriented architectures, standards, and image-based representations (SSI) facilitates resource sharing and the agile and efficient construction and change of interoperable systems. In particular, exploiting image-based representations (IReps) of 3D views on geodata supports taking full advantage of the potential of such system designs by providing an efficient, decoupled, interoperable, and increasingly applied representation.

However, there is insufficient knowledge on how to build service-oriented, standards-based 3DGeoVSs that exploit IReps. This insufficiency is substantially due to technology and interoperability gaps between the geovisualization domain and further domains that such systems rely on.

This work presents a coherent framework of contributions that support designing the software architectures of targeted systems and exploiting IReps for providing, styling, and interacting with geodata. The contributions uniquely integrate existing concepts from multiple domains and novel contributions for identified limitations. The proposed software reference architecture (SRA) for 3DGeoVSs based on SSI facilitates designing concrete software architectures of such systems. The SRA describes the decomposition of 3DGeoVSs into a network of services and integrates the following contributions to facilitate exploiting IReps effectively and efficiently. The proposed generalized visualization pipeline model generalizes the prevalent visualization pipeline model and overcomes its expressiveness limitations with respect to transforming IReps. The proposed approach for image-based provisioning enables generating and supplying service consumers with image-based views (IViews). IViews act as first-class data entities in the communication between services and provide a suitable IRep and encoding of geodata. The proposed approach for image-based styling separates concerns of styling from image generation and enables styling geodata uniformly represented as IViews specified as algebraic compositions of high-level styling operators. The proposed approach for interactive image-based novel view generation enables generating new IViews from existing IViews in response to interactive manipulations of the viewing camera and includes an architectural pattern that generalizes common novel view generation. The proposed interactive assisting, constrained 3D navigation technique demonstrates how a navigation technique can be built that supports users in navigating multiscale virtual 3D city models, operates in 3DGeoVSs based on SSI as an application of the SRA, can exploit IReps, and can support collaborating services in exploiting IReps.

The validity of the contributions is supported by proof-of-concept prototype implementations and applications and effectiveness and efficiency studies including a user study. Results suggest that this work promises to support designing 3DGeoVSs based on SSI that are more effective and efficient and that can exploit IReps effectively and efficiently. This work presents a template software architecture and key building blocks for building novel IT solutions and applications for geodata, e.g., as components of spatial data infrastructures.
N2  - 3D-Geovisualisierungssysteme (3DGeoVSs), die geovirtuelle 3D-Umgebungen als konzeptionellen und technischen Rahmen nutzen, werden zunehmend für verschiedene Anwendungen eingesetzt. Sie erleichtern es durch die Ausnutzung menschlicher Fähigkeiten Erkenntnisse aus allgegenwärtigen Geodaten zu gewinnen, die andere Methoden nicht liefern können. 3DGeoVSs sind oft komplexe und kontinuierlich weiter entwickelte Systeme, die anpassungsfähig sein müssen und auf die Nutzung verteilter Ressourcen angewiesen sind. Die Entwicklung eines 3DGeoVS auf der Basis von serviceorientierten Architekturen, Standards und bildbasierten Repräsentationen (SSI) erleichtert die gemeinsame Nutzung von verteilten Ressourcen und die agile und effiziente Entwicklung und Änderung von interoperablen Systemen. Insbesondere unterstützt die Nutzung bildbasierter Repräsentationen (IReps) von 3D-Ansichten auf Geodaten die vollständige Realisierung des Potenzials solcher Systementwürfe durch die Bereitstellung einer effizienten, entkoppelten, interoperablen und zunehmend verwendeten Repräsentationsform.

Es besteht jedoch ein Mangel an Wissen darüber, wie 3DGeoVSs entwickelt werden können, die auf serviceorientierten Architekturen und Standards basieren und IReps ausnutzen können. Dieser Mangel ist wesentlich zurückzuführen auf die Technologie- und Interoperabilitätslücken zwischen dem Bereich der Geovisualisierung und weiteren Bereichen, auf die solche Systeme angewiesen sind.

Diese Arbeit präsentiert ein kohärentes Rahmenwerk von Beiträgen, die dabei unterstützen können, die Softwarearchitekturen betrachteter Systeme zu entwerfen und IReps für die Bereitstellung, die visuelle Gestaltung und die Interaktion mit Geodaten zu nutzen. Die Beiträge integrieren auf besondere Weise vorhandene Konzepte aus unterschiedlichen Bereichen und neuartige Lösungen für identifizierte Einschränkungen bisheriger Ansätze. Die vorgeschlagene Software-Referenzarchitektur (SRA) für 3DGeoVSs unterstützt den Entwurf konkreter Softwarearchitekturen betrachteter Systemen. Sie beschreibt die Zerlegung von 3DGeoVSs in ein Netzwerk von Diensten. Um IReps effektiv und effizient nutzen zu können, integriert sie zudem die folgenden Beiträge. Das vorgeschlagene generalisierte Visualisierungspipelinemodell generalisiert das weit verbreitete Visualisierungspipelinemodell und überwindet dessen Einschränkungen in Bezug auf die Verarbeitung von IReps. Der vorgeschlagene Ansatz für die bildbasierte Bereitstellung von Geodaten ermöglicht es bildbasierte Sichten (IViews) zu erzeugen und Dienstkonsumenten mit ihnen zu versorgen. IViews sind erstrangige Datenentitäten in der Kommunikation zwischen Diensten und stellen eine geeignete IRep und Kodierung von Geodaten dar. Der vorgeschlagene Ansatz für die bildbasierte, visuelle Gestaltung trennt die Zuständigkeiten der Erzeugung eines Bildes von denen der visuellen Gestaltung des Bildes. Der Ansatz ermöglicht die visuelle Gestaltung von einheitlich durch IViews repräsentierten Geodaten. Die visuelle Gestaltung wird dabei durch die algebraische Komposition abstrakter Gestaltungsoperatoren spezifiziert. Der vorgeschlagene Ansatz für die interaktive Bilderzeugung ermöglicht es als Reaktion auf interaktive Manipulationen der Betrachtungskamera neue, durch IViews repräsentierte 3D-Ansichten von Geodaten aus bestehenden 3D-Ansichten zu erzeugen. Der Ansatz umfasst ein Architekturmuster, das bisherige Ansätze zusammenfasst und verallgemeinert. Die vorgeschlagene assistierenden, einschränkenden 3D-Navigationstechnik demonstriert, wie eine interaktive Navigationstechnik entwickelt werden kann, die Nutzer beim Navigieren in multiskalaren virtuellen 3D Stadtmodellen unterstützt, als Anwendung der vorgeschlagenen SRA in SSI-basierten 3DGeoVSs funktioniert und für diesen Zweck sowohl IReps nutzt, als auch andere Dienste bei der Nutzung von IReps unterstützt.

Die Validität der Beiträge dieser Arbeit wird gestützt durch prototypische Implementierungen und Anwendungen, sowie Effektivitäts- und Effizienzstudien einschließlich einer Nutzerstudie. Die Ergebnisse deuten darauf hin, dass diese Arbeit dabei unterstützen kann, 3DGeoVSs basierend auf SSI zu entwerfen, die sowohl effektiver und effizienter sind, als auch IReps effektiv und effizient nutzen können. Diese Arbeit stellt eine Muster-Softwarearchitektur und Schlüsselbausteine für die Entwicklung neuartiger IT-Lösungen und -Anwendungen für Geodaten vor, die sich beispielsweise in Geodateninfrastrukturen integrieren lassen.
KW  - 3D geovisualization system
KW  - 3D geovirtual environment
KW  - service-oriented architecture (SOA)
KW  - standard
KW  - image-based representation
KW  - 3D-Geovisualisierungssystem
KW  - 3D-geovirtuelle Umgebung
KW  - Serviceorientierte Architektur (SOA)
KW  - Standard
KW  - bildbasierte Repräsentation
Y1  - 2017
ER  - 
TY  - THES
A1  - Grütze, Toni
T1  - Adding value to text with user-generated content
N2  - In recent years, the ever-growing amount of documents on the Web as well as in closed systems for private or business contexts led to a considerable increase of valuable textual information about topics, events, and entities. It is a truism that the majority of information (i.e., business-relevant data) is only available in unstructured textual form. The text mining research field comprises various practice areas that have the common goal of harvesting high-quality information from textual data. These information help addressing users' information needs.

In this thesis, we utilize the knowledge represented in user-generated content (UGC) originating from various social media services to improve text mining results. These social media platforms provide a plethora of information with varying focuses. In many cases, an essential feature of such platforms is to share relevant content with a peer group. Thus, the data exchanged in these communities tend to be focused on the interests of the user base. The popularity of social media services is growing continuously and the inherent knowledge is available to be utilized. We show that this knowledge can be used for three different tasks.

Initially, we demonstrate that when searching persons with ambiguous names, the information from Wikipedia can be bootstrapped to group web search results according to the individuals occurring in the documents. We introduce two models and different means to handle persons missing in the UGC source. We show that the proposed approaches outperform traditional algorithms for search result clustering. Secondly, we discuss how the categorization of texts according to continuously changing community-generated folksonomies helps users to identify new information related to their interests. We specifically target temporal changes in the UGC and show how they influence the quality of different tag recommendation approaches. Finally, we introduce an algorithm to attempt the entity linking problem, a necessity for harvesting entity knowledge from large text collections. The goal is the linkage of mentions within the documents with their real-world entities. A major focus lies on the efficient derivation of coherent links.

For each of the contributions, we provide a wide range of experiments on various text corpora as well as different sources of UGC.
The evaluation shows the added value that the usage of these sources provides and confirms the appropriateness of leveraging user-generated content to serve different information needs.
N2  - Die steigende Zahl an Dokumenten, welche in den letzten Jahren im Web sowie in geschlossenen Systemen aus dem privaten oder geschäftlichen Umfeld erstellt wurden, führte zu einem erheblichen Zuwachs an wertvollen Informationen über verschiedenste Themen, Ereignisse, Organisationen und Personen. Die meisten Informationen liegen lediglich in unstrukturierter, textueller Form vor. Das Forschungsgebiet des "Text Mining" befasst sich mit dem schwierigen Problem, hochwertige Informationen in strukturierter Form aus Texten zu gewinnen. Diese Informationen können dazu eingesetzt werden, Nutzern dabei zu helfen, ihren Informationsbedarf zu stillen.

In dieser Arbeit nutzen wir Wissen, welches in nutzergenerierten Inhalten verborgen ist und aus unterschiedlichsten sozialen Medien stammt, um Text Mining Ergebnisse zu verbessern. Soziale Medien bieten eine Fülle an Informationen mit verschiedenen Schwerpunkten. Eine wesentliche Funktion solcher Medien ist es, den Nutzern zu ermöglichen, Inhalte mit ihrer Interessensgruppe zu teilen. Somit sind die ausgetauschten Daten in diesen Diensten häufig auf die Interessen der Nutzerbasis ausgerichtet. Die Popularität sozialer Medien wächst stetig und führt dazu, dass immer mehr inhärentes Wissen verfügbar wird. Dieses Wissen kann unter anderem für drei verschiedene Aufgabenstellungen genutzt werden.

Zunächst zeigen wir, dass Informationen aus Wikipedia hilfreich sind, um Ergebnisse von Personensuchen im Web nach den in ihnen diskutierten Personen aufzuteilen. Dazu führen wir zwei Modelle zur Gruppierung der Ergebnisse und verschiedene Methoden zum Umgang mit fehlenden Wikipedia Einträgen ein, und zeigen, dass die entwickelten Ansätze traditionelle Methoden zur Gruppierung von Suchergebnissen übertreffen. Des Weiteren diskutieren wir, wie die Klassifizierung von Texten auf Basis von "Folksonomien" Nutzern dabei helfen kann, neue Informationen zu identifizieren, die ihren Interessen entsprechen. Wir konzentrieren uns insbesondere auf temporäre Änderungen in den nutzergenerierten Inhalten, um zu zeigen, wie stark ihr Einfluss auf die Qualität verschiedener "Tag"-Empfehlungsmethoden ist. Zu guter Letzt führen wir einen Algorithmus ein, der es ermöglicht, Nennungen von Echtweltinstanzen in Texten zu disambiguieren und mit ihren Repräsentationen in einer Wissensdatenbank zu verknüpfen. Das Hauptaugenmerk liegt dabei auf der effizienten Erkennung von kohärenten Verknüpfungen.

Wir stellen für jeden Teil der Arbeit eine große Vielfalt an Experimenten auf diversen Textkorpora und unterschiedlichen Quellen von nutzergenerierten Inhalten an. Damit heben wir das Potential hervor, das die Nutzung jener Quellen bietet, um die unterschiedlichen Informationsbedürfnisse abzudecken.
T2  - Mehrwert für Texte mittels nutzergenerierter Inhalte
KW  - nutzergenerierte Inhalte
KW  - text mining
KW  - Klassifikation
KW  - Clusteranalyse
KW  - Entitätsverknüpfung
KW  - user-generated content
KW  - text mining
KW  - classification
KW  - clustering
KW  - entity linking
Y1  - 2018
ER  - 
TY  - THES
A1  - Kruse, Sebastian
T1  - Scalable data profiling
T1  - Skalierbares Data Profiling
BT  - distributed discovery and analysis of structural metadata
BT  - Entdecken und Analysieren struktureller Metadaten
N2  - Data profiling is the act of extracting structural metadata from datasets. Structural metadata, such as data dependencies and statistics, can support data management operations, such as data integration and data cleaning. Data management often is the most time-consuming activity in any data-related project. Its support is extremely valuable in our data-driven world, so that more time can be spent on the actual utilization of the data, e. g., building analytical models. In most scenarios, however, structural metadata is not given and must be extracted first. Therefore, efficient data profiling methods are highly desirable.

Data profiling is a computationally expensive problem; in fact, most dependency discovery problems entail search spaces that grow exponentially in the number of attributes. To this end, this thesis introduces novel discovery algorithms for various types of data dependencies – namely inclusion dependencies, conditional inclusion dependencies, partial functional dependencies, and partial unique column combinations – that considerably improve over state-of-the-art algorithms in terms of efficiency and that scale to datasets that cannot be processed by existing algorithms. The key to those improvements are not only algorithmic innovations, such as novel pruning rules or traversal strategies, but also algorithm designs tailored for distributed execution. While distributed data profiling has been mostly neglected by previous works, it is a logical consequence on the face of recent hardware trends and the computational hardness of dependency discovery.

To demonstrate the utility of data profiling for data management, this thesis furthermore presents Metacrate, a database for structural metadata. Its salient features are its flexible data model, the capability to integrate various kinds of structural metadata, and its rich metadata analytics library. We show how to perform a data anamnesis of unknown, complex datasets based on this technology. In particular, we describe in detail how to reconstruct the schemata and assess their quality as part of the data anamnesis.

The data profiling algorithms and Metacrate have been carefully implemented, integrated with the Metanome data profiling tool, and are available as free software. In that way, we intend to allow for easy repeatability of our research results and also provide them for actual usage in real-world data-related projects.
N2  - Data Profiling bezeichnet das Extrahieren struktureller Metadaten aus Datensätzen. Stukturelle Metadaten, z.B. Datenabhängigkeiten und Statistiken, können bei der Datenverwaltung unterstützen. Tatsächlich beansprucht das Verwalten von Daten, z.B. Datenreinigung und -integration, in vielen datenbezogenen Projekten einen Großteil der Zeit. Die Unterstützung solcher verwaltenden Aktivitäten ist in unserer datengetriebenen Welt insbesondere deswegen sehr wertvoll, weil so mehr Zeit auf die eigentlich wertschöpfende Arbeit mit den Daten verwendet werden kann, z.B. auf das Erstellen analytischer Modelle. Allerdings sind strukturelle Metadaten in den meisten Fällen nicht oder nur unvollständig vorhanden und müssen zunächst extahiert werden. Somit sind effiziente Data-Profiling-Methoden erstrebenswert.

Probleme des Data Profiling sind in der Regel sehr berechnungsintensiv: Viele Datenabhängigkeitstypen spannen einen exponentiell in der Anzahl der Attribute wachsenden Suchraum auf. Aus diesem Grund beschreibt die vorliegende Arbeit neue Algorithmen zum Auffinden verschiedener Arten von Datenabhängigkeiten – nämlich Inklusionsabhängigkeiten, bedingter Inklusionsabhängigkeiten, partieller funktionaler Abhängigkeiten sowie partieller eindeutiger Spaltenkombinationen – die bekannte Algorithmen in Effizienz und Skalierbarkeit deutlich übertreffen und somit Datensätze verarbeiten können, an denen bisherige Algorithmen gescheitert sind.

Um die Nützlichkeit struktureller Metadaten für die Datenverwaltung zu demonstrieren, stellt diese Arbeit des Weiteren das System Metacrate vor, eine Datenbank für strukturelle Metadaten. Deren besondere Merkmale sind ein flexibles Datenmodell; die Fähigkeit, verschiedene Arten struktureller Metadaten zu integrieren; und eine umfangreiche Bibliothek an Metadatenanalysen. Mithilfe dieser Technologien führen wir eine Datenanamnese unbekannter, komplexer Datensätze durch. Insbesondere beschreiben wir dabei ausführlicher, wie Schemata rekonstruiert und deren Qualität abgeschätzt werden können.

Wir haben oben erwähnte Data-Profiling-Algorithmen sowie Metacrate sorgfältig implementiert, mit dem Data-Profiling-Programm Metanome integriert und stellen beide als freie Software zur Verfügung. Dadurch wollen wir nicht nur die Nachvollziehbarkeit unserer Forschungsergebnisse möglichst einfach gestalten, sondern auch deren Einsatz in der Praxis ermöglichen.
KW  - data profiling
KW  - metadata
KW  - inclusion dependencies
KW  - functional dependencies
KW  - distributed computation
KW  - metacrate
KW  - Data Profiling
KW  - Metadaten
KW  - Inklusionsabhängigkeiten
KW  - funktionale Abhängigkeiten
KW  - verteilte Berechnung
KW  - Metacrate
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-412521
ER  - 
TY  - BOOK
A1  - Reschke, Jakob
A1  - Taeumel, Marcel
A1  - Pape, Tobias
A1  - Niephaus, Fabio
A1  - Hirschfeld, Robert
T1  - Towards version control in object-based systems
T1  - Ein Vorschlag zur Versionsverwaltung in objektbasierten Systemen
N2  - Version control is a widely used practice among software developers. It reduces the risk of changing their software and allows them to manage different configurations and to collaborate with others more efficiently. This is amplified by code sharing platforms such as GitHub or Bitbucket. Most version control systems track files (e.g., Git, Mercurial, and Subversion do), but some programming environments do not operate on files, but on objects instead (many Smalltalk implementations do). Users of such environments want to use version control for their objects anyway. Specialized version control systems, such as the ones available for Smalltalk systems (e.g., ENVY/Developer and Monticello), focus on a small subset of objects that can be versioned. Most of these systems concentrate on the tracking of methods, classes, and configurations of these. Other user-defined and user-built objects are either not eligible for version control at all, tracking them involves complicated workarounds, or a fixed, domain-unspecific serialization format is used that does not equally suit all kinds of objects. Moreover, these version control systems that are specific to a programming environment require their own code sharing platforms; popular, well-established platforms for file-based version control systems cannot be used or adapter solutions need to be implemented and maintained.

To improve the situation for version control of arbitrary objects, a framework for tracking, converting, and storing of objects is presented in this report. It allows editions of objects to be stored in an exchangeable, existing backend version control system. The platforms of the backend version control system can thus be reused. Users and objects have control over how objects are captured for the purpose of version control. Domain-specific requirements can be implemented. The storage format (i.e. the file format, when file-based backend version control systems are used) can also vary from one object to another. Different editions of objects can be compared and sets of changes can be applied to graphs of objects. A generic way for capturing and restoring that supports most kinds of objects is described. It models each object as a collection of slots. Thus, users can begin to track their objects without first having to implement version control supplements for their own kinds of objects. The proposed architecture is evaluated using a prototype implementation that can be used to track objects in Squeak/Smalltalk with Git. The prototype improves the suboptimal standing of user objects with respect to version control described above and also simplifies some version control tasks for classes and methods as well. It also raises new problems, which are discussed in this report as well.
N2  - Versionsverwaltung ist unter Softwareentwicklern weit verbreitet. Sie verringert das Risiko beim Ändern der Software und erlaubt den Entwicklern verschiedene Konfigurationen zu verwalten und effizienter zusammenzuarbeiten. Dies wird durch Plattformen zum Teilen von Code wie GitHub oder Bitbucket zusätzlich unterstützt. Die meisten Versionsverwaltungssysteme verfolgen Dateien (z.B. Git, Mercurial und Subversion), aber manche Programmierumgebungen arbeiten nicht mit Dateien, sondern mit Objekten (viele Smalltalk-Implementierungen tun dies). Nutzer dieser Umgebungen möchten Versionsverwaltung für ihre Objekte dennoch einsetzen können. Spezialisierte Versionsverwaltungssysteme, wie die für Smalltalk verfügbaren (z.B. ENVY/Developer und Monticello), konzentrieren sich auf Methoden, Klassen und Konfigurationen selbiger. Andere von Benutzern definierte und konstruierte Objekte können damit oftmals gar nicht oder nur über komplizierte Umwege erfasst werden oder es wird ein fest vorgegebenes Format zur Serialisierung verwendet, das nicht für alle Arten von Objekten gleichermaßen geeignet ist. Desweiteren können beliebte, bereits existierende Plattformen für dateibasierte Versionsverwaltung von diesen Systemen nicht verwendet werden oder Adapterlösungen müssen implementiert und gepflegt werden.

Um die Situation von Versionsverwaltung für beliebige Objekte zu verbessern, stellt diese Arbeit ein Framework zum Nachverfolgen, Konvertieren und Speichern von Objekten vor. Es erlaubt Editionen von Objekten in einem austauschbaren, bestehenden Backend-Versionsverwaltungssystem zu speichern. Plattformen für dieses System können daher weiterbenutzt werden. Nutzer und Objekte können beeinflussen, wie Objekte zur Versionsverwaltung erfasst werden. Domänenspezifische Anforderungen lassen sich umsetzen. Das Speicherformat (d.h. das Dateiformat, wenn ein dateibasiertes Backend benutzt wird) kann auch von Objekt zu Objekt anders sein. Verschiedene Editionen von Objekten können verglichen und Änderungen auf Objektgraphen übertragen werden. Ein allgemeiner Ansatz zum Erfassen und Wiederherstellen von Objekten wird beschrieben, welcher jedes Objekt als eine Ansammlung von Slots betrachtet. Dadurch können Nutzer sofort anfangen ihre Objekte zu versionieren, ohne dass sie ihre Objekte zunächst zur Versionsverwaltung erweitern müssen. Die vorgeschlagene Architektur wird anhand einer Prototyp-Implementierung evaluiert, die es erlaubt Objekte in Squeak/Smalltalk mit Git zu versionieren. Der Prototyp verbessert den oben beschriebenen benachteiligten Status von Benutzerobjekten im Bezug auf Versionsverwaltung und erleichtert auch manche Versionsverwaltungs-Operationen für Klassen und Methoden. Er fördert auch neue Probleme zutage, die ebenfalls in dieser Arbeit diskutiert werden. Insofern ist diese Arbeit als ein erster Schritt in Richtung vollumfänglicher Versionsverwaltung für beliebige Objekte zu betrachten.
T3  - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 121 
KW  - version control
KW  - object-oriented programming
KW  - exploratory programming
KW  - serialization
KW  - Versionsverwaltung
KW  - objektorientiertes Programmieren
KW  - exploratives Programmieren
KW  - Serialisierung
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-410812
SN  - 978-3-86956-430-2
SN  - 1613-5652
SN  - 2191-1665
VL  - 121
PB  - Universitätsverlag Potsdam
CY  - Potsdam
ER  - 
TY  - THES
A1  - Zuo, Zhe
T1  - From unstructured to structured: Context-based named entity mining from text
T1  - Von unstrukturiert zu strukturiert: Kontextbasierte Gewinnung benannter Entitäten von Text
N2  - With recent advances in the area of information extraction, automatically extracting structured information from a vast amount of unstructured textual data becomes an important task, which is infeasible for humans to capture all information manually. Named entities (e.g., persons, organizations, and locations), which are crucial components in texts, are usually the subjects of structured information from textual documents. Therefore, the task of named entity mining receives much attention. It consists of three major subtasks, which are named entity recognition, named entity linking, and relation extraction.

These three tasks build up an entire pipeline of a named entity mining system, where each of them has its challenges and can be employed for further applications. As a fundamental task in the natural language processing domain, studies on named entity recognition have a long history, and many existing approaches produce reliable results. The task is aiming to extract mentions of named entities in text and identify their types. Named entity linking recently received much attention with the development of knowledge bases that contain rich information about entities. The goal is to disambiguate mentions of named entities and to link them to the corresponding entries in a knowledge base. Relation extraction, as the final step of named entity mining, is a highly challenging task, which is to extract semantic relations between named entities, e.g., the ownership relation between two companies.

In this thesis, we review the state-of-the-art of named entity mining domain in detail, including valuable features, techniques, evaluation methodologies, and so on. Furthermore, we present two of our approaches that focus on the named entity linking and relation extraction tasks separately. 

To solve the named entity linking task, we propose the entity linking technique, BEL, which operates on a textual range of relevant terms and aggregates decisions from an ensemble of simple classifiers. Each of the classifiers operates on a randomly sampled subset of the above range. In extensive experiments on hand-labeled and benchmark datasets, our approach outperformed state-of-the-art entity linking techniques, both in terms of quality and efficiency. 

For the task of relation extraction, we focus on extracting a specific group of difficult relation types, business relations between companies. These relations can be used to gain valuable insight into the interactions between companies and perform complex analytics, such as predicting risk or valuating companies. Our semi-supervised strategy can extract business relations between companies based on only a few user-provided seed company pairs. By doing so, we also provide a solution for the problem of determining the direction of asymmetric relations, such as the ownership_of relation. We improve the reliability of the extraction process by using a holistic pattern identification method, which classifies the generated extraction patterns. Our experiments show that we can accurately and reliably extract new entity pairs occurring in the target relation by using as few as five labeled seed pairs.
N2  - Mit den jüngsten Fortschritten in den Gebieten der Informationsextraktion wird die automatisierte Extrahierung strukturierter Informationen aus einer unüberschaubaren Menge unstrukturierter Textdaten eine wichtige Aufgabe, deren manuelle Ausführung  unzumutbar ist. Benannte Entitäten, (z.B. Personen, Organisationen oder Orte), essentielle Bestandteile in Texten, sind normalerweise der Gegenstand strukturierter Informationen aus Textdokumenten. Daher erhält die Aufgabe der Gewinnung benannter Entitäten viel Aufmerksamkeit. Sie besteht aus drei groen Unteraufgaben, nämlich Erkennung benannter Entitäten, Verbindung benannter Entitäten und Extraktion von Beziehungen.

Diese drei Aufgaben zusammen sind der Grundprozess eines Systems zur Gewinnung benannter Entitäten, wobei jede ihre eigene Herausforderung hat und für weitere Anwendungen eingesetzt werden kann. Als ein fundamentaler Aspekt in der Verarbeitung natürlicher Sprache haben Studien zur Erkennung benannter Entitäten eine lange Geschichte, und viele bestehenden Ansätze erbringen verlässliche Ergebnisse. Die Aufgabe zielt darauf ab, Nennungen benannter Entitäten zu extrahieren und ihre Typen zu bestimmen. Verbindung benannter Entitäten hat in letzter Zeit durch die Entwicklung von Wissensdatenbanken, welche reiche Informationen über Entitäten enthalten, viel Aufmerksamkeit erhalten. Das Ziel ist es, Nennungen benannter Entitäten zu unterscheiden und diese mit dazugehörigen Einträgen in einer Wissensdatenbank zu verknüpfen. Der letzte Schritt der Gewinnung benannter Entitäten, die Extraktion von Beziehungen, ist eine stark anspruchsvolle Aufgabe, nämlich die Extraktion semantischer Beziehungen zwischen Entitäten, z.B. die Eigentümerschaft zwischen zwei Firmen.

In dieser Doktorarbeit arbeiten wir den aktuellen Stand der Wissenschaft in den Domäne der Gewinnung benannter Entitäten auf, unter anderem wertvolle Eigenschaften und Evaluationsmethoden. Darüberhinaus präsentieren wir zwei Ansätze von uns, die jeweils ihren Fokus auf die Verbindung benannter Entitäten sowie der Aufgaben der Extraktion von Beziehungen legen.

Um die Aufgabe der Verbindung benannter Entitäten zu lösen schlagen wir hier die Verbindungstechnik BEL vor, welche auf einer textuellen Bandbreite relevanter Begriffe agiert und Entscheidungen einer Kombination von einfacher Klassifizierer aggregiert. Jeder dieser Klassifizierer arbeitet auf einer zufällig ausgewählten Teilmenge der obigen Bandbreite. In umfangreichen Experimenten mit handannotierten sowie Vergleichsdatensätzen hat unser Ansatz andere Lösungen zur Verbindung benannter Entitäten, die auf dem Stand der aktuellen Technik beruhen, sowie in Bezug auf Qualität als auch Effizienz geschlagen.

Für die Aufgabe der Extraktion von Beziehungen fokussieren wir uns auf eine bestimmte Gruppe schwieriger Beziehungstypen, nämlich die Geschäftsbeziehungen zwischen Firmen. Diese Beziehungen können benutzt werden, um wertvolle Erkenntnisse in das Zusammenspiel von Firmen zu gelangen und komplexe Analysen ausführen, beispielsweise die Risikovorhersage oder Bewertung von Firmen. Unsere teilbeaufsichtigte Strategie kann Geschäftsbeziehungen zwischen Firmen anhand nur weniger nutzergegebener Startwerte von Firmenpaaren extrahieren. Dadurch bieten wir auch eine Lösung für das Problem der Richtungserkennung asymmetrischer Beziehungen, beispielsweise der Eigentumsbeziehung. Wir verbessern die Verlässlichkeit des Extraktionsprozesses, indem wir holistische Musteridentifikationsmethoden verwenden, welche die erstellten Extraktionsmuster klassifizieren. Unsere Experimente zeigen, dass wir neue Entitätenpaare akkurat und verlässlich in der Zielbeziehung mit bereits fünf bezeichneten Startpaaren extrahieren können.
KW  - named entity mining
KW  - information extraction
KW  - natural language processing
KW  - Gewinnung benannter Entitäten
KW  - Informationsextraktion
KW  - maschinelle Verarbeitung natürlicher Sprache
Y1  - 2017
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-412576
ER  - 
TY  - THES
A1  - Zieger, Tobias
T1  - Self-adaptive data quality
BT  - automating duplicate detection
N2  - Carrying out business processes successfully is closely linked to the quality of the data inventory in an organization. Lacks in data quality lead to problems: Incorrect address data prevents (timely) shipments to customers. Erroneous orders lead to returns and thus to unnecessary effort. Wrong pricing forces companies to miss out on revenues or to impair customer satisfaction. If orders or customer records cannot be retrieved, complaint management takes longer. Due to erroneous inventories, too few or too much supplies might be reordered.

A special problem with data quality and the reason for many of the issues mentioned above are duplicates in databases. Duplicates are different representations of same real-world objects in a dataset. However, these representations differ from each other and are for that reason hard to match by a computer. Moreover, the number of required comparisons to find those duplicates grows with the square of the dataset size. To cleanse the data, these duplicates must be detected and removed. Duplicate detection is a very laborious process. To achieve satisfactory results, appropriate software must be created and configured (similarity measures, partitioning keys, thresholds, etc.). Both requires much manual effort and experience.

This thesis addresses automation of parameter selection for duplicate detection and presents several novel approaches that eliminate the need for human experience in parts of the duplicate detection process.

A pre-processing step is introduced that analyzes the datasets in question and classifies their attributes semantically. Not only do these annotations help understanding the respective datasets, but they also facilitate subsequent steps, for example, by selecting appropriate similarity measures or normalizing the data upfront. This approach works without schema information.

Following that, we show a partitioning technique that strongly reduces the number of pair comparisons for the duplicate detection process. The approach automatically finds particularly suitable partitioning keys that simultaneously allow for effective and efficient duplicate retrieval. By means of a user study, we demonstrate that this technique finds partitioning keys that outperform expert suggestions and additionally does not need manual configuration. Furthermore, this approach can be applied independently of the attribute types.

To measure the success of a duplicate detection process and to execute the described partitioning approach, a gold standard is required that provides information about the actual duplicates in a training dataset. This thesis presents a technique that uses existing duplicate detection results and crowdsourcing to create a near gold standard that can be used for the purposes above. Another part of the thesis describes and evaluates strategies how to reduce these crowdsourcing costs and to achieve a consensus with less effort.
N2  - Die erfolgreiche Ausführung von Geschäftsprozessen ist eng an die Datenqualität der Datenbestände in einer Organisation geknüpft. Bestehen Mängel in der Datenqualität, kann es zu Problemen kommen: Unkorrekte Adressdaten verhindern, dass Kunden (rechtzeitig) beliefert werden. Fehlerhafte Bestellungen führen zu Reklamationen und somit zu unnötigem Aufwand. Falsche Preisauszeichnungen zwingen Unternehmen, auf Einnahmen zu verzichten oder gefährden die Kundenzufriedenheit. Können Bestellungen oder Kundendaten nicht gefunden werden, verlängert sich die Abarbeitung von Beschwerden. Durch fehlerhafte Inventarisierung wird zu wenig oder zu viel Nachschub bestellt.

Ein spezielles Datenqualitätsproblem und der Grund für viele der genannten Datenqualitätsprobleme sind Duplikate in Datenbanken. Duplikate sind verschiedene Repräsentationen derselben Realweltobjekte im Datenbestand. Allerdings unterscheiden sich diese Repräsentationen voneinander und sind so für den Computer nur schwer als zusammengehörig zu erkennen. Außerdem wächst die Anzahl der zur Aufdeckung der Duplikate benötigten Vergleiche quadratisch mit der Datensatzgröße. Zum Zwecke der Datenreinigung müssen diese Duplikate erkannt und beseitigt werden. Diese Duplikaterkennung ist ein sehr aufwändiger Prozess. Um gute Ergebnisse zu erzielen, ist die Erstellung von entsprechender Software und das Konfigurieren vieler Parameter (Ähnlichkeitsmaße, Partitionierungsschlüssel, Schwellwerte usw.) nötig. Beides erfordert viel manuellen Aufwand und Erfahrung.

Diese Dissertation befasst sich mit dem Automatisieren der Parameterwahl für die Duplikaterkennung und stellt verschiedene neuartige Verfahren vor, durch die Teile des Duplikaterkennungsprozesses ohne menschliche Erfahrung gestaltet werden können.

Es wird ein Vorverarbeitungsschritt vorgestellt, der die betreffenden Datensätze analysiert und deren Attribute automatisch semantisch klassifiziert. Durch diese Annotationen wird nicht nur das Verständnis des Datensatzes verbessert, sondern es werden darüber hinaus die folgenden Schritte erleichtert, zum Beispiel können so geeignete Ähnlichkeitsmaße ausgewählt oder die Daten normalisiert werden. Dabei kommt der Ansatz ohne Schemainformationen aus.

Anschließend wird ein Partitionierungsverfahren gezeigt, das die Anzahl der für die Duplikaterkennung benötigten Vergleiche stark reduziert. Das Verfahren findet automatisch besonders geeignete Partitionierungsschlüssel, die eine gleichzeitig effektive und effiziente Duplikatsuche ermöglichen. Anhand einer Nutzerstudie wird gezeigt, dass die so gefundenen Partitionierungsschlüssel Expertenvorschlägen überlegen sind und zudem keine menschliche Konfiguration benötigen. Außerdem lässt sich das Verfahren unabhängig von den Attributtypen anwenden.

Zum Messen des Erfolges eines Duplikaterkennungsverfahrens und für das zuvor beschriebene Partitionierungsverfahren ist ein Goldstandard nötig, der Auskunft über die zu findenden Duplikate gibt. Die Dissertation stellt ein Verfahren vor, das anhand mehrerer vorhandener Duplikaterkennungsergebnisse und dem Einsatz von Crowdsourcing einen Nahezu-Goldstandard erzeugt, der für die beschriebenen Zwecke eingesetzt werden kann. Ein weiterer Teil der Arbeit beschreibt und evaluiert Strategien, wie die Kosten dieses Crowdsourcingeinsatzes reduziert werden können und mit geringerem Aufwand ein Konsens erreicht wird.
KW  - data quality
KW  - Datenqualität
KW  - Duplikaterkennung
KW  - duplicate detection
KW  - Machine Learning
KW  - Information Retrieval
KW  - Automatisierung
KW  - automation
Y1  - 2017
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-410573
ER  - 
TY  - THES
A1  - Ussath, Martin Georg
T1  - Analytical approaches for advanced attacks
Y1  - 2017
ER  - 
TY  - THES
A1  - Bazhenova, Ekaterina
T1  - Discovery of Decision Models Complementary to Process Models
T1  - Das Konstruieren von Entscheidungsmodellen als Ergänzung zu Prozessmodellen
N2  - Business process management is an acknowledged asset for running an organization in a productive and sustainable way. One of the most important aspects of business process management, occurring on a daily basis at all levels, is decision making. In recent years, a number of decision management frameworks have appeared in addition to existing business process management systems. More recently, Decision Model and Notation (DMN) was developed by the OMG consortium with the aim of complementing the widely used Business Process Model and Notation (BPMN). One of the reasons for the emergence of DMN is the increasing interest in the evolving paradigm known as the separation of concerns. This paradigm states that modeling decisions complementary to processes reduces process complexity by externalizing decision logic from process models and importing it into a dedicated decision model. Such an approach increases the agility of model design and execution. This provides organizations with the flexibility to adapt to the ever increasing rapid and dynamic changes in the business ecosystem. The research gap, identified by us, is that the separation of concerns, recommended by DMN, prescribes the externalization of the decision logic of process models in one or more separate decision models, but it does not specify this can be achieved. 


The goal of this thesis is to overcome the presented gap by developing a framework for discovering decision models in a semi-automated way from information about existing process decision making. Thus, in this thesis we develop methodologies to extract decision models from: (1) control flow and data of process models that exist in enterprises; and (2) from event logs recorded by enterprise information systems, encapsulating day-to-day operations. Furthermore, we provide an extension of the methodologies to discover decision models from event logs enriched with fuzziness, a tool dealing with partial knowledge of the process execution information. All the proposed techniques are implemented and evaluated in case studies using real-life and synthetic process models and event logs. The evaluation of these case studies shows that the proposed methodologies provide valid and accurate output decision models that can serve as blueprints for executing decisions complementary to process models. Thus, these methodologies have applicability in the real world and they can be used, for example, for compliance checks, among other uses, which could improve the organization's decision making and hence it's overall performance.
N2  - Geschäftsprozessmanagement ist eine anerkannte Strategie, um Unternehmen produktiv und nachhaltig zu führen. Einer der wichtigsten Faktoren des Geschäftsprozessmanagements ist die Entscheidungsfindung – tagtäglich und auf allen Ebenen. In den letzten Jahren wurden – zusätzlich zu existierenden Geschäftsprozessmanagementsystemen – eine Reihe von Frameworks zum Entscheidungsmanagement entwickelt. Um die weit verbreitete Business Process Model and Notation (BPMN) zu ergänzen, hat das OMG-Konsortium kürzlich die Decision Model and Notation (DMN) entwickelt. Einer der Treiber für die Entwicklung der DMN ist das wachsende Interesse an dem aufstrebenden Paradigma der “Separation of Concerns” (Trennung der Sichtweisen). Dieses Prinzip besagt, dass die Prozesskomplexität reduziert wird, wenn Entscheidungen komplementär zu den Prozessen modelliert werden, indem die Entscheidungslogik von Prozessmodellen entkoppelt und in ein dediziertes Entscheidungsmodel aufgenommen wird. Solch ein Ansatz erhöht die Agilität von Modelentwurf und –ausführung und bietet Unternehmen so die Flexibilität, auf die stetig zunehmenden, rasanten Veränderungen in der Unternehmenswelt zu reagieren. Während die DMN die Trennung der Belange empfiehlt und die Entkopplung der Entscheidungslogik von den Prozessmodellen vorschreibt, gibt es bisher keine Spezifikation, wie dies erreicht werden kann. Diese Forschungslücke ist der Ausgangspunkt der vorliegenden Arbeit.
Das Ziel dieser Doktorarbeit ist es, die beschriebene Lücke zu füllen und ein Framework zur halbautomatischen Konstruktion von Entscheidungsmodellen zu entwickeln, basierend auf Informationen über existierende Prozessentscheidungsfindung. In dieser Arbeit werden die entwickelten Methoden zur Entkopplung von Entscheidungsmodellen dargestellt. Die Extraktion der Modelle basiert auf folgenden Eingaben: (1) Kontrollfluss und Daten aus Prozessmodellen, die in Unternehmen existieren; und (2) von Unternehmensinformationssystemen aufgezeichnete Ereignisprotokolle der Tagesgeschäfte. Außerdem stellen wir eine Erweiterung der Methode vor, die es ermöglicht, auch in von Unschärfe geprägten Ereignisprotokollen Entscheidungsmodelle zu entdecken. Hier wird mit Teilwissen über die Prozessausführung gearbeitet. Alle vorgestellten Techniken wurden implementiert und in Fallstudien evaluiert – basierend auf realen und künstlichen Prozessmodellen, sowie auf Ereignisprotokollen. Die Evaluierung der Fallstudien zeigt, dass die vorgeschlagenen Methoden valide und akkurate Entscheidungsmodelle produzieren, die als Blaupause für das Vollziehen von Entscheidungen dienen können und die Prozessmodelle ergänzen. Demnach sind die vorgestellten Methoden in der realenWelt anwendbar und können beispielsweise für Übereinstimmungskontrollen genutzt werden, was wiederum die Entscheidungsfindung in Unternehmen und somit deren Gesamtleistung verbessern kann.
KW  - business process management
KW  - decision management
KW  - process models
KW  - decision models
KW  - decision mining
KW  - Geschäftsprozessmanagement
KW  - Entscheidungsmanagement
KW  - Entscheidungsfindung
KW  - Entscheidungsmodelle
KW  - Prozessmodelle
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-410020
ER  - 
TY  - THES
A1  - Vogel, Thomas
T1  - Model-driven engineering of self-adaptive software
T1  - Modellgetriebene Entwicklung von Selbst-Adaptiver Software
N2  - The development of self-adaptive software requires the engineering of an adaptation engine that controls the underlying adaptable software by a feedback loop. State-of-the-art approaches prescribe the feedback loop in terms of numbers, how the activities (e.g., monitor, analyze, plan, and execute (MAPE)) and the knowledge are structured to a feedback loop, and the type of knowledge. Moreover, the feedback loop is usually hidden in the implementation or framework and therefore not visible in the architectural design. Additionally, an adaptation engine often employs runtime models that either represent the adaptable software or capture strategic knowledge such as reconfiguration strategies. State-of-the-art approaches do not systematically address the interplay of such runtime models, which would otherwise allow developers to freely design the entire feedback loop.

This thesis presents ExecUtable RuntimE MegAmodels (EUREMA), an integrated model-driven engineering (MDE) solution that rigorously uses models for engineering feedback loops. EUREMA provides a domain-specific modeling language to specify and an interpreter to execute feedback loops. The language allows developers to freely design a feedback loop concerning the activities and runtime models (knowledge) as well as the number of feedback loops. It further supports structuring the feedback loops in the adaptation engine that follows a layered architectural style. Thus, EUREMA makes the feedback loops explicit in the design and enables developers to reason about design decisions. 

To address the interplay of runtime models, we propose the concept of a runtime megamodel, which is a runtime model that contains other runtime models as well as activities (e.g., MAPE) working on the contained models. This concept is the underlying principle of EUREMA. The resulting EUREMA (mega)models are kept alive at runtime and they are directly executed by the EUREMA interpreter to run the feedback loops. Interpretation provides the flexibility to dynamically adapt a feedback loop. In this context, EUREMA supports engineering self-adaptive software in which feedback loops run independently or in a coordinated fashion within the same layer as well as on top of each other in different layers of the adaptation engine. Moreover, we consider preliminary means to evolve self-adaptive software by providing a maintenance interface to the adaptation engine.

This thesis discusses in detail EUREMA by applying it to different scenarios such as single, multiple, and stacked feedback loops for self-repairing and self-optimizing the mRUBiS application. Moreover, it investigates the design and expressiveness of EUREMA, reports on experiments with a running system (mRUBiS) and with alternative solutions, and assesses EUREMA with respect to quality attributes such as performance and scalability.

The conducted evaluation provides evidence that EUREMA as an integrated and open MDE approach for engineering self-adaptive software seamlessly integrates the development and runtime environments using the same formalism to specify and execute feedback loops, supports the dynamic adaptation of feedback loops in layered architectures, and achieves an efficient execution of feedback loops by leveraging incrementality.
N2  - Die Entwicklung von selbst-adaptiven Softwaresystemen erfordert die Konstruktion einer geschlossenen Feedback Loop, die das System zur Laufzeit beobachtet und falls nötig anpasst. Aktuelle Konstruktionsverfahren schreiben eine bestimmte Feedback Loop im Hinblick auf Anzahl und Struktur vor. Die Struktur umfasst die vorhandenen Aktivitäten der Feedback Loop (z. B. Beobachtung, Analyse, Planung und Ausführung einer Adaption) und die Art des hierzu verwendeten Systemwissens. Dieses System- und zusätzlich das strategische Wissen (z. B. Adaptionsregeln) werden in der Regel in Laufzeitmodellen erfasst und in die Feedback Loop integriert. Aktuelle Verfahren berücksichtigen jedoch nicht systematisch die Laufzeitmodelle und deren Zusammenspiel, so dass Entwickler die Feedback Loop nicht frei entwerfen und gestalten können. Folglich wird die Feedback Loop während des Entwurfs der Softwarearchitektur häufig nicht explizit berücksichtigt. 

Diese Dissertation stellt mit EUREMA ein neues Konstruktionsverfahren für Feedback Loops vor. Basierend auf Prinzipien der modellgetriebenen Entwicklung (MDE) setzt EUREMA auf die konsequente Nutzung von Modellen für die Konstruktion, Ausführung und Adaption von selbst-adaptiven Softwaresystemen. Hierzu wird eine domänenspezifische Modellierungssprache (DSL) vorgestellt, mit der Entwickler die Feedback Loop frei entwerfen und gestalten können, d. h. ohne Einschränkung bezüglich der Aktivitäten, Laufzeitmodelle und Anzahl der Feedback Loops. Zusätzlich bietet die DSL eine Architektursicht auf das System, die die Feedback Loops berücksichtigt. Daher stellt die DSL Konstrukte zur Verfügung, mit denen Entwickler während des Entwurfs der Architektur die Feedback Loops explizit definieren und berücksichtigen können.

Um das Zusammenspiel der Laufzeitmodelle zu erfassen, wird das Konzept eines sogenannten Laufzeitmegamodells vorgeschlagen, das alle Aktivitäten und Laufzeitmodelle einer Feedback Loop erfasst. Dieses Konzept dient als Grundlage der vorgestellten DSL. Die bei der Konstruktion und mit der DSL erzeugten (Mega-)Modelle werden zur Laufzeit bewahrt und von einem Interpreter ausgeführt, um das spezifizierte Adaptionsverhalten zu realisieren. Der Interpreteransatz bietet die notwendige Flexibilität, um das Adaptionsverhalten zur Laufzeit anzupassen. Dies ermöglicht über die Entwicklung von Systemen mit mehreren Feedback Loops auf einer Ebene hinaus das Schichten von Feedback Loops im Sinne einer adaptiven Regelung. Zusätzlich bietet EUREMA eine Schnittstelle für Wartungsprozesse an, um das Adaptionsverhalten im laufendem System anzupassen.

Die Dissertation diskutiert den EUREMA-Ansatz und wendet diesen auf verschiedene Problemstellungen an, u. a. auf einzelne, mehrere und koordinierte als auch geschichtete Feedback Loops. Als Anwendungsbeispiel dient die Selbstheilung und Selbstoptimierung des Online-Marktplatzes mRUBiS. Für die Evaluierung von EUREMA werden Experimente mit dem laufenden mRUBiS und mit alternativen Lösungen durchgeführt, das Design und die Ausdrucksmächtigkeit der DSL untersucht und Qualitätsmerkmale wie Performanz und Skalierbarkeit betrachtet. Die Ergebnisse der Evaluierung legen nahe, dass EUREMA als integrierter und offener Ansatz für die Entwicklung selbst-adaptiver Softwaresysteme folgende Beiträge zum Stand der Technik leistet: eine nahtlose Integration der Entwicklungs- und Laufzeitumgebung durch die konsequente Verwendung von Modellen, die dynamische Anpassung des Adaptionsverhaltens in einer Schichtenarchitektur und eine effiziente Ausführung von Feedback Loops durch inkrementelle Verarbeitungsschritte.
KW  - model-driven engineering
KW  - self-adaptive software
KW  - domain-specific modeling
KW  - runtime models
KW  - software evolution
KW  - modellgetriebene Entwicklung
KW  - Selbst-Adaptive Software
KW  - Domänenspezifische Modellierung
KW  - Laufzeitmodelle
KW  - Software-Evolution
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-409755
ER  - 
TY  - CHAP
ED  - Meinel, Christoph
ED  - Polze, Andreas
ED  - Oswald, Gerhard
ED  - Strotmann, Rolf
ED  - Seibold, Ulrich
ED  - Schulzki, Bernhard
T1  - HPI Future SOC Lab
BT  - Proceedings 2016
N2  - The “HPI Future SOC Lab” is a cooperation of the Hasso Plattner Institute (HPI) and industrial partners. Its mission is to enable and promote exchange and interaction between the research community and the industrial partners.
  The HPI Future SOC Lab provides researchers with free of charge access to a complete infrastructure of state of the art hard and software. This infrastructure includes components, which might be too expensive for an ordinary research environment, such as servers with up to 64 cores and 2 TB main memory. The offerings address researchers particularly from but not limited to the areas of computer science and business information systems. Main areas of research include cloud computing, parallelization, and In-Memory technologies.
  This technical report presents results of research projects executed in 2016. Selected projects have presented their results on April 5th and November 3th 2016 at the Future SOC Lab Day events.
N2  - Das Future SOC Lab am HPI ist eine Kooperation des Hasso-Plattner-Instituts mit verschiedenen Industriepartnern. Seine Aufgabe ist die Ermöglichung und Förderung des Austausches zwischen Forschungsgemeinschaft und Industrie.
  Am Lab wird interessierten Wissenschaftlern eine Infrastruktur von neuester Hard- und Software kostenfrei für Forschungszwecke zur Verfügung gestellt. Dazu zählen teilweise noch nicht am Markt verfügbare Technologien, die im normalen Hochschulbereich in der Regel nicht zu finanzieren wären, bspw. Server mit bis zu 64 Cores und 2 TB Hauptspeicher. Diese Angebote richten sich insbesondere an Wissenschaftler in den Gebieten Informatik und Wirtschaftsinformatik. Einige der Schwerpunkte sind Cloud Computing, Parallelisierung und In-Memory Technologien. 
  In diesem Technischen Bericht werden die Ergebnisse der Forschungsprojekte des Jahres 2016 vorgestellt.  Ausgewählte Projekte stellten ihre Ergebnisse am 5. April 2016 und 3. November 2016 im Rahmen der Future SOC Lab Tag Veranstaltungen vor.
KW  - Future SOC Lab
KW  - research projects
KW  - multicore architectures
KW  - In-Memory technology
KW  - cloud computing
KW  - machine learning
KW  - artifical intelligence
KW  - Future SOC Lab
KW  - Forschungsprojekte
KW  - Multicore Architekturen
KW  - In-Memory Technologie
KW  - Cloud Computing
KW  - maschinelles Lernen
KW  - künstliche Intelligenz
Y1  - 2016
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-406787
ER  - 
TY  - THES
A1  - Pufahl, Luise
T1  - Modeling and executing batch activities in business processes
T1  - Modellierung und Ausführung von Batch-Aktivitäten in Geschäftsprozessen
N2  - Business process automation improves organizations’ efficiency to perform work. Therefore, a business process is first documented as a process model which then serves as blueprint for a number of process instances representing the execution of specific business cases. In existing business process management systems, process instances run independently from each other. However, in practice, instances are also collected in groups at certain process activities for a combined execution to improve the process performance. Currently, this so-called batch processing is executed manually or supported by external software. Only few research proposals exist to explicitly represent and execute batch processing needs in business process models. These works also lack a comprehensive understanding of requirements.

This thesis addresses the described issues by providing a basic concept, called batch activity. It allows an explicit representation of batch processing configurations in process models and provides a corresponding execution semantics, thereby easing automation. The batch activity groups different process instances based on their data context and can synchronize their execution over one or as well multiple process activities. The concept is conceived based on a requirements analysis considering existing literature on batch processing from different domains and industry examples. Further, this thesis provides two extensions: First, a flexible batch configuration concept, based on event processing techniques, is introduced to allow run time adaptations of batch configurations. Second, a concept for collecting and batching activity instances of multiple different process models is given. Thereby, the batch configuration is centrally defined, independently of the process models, which is especially beneficial for organizations with large process model collections. This thesis provides a technical evaluation as well as a validation of the presented concepts. A prototypical implementation in an existing open-source BPMS shows that with a few extensions, batch processing is enabled. Further, it demonstrates that the consolidated view of several work items in one user form can improve work efficiency. The validation, in which the batch activity concept is applied to different use cases in a simulated environment, implies cost-savings for business processes when a suitable batch configuration is used. For the validation, an extensible business process simulator was developed. It enables process designers to study the influence of a batch activity in a process with regards to its performance.
N2  - Die Automatisierung von Geschäftsprozessen verbessert die Effizienz von Organisationen im Bearbeiten ihrer Aufgaben. Dafür wird ein Geschäftsprozess zunächst als Prozessmodell dokumentiert, der dann als Vorlage für eine Menge von Prozessinstanzen, welche die Ausführung von Geschäftsfällen repräsentieren, dient. In existierenden Prozessmanagement-Systemen werden Prozessinstanzen komplett unabhängig voneinander ausgeführt. In der Praxis jedoch werden Instanzen häufig zur Verbesserung der Prozessperformance an bestimmten Prozessaktivitäten in Gruppen gesammelt, um diese gebündelt auszuführen. Das sogenannte Batch Processing wird zurzeit nur manuell oder durch externe Software unterstützt. Wenige Forschungsarbeiten existieren, um Batch Processing-Konfigurationen in Prozessmodellen explizit zu repräsentieren und sie automatisiert auszuführen. Zusätzlich fehlt es diesen Arbeiten an einem umfassenden Verständnis der Anforderungen.
Die vorliegende Dissertation befasst sich mit den oben genannten Fragestellungen, indem ein Batch Activity-Konzept entwickelt wird. Dieses erlaubt es Batch Processing-Aktivitäten in Geschäftsprozessen zu spezifizieren als auch zu konfigurieren und mittels einer zusätzlich bereitgestellten Ausführungssemantik zu automatisieren. Die Batch Activity kann verschiedene Prozessinstanzen auf Basis ihres Datenkontextes gruppieren und deren Ausführung über ein oder mehrere Aktivitäten synchronisieren. Das Konzept basiert auf einer Anforderungsanalyse, welche existierende Forschungsarbeiten zum Thema des Batch Processings aus unterschiedlichen Domänen als auch Praxisbeispiele berücksichtigt. Weiterhin werden zwei Erweiterungen des Basiskonzeptes in dieser Arbeit vorgestellt: Erstens wird ein Konzept zur flexiblen Anpassung der Batch-Konfiguration zur Ausführungszeit basierend auf Techniken der Ereignisverarbeitung vorgestellt. Zweitens wird ein Konzept eingeführt, um Aktivitätsinstanzen von verschiedenen Prozessmodellen zu sammeln und zu konsolidieren. Dabei wird die Batch-Konfiguration unabhängig von Prozessmodellen zentral definiert, was besonders für Unternehmen mit großen Prozesssammlungen hilfreich ist. Die vorliegende Dissertation beinhaltet eine technische Evaluation als auch eine Validierung der eingeführten Konzepte. Eine prototypische Implementierung in ein bestehendes, open-source Prozessmanagement-System zeigt, dass Batch Processing mit wenigen Erweiterungen integriert werden kann. Zusätzlich wird demonstriert, dass die konsolidierte Darstellung von mehreren Prozessfällen in einer Benutzeransicht die Arbeitsleistung von Endanwendern verbessern kann. Die Validierung, in der das Batch Activity-Konzept in unterschiedlichen Anwendungsfällen in einer simulierten Umgebung eingesetzt wird, impliziert Prozesskosteneinsparungen, wenn eine geeignete Batch-Konfiguration gewählt wird. Für die Validierung wurde ein erweiterbarer Geschäftsprozesssimulator entwickelt. Dieser ermöglicht es Prozessmodellierern, den Einfluss einer Batch Activity auf einen Prozess mit Hinblick auf dessen Performance zu untersuchen.
KW  - business process
KW  - batch activity
KW  - process modeling
KW  - process execution
KW  - batch processing
KW  - Geschäftsprozess
KW  - Batch-Aktivität
KW  - Prozessmodellierung
KW  - Prozessausführung
KW  - Stapelverarbeitung
Y1  - 2018
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-408013
ER  - 
TY  - THES
A1  - Che, Xiaoyin
T1  - E-lecture material enhancement based on automatic multimedia analysis
T1  - Online-Vorlesung Materialverbesserung basierend auf automatischer Multimedia-Analyse
N2  - In this era of high-speed informatization and globalization, online education is no longer an exquisite concept in the ivory tower, but a rapidly developing industry closely relevant to people's daily lives. Numerous lectures are recorded in form of multimedia data, uploaded to the Internet and made publicly accessible from anywhere in this world. These lectures are generally addressed as e-lectures. In recent year, a new popular form of e-lectures, the Massive Open Online Courses (MOOCs), boosts the growth of online education industry and somehow turns "learning online" into a fashion.

As an e-learning provider, besides to keep improving the quality of e-lecture content, to provide better learning environment for online learners is also a highly important task. This task can be preceded in various ways, and one of them is to enhance and upgrade the learning materials provided: e-lectures could be more than videos. Moreover, this process of enhancement or upgrading should be done automatically, without giving extra burdens to the lecturers or teaching teams, and this is the aim of this thesis.
The first part of this thesis is an integrated framework of multi-lingual subtitles production, which can help online learners penetrate the language barrier. The framework consists of Automatic Speech Recognition (ASR), Sentence Boundary Detection (SBD) and Machine Translation (MT), among which the proposed SBD solution is major technical contribution, building on Deep Neural Network (DNN) and Word Vector (WV) and achieving state-of-the-art performance. Besides, a quantitative evaluation with dozens of volunteers is also introduced to measure how these auto-generated subtitles could actually help in context of e-lectures.

Secondly, a technical solution "TOG" (Tree-Structure Outline Generation) is proposed to extract textual content from the displaying slides recorded in video and re-organize them into a hierarchical lecture outline, which may serve in multiple functions, such like preview, navigation and retrieval. TOG runs adaptively and can be roughly divided into intra-slide and inter-slides phases. Table detection and lecture video segmentation can be implemented as sub- or post-application in these two phases respectively. Evaluation on diverse e-lectures shows that all the outlines, tables and segments achieved are trustworthily accurate.

Based on the subtitles and outlines previously created, lecture videos can be further split into sentence units and slide-based segment units. A lecture highlighting process is further applied on these units, in order to capture and mark the most important parts within the corresponding lecture, just as what people do with a pen when reading paper books. Sentence-level highlighting depends on the acoustic analysis on the audio track, while segment-level highlighting focuses on exploring clues from the statistical information of related transcripts and slide content. Both objective and subjective evaluations prove that the proposed lecture highlighting solution is with decent precision and welcomed by users.

All above enhanced e-lecture materials have been already implemented in actual use or made available for implementation by convenient interfaces.
N2  - In der Ära der mit Hochgeschwindigkeit digitalisierten und globalisierten Welt ist die Online-Bildung nicht mehr ein kunstvoller Begriff im Elfenbeinturm, sondern eine sich schnell entwickelnde Industrie, die für den Alltag der Menschen eine wichtige Rolle spielt. Zahlreiche Vorlesungen werden digital aufgezeichnet und im Internet Online zur Verfügung gestellt, so dass sie vom überall auf der Welt erreichbar und zugänglich sind. Sie werden als e-Vorlesungen bezeichnet. Eine neue Form der Online-Bildung namens „Massive Open Online Courses“ (MOOCs), welche zum Trend seit dem letzten Jahr geworden ist, verstärket und beschleunigt die Entwicklung des Online-Lernens.

Ein Online-Lernen Anbieter hat nicht nur die Qualität des Lerninhaltes sondern auch die Lernumgebung und die Lerntools ständig zu verbessern. Eine diese Verbesserungen ist die Form, in der das Lernmaterial aktualisiert und angeboten wird. Das Ziel dieser Dissertation ist die Untersuchung und die Entwicklung von Tools, die der Prozess der Verbesserung und Aktualisierung des Lernmaterials automatisch durchführen. Die entwickelten Tools sollen das Lehrerteam entlasten und seine Arbeit beschleunigen.

Der erste Teil der Dissertation besteht aus einem integrierten Framework für die Generierung von mehrsprachigen Untertiteln. Dies kann den Online-Lernern ermöglichen, die Sprachbarriere beim Lernen zu überwinden. Das Framework besteht aus „Automatic Speech Recognition“ (ASR), „Sentence Boundary Detection“ (SBD), und „Machine Translation“ (MT). SBD ist realisiert durch die Anwendung von „Deep Neural Network“ (DNN) und „Word Vector“ (WV), wodurch die Genauigkeit der Stand der Technik erreicht ist. Außerdem quantitative Bewertung durch Dutzende von Freiwilligen ist also eingesetzt, um zu evaluieren, wie diese automaisch generierten Untertiteln in den E-Vorlesungen helfen können.

Im zweiten Teil ist eine technische Lösung namens „Tree-Structure Outline Generation“ (TOG) für die Extraktion des textuellen Inhalts aus den Folien präsentiert. Der extrahierten Informationen werden dann in strukturierter Form dargestellt, welche die Outline der Vorlesung wiederspiegelt. Diese Darstellung kann verschiedenen Funktionen dienen, wie dem Vorschau, der Navigation, und dem Abfragen des Inhaltes. TOG ist adaptiv und kann grob in Intra-Folie und Inter-Folien Phasen unterteilt werden. Für diese Phasen, Tabellenerkennung und die Segmentierung von Vorlesungsvideo können als Sub- oder Post-Applikation jeweils implementiert werden. Die höhere Genauigkeit der extrahierten Outline, der Tabellen, und der Segmenten wird experimentell durch die Anwendung auf verschieden e-Vorlesungen gezeigt. 

Basierend auf den Untertiteln und dem Outline, die in vorher generiert wurden, Vorlesungsvideos können weiter in Satzeinheiten und Folien-basierten Segmenteinheiten gesplittet werden. Ein Hervorhebungsprozess wird weiter auf diese Einheiten angewendet, um die wichtigsten Teile innerhalb der entsprechenden Vorlesung zu erfassen und zu markieren. Dies entspricht genau, was die Lerner mit einem Stift beim Lesen von Büchern machen. Die Satz-Level-Hervorhebung hängt von der akustischen Analyse auf der Audiospur ab, während die Segment-Level-Hervorhebung auf die Erforschung von Hinweisen aus den statistischen Informationen der verwandten Transkripte und des Folieninhalts fokussiert. Die objektiven und subjektiven Auswertungen zeigen, dass die vorgeschlagene Vorlesungsvorhebungslösung mit anständiger Präzision und von den Benutzern akzeptiert wird. 

All diese Methoden für die Verbesserung der Online-Materialien wurden bereits für den Einsatz implementiert und durch komfortable Schnittstellen zur Verfügung gestellt.
KW  - E-Learning
KW  - deep learning
KW  - NLP
KW  - document analysis
KW  - E-Learning
KW  - Deep Learning
KW  - natürliche Sprachverarbeitung
KW  - Dokument Analyse
Y1  - 2017
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-408224
ER  - 
TY  - THES
A1  - Papenbrock, Thorsten
T1  - Data profiling - efficient discovery of dependencies
T1  - Profilerstellung für Daten - Effiziente Entdeckung von Abhängigkeiten
N2  - Data profiling is the computer science discipline of analyzing a given dataset for its metadata. The types of metadata range from basic statistics, such as tuple counts, column aggregations, and value distributions, to much more complex structures, in particular inclusion dependencies (INDs), unique column combinations (UCCs), and functional dependencies (FDs). If present, these statistics and structures serve to efficiently store, query, change, and understand the data. Most datasets, however, do not provide their metadata explicitly so that data scientists need to profile them. 

While basic statistics are relatively easy to calculate, more complex structures present difficult, mostly NP-complete discovery tasks; even with good domain knowledge, it is hardly possible to detect them manually. Therefore, various profiling algorithms have been developed to automate the discovery. None of them, however, can process datasets of typical real-world size, because their resource consumptions and/or execution times exceed effective limits. 

In this thesis, we propose novel profiling algorithms that automatically discover the three most popular types of complex metadata, namely INDs, UCCs, and FDs, which all describe different kinds of key dependencies. The task is to extract all valid occurrences from a given relational instance. The three algorithms build upon known techniques from related work and complement them with algorithmic paradigms, such as divide & conquer, hybrid search, progressivity, memory sensitivity, parallelization, and additional pruning to greatly improve upon current limitations. Our experiments show that the proposed algorithms are orders of magnitude faster than related work. They are, in particular, now able to process datasets of real-world, i.e., multiple gigabytes size with reasonable memory and time consumption.

Due to the importance of data profiling in practice, industry has built various profiling tools to support data scientists in their quest for metadata. These tools provide good support for basic statistics and they are also able to validate individual dependencies, but they lack real discovery features even though some fundamental discovery techniques are known for more than 15 years. To close this gap, we developed Metanome, an extensible profiling platform that incorporates not only our own algorithms but also many further algorithms from other researchers. With Metanome, we make our research accessible to all data scientists and IT-professionals that are tasked with data profiling. Besides the actual metadata discovery, the platform also offers support for the ranking and visualization of metadata result sets.

Being able to discover the entire set of syntactically valid metadata naturally introduces the subsequent task of extracting only the semantically meaningful parts. This is challenge, because the complete metadata results are surprisingly large (sometimes larger than the datasets itself) and judging their use case dependent semantic relevance is difficult. To show that the completeness of these metadata sets is extremely valuable for their usage, we finally exemplify the efficient processing and effective assessment of functional dependencies for the use case of schema normalization.
N2  - Data Profiling ist eine Disziplin der Informatik, die sich mit der Analyse von Datensätzen auf deren Metadaten beschäftigt. Die verschiedenen Typen von Metadaten reichen von einfachen Statistiken wie Tupelzahlen, Spaltenaggregationen und Wertverteilungen bis hin zu weit komplexeren Strukturen, insbesondere Inklusionsabhängigkeiten (INDs), eindeutige Spaltenkombinationen (UCCs) und funktionale Abhängigkeiten (FDs). Diese Statistiken und Strukturen dienen, sofern vorhanden, dazu die Daten effizient zu speichern, zu lesen, zu ändern und zu verstehen. Die meisten Datensätze stellen ihre Metadaten aber nicht explizit zur Verfügung, so dass Informatiker sie mittels Data Profiling bestimmen müssen.

Während einfache Statistiken noch relativ schnell zu berechnen sind, stellen die komplexen Strukturen schwere, zumeist NP-vollständige Entdeckungsaufgaben dar. Es ist daher auch mit gutem Domänenwissen in der Regel nicht möglich sie manuell zu entdecken. Aus diesem Grund wurden verschiedenste Profiling Algorithmen entwickelt, die die Entdeckung automatisieren. Keiner dieser Algorithmen kann allerdings Datensätze von heutzutage typischer Größe verarbeiten, weil entweder der Ressourcenverbrauch oder die Rechenzeit effektive Grenzen überschreiten.

In dieser Arbeit stellen wir neuartige Profiling Algorithmen vor, die automatisch die drei populärsten Typen komplexer Metadaten entdecken können, nämlich INDs, UCCs, und FDs, die alle unterschiedliche Formen von Schlüssel-Abhängigkeiten beschreiben. Die Aufgabe dieser Algorithmen ist es alle gültigen Vorkommen der drei Metadaten-Typen aus einer gegebenen relationalen Instanz zu extrahieren. Sie nutzen dazu bekannte Entdeckungstechniken aus verwandten Arbeiten und ergänzen diese um algorithmische Paradigmen wie Teile-und-Herrsche, hybrides Suchen, Progressivität, Speichersensibilität, Parallelisierung und zusätzliche Streichungsregeln. Unsere Experimente zeigen, dass die vorgeschlagenen Algorithmen mit den neuen Techniken nicht nur um Größenordnungen schneller sind als alle verwandten Arbeiten, sie erweitern auch aktuelle Beschränkungen deutlich. Sie können insbesondere nun Datensätze realer Größe, d.h. mehrerer Gigabyte Größe mit vernünftigem Speicher- und Zeitverbrauch verarbeiten.

Aufgrund der praktischen Relevanz von Data Profiling hat die Industrie verschiedene Profiling Werkzeuge entwickelt, die Informatiker in ihrer Suche nach Metadaten unterstützen sollen. Diese Werkzeuge bieten eine gute Unterstützung für die Berechnung einfacher Statistiken. Sie sind auch in der Lage einzelne Abhängigkeiten zu validieren, allerdings mangelt es ihnen an Funktionen zur echten Entdeckung von Metadaten, obwohl grundlegende Entdeckungstechniken schon mehr als 15 Jahre bekannt sind. Um diese Lücke zu schließen haben wir Metanome entwickelt, eine erweiterbare Profiling Plattform, die nicht nur unsere eigenen Algorithmen sondern auch viele weitere Algorithmen anderer Forscher integriert. Mit Metanome machen wir unsere Forschungsergebnisse für alle Informatiker und IT-Fachkräfte zugänglich, die ein modernes Data Profiling Werkzeug benötigen. Neben der tatsächlichen Metadaten-Entdeckung bietet die Plattform zusätzlich Unterstützung bei der Bewertung und Visualisierung gefundener Metadaten.

Alle syntaktisch korrekten Metadaten effizient finden zu können führt natürlicherweise zur Folgeaufgabe daraus nur die semantisch bedeutsamen Teile zu extrahieren. Das ist eine Herausforderung, weil zum einen die Mengen der gefundenen Metadaten überraschenderweise groß sind (manchmal größer als der untersuchte Datensatz selbst) und zum anderen die Entscheidung über die Anwendungsfall-spezifische semantische Relevanz einzelner Metadaten-Aussagen schwierig ist. Um zu zeigen, dass die Vollständigkeit der Metadaten sehr wertvoll für ihre Nutzung ist, veranschaulichen wir die effiziente Verarbeitung und effektive Bewertung von funktionalen Abhängigkeiten am Anwendungsfall Schema Normalisierung.
KW  - data profiling
KW  - functional dependency
KW  - unique column combination
KW  - inclusion dependency
KW  - dependency
KW  - metanome
KW  - metadata
KW  - discovery
KW  - hybrid
KW  - divide-and-conquer
KW  - Profilerstellung für Daten
KW  - funktionale Abhängigkeit
KW  - eindeutige Spaltenkombination
KW  - Inklusionsabhängigkeit
KW  - Abhängigkeit
KW  - Metanome
KW  - Metadaten
KW  - Entdeckung
KW  - Hybrid
KW  - Teile und Herrsche
Y1  - 2017
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-406705
ER  - 
TY  - GEN
A1  - Giese, Holger
A1  - Henkler, Stefan
A1  - Hirsch, Martin
T1  - A multi-paradigm approach supporting the modular execution of reconfigurable hybrid systems
N2  - Advanced mechatronic systems have to integrate existing technologies from mechanical, electrical and software engineering. They must be able to adapt their structure and behavior at runtime by reconfiguration to react flexibly to changes in the environment. Therefore, a tight integration of structural and behavioral models of the different domains is required. This integration results in complex reconfigurable hybrid systems, the execution logic of which cannot be addressed directly with existing standard modeling, simulation, and code-generation techniques. We present in this paper how our component-based approach for reconfigurable mechatronic systems, M ECHATRONIC UML, efficiently handles the complex interplay of discrete behavior and continuous behavior in a modular manner. In addition, its extension to even more flexible reconfiguration cases is presented.
T3  - Zweitveröffentlichungen der Universität Potsdam : Mathematisch-Naturwissenschaftliche Reihe - 410 
KW  - code generation
KW  - hybrid systems
KW  - reconfigurable systems
KW  - simulation
Y1  - 2017
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-402896
ER  -