TY - JOUR A1 - Dineva, Ekaterina Ivanova A1 - Verma, Meetu A1 - Gonzalez Manrique, Sergio Javier A1 - Schwartz, Pavol A1 - Denker, Carsten T1 - Cloud model inversions of strong chromospheric absorption lines using principal component analysis JF - Astronomische Nachrichten = Astronomical notes N2 - High-resolution spectroscopy of strong chromospheric absorption lines delivers nowadays several millions of spectra per observing day, when using fast scanning devices to cover large regions on the solar surface. Therefore, fast and robust inversion schemes are needed to explore the large data volume. Cloud model (CM) inversions of the chromospheric H alpha line are commonly employed to investigate various solar features including filaments, prominences, surges, jets, mottles, and (macro-) spicules. The choice of the CM was governed by its intuitive description of complex chromospheric structures as clouds suspended above the solar surface by magnetic fields. This study is based on observations of active region NOAA 11126 in H alpha, which were obtained November 18-23, 2010 with the echelle spectrograph of the vacuum tower telescope at the Observatorio del Teide, Spain. Principal component analysis reduces the dimensionality of spectra and conditions noise-stripped spectra for CM inversions. Modeled H alpha intensity and contrast profiles as well as CM parameters are collected in a database, which facilitates efficient processing of the observed spectra. Physical maps are computed representing the line-core and continuum intensity, absolute contrast, equivalent width, and Doppler velocities, among others. Noise-free spectra expedite the analysis of bisectors. The data processing is evaluated in the context of "big data," in particular with respect to automatic classification of spectra. KW - sun KW - activity - sun KW - atmosphere - sun KW - chromosphere - methods KW - data KW - analysis - techniques KW - spectroscopic - astronomical databases KW - miscellaneous Y1 - 2020 U6 - https://doi.org/10.1002/asna.202013652 SN - 0004-6337 SN - 1521-3994 VL - 341 IS - 1 SP - 64 EP - 78 PB - Wiley-VCH Verl. CY - Berlin ER - TY - JOUR A1 - van der Aa, Han A1 - Leopold, Henrik A1 - Weidlich, Matthias T1 - Partial order resolution of event logs for process conformance checking JF - Decision support systems : DSS N2 - While supporting the execution of business processes, information systems record event logs. Conformance checking relies on these logs to analyze whether the recorded behavior of a process conforms to the behavior of a normative specification. A key assumption of existing conformance checking techniques, however, is that all events are associated with timestamps that allow to infer a total order of events per process instance. Unfortunately, this assumption is often violated in practice. Due to synchronization issues, manual event recordings, or data corruption, events are only partially ordered. In this paper, we put forward the problem of partial order resolution of event logs to close this gap. It refers to the construction of a probability distribution over all possible total orders of events of an instance. To cope with the order uncertainty in real-world data, we present several estimators for this task, incorporating different notions of behavioral abstraction. Moreover, to reduce the runtime of conformance checking based on partial order resolution, we introduce an approximation method that comes with a bounded error in terms of accuracy. Our experiments with real-world and synthetic data reveal that our approach improves accuracy over the state-of-the-art considerably. KW - process mining KW - conformance checking KW - partial order resolution KW - data KW - uncertainty Y1 - 2020 U6 - https://doi.org/10.1016/j.dss.2020.113347 SN - 0167-9236 SN - 1873-5797 VL - 136 PB - Elsevier CY - Amsterdam [u.a.] ER - TY - JOUR A1 - Ilin, Ekaterina A1 - Poppenhäger, Katja A1 - Alvarado-Gómez, Julián David T1 - Localizing flares to understand stellar magnetic fields and space weather in exo-systems JF - Astronomische Nachrichten = Astronomical notes N2 - Stars are uniform spheres, but only to first order. The way in which stellar rotation and magnetism break this symmetry places important observational constraints on stellar magnetic fields, and factors in the assessment of the impact of stellar activity on exoplanet atmospheres. The spatial distribution of flares on the solar surface is well known to be nonuniform, but elusive on other stars. We briefly review the techniques available to recover the loci of stellar flares, and highlight a new method that enables systematic flare localization directly from optical light curves. We provide an estimate of the number of flares we may be able to localize with the Transiting Exoplanet Survey Satellite, and show that it is consistent with the results obtained from the first full sky scan of the mission. We suggest that nonuniform flare latitude distributions need to be taken into account in accurate assessments of exoplanet habitability. KW - stars KW - activity - stars KW - flare - stars KW - magnetic fields - methods KW - data KW - analysis Y1 - 2022 U6 - https://doi.org/10.1002/asna.20210111 SN - 1521-3994 VL - 343 IS - 4 PB - Berlin CY - Wiley-VCH ER - TY - RPRT A1 - Kuhlmann, Sabine A1 - Franzke, Jochen A1 - Dumas, Benoît Paul A1 - Heine, Moreen T1 - Daten als Grundlage für wissenschaftliche Politikberatung N2 - Die vorliegende Studie zeigt, dass Daten in der Krise eine herausragende Bedeutung für die wissenschaftliche Politikberatung, administrative Entscheidungsvorbereitung und politische Entscheidungsfindung haben. In der Krise gab es jedoch gravierende Kommunikationsprobleme und Unsicherheiten in der wechselseitigen Erwartungshaltung von wissenschaftlichen Datengebern und politisch-administrativen Datennutzern. Die Wissensakkumulation und Entscheidungsabwägung wurde außerdem durch eine unsichere und volatile Datenlage zum Pandemiegeschehen, verbunden mit einer dynamischen Lageentwicklung, erschwert. Nach wie vor sind das Bewusstsein und wechselseitige Verständnis für die spezifischen Rollenprofile der am wissenschaftlichen Politikberatungsprozess beteiligten Akteure sowie insbesondere deren Abgrenzung als unzureichend einzuschätzen. Die Studie hat darüber hinaus vielfältige Defizite hinsichtlich der Verfügbarkeit, Qualität, Zugänglichkeit, Teilbarkeit und Nutzbarkeit von Daten identifiziert, die Datenproduzenten und -verwender vor erhebliche Herausforderungen stellen und einen umfangreichen Reformbedarf aufzeigen, da zum einen wichtige Datenbestände für eine krisenbezogene Politikberatung fehlen. Zum anderen sind die Tiefenschärfe und Differenziertheit des verfügbaren Datenbestandes teilweise unzureichend. Dies gilt z.B. für sozialstrukturelle Daten zur Schwere der Pandemiebetroffenheit verschiedener Gruppen oder für kleinräumige Daten über Belastungs- und Kapazitätsparameter, etwa zur Personalabdeckung auf Intensivstationen, in Gesundheitsämtern und Pflegeeinrichtungen. Datendefizite sind ferner im Hinblick auf eine ganzheitliche Pandemiebeurteilung festzustellen, zum Beispiel bezüglich der Gesundheitseffekte im weiteren Sinne, die aufgrund der ergriffenen Maßnahmen entstanden sind (Verschiebung oder Wegfall von Operationen, Behandlungen und Prävention, aber auch häusliche Gewalt und psychische Belastungen). Mangels systematischer Begleitstudien und evaluativer Untersuchungen, u.a. auch zu lokalen Pilotprojekten und Experimenten, bestehen außerdem Datendefizite im Hinblick auf die Wirkungen von Eindämmungsmaßnahmen oder deren Aufhebung auf der gebietskörperschaftlichen Ebene. Insgesamt belegt die Studie, dass es zur Optimierung der datenbasierten Politikberatung und politischen Entscheidungsfindung in und außerhalb von Krisen nicht nur darum gehen kann, ein „Mehr“ an Daten zu produzieren sowie deren Qualität, Verknüpfung und Teilung zu verbessern. Vielmehr müssen auch die Anreizstrukturen und Interessenlagen in Politik, Verwaltung und Wissenschaft sowie die Kompetenzen, Handlungsorientierungen und kognitiv-kulturellen Prägungen der verschiedenen Akteure in den Blick genommen werden. Es müssten also Anreize gesetzt und Strukturen geschaffen werden, um das Interesse, den Willen und das Können (will and skill) zur Datennutzung auf Seiten politisch-administrativer Entscheider und zur Dateneinspeisung auf Seiten von Wissenschaftlern zu stärken. Neben adressatengerechter Informationsaufbereitung geht es dabei auch um die Gestaltung eines normativen und institutionellen Rahmens, innerhalb dessen die Nutzung von Daten für Entscheidungen effektiver, qualifizierter, aber auch transparenter, nachvollziehbarer und damit demokratisch legitimer erfolgen kann. Vor dem Hintergrund dieser empirischen Befunde werden acht Cluster von Optimierungsmaßnahmen vorgeschlagen: (1) Etablierung von Datenstrecken und Datenteams, (2) Schaffung regionaler Datenkompetenzzentren, (3) Stärkung von Data Literacy und Beschleunigung des Kulturwandels in der öffentlichen Verwaltung, (4) Datenstandardisierung, Interoperabilität und Registermodernisierung, (5) Ausbau von Public Data Pools und Open Data Nutzung, (6) Effektivere Verbindung von Datenschutz und Datennutzung, (7) Entwicklung eines hochfrequenten, repräsentativen Datensatzes, (8) Förderung der europäischen Daten-Zusammenarbeit. N2 - This study shows that data is of outstanding importance for scientific policy advice, administrative decision preparation and political decision-making in the crisis. During the crisis, however, there were serious communication problems and uncertainties in the mutual expectations of scientific data providers and political-administrative data users. Knowledge accumulation and decision-making were also hampered by uncertain and volatile data on the pandemic, combined with a dynamic development of the situation. Awareness and mutual understanding of the specific role profiles of the actors involved in the scientific policy advisory process, as well as their demarcation in particular, are still to be assessed as insufficient. The study has also identified a variety of deficits with regard to the availability, quality, accessibility, shareability and usability of data, which represent considerable challenges to data producers and users and reveal a need for extensive reform, since, on the one hand, important data sets for crisis-related policy advice are lacking. On the other hand, the depth of focus and differentiation of the available data stocks are partly insufficient. This applies, for example, to socio-structural data on the severity of the pandemic impact of different groups or to small-scale data on burden and capacity parameters, such as staffing levels in intensive care units, health offices and care facilities. There are also data deficits with regard to a holistic pandemic assessment, for example with regard to the health effects in a broader sense that have arisen as a result of the measures taken (postponement or discontinuation of operations, treatments and prevention, but also domestic violence and psychological stress). In the absence of systematic accompanying studies and evaluative research, there are also data deficits with regard to the effects of containment measures or their removal at the territorial level. Overall, the study shows that optimising data-based policy advice and political decision-making in times of crisis as well as between crises is not just a matter of producing "more" data and improving its quality, linkage and sharing. Rather, the incentive structures and interests in politics, administration and science as well as the competences, action orientations and cognitive-cultural imprints of the various actors must also be taken into account. Incentives must be set and structures have to be created in order to strengthen the interest, the will and the skill to use data. This does not only apply for political and administrative decision-makers, but also for academics who are needed to feed data into the system. In addition to preparing information in a way that is appropriate for the target group, this also involves designing a normative and institutional framework within which the use of data for decision-making can be more effective, more qualified, but also more transparent, more comprehensible and thus more democratically legitimate. Against the background of these empirical findings, eight clusters of optimisation measures are proposed: (1) Establishment of data routes and data teams, (2) Creation of regional data competence centres, (3) Strengthening data literacy and accelerating cultural transformation in public administration, (4) Data standardisation, interoperability and register modernisation, (5) Expanding public data pools and open data use, (6) Linking data protection and data use more effectively, (7) Development of a high-frequency, representative data set, (8) Promoting European data cooperation. KW - Politikberatung KW - Daten KW - Wissenschaft KW - COVID-19 KW - Krise KW - Pandemie KW - Digitalisierung KW - policy advice KW - data KW - science KW - COVID-19 KW - crisis KW - pandemic KW - digitalization Y1 - 2021 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-519683 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Khider, D. A1 - Emile-Geay, J. A1 - McKay, N. P. A1 - Gil, Y. A1 - Garijo, D. A1 - Ratnakar, V A1 - Alonso-Garcia, M. A1 - Bertrand, S. A1 - Bothe, O. A1 - Brewer, P. A1 - Bunn, A. A1 - Chevalier, M. A1 - Comas-Bru, L. A1 - Csank, A. A1 - Dassie, E. A1 - DeLong, K. A1 - Felis, T. A1 - Francus, P. A1 - Frappier, A. A1 - Gray, W. A1 - Goring, S. A1 - Jonkers, L. A1 - Kahle, M. A1 - Kaufman, D. A1 - Kehrwald, N. M. A1 - Martrat, B. A1 - McGregor, H. A1 - Richey, J. A1 - Schmittner, A. A1 - Scroxton, N. A1 - Sutherland, E. A1 - Thirumalai, Kaustubh A1 - Allen, K. A1 - Arnaud, F. A1 - Axford, Y. A1 - Barrows, T. A1 - Bazin, L. A1 - Birch, S. E. Pilaar A1 - Bradley, E. A1 - Bregy, J. A1 - Capron, E. A1 - Cartapanis, O. A1 - Chiang, H-W A1 - Cobb, K. M. A1 - Debret, M. A1 - Dommain, Réne A1 - Du, J. A1 - Dyez, K. A1 - Emerick, S. A1 - Erb, M. P. A1 - Falster, G. A1 - Finsinger, W. A1 - Fortier, D. A1 - Gauthier, Nicolas A1 - George, S. A1 - Grimm, E. A1 - Hertzberg, J. A1 - Hibbert, F. A1 - Hillman, A. A1 - Hobbs, W. A1 - Huber, M. A1 - Hughes, A. L. C. A1 - Jaccard, S. A1 - Ruan, J. A1 - Kienast, M. A1 - Konecky, B. A1 - Le Roux, G. A1 - Lyubchich, V A1 - Novello, V. F. A1 - Olaka, L. A1 - Partin, J. W. A1 - Pearce, C. A1 - Phipps, S. J. A1 - Pignol, C. A1 - Piotrowska, N. A1 - Poli, M-S A1 - Prokopenko, A. A1 - Schwanck, F. A1 - Stepanek, C. A1 - Swann, G. E. A. A1 - Telford, R. A1 - Thomas, E. A1 - Thomas, Z. A1 - Truebe, S. A1 - von Gunten, L. A1 - Waite, A. A1 - Weitzel, N. A1 - Wilhelm, B. A1 - Williams, J. A1 - Winstrup, M. A1 - Zhao, N. A1 - Zhou, Y. T1 - PaCTS 1.0: A Crowdsourced Reporting Standard for Paleoclimate Data JF - Paleoceanography and paleoclimatology N2 - The progress of science is tied to the standardization of measurements, instruments, and data. This is especially true in the Big Data age, where analyzing large data volumes critically hinges on the data being standardized. Accordingly, the lack of community-sanctioned data standards in paleoclimatology has largely precluded the benefits of Big Data advances in the field. Building upon recent efforts to standardize the format and terminology of paleoclimate data, this article describes the Paleoclimate Community reporTing Standard (PaCTS), a crowdsourced reporting standard for such data. PaCTS captures which information should be included when reporting paleoclimate data, with the goal of maximizing the reuse value of paleoclimate data sets, particularly for synthesis work and comparison to climate model simulations. Initiated by the LinkedEarth project, the process to elicit a reporting standard involved an international workshop in 2016, various forms of digital community engagement over the next few years, and grassroots working groups. Participants in this process identified important properties across paleoclimate archives, in addition to the reporting of uncertainties and chronologies; they also identified archive-specific properties and distinguished reporting standards for new versus legacy data sets. This work shows that at least 135 respondents overwhelmingly support a drastic increase in the amount of metadata accompanying paleoclimate data sets. Since such goals are at odds with present practices, we discuss a transparent path toward implementing or revising these recommendations in the near future, using both bottom-up and top-down approaches. KW - standards KW - FAIR KW - paleoclimate KW - paleoceanography KW - data KW - best practices Y1 - 2019 U6 - https://doi.org/10.1029/2019PA003632 SN - 2572-4517 SN - 2572-4525 VL - 34 IS - 10 SP - 1570 EP - 1596 PB - American Geophysical Union CY - Washington ER - TY - THES A1 - Meyer, Andreas T1 - Data perspective in business process management T1 - Daten im Geschäftsprozessmanagement BT - the role of data for process modeling, analysis, and execution BT - ihre Rolle für Prozessmodellierung, -analyse und -ausführung N2 - Geschäftsprozessmanagement ist ein strukturierter Ansatz zur Modellierung, Analyse, Steuerung und Ausführung von Geschäftsprozessen, um Geschäftsziele zu erreichen. Es stützt sich dabei auf konzeptionelle Modelle, von denen Prozessmodelle am weitesten verbreitet sind. Prozessmodelle beschreiben wer welche Aufgabe auszuführen hat, um das Geschäftsziel zu erreichen, und welche Informationen dafür benötigt werden. Damit beinhalten Prozessmodelle Informationen über den Kontrollfluss, die Zuweisung von Verantwortlichkeiten, den Datenfluss und Informationssysteme. Die Automatisierung von Geschäftsprozessen erhöht die Effizienz der Arbeitserledigung und wird durch Process Engines unterstützt. Dafür werden jedoch Informationen über den Kontrollfluss, die Zuweisung von Verantwortlichkeiten für Aufgaben und den Datenfluss benötigt. Während aktuelle Process Engines die ersten beiden Informationen weitgehend automatisiert verarbeiten können, müssen Daten manuell implementiert und gewartet werden. Dem entgegen verspricht ein modell-getriebenes Behandeln von Daten eine vereinfachte Implementation in der Process Engine und verringert gleichzeitig die Fehleranfälligkeit dank einer graphischen Visualisierung und reduziert den Entwicklungsaufwand durch Codegenerierung. Die vorliegende Dissertation beschäftigt sich mit der Modellierung, der Analyse und der Ausführung von Daten in Geschäftsprozessen. Als formale Basis für die Prozessausführung wird ein konzeptuelles Framework für die Integration von Prozessen und Daten eingeführt. Dieses Framework wird durch operationelle Semantik ergänzt, die mittels einem um Daten erweiterten Petrinetz-Mapping vorgestellt wird. Die modellgetriebene Ausführung von Daten muss komplexe Datenabhängigkeiten, Prozessdaten und den Datenaustausch berücksichtigen. Letzterer tritt bei der Kommunikation zwischen mehreren Prozessteilnehmern auf. Diese Arbeit nutzt Konzepte aus dem Bereich der Datenbanken und überführt diese ins Geschäftsprozessmanagement, um Datenoperationen zu unterscheiden, um Abhängigkeiten zwischen Datenobjekten des gleichen und verschiedenen Typs zu spezifizieren, um modellierte Datenknoten sowie empfangene Nachrichten zur richtigen laufenden Prozessinstanz zu korrelieren und um Nachrichten für die Prozessübergreifende Kommunikation zu generieren. Der entsprechende Ansatz ist nicht auf eine bestimmte Prozessbeschreibungssprache begrenzt und wurde prototypisch implementiert. Die Automatisierung der Datenbehandlung in Geschäftsprozessen erfordert entsprechend annotierte und korrekte Prozessmodelle. Als Unterstützung zur Datenannotierung führt diese Arbeit einen Algorithmus ein, welcher Informationen über Datenknoten, deren Zustände und Datenabhängigkeiten aus Kontrollflussinformationen extrahiert und die Prozessmodelle entsprechend annotiert. Allerdings können gewöhnlich nicht alle erforderlichen Informationen aus Kontrollflussinformationen extrahiert werden, da detaillierte Angaben über mögliche Datenmanipulationen fehlen. Deshalb sind weitere Prozessmodellverfeinerungen notwendig. Basierend auf einer Menge von Objektlebenszyklen kann ein Prozessmodell derart verfeinert werden, dass die in den Objektlebenszyklen spezifizierten Datenmanipulationen automatisiert in ein Prozessmodell überführt werden können. Prozessmodelle stellen eine Abstraktion dar. Somit fokussieren sie auf verschiedene Teilbereiche und stellen diese im Detail dar. Solche Detailbereiche sind beispielsweise die Kontrollflusssicht und die Datenflusssicht, welche oft durch Aktivitäts-zentrierte beziehungsweise Objekt-zentrierte Prozessmodelle abgebildet werden. In der vorliegenden Arbeit werden Algorithmen zur Transformation zwischen diesen Sichten beschrieben. Zur Sicherstellung der Modellkorrektheit wird das Konzept der „weak conformance“ zur Überprüfung der Konsistenz zwischen Objektlebenszyklen und dem Prozessmodell eingeführt. Dabei darf das Prozessmodell nur Datenmanipulationen enthalten, die auch in einem Objektlebenszyklus spezifiziert sind. Die Korrektheit wird mittels Soundness-Überprüfung einer hybriden Darstellung ermittelt, so dass Kontrollfluss- und Datenkorrektheit integriert überprüft werden. Um eine korrekte Ausführung des Prozessmodells zu gewährleisten, müssen gefundene Inkonsistenzen korrigiert werden. Dafür werden für jede Inkonsistenz alternative Vorschläge zur Modelladaption identifiziert und vorgeschlagen. Zusammengefasst, unter Einsatz der Ergebnisse dieser Dissertation können Geschäftsprozesse modellgetrieben ausgeführt werden unter Berücksichtigung sowohl von Daten als auch den zuvor bereits unterstützten Perspektiven bezüglich Kontrollfluss und Verantwortlichkeiten. Dabei wird die Modellerstellung teilweise mit automatisierten Algorithmen unterstützt und die Modellkonsistenz durch Datenkorrektheitsüberprüfungen gewährleistet. N2 - Business process management (BPM) is a systematic and structured approach to model, analyze, control, and execute business operations also referred to as business processes that get carried out to achieve business goals. Central to BPM are conceptual models. Most prominently, process models describe which tasks are to be executed by whom utilizing which information to reach a business goal. Process models generally cover the perspectives of control flow, resource, data flow, and information systems. Execution of business processes leads to the work actually being carried out. Automating them increases the efficiency and is usually supported by process engines. This, though, requires the coverage of control flow, resource assignments, and process data. While the first two perspectives are well supported in current process engines, data handling needs to be implemented and maintained manually. However, model-driven data handling promises to ease implementation, reduces the error-proneness through graphical visualization, and reduces development efforts through code generation. This thesis addresses the modeling, analysis, and execution of data in business processes and presents a novel approach to execute data-annotated process models entirely model-driven. As a first step and formal grounding for the process execution, a conceptual framework for the integration of processes and data is introduced. This framework is complemented by operational semantics through a Petri net mapping extended with data considerations. Model-driven data execution comprises the handling of complex data dependencies, process data, and data exchange in case of communication between multiple process participants. This thesis introduces concepts from the database domain into BPM to enable the distinction of data operations, to specify relations between data objects of the same as well as of different types, to correlate modeled data nodes as well as received messages to the correct run-time process instances, and to generate messages for inter-process communication. The underlying approach, which is not limited to a particular process description language, has been implemented as proof-of-concept. Automation of data handling in business processes requires data-annotated and correct process models. Targeting the former, algorithms are introduced to extract information about data nodes, their states, and data dependencies from control information and to annotate the process model accordingly. Usually, not all required information can be extracted from control flow information, since some data manipulations are not specified. This requires further refinement of the process model. Given a set of object life cycles specifying allowed data manipulations, automated refinement of the process model towards containment of all data manipulations is enabled. Process models are an abstraction focusing on specific aspects in detail, e.g., the control flow and the data flow views are often represented through activity-centric and object-centric process models. This thesis introduces algorithms for roundtrip transformations enabling the stakeholder to add information to the process model in the view being most appropriate. Targeting process model correctness, this thesis introduces the notion of weak conformance that checks for consistency between given object life cycles and the process model such that the process model may only utilize data manipulations specified directly or indirectly in an object life cycle. The notion is computed via soundness checking of a hybrid representation integrating control flow and data flow correctness checking. Making a process model executable, identified violations must be corrected. Therefore, an approach is proposed that identifies for each violation multiple, alternative changes to the process model or the object life cycles. Utilizing the results of this thesis, business processes can be executed entirely model-driven from the data perspective in addition to the control flow and resource perspectives already supported before. Thereby, the model creation is supported by algorithms partly automating the creation process while model consistency is ensured by data correctness checks. KW - business process management KW - process automation KW - model-driven KW - data KW - data objects KW - model transformation KW - data correctness checking KW - process refinement KW - data extraction KW - data states KW - formal framework KW - process and data integration KW - Geschäftsprozessmanagement KW - Prozessautomatisierung KW - Modellgetrieben KW - Daten KW - Datenobjekte KW - Modelltransformation KW - Datenkorrektheit KW - Prozessverfeinerung KW - Datenextraktion KW - Datenzustände KW - formales Framework KW - Prozess- und Datenintegration Y1 - 2015 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-84806 ER - TY - THES A1 - Heise, Arvid T1 - Data cleansing and integration operators for a parallel data analytics platform T1 - Datenreinigungs- und Integrationsoperatoren für ein paralles Datenanalyseframework N2 - The data quality of real-world datasets need to be constantly monitored and maintained to allow organizations and individuals to reliably use their data. Especially, data integration projects suffer from poor initial data quality and as a consequence consume more effort and money. Commercial products and research prototypes for data cleansing and integration help users to improve the quality of individual and combined datasets. They can be divided into either standalone systems or database management system (DBMS) extensions. On the one hand, standalone systems do not interact well with DBMS and require time-consuming data imports and exports. On the other hand, DBMS extensions are often limited by the underlying system and do not cover the full set of data cleansing and integration tasks. We overcome both limitations by implementing a concise set of five data cleansing and integration operators on the parallel data analytics platform Stratosphere. We define the semantics of the operators, present their parallel implementation, and devise optimization techniques for individual operators and combinations thereof. Users specify declarative queries in our query language METEOR with our new operators to improve the data quality of individual datasets or integrate them to larger datasets. By integrating the data cleansing operators into the higher level language layer of Stratosphere, users can easily combine cleansing operators with operators from other domains, such as information extraction, to complex data flows. Through a generic description of the operators, the Stratosphere optimizer reorders operators even from different domains to find better query plans. As a case study, we reimplemented a part of the large Open Government Data integration project GovWILD with our new operators and show that our queries run significantly faster than the original GovWILD queries, which rely on relational operators. Evaluation reveals that our operators exhibit good scalability on up to 100 cores, so that even larger inputs can be efficiently processed by scaling out to more machines. Finally, our scripts are considerably shorter than the original GovWILD scripts, which results in better maintainability of the scripts. N2 - Die Datenqualität von Realweltdaten muss ständig überwacht und gewartet werden, damit Organisationen und Individuen ihre Daten verlässlich nutzen können. Besonders Datenintegrationsprojekte leiden unter schlechter Datenqualität in den Quelldaten und benötigen somit mehr Zeit und Geld. Kommerzielle Produkte und Forschungsprototypen helfen Nutzern die Qualität in einzelnen und kombinierten Datensätzen zu verbessern. Die Systeme können in selbständige Systeme und Erweiterungen von bestehenden Datenbankmanagementsystemen (DBMS) unterteilt werden. Auf der einen Seite interagieren selbständige Systeme nicht gut mit DBMS und brauchen zeitaufwändigen Datenimport und -export. Auf der anderen Seite sind die DBMS Erweiterungen häufig durch das unterliegende System limitiert und unterstützen nicht die gesamte Bandbreite an Datenreinigungs- und -integrationsaufgaben. Wir überwinden beide Limitationen, indem wir eine Menge von häufig benötigten Datenreinigungs- und Datenintegrationsoperatoren direkt in der parallelen Datenanalyseplattform Stratosphere implementieren. Wir definieren die Semantik der Operatoren, präsentieren deren parallele Implementierung und entwickeln Optimierungstechniken für die einzelnen und mehrere Operatoren. Nutzer können deklarative Anfragen in unserer Anfragesprache METEOR mit unseren neuen Operatoren formulieren, um die Datenqualität von einzelnen Datensätzen zu erhöhen, oder um sie zu größeren Datensätzen zu integrieren. Durch die Integration der Operatoren in die Hochsprachenschicht von Stratosphere können Nutzer Datenreinigungsoperatoren einfach mit Operatoren aus anderen Domänen wie Informationsextraktion zu komplexen Datenflüssen kombinieren. Da Stratosphere Operatoren durch generische Beschreibungen in den Optimierer integriert werden, ist es für den Optimierer sogar möglich Operatoren unterschiedlicher Domänen zu vertauschen, um besseren Anfrageplänen zu ermitteln. Für eine Fallstudie haben wir Teile des großen Datenintegrationsprojektes GovWILD auf Stratosphere mit den neuen Operatoren nachimplementiert und zeigen, dass unsere Anfragen signifikant schneller laufen als die originalen GovWILD Anfragen, die sich auf relationale Operatoren verlassen. Die Evaluation zeigt, dass unsere Operatoren gut auf bis zu 100 Kernen skalieren, sodass sogar größere Datensätze effizient verarbeitet werden können, indem die Anfragen auf mehr Maschinen ausgeführt werden. Schließlich sind unsere Skripte erheblich kürzer als die originalen GovWILD Skripte, was in besserer Wartbarkeit unserer Skripte resultiert. KW - data KW - cleansing KW - holistic KW - parallel KW - map reduce KW - Datenreinigung KW - Datenintegration KW - ganzheitlich KW - parallel KW - map reduce Y1 - 2014 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-77100 ER -