@article{DinevaVermaGonzalezManriqueetal.2020, author = {Dineva, Ekaterina Ivanova and Verma, Meetu and Gonzalez Manrique, Sergio Javier and Schwartz, Pavol and Denker, Carsten}, title = {Cloud model inversions of strong chromospheric absorption lines using principal component analysis}, series = {Astronomische Nachrichten = Astronomical notes}, volume = {341}, journal = {Astronomische Nachrichten = Astronomical notes}, number = {1}, publisher = {Wiley-VCH Verl.}, address = {Berlin}, issn = {0004-6337}, doi = {10.1002/asna.202013652}, pages = {64 -- 78}, year = {2020}, abstract = {High-resolution spectroscopy of strong chromospheric absorption lines delivers nowadays several millions of spectra per observing day, when using fast scanning devices to cover large regions on the solar surface. Therefore, fast and robust inversion schemes are needed to explore the large data volume. Cloud model (CM) inversions of the chromospheric H alpha line are commonly employed to investigate various solar features including filaments, prominences, surges, jets, mottles, and (macro-) spicules. The choice of the CM was governed by its intuitive description of complex chromospheric structures as clouds suspended above the solar surface by magnetic fields. This study is based on observations of active region NOAA 11126 in H alpha, which were obtained November 18-23, 2010 with the echelle spectrograph of the vacuum tower telescope at the Observatorio del Teide, Spain. Principal component analysis reduces the dimensionality of spectra and conditions noise-stripped spectra for CM inversions. Modeled H alpha intensity and contrast profiles as well as CM parameters are collected in a database, which facilitates efficient processing of the observed spectra. Physical maps are computed representing the line-core and continuum intensity, absolute contrast, equivalent width, and Doppler velocities, among others. Noise-free spectra expedite the analysis of bisectors. The data processing is evaluated in the context of "big data," in particular with respect to automatic classification of spectra.}, language = {en} } @article{vanderAaLeopoldWeidlich2020, author = {van der Aa, Han and Leopold, Henrik and Weidlich, Matthias}, title = {Partial order resolution of event logs for process conformance checking}, series = {Decision support systems : DSS}, volume = {136}, journal = {Decision support systems : DSS}, publisher = {Elsevier}, address = {Amsterdam [u.a.]}, issn = {0167-9236}, doi = {10.1016/j.dss.2020.113347}, pages = {12}, year = {2020}, abstract = {While supporting the execution of business processes, information systems record event logs. Conformance checking relies on these logs to analyze whether the recorded behavior of a process conforms to the behavior of a normative specification. A key assumption of existing conformance checking techniques, however, is that all events are associated with timestamps that allow to infer a total order of events per process instance. Unfortunately, this assumption is often violated in practice. Due to synchronization issues, manual event recordings, or data corruption, events are only partially ordered. In this paper, we put forward the problem of partial order resolution of event logs to close this gap. It refers to the construction of a probability distribution over all possible total orders of events of an instance. To cope with the order uncertainty in real-world data, we present several estimators for this task, incorporating different notions of behavioral abstraction. Moreover, to reduce the runtime of conformance checking based on partial order resolution, we introduce an approximation method that comes with a bounded error in terms of accuracy. Our experiments with real-world and synthetic data reveal that our approach improves accuracy over the state-of-the-art considerably.}, language = {en} } @article{IlinPoppenhaegerAlvaradoGomez2022, author = {Ilin, Ekaterina and Poppenh{\"a}ger, Katja and Alvarado-G{\´o}mez, Juli{\´a}n David}, title = {Localizing flares to understand stellar magnetic fields and space weather in exo-systems}, series = {Astronomische Nachrichten = Astronomical notes}, volume = {343}, journal = {Astronomische Nachrichten = Astronomical notes}, number = {4}, publisher = {Berlin}, address = {Wiley-VCH}, issn = {1521-3994}, doi = {10.1002/asna.20210111}, pages = {7}, year = {2022}, abstract = {Stars are uniform spheres, but only to first order. The way in which stellar rotation and magnetism break this symmetry places important observational constraints on stellar magnetic fields, and factors in the assessment of the impact of stellar activity on exoplanet atmospheres. The spatial distribution of flares on the solar surface is well known to be nonuniform, but elusive on other stars. We briefly review the techniques available to recover the loci of stellar flares, and highlight a new method that enables systematic flare localization directly from optical light curves. We provide an estimate of the number of flares we may be able to localize with the Transiting Exoplanet Survey Satellite, and show that it is consistent with the results obtained from the first full sky scan of the mission. We suggest that nonuniform flare latitude distributions need to be taken into account in accurate assessments of exoplanet habitability.}, language = {en} } @techreport{KuhlmannFranzkeDumasetal.2021, author = {Kuhlmann, Sabine and Franzke, Jochen and Dumas, Beno{\^i}t Paul and Heine, Moreen}, title = {Daten als Grundlage f{\"u}r wissenschaftliche Politikberatung}, publisher = {Universit{\"a}tsverlag Potsdam}, address = {Potsdam}, doi = {10.25932/publishup-51968}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus4-519683}, pages = {67}, year = {2021}, abstract = {Die vorliegende Studie zeigt, dass Daten in der Krise eine herausragende Bedeutung f{\"u}r die wissenschaftliche Politikberatung, administrative Entscheidungsvorbereitung und politische Entscheidungsfindung haben. In der Krise gab es jedoch gravierende Kommunikationsprobleme und Unsicherheiten in der wechselseitigen Erwartungshaltung von wissenschaftlichen Datengebern und politisch-administrativen Datennutzern. Die Wissensakkumulation und Entscheidungsabw{\"a}gung wurde außerdem durch eine unsichere und volatile Datenlage zum Pandemiegeschehen, verbunden mit einer dynamischen Lageentwicklung, erschwert. Nach wie vor sind das Bewusstsein und wechselseitige Verst{\"a}ndnis f{\"u}r die spezifischen Rollenprofile der am wissenschaftlichen Politikberatungsprozess beteiligten Akteure sowie insbesondere deren Abgrenzung als unzureichend einzusch{\"a}tzen. Die Studie hat dar{\"u}ber hinaus vielf{\"a}ltige Defizite hinsichtlich der Verf{\"u}gbarkeit, Qualit{\"a}t, Zug{\"a}nglichkeit, Teilbarkeit und Nutzbarkeit von Daten identifiziert, die Datenproduzenten und -verwender vor erhebliche Herausforderungen stellen und einen umfangreichen Reformbedarf aufzeigen, da zum einen wichtige Datenbest{\"a}nde f{\"u}r eine krisenbezogene Politikberatung fehlen. Zum anderen sind die Tiefensch{\"a}rfe und Differenziertheit des verf{\"u}gbaren Datenbestandes teilweise unzureichend. Dies gilt z.B. f{\"u}r sozialstrukturelle Daten zur Schwere der Pandemiebetroffenheit verschiedener Gruppen oder f{\"u}r kleinr{\"a}umige Daten {\"u}ber Belastungs- und Kapazit{\"a}tsparameter, etwa zur Personalabdeckung auf Intensivstationen, in Gesundheits{\"a}mtern und Pflegeeinrichtungen. Datendefizite sind ferner im Hinblick auf eine ganzheitliche Pandemiebeurteilung festzustellen, zum Beispiel bez{\"u}glich der Gesundheitseffekte im weiteren Sinne, die aufgrund der ergriffenen Maßnahmen entstanden sind (Verschiebung oder Wegfall von Operationen, Behandlungen und Pr{\"a}vention, aber auch h{\"a}usliche Gewalt und psychische Belastungen). Mangels systematischer Begleitstudien und evaluativer Untersuchungen, u.a. auch zu lokalen Pilotprojekten und Experimenten, bestehen außerdem Datendefizite im Hinblick auf die Wirkungen von Eind{\"a}mmungsmaßnahmen oder deren Aufhebung auf der gebietsk{\"o}rperschaftlichen Ebene. Insgesamt belegt die Studie, dass es zur Optimierung der datenbasierten Politikberatung und politischen Entscheidungsfindung in und außerhalb von Krisen nicht nur darum gehen kann, ein „Mehr" an Daten zu produzieren sowie deren Qualit{\"a}t, Verkn{\"u}pfung und Teilung zu verbessern. Vielmehr m{\"u}ssen auch die Anreizstrukturen und Interessenlagen in Politik, Verwaltung und Wissenschaft sowie die Kompetenzen, Handlungsorientierungen und kognitiv-kulturellen Pr{\"a}gungen der verschiedenen Akteure in den Blick genommen werden. Es m{\"u}ssten also Anreize gesetzt und Strukturen geschaffen werden, um das Interesse, den Willen und das K{\"o}nnen (will and skill) zur Datennutzung auf Seiten politisch-administrativer Entscheider und zur Dateneinspeisung auf Seiten von Wissenschaftlern zu st{\"a}rken. Neben adressatengerechter Informationsaufbereitung geht es dabei auch um die Gestaltung eines normativen und institutionellen Rahmens, innerhalb dessen die Nutzung von Daten f{\"u}r Entscheidungen effektiver, qualifizierter, aber auch transparenter, nachvollziehbarer und damit demokratisch legitimer erfolgen kann. Vor dem Hintergrund dieser empirischen Befunde werden acht Cluster von Optimierungsmaßnahmen vorgeschlagen: (1) Etablierung von Datenstrecken und Datenteams, (2) Schaffung regionaler Datenkompetenzzentren, (3) St{\"a}rkung von Data Literacy und Beschleunigung des Kulturwandels in der {\"o}ffentlichen Verwaltung, (4) Datenstandardisierung, Interoperabilit{\"a}t und Registermodernisierung, (5) Ausbau von Public Data Pools und Open Data Nutzung, (6) Effektivere Verbindung von Datenschutz und Datennutzung, (7) Entwicklung eines hochfrequenten, repr{\"a}sentativen Datensatzes, (8) F{\"o}rderung der europ{\"a}ischen Daten-Zusammenarbeit.}, language = {de} } @article{KhiderEmileGeayMcKayetal.2019, author = {Khider, D. and Emile-Geay, J. and McKay, N. P. and Gil, Y. and Garijo, D. and Ratnakar, V and Alonso-Garcia, M. and Bertrand, S. and Bothe, O. and Brewer, P. and Bunn, A. and Chevalier, M. and Comas-Bru, L. and Csank, A. and Dassie, E. and DeLong, K. and Felis, T. and Francus, P. and Frappier, A. and Gray, W. and Goring, S. and Jonkers, L. and Kahle, M. and Kaufman, D. and Kehrwald, N. M. and Martrat, B. and McGregor, H. and Richey, J. and Schmittner, A. and Scroxton, N. and Sutherland, E. and Thirumalai, Kaustubh and Allen, K. and Arnaud, F. and Axford, Y. and Barrows, T. and Bazin, L. and Birch, S. E. Pilaar and Bradley, E. and Bregy, J. and Capron, E. and Cartapanis, O. and Chiang, H-W and Cobb, K. M. and Debret, M. and Dommain, R{\´e}ne and Du, J. and Dyez, K. and Emerick, S. and Erb, M. P. and Falster, G. and Finsinger, W. and Fortier, D. and Gauthier, Nicolas and George, S. and Grimm, E. and Hertzberg, J. and Hibbert, F. and Hillman, A. and Hobbs, W. and Huber, M. and Hughes, A. L. C. and Jaccard, S. and Ruan, J. and Kienast, M. and Konecky, B. and Le Roux, G. and Lyubchich, V and Novello, V. F. and Olaka, L. and Partin, J. W. and Pearce, C. and Phipps, S. J. and Pignol, C. and Piotrowska, N. and Poli, M-S and Prokopenko, A. and Schwanck, F. and Stepanek, C. and Swann, G. E. A. and Telford, R. and Thomas, E. and Thomas, Z. and Truebe, S. and von Gunten, L. and Waite, A. and Weitzel, N. and Wilhelm, B. and Williams, J. and Winstrup, M. and Zhao, N. and Zhou, Y.}, title = {PaCTS 1.0: A Crowdsourced Reporting Standard for Paleoclimate Data}, series = {Paleoceanography and paleoclimatology}, volume = {34}, journal = {Paleoceanography and paleoclimatology}, number = {10}, publisher = {American Geophysical Union}, address = {Washington}, issn = {2572-4517}, doi = {10.1029/2019PA003632}, pages = {1570 -- 1596}, year = {2019}, abstract = {The progress of science is tied to the standardization of measurements, instruments, and data. This is especially true in the Big Data age, where analyzing large data volumes critically hinges on the data being standardized. Accordingly, the lack of community-sanctioned data standards in paleoclimatology has largely precluded the benefits of Big Data advances in the field. Building upon recent efforts to standardize the format and terminology of paleoclimate data, this article describes the Paleoclimate Community reporTing Standard (PaCTS), a crowdsourced reporting standard for such data. PaCTS captures which information should be included when reporting paleoclimate data, with the goal of maximizing the reuse value of paleoclimate data sets, particularly for synthesis work and comparison to climate model simulations. Initiated by the LinkedEarth project, the process to elicit a reporting standard involved an international workshop in 2016, various forms of digital community engagement over the next few years, and grassroots working groups. Participants in this process identified important properties across paleoclimate archives, in addition to the reporting of uncertainties and chronologies; they also identified archive-specific properties and distinguished reporting standards for new versus legacy data sets. This work shows that at least 135 respondents overwhelmingly support a drastic increase in the amount of metadata accompanying paleoclimate data sets. Since such goals are at odds with present practices, we discuss a transparent path toward implementing or revising these recommendations in the near future, using both bottom-up and top-down approaches.}, language = {en} } @phdthesis{Meyer2015, author = {Meyer, Andreas}, title = {Data perspective in business process management}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus4-84806}, school = {Universit{\"a}t Potsdam}, pages = {xxi, 362}, year = {2015}, abstract = {Gesch{\"a}ftsprozessmanagement ist ein strukturierter Ansatz zur Modellierung, Analyse, Steuerung und Ausf{\"u}hrung von Gesch{\"a}ftsprozessen, um Gesch{\"a}ftsziele zu erreichen. Es st{\"u}tzt sich dabei auf konzeptionelle Modelle, von denen Prozessmodelle am weitesten verbreitet sind. Prozessmodelle beschreiben wer welche Aufgabe auszuf{\"u}hren hat, um das Gesch{\"a}ftsziel zu erreichen, und welche Informationen daf{\"u}r ben{\"o}tigt werden. Damit beinhalten Prozessmodelle Informationen {\"u}ber den Kontrollfluss, die Zuweisung von Verantwortlichkeiten, den Datenfluss und Informationssysteme. Die Automatisierung von Gesch{\"a}ftsprozessen erh{\"o}ht die Effizienz der Arbeitserledigung und wird durch Process Engines unterst{\"u}tzt. Daf{\"u}r werden jedoch Informationen {\"u}ber den Kontrollfluss, die Zuweisung von Verantwortlichkeiten f{\"u}r Aufgaben und den Datenfluss ben{\"o}tigt. W{\"a}hrend aktuelle Process Engines die ersten beiden Informationen weitgehend automatisiert verarbeiten k{\"o}nnen, m{\"u}ssen Daten manuell implementiert und gewartet werden. Dem entgegen verspricht ein modell-getriebenes Behandeln von Daten eine vereinfachte Implementation in der Process Engine und verringert gleichzeitig die Fehleranf{\"a}lligkeit dank einer graphischen Visualisierung und reduziert den Entwicklungsaufwand durch Codegenerierung. Die vorliegende Dissertation besch{\"a}ftigt sich mit der Modellierung, der Analyse und der Ausf{\"u}hrung von Daten in Gesch{\"a}ftsprozessen. Als formale Basis f{\"u}r die Prozessausf{\"u}hrung wird ein konzeptuelles Framework f{\"u}r die Integration von Prozessen und Daten eingef{\"u}hrt. Dieses Framework wird durch operationelle Semantik erg{\"a}nzt, die mittels einem um Daten erweiterten Petrinetz-Mapping vorgestellt wird. Die modellgetriebene Ausf{\"u}hrung von Daten muss komplexe Datenabh{\"a}ngigkeiten, Prozessdaten und den Datenaustausch ber{\"u}cksichtigen. Letzterer tritt bei der Kommunikation zwischen mehreren Prozessteilnehmern auf. Diese Arbeit nutzt Konzepte aus dem Bereich der Datenbanken und {\"u}berf{\"u}hrt diese ins Gesch{\"a}ftsprozessmanagement, um Datenoperationen zu unterscheiden, um Abh{\"a}ngigkeiten zwischen Datenobjekten des gleichen und verschiedenen Typs zu spezifizieren, um modellierte Datenknoten sowie empfangene Nachrichten zur richtigen laufenden Prozessinstanz zu korrelieren und um Nachrichten f{\"u}r die Prozess{\"u}bergreifende Kommunikation zu generieren. Der entsprechende Ansatz ist nicht auf eine bestimmte Prozessbeschreibungssprache begrenzt und wurde prototypisch implementiert. Die Automatisierung der Datenbehandlung in Gesch{\"a}ftsprozessen erfordert entsprechend annotierte und korrekte Prozessmodelle. Als Unterst{\"u}tzung zur Datenannotierung f{\"u}hrt diese Arbeit einen Algorithmus ein, welcher Informationen {\"u}ber Datenknoten, deren Zust{\"a}nde und Datenabh{\"a}ngigkeiten aus Kontrollflussinformationen extrahiert und die Prozessmodelle entsprechend annotiert. Allerdings k{\"o}nnen gew{\"o}hnlich nicht alle erforderlichen Informationen aus Kontrollflussinformationen extrahiert werden, da detaillierte Angaben {\"u}ber m{\"o}gliche Datenmanipulationen fehlen. Deshalb sind weitere Prozessmodellverfeinerungen notwendig. Basierend auf einer Menge von Objektlebenszyklen kann ein Prozessmodell derart verfeinert werden, dass die in den Objektlebenszyklen spezifizierten Datenmanipulationen automatisiert in ein Prozessmodell {\"u}berf{\"u}hrt werden k{\"o}nnen. Prozessmodelle stellen eine Abstraktion dar. Somit fokussieren sie auf verschiedene Teilbereiche und stellen diese im Detail dar. Solche Detailbereiche sind beispielsweise die Kontrollflusssicht und die Datenflusssicht, welche oft durch Aktivit{\"a}ts-zentrierte beziehungsweise Objekt-zentrierte Prozessmodelle abgebildet werden. In der vorliegenden Arbeit werden Algorithmen zur Transformation zwischen diesen Sichten beschrieben. Zur Sicherstellung der Modellkorrektheit wird das Konzept der „weak conformance" zur {\"U}berpr{\"u}fung der Konsistenz zwischen Objektlebenszyklen und dem Prozessmodell eingef{\"u}hrt. Dabei darf das Prozessmodell nur Datenmanipulationen enthalten, die auch in einem Objektlebenszyklus spezifiziert sind. Die Korrektheit wird mittels Soundness-{\"U}berpr{\"u}fung einer hybriden Darstellung ermittelt, so dass Kontrollfluss- und Datenkorrektheit integriert {\"u}berpr{\"u}ft werden. Um eine korrekte Ausf{\"u}hrung des Prozessmodells zu gew{\"a}hrleisten, m{\"u}ssen gefundene Inkonsistenzen korrigiert werden. Daf{\"u}r werden f{\"u}r jede Inkonsistenz alternative Vorschl{\"a}ge zur Modelladaption identifiziert und vorgeschlagen. Zusammengefasst, unter Einsatz der Ergebnisse dieser Dissertation k{\"o}nnen Gesch{\"a}ftsprozesse modellgetrieben ausgef{\"u}hrt werden unter Ber{\"u}cksichtigung sowohl von Daten als auch den zuvor bereits unterst{\"u}tzten Perspektiven bez{\"u}glich Kontrollfluss und Verantwortlichkeiten. Dabei wird die Modellerstellung teilweise mit automatisierten Algorithmen unterst{\"u}tzt und die Modellkonsistenz durch Datenkorrektheits{\"u}berpr{\"u}fungen gew{\"a}hrleistet.}, language = {en} } @phdthesis{Heise2014, author = {Heise, Arvid}, title = {Data cleansing and integration operators for a parallel data analytics platform}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus4-77100}, school = {Universit{\"a}t Potsdam}, pages = {ii, 179}, year = {2014}, abstract = {The data quality of real-world datasets need to be constantly monitored and maintained to allow organizations and individuals to reliably use their data. Especially, data integration projects suffer from poor initial data quality and as a consequence consume more effort and money. Commercial products and research prototypes for data cleansing and integration help users to improve the quality of individual and combined datasets. They can be divided into either standalone systems or database management system (DBMS) extensions. On the one hand, standalone systems do not interact well with DBMS and require time-consuming data imports and exports. On the other hand, DBMS extensions are often limited by the underlying system and do not cover the full set of data cleansing and integration tasks. We overcome both limitations by implementing a concise set of five data cleansing and integration operators on the parallel data analytics platform Stratosphere. We define the semantics of the operators, present their parallel implementation, and devise optimization techniques for individual operators and combinations thereof. Users specify declarative queries in our query language METEOR with our new operators to improve the data quality of individual datasets or integrate them to larger datasets. By integrating the data cleansing operators into the higher level language layer of Stratosphere, users can easily combine cleansing operators with operators from other domains, such as information extraction, to complex data flows. Through a generic description of the operators, the Stratosphere optimizer reorders operators even from different domains to find better query plans. As a case study, we reimplemented a part of the large Open Government Data integration project GovWILD with our new operators and show that our queries run significantly faster than the original GovWILD queries, which rely on relational operators. Evaluation reveals that our operators exhibit good scalability on up to 100 cores, so that even larger inputs can be efficiently processed by scaling out to more machines. Finally, our scripts are considerably shorter than the original GovWILD scripts, which results in better maintainability of the scripts.}, language = {en} }