@techreport{KuhlmannFranzkeDumasetal.2021, author = {Kuhlmann, Sabine and Franzke, Jochen and Dumas, Beno{\^i}t Paul and Heine, Moreen}, title = {Daten als Grundlage f{\"u}r wissenschaftliche Politikberatung}, publisher = {Universit{\"a}tsverlag Potsdam}, address = {Potsdam}, doi = {10.25932/publishup-51968}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus4-519683}, pages = {67}, year = {2021}, abstract = {Die vorliegende Studie zeigt, dass Daten in der Krise eine herausragende Bedeutung f{\"u}r die wissenschaftliche Politikberatung, administrative Entscheidungsvorbereitung und politische Entscheidungsfindung haben. In der Krise gab es jedoch gravierende Kommunikationsprobleme und Unsicherheiten in der wechselseitigen Erwartungshaltung von wissenschaftlichen Datengebern und politisch-administrativen Datennutzern. Die Wissensakkumulation und Entscheidungsabw{\"a}gung wurde außerdem durch eine unsichere und volatile Datenlage zum Pandemiegeschehen, verbunden mit einer dynamischen Lageentwicklung, erschwert. Nach wie vor sind das Bewusstsein und wechselseitige Verst{\"a}ndnis f{\"u}r die spezifischen Rollenprofile der am wissenschaftlichen Politikberatungsprozess beteiligten Akteure sowie insbesondere deren Abgrenzung als unzureichend einzusch{\"a}tzen. Die Studie hat dar{\"u}ber hinaus vielf{\"a}ltige Defizite hinsichtlich der Verf{\"u}gbarkeit, Qualit{\"a}t, Zug{\"a}nglichkeit, Teilbarkeit und Nutzbarkeit von Daten identifiziert, die Datenproduzenten und -verwender vor erhebliche Herausforderungen stellen und einen umfangreichen Reformbedarf aufzeigen, da zum einen wichtige Datenbest{\"a}nde f{\"u}r eine krisenbezogene Politikberatung fehlen. Zum anderen sind die Tiefensch{\"a}rfe und Differenziertheit des verf{\"u}gbaren Datenbestandes teilweise unzureichend. Dies gilt z.B. f{\"u}r sozialstrukturelle Daten zur Schwere der Pandemiebetroffenheit verschiedener Gruppen oder f{\"u}r kleinr{\"a}umige Daten {\"u}ber Belastungs- und Kapazit{\"a}tsparameter, etwa zur Personalabdeckung auf Intensivstationen, in Gesundheits{\"a}mtern und Pflegeeinrichtungen. Datendefizite sind ferner im Hinblick auf eine ganzheitliche Pandemiebeurteilung festzustellen, zum Beispiel bez{\"u}glich der Gesundheitseffekte im weiteren Sinne, die aufgrund der ergriffenen Maßnahmen entstanden sind (Verschiebung oder Wegfall von Operationen, Behandlungen und Pr{\"a}vention, aber auch h{\"a}usliche Gewalt und psychische Belastungen). Mangels systematischer Begleitstudien und evaluativer Untersuchungen, u.a. auch zu lokalen Pilotprojekten und Experimenten, bestehen außerdem Datendefizite im Hinblick auf die Wirkungen von Eind{\"a}mmungsmaßnahmen oder deren Aufhebung auf der gebietsk{\"o}rperschaftlichen Ebene. Insgesamt belegt die Studie, dass es zur Optimierung der datenbasierten Politikberatung und politischen Entscheidungsfindung in und außerhalb von Krisen nicht nur darum gehen kann, ein „Mehr" an Daten zu produzieren sowie deren Qualit{\"a}t, Verkn{\"u}pfung und Teilung zu verbessern. Vielmehr m{\"u}ssen auch die Anreizstrukturen und Interessenlagen in Politik, Verwaltung und Wissenschaft sowie die Kompetenzen, Handlungsorientierungen und kognitiv-kulturellen Pr{\"a}gungen der verschiedenen Akteure in den Blick genommen werden. Es m{\"u}ssten also Anreize gesetzt und Strukturen geschaffen werden, um das Interesse, den Willen und das K{\"o}nnen (will and skill) zur Datennutzung auf Seiten politisch-administrativer Entscheider und zur Dateneinspeisung auf Seiten von Wissenschaftlern zu st{\"a}rken. Neben adressatengerechter Informationsaufbereitung geht es dabei auch um die Gestaltung eines normativen und institutionellen Rahmens, innerhalb dessen die Nutzung von Daten f{\"u}r Entscheidungen effektiver, qualifizierter, aber auch transparenter, nachvollziehbarer und damit demokratisch legitimer erfolgen kann. Vor dem Hintergrund dieser empirischen Befunde werden acht Cluster von Optimierungsmaßnahmen vorgeschlagen: (1) Etablierung von Datenstrecken und Datenteams, (2) Schaffung regionaler Datenkompetenzzentren, (3) St{\"a}rkung von Data Literacy und Beschleunigung des Kulturwandels in der {\"o}ffentlichen Verwaltung, (4) Datenstandardisierung, Interoperabilit{\"a}t und Registermodernisierung, (5) Ausbau von Public Data Pools und Open Data Nutzung, (6) Effektivere Verbindung von Datenschutz und Datennutzung, (7) Entwicklung eines hochfrequenten, repr{\"a}sentativen Datensatzes, (8) F{\"o}rderung der europ{\"a}ischen Daten-Zusammenarbeit.}, language = {de} } @phdthesis{Meyer2015, author = {Meyer, Andreas}, title = {Data perspective in business process management}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus4-84806}, school = {Universit{\"a}t Potsdam}, pages = {xxi, 362}, year = {2015}, abstract = {Gesch{\"a}ftsprozessmanagement ist ein strukturierter Ansatz zur Modellierung, Analyse, Steuerung und Ausf{\"u}hrung von Gesch{\"a}ftsprozessen, um Gesch{\"a}ftsziele zu erreichen. Es st{\"u}tzt sich dabei auf konzeptionelle Modelle, von denen Prozessmodelle am weitesten verbreitet sind. Prozessmodelle beschreiben wer welche Aufgabe auszuf{\"u}hren hat, um das Gesch{\"a}ftsziel zu erreichen, und welche Informationen daf{\"u}r ben{\"o}tigt werden. Damit beinhalten Prozessmodelle Informationen {\"u}ber den Kontrollfluss, die Zuweisung von Verantwortlichkeiten, den Datenfluss und Informationssysteme. Die Automatisierung von Gesch{\"a}ftsprozessen erh{\"o}ht die Effizienz der Arbeitserledigung und wird durch Process Engines unterst{\"u}tzt. Daf{\"u}r werden jedoch Informationen {\"u}ber den Kontrollfluss, die Zuweisung von Verantwortlichkeiten f{\"u}r Aufgaben und den Datenfluss ben{\"o}tigt. W{\"a}hrend aktuelle Process Engines die ersten beiden Informationen weitgehend automatisiert verarbeiten k{\"o}nnen, m{\"u}ssen Daten manuell implementiert und gewartet werden. Dem entgegen verspricht ein modell-getriebenes Behandeln von Daten eine vereinfachte Implementation in der Process Engine und verringert gleichzeitig die Fehleranf{\"a}lligkeit dank einer graphischen Visualisierung und reduziert den Entwicklungsaufwand durch Codegenerierung. Die vorliegende Dissertation besch{\"a}ftigt sich mit der Modellierung, der Analyse und der Ausf{\"u}hrung von Daten in Gesch{\"a}ftsprozessen. Als formale Basis f{\"u}r die Prozessausf{\"u}hrung wird ein konzeptuelles Framework f{\"u}r die Integration von Prozessen und Daten eingef{\"u}hrt. Dieses Framework wird durch operationelle Semantik erg{\"a}nzt, die mittels einem um Daten erweiterten Petrinetz-Mapping vorgestellt wird. Die modellgetriebene Ausf{\"u}hrung von Daten muss komplexe Datenabh{\"a}ngigkeiten, Prozessdaten und den Datenaustausch ber{\"u}cksichtigen. Letzterer tritt bei der Kommunikation zwischen mehreren Prozessteilnehmern auf. Diese Arbeit nutzt Konzepte aus dem Bereich der Datenbanken und {\"u}berf{\"u}hrt diese ins Gesch{\"a}ftsprozessmanagement, um Datenoperationen zu unterscheiden, um Abh{\"a}ngigkeiten zwischen Datenobjekten des gleichen und verschiedenen Typs zu spezifizieren, um modellierte Datenknoten sowie empfangene Nachrichten zur richtigen laufenden Prozessinstanz zu korrelieren und um Nachrichten f{\"u}r die Prozess{\"u}bergreifende Kommunikation zu generieren. Der entsprechende Ansatz ist nicht auf eine bestimmte Prozessbeschreibungssprache begrenzt und wurde prototypisch implementiert. Die Automatisierung der Datenbehandlung in Gesch{\"a}ftsprozessen erfordert entsprechend annotierte und korrekte Prozessmodelle. Als Unterst{\"u}tzung zur Datenannotierung f{\"u}hrt diese Arbeit einen Algorithmus ein, welcher Informationen {\"u}ber Datenknoten, deren Zust{\"a}nde und Datenabh{\"a}ngigkeiten aus Kontrollflussinformationen extrahiert und die Prozessmodelle entsprechend annotiert. Allerdings k{\"o}nnen gew{\"o}hnlich nicht alle erforderlichen Informationen aus Kontrollflussinformationen extrahiert werden, da detaillierte Angaben {\"u}ber m{\"o}gliche Datenmanipulationen fehlen. Deshalb sind weitere Prozessmodellverfeinerungen notwendig. Basierend auf einer Menge von Objektlebenszyklen kann ein Prozessmodell derart verfeinert werden, dass die in den Objektlebenszyklen spezifizierten Datenmanipulationen automatisiert in ein Prozessmodell {\"u}berf{\"u}hrt werden k{\"o}nnen. Prozessmodelle stellen eine Abstraktion dar. Somit fokussieren sie auf verschiedene Teilbereiche und stellen diese im Detail dar. Solche Detailbereiche sind beispielsweise die Kontrollflusssicht und die Datenflusssicht, welche oft durch Aktivit{\"a}ts-zentrierte beziehungsweise Objekt-zentrierte Prozessmodelle abgebildet werden. In der vorliegenden Arbeit werden Algorithmen zur Transformation zwischen diesen Sichten beschrieben. Zur Sicherstellung der Modellkorrektheit wird das Konzept der „weak conformance" zur {\"U}berpr{\"u}fung der Konsistenz zwischen Objektlebenszyklen und dem Prozessmodell eingef{\"u}hrt. Dabei darf das Prozessmodell nur Datenmanipulationen enthalten, die auch in einem Objektlebenszyklus spezifiziert sind. Die Korrektheit wird mittels Soundness-{\"U}berpr{\"u}fung einer hybriden Darstellung ermittelt, so dass Kontrollfluss- und Datenkorrektheit integriert {\"u}berpr{\"u}ft werden. Um eine korrekte Ausf{\"u}hrung des Prozessmodells zu gew{\"a}hrleisten, m{\"u}ssen gefundene Inkonsistenzen korrigiert werden. Daf{\"u}r werden f{\"u}r jede Inkonsistenz alternative Vorschl{\"a}ge zur Modelladaption identifiziert und vorgeschlagen. Zusammengefasst, unter Einsatz der Ergebnisse dieser Dissertation k{\"o}nnen Gesch{\"a}ftsprozesse modellgetrieben ausgef{\"u}hrt werden unter Ber{\"u}cksichtigung sowohl von Daten als auch den zuvor bereits unterst{\"u}tzten Perspektiven bez{\"u}glich Kontrollfluss und Verantwortlichkeiten. Dabei wird die Modellerstellung teilweise mit automatisierten Algorithmen unterst{\"u}tzt und die Modellkonsistenz durch Datenkorrektheits{\"u}berpr{\"u}fungen gew{\"a}hrleistet.}, language = {en} } @phdthesis{Heise2014, author = {Heise, Arvid}, title = {Data cleansing and integration operators for a parallel data analytics platform}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus4-77100}, school = {Universit{\"a}t Potsdam}, pages = {ii, 179}, year = {2014}, abstract = {The data quality of real-world datasets need to be constantly monitored and maintained to allow organizations and individuals to reliably use their data. Especially, data integration projects suffer from poor initial data quality and as a consequence consume more effort and money. Commercial products and research prototypes for data cleansing and integration help users to improve the quality of individual and combined datasets. They can be divided into either standalone systems or database management system (DBMS) extensions. On the one hand, standalone systems do not interact well with DBMS and require time-consuming data imports and exports. On the other hand, DBMS extensions are often limited by the underlying system and do not cover the full set of data cleansing and integration tasks. We overcome both limitations by implementing a concise set of five data cleansing and integration operators on the parallel data analytics platform Stratosphere. We define the semantics of the operators, present their parallel implementation, and devise optimization techniques for individual operators and combinations thereof. Users specify declarative queries in our query language METEOR with our new operators to improve the data quality of individual datasets or integrate them to larger datasets. By integrating the data cleansing operators into the higher level language layer of Stratosphere, users can easily combine cleansing operators with operators from other domains, such as information extraction, to complex data flows. Through a generic description of the operators, the Stratosphere optimizer reorders operators even from different domains to find better query plans. As a case study, we reimplemented a part of the large Open Government Data integration project GovWILD with our new operators and show that our queries run significantly faster than the original GovWILD queries, which rely on relational operators. Evaluation reveals that our operators exhibit good scalability on up to 100 cores, so that even larger inputs can be efficiently processed by scaling out to more machines. Finally, our scripts are considerably shorter than the original GovWILD scripts, which results in better maintainability of the scripts.}, language = {en} }