TY - JOUR A1 - Respondek, Tobias T1 - A workflow for computing potential areas for wind turbines JF - Process design for natural scientists: an agile model-driven approach N2 - This paper describes the implementation of a workflow model for service-oriented computing of potential areas for wind turbines in jABC. By implementing a re-executable model the manual effort of a multi-criteria site analysis can be reduced. The aim is to determine the shift of typical geoprocessing tools of geographic information systems (GIS) from the desktop to the web. The analysis is based on a vector data set and mainly uses web services of the “Center for Spatial Information Science and Systems” (CSISS). This paper discusses effort, benefits and problems associated with the use of the web services. Y1 - 2014 SN - 978-3-662-45005-5 IS - 500 SP - 200 EP - 215 PB - Springer CY - Berlin ER - TY - GEN A1 - Gebser, Martin A1 - Harrison, Amelia A1 - Kaminski, Roland A1 - Lifschitz, Vladimir A1 - Schaub, Torsten T1 - Abstract gringo T2 - Postprints der Universität Potsdam : Mathematisch-Naturwissenschaftliche Reihe N2 - This paper defines the syntax and semantics of the input language of the ASP grounder gringo. The definition covers several constructs that were not discussed in earlier work on the semantics of that language, including intervals, pools, division of integers, aggregates with non-numeric values, and lparse-style aggregate expressions. The definition is abstract in the sense that it disregards some details related to representing programs by strings of ASCII characters. It serves as a specification for gringo from Version 4.5 on. T3 - Zweitveröffentlichungen der Universität Potsdam : Mathematisch-Naturwissenschaftliche Reihe - 592 KW - nested expressions Y1 - 2019 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-414751 SN - 1866-8372 IS - 592 ER - TY - BOOK A1 - Smirnov, Sergey A1 - Weidlich, Matthias A1 - Mendling, Jan A1 - Weske, Mathias T1 - Action patterns in business process models N2 - Business process management experiences a large uptake by the industry, and process models play an important role in the analysis and improvement of processes. While an increasing number of staff becomes involved in actual modeling practice, it is crucial to assure model quality and homogeneity along with providing suitable aids for creating models. In this paper we consider the problem of offering recommendations to the user during the act of modeling. Our key contribution is a concept for defining and identifying so-called action patterns - chunks of actions often appearing together in business processes. In particular, we specify action patterns and demonstrate how they can be identified from existing process model repositories using association rule mining techniques. Action patterns can then be used to suggest additional actions for a process model. Our approach is challenged by applying it to the collection of process models from the SAP Reference Model. N2 - Die zunehmende Bedeutung des Geschäftsprozessmanagements führt dazu, dass eine steigende Anzahl von Mitarbeitern eines Unternehmens mit der Erstellung von Prozessmodellen betraut ist. Um trotz dieser Tendenz die Qualität der Prozessmodelle, sowie ihre Homogenität sicherzustellen, sind entsprechende Modellierungshilfen unabdingbar. In diesem Bericht stellen wir einen Ansatz vor, welcher die Prozessmodellierung durch Empfehlungen unterstützt. Jene basieren auf sogenannten Aktionsmustern, welche typische Arbeitsblöcke darstellen. Neben der Definition dieser Aktionsmuster zeigen wir eine Methode zur Identifikation dieser Muster auf. Mittels Techniken der Assoziationsanalyse können die Muster automatisch aus einer Sammlung von Prozessmodellen extrahiert werden. Die Anwendbarkeit unseres Ansatzes wird durch eine Fallstudie auf Basis des SAP Referenzmodells illustriert. T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 30 Y1 - 2009 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-33586 SN - 978-3-86956-009-0 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - THES A1 - Sawade, Christoph T1 - Active evaluation of predictive models T1 - Aktive Evaluierung von Vorhersagemodellen N2 - The field of machine learning studies algorithms that infer predictive models from data. Predictive models are applicable for many practical tasks such as spam filtering, face and handwritten digit recognition, and personalized product recommendation. In general, they are used to predict a target label for a given data instance. In order to make an informed decision about the deployment of a predictive model, it is crucial to know the model’s approximate performance. To evaluate performance, a set of labeled test instances is required that is drawn from the distribution the model will be exposed to at application time. In many practical scenarios, unlabeled test instances are readily available, but the process of labeling them can be a time- and cost-intensive task and may involve a human expert. This thesis addresses the problem of evaluating a given predictive model accurately with minimal labeling effort. We study an active model evaluation process that selects certain instances of the data according to an instrumental sampling distribution and queries their labels. We derive sampling distributions that minimize estimation error with respect to different performance measures such as error rate, mean squared error, and F-measures. An analysis of the distribution that governs the estimator leads to confidence intervals, which indicate how precise the error estimation is. Labeling costs may vary across different instances depending on certain characteristics of the data. For instance, documents differ in their length, comprehensibility, and technical requirements; these attributes affect the time a human labeler needs to judge relevance or to assign topics. To address this, the sampling distribution is extended to incorporate instance-specific costs. We empirically study conditions under which the active evaluation processes are more accurate than a standard estimate that draws equally many instances from the test distribution. We also address the problem of comparing the risks of two predictive models. The standard approach would be to draw instances according to the test distribution, label the selected instances, and apply statistical tests to identify significant differences. Drawing instances according to an instrumental distribution affects the power of a statistical test. We derive a sampling procedure that maximizes test power when used to select instances, and thereby minimizes the likelihood of choosing the inferior model. Furthermore, we investigate the task of comparing several alternative models; the objective of an evaluation could be to rank the models according to the risk that they incur or to identify the model with lowest risk. An experimental study shows that the active procedure leads to higher test power than the standard test in many application domains. Finally, we study the problem of evaluating the performance of ranking functions, which are used for example for web search. In practice, ranking performance is estimated by applying a given ranking model to a representative set of test queries and manually assessing the relevance of all retrieved items for each query. We apply the concepts of active evaluation and active comparison to ranking functions and derive optimal sampling distributions for the commonly used performance measures Discounted Cumulative Gain and Expected Reciprocal Rank. Experiments on web search engine data illustrate significant reductions in labeling costs. N2 - Maschinelles Lernen befasst sich mit Algorithmen zur Inferenz von Vorhersagemodelle aus komplexen Daten. Vorhersagemodelle sind Funktionen, die einer Eingabe – wie zum Beispiel dem Text einer E-Mail – ein anwendungsspezifisches Zielattribut – wie „Spam“ oder „Nicht-Spam“ – zuweisen. Sie finden Anwendung beim Filtern von Spam-Nachrichten, bei der Text- und Gesichtserkennung oder auch bei der personalisierten Empfehlung von Produkten. Um ein Modell in der Praxis einzusetzen, ist es notwendig, die Vorhersagequalität bezüglich der zukünftigen Anwendung zu schätzen. Für diese Evaluierung werden Instanzen des Eingaberaums benötigt, für die das zugehörige Zielattribut bekannt ist. Instanzen, wie E-Mails, Bilder oder das protokollierte Nutzerverhalten von Kunden, stehen häufig in großem Umfang zur Verfügung. Die Bestimmung der zugehörigen Zielattribute ist jedoch ein manueller Prozess, der kosten- und zeitaufwendig sein kann und mitunter spezielles Fachwissen erfordert. Ziel dieser Arbeit ist die genaue Schätzung der Vorhersagequalität eines gegebenen Modells mit einer minimalen Anzahl von Testinstanzen. Wir untersuchen aktive Evaluierungsprozesse, die mit Hilfe einer Wahrscheinlichkeitsverteilung Instanzen auswählen, für die das Zielattribut bestimmt wird. Die Vorhersagequalität kann anhand verschiedener Kriterien, wie der Fehlerrate, des mittleren quadratischen Verlusts oder des F-measures, bemessen werden. Wir leiten die Wahrscheinlichkeitsverteilungen her, die den Schätzfehler bezüglich eines gegebenen Maßes minimieren. Der verbleibende Schätzfehler lässt sich anhand von Konfidenzintervallen quantifizieren, die sich aus der Verteilung des Schätzers ergeben. In vielen Anwendungen bestimmen individuelle Eigenschaften der Instanzen die Kosten, die für die Bestimmung des Zielattributs anfallen. So unterscheiden sich Dokumente beispielsweise in der Textlänge und dem technischen Anspruch. Diese Eigenschaften beeinflussen die Zeit, die benötigt wird, mögliche Zielattribute wie das Thema oder die Relevanz zuzuweisen. Wir leiten unter Beachtung dieser instanzspezifischen Unterschiede die optimale Verteilung her. Die entwickelten Evaluierungsmethoden werden auf verschiedenen Datensätzen untersucht. Wir analysieren in diesem Zusammenhang Bedingungen, unter denen die aktive Evaluierung genauere Schätzungen liefert als der Standardansatz, bei dem Instanzen zufällig aus der Testverteilung gezogen werden. Eine verwandte Problemstellung ist der Vergleich von zwei Modellen. Um festzustellen, welches Modell in der Praxis eine höhere Vorhersagequalität aufweist, wird eine Menge von Testinstanzen ausgewählt und das zugehörige Zielattribut bestimmt. Ein anschließender statistischer Test erlaubt Aussagen über die Signifikanz der beobachteten Unterschiede. Die Teststärke hängt von der Verteilung ab, nach der die Instanzen ausgewählt wurden. Wir bestimmen die Verteilung, die die Teststärke maximiert und damit die Wahrscheinlichkeit minimiert, sich für das schlechtere Modell zu entscheiden. Des Weiteren geben wir eine Möglichkeit an, den entwickelten Ansatz für den Vergleich von mehreren Modellen zu verwenden. Wir zeigen empirisch, dass die aktive Evaluierungsmethode im Vergleich zur zufälligen Auswahl von Testinstanzen in vielen Anwendungen eine höhere Teststärke aufweist. Im letzten Teil der Arbeit werden das Konzept der aktiven Evaluierung und das des aktiven Modellvergleichs auf Rankingprobleme angewendet. Wir leiten die optimalen Verteilungen für das Schätzen der Qualitätsmaße Discounted Cumulative Gain und Expected Reciprocal Rank her. Eine empirische Studie zur Evaluierung von Suchmaschinen zeigt, dass die neu entwickelten Verfahren signifikant genauere Schätzungen der Rankingqualität liefern als die untersuchten Referenzverfahren. KW - Aktive Evaluierung KW - Vorhersagemodelle KW - Maschinelles Lernen KW - Fehlerschätzung KW - Statistische Tests KW - Active Evaluation KW - Predictive Models KW - Machine Learning KW - Error Estimation KW - Statistical Tests Y1 - 2012 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-65583 SN - 978-3-86956-255-1 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - JOUR A1 - Krause, Hannes-Vincent A1 - Große Deters, Fenne A1 - Baumann, Annika A1 - Krasnova, Hanna T1 - Active social media use and its impact on well-being BT - an experimental study on the effects of posting pictures on Instagram JF - Journal of computer-mediated communication : a journal of the International Communication Association N2 - Active use of social networking sites (SNSs) has long been assumed to benefit users' well-being. However, this established hypothesis is increasingly being challenged, with scholars criticizing its lack of empirical support and the imprecise conceptualization of active use. Nevertheless, with considerable heterogeneity among existing studies on the hypothesis and causal evidence still limited, a final verdict on its robustness is still pending. To contribute to this ongoing debate, we conducted a week-long randomized control trial with N = 381 adult Instagram users recruited via Prolific. Specifically, we tested how active SNS use, operationalized as picture postings on Instagram, affects different dimensions of well-being. The results depicted a positive effect on users' positive affect but null findings for other well-being outcomes. The findings broadly align with the recent criticism against the active use hypothesis and support the call for a more nuanced view on the impact of SNSs.
Lay Summary Active use of social networking sites (SNSs) has long been assumed to benefit users' well-being. However, this established assumption is increasingly being challenged, with scholars criticizing its lack of empirical support and the imprecise conceptualization of active use. Nevertheless, with great diversity among conducted studies on the hypothesis and a lack of causal evidence, a final verdict on its viability is still pending. To contribute to this ongoing debate, we conducted a week-long experimental investigation with 381 adult Instagram users. Specifically, we tested how posting pictures on Instagram affects different aspects of well-being. The results of this study depicted a positive effect of posting Instagram pictures on users' experienced positive emotions but no effects on other aspects of well-being. The findings broadly align with the recent criticism against the active use hypothesis and support the call for a more nuanced view on the impact of SNSs on users. KW - social networking sites KW - social media KW - Instagram KW - well-being KW - experiment KW - randomized control trial Y1 - 2022 U6 - https://doi.org/10.1093/jcmc/zmac037 SN - 1083-6101 VL - 28 IS - 1 PB - Oxford Univ. Press CY - Oxford ER - TY - JOUR A1 - Opel, Simone A1 - Netzer, Cajus Marian A1 - Desel, Jörg T1 - Adaption von Lernwegen in adaptierten Lehrmaterialien für Studierende mit Berufsausbildungsabschluss JF - Hochschuldidaktik Informatik HDI 2021 (Commentarii informaticae didacticae) N2 - Obwohl immer mehr Menschen nicht direkt ein Studium aufnehmen, sondern zuvor eine berufliche Ausbildung absolvieren, werden die in der Ausbildung erworbenen Kompetenzen von den Hochschulen inhaltlich und didaktisch meist ignoriert. Ein Ansatz, diese Kompetenzen zu würdigen, ist die formale Anrechnung von mitgebrachten Kompetenzen als (für den Studienabschluss erforderliche) Leistungspunkte. Eine andere Variante ist der Einsatz von speziell für die Zielgruppe der Studierenden mit Vorkenntnissen adaptiertem Lehr-Lernmaterial. Um darüber hinaus individuelle Unterschiede zu berücksichtigen, erlaubt eine weitere Adaption individueller Lernpfade den Lernenden, genau die jeweils fehlenden Kompetenzen zu erwerben. In diesem Beitrag stellen wir die exemplarische Entwicklung derartigen Materials anhand des Kurses „Datenbanken“ für die Zielgruppe der Studierenden mit einer abgeschlossenen Ausbildung zum Fachinformatiker bzw. zur Fachinformatikerin vor. KW - Informatik KW - Anrechnung KW - Adaption KW - individuelle Lernwege KW - Vorwissen KW - Kompetenz KW - Datenbanken KW - Hochschule KW - Fachinformatiker Y1 - 2023 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-614188 SN - 978-3-86956-548-4 SN - 1868-0844 SN - 2191-1940 IS - 13 SP - 91 EP - 114 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - BOOK A1 - Draisbach, Uwe A1 - Naumann, Felix A1 - Szott, Sascha A1 - Wonneberg, Oliver T1 - Adaptive windows for duplicate detection N2 - Duplicate detection is the task of identifying all groups of records within a data set that represent the same real-world entity, respectively. This task is difficult, because (i) representations might differ slightly, so some similarity measure must be defined to compare pairs of records and (ii) data sets might have a high volume making a pair-wise comparison of all records infeasible. To tackle the second problem, many algorithms have been suggested that partition the data set and compare all record pairs only within each partition. One well-known such approach is the Sorted Neighborhood Method (SNM), which sorts the data according to some key and then advances a window over the data comparing only records that appear within the same window. We propose several variations of SNM that have in common a varying window size and advancement. The general intuition of such adaptive windows is that there might be regions of high similarity suggesting a larger window size and regions of lower similarity suggesting a smaller window size. We propose and thoroughly evaluate several adaption strategies, some of which are provably better than the original SNM in terms of efficiency (same results with fewer comparisons). N2 - Duplikaterkennung beschreibt das Auffinden von mehreren Datensätzen, die das gleiche Realwelt-Objekt repräsentieren. Diese Aufgabe ist nicht trivial, da sich (i) die Datensätze geringfügig unterscheiden können, so dass Ähnlichkeitsmaße für einen paarweisen Vergleich benötigt werden, und (ii) aufgrund der Datenmenge ein vollständiger, paarweiser Vergleich nicht möglich ist. Zur Lösung des zweiten Problems existieren verschiedene Algorithmen, die die Datenmenge partitionieren und nur noch innerhalb der Partitionen Vergleiche durchführen. Einer dieser Algorithmen ist die Sorted-Neighborhood-Methode (SNM), welche Daten anhand eines Schlüssels sortiert und dann ein Fenster über die sortierten Daten schiebt. Vergleiche werden nur innerhalb dieses Fensters durchgeführt. Wir beschreiben verschiedene Variationen der Sorted-Neighborhood-Methode, die auf variierenden Fenstergrößen basieren. Diese Ansätze basieren auf der Intuition, dass Bereiche mit größerer und geringerer Ähnlichkeiten innerhalb der sortierten Datensätze existieren, für die entsprechend größere bzw. kleinere Fenstergrößen sinnvoll sind. Wir beschreiben und evaluieren verschiedene Adaptierungs-Strategien, von denen nachweislich einige bezüglich Effizienz besser sind als die originale Sorted-Neighborhood-Methode (gleiches Ergebnis bei weniger Vergleichen). T3 - Technische Berichte des Hasso-Plattner-Instituts für Digital Engineering an der Universität Potsdam - 49 KW - Informationssysteme KW - Datenqualität KW - Datenintegration KW - Duplikaterkennung KW - Duplicate Detection KW - Data Quality KW - Data Integration KW - Information Systems Y1 - 2012 U6 - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-53007 SN - 978-3-86956-143-1 SN - 1613-5652 SN - 2191-1665 PB - Universitätsverlag Potsdam CY - Potsdam ER - TY - GEN A1 - Hesse, Günter A1 - Matthies, Christoph A1 - Sinzig, Werner A1 - Uflacker, Matthias T1 - Adding Value by Combining Business and Sensor Data BT - an Industry 4.0 Use Case T2 - Database Systems for Advanced Applications N2 - Industry 4.0 and the Internet of Things are recent developments that have lead to the creation of new kinds of manufacturing data. Linking this new kind of sensor data to traditional business information is crucial for enterprises to take advantage of the data’s full potential. In this paper, we present a demo which allows experiencing this data integration, both vertically between technical and business contexts and horizontally along the value chain. The tool simulates a manufacturing company, continuously producing both business and sensor data, and supports issuing ad-hoc queries that answer specific questions related to the business. In order to adapt to different environments, users can configure sensor characteristics to their needs. KW - Industry 4.0 KW - Internet of Things KW - Data integration Y1 - 2019 SN - 978-3-030-18590-9 SN - 978-3-030-18589-3 U6 - https://doi.org/10.1007/978-3-030-18590-9_80 SN - 0302-9743 SN - 1611-3349 VL - 11448 SP - 528 EP - 532 PB - Springer CY - Cham ER - TY - THES A1 - Grütze, Toni T1 - Adding value to text with user-generated content N2 - In recent years, the ever-growing amount of documents on the Web as well as in closed systems for private or business contexts led to a considerable increase of valuable textual information about topics, events, and entities. It is a truism that the majority of information (i.e., business-relevant data) is only available in unstructured textual form. The text mining research field comprises various practice areas that have the common goal of harvesting high-quality information from textual data. These information help addressing users' information needs. In this thesis, we utilize the knowledge represented in user-generated content (UGC) originating from various social media services to improve text mining results. These social media platforms provide a plethora of information with varying focuses. In many cases, an essential feature of such platforms is to share relevant content with a peer group. Thus, the data exchanged in these communities tend to be focused on the interests of the user base. The popularity of social media services is growing continuously and the inherent knowledge is available to be utilized. We show that this knowledge can be used for three different tasks. Initially, we demonstrate that when searching persons with ambiguous names, the information from Wikipedia can be bootstrapped to group web search results according to the individuals occurring in the documents. We introduce two models and different means to handle persons missing in the UGC source. We show that the proposed approaches outperform traditional algorithms for search result clustering. Secondly, we discuss how the categorization of texts according to continuously changing community-generated folksonomies helps users to identify new information related to their interests. We specifically target temporal changes in the UGC and show how they influence the quality of different tag recommendation approaches. Finally, we introduce an algorithm to attempt the entity linking problem, a necessity for harvesting entity knowledge from large text collections. The goal is the linkage of mentions within the documents with their real-world entities. A major focus lies on the efficient derivation of coherent links. For each of the contributions, we provide a wide range of experiments on various text corpora as well as different sources of UGC. The evaluation shows the added value that the usage of these sources provides and confirms the appropriateness of leveraging user-generated content to serve different information needs. N2 - Die steigende Zahl an Dokumenten, welche in den letzten Jahren im Web sowie in geschlossenen Systemen aus dem privaten oder geschäftlichen Umfeld erstellt wurden, führte zu einem erheblichen Zuwachs an wertvollen Informationen über verschiedenste Themen, Ereignisse, Organisationen und Personen. Die meisten Informationen liegen lediglich in unstrukturierter, textueller Form vor. Das Forschungsgebiet des "Text Mining" befasst sich mit dem schwierigen Problem, hochwertige Informationen in strukturierter Form aus Texten zu gewinnen. Diese Informationen können dazu eingesetzt werden, Nutzern dabei zu helfen, ihren Informationsbedarf zu stillen. In dieser Arbeit nutzen wir Wissen, welches in nutzergenerierten Inhalten verborgen ist und aus unterschiedlichsten sozialen Medien stammt, um Text Mining Ergebnisse zu verbessern. Soziale Medien bieten eine Fülle an Informationen mit verschiedenen Schwerpunkten. Eine wesentliche Funktion solcher Medien ist es, den Nutzern zu ermöglichen, Inhalte mit ihrer Interessensgruppe zu teilen. Somit sind die ausgetauschten Daten in diesen Diensten häufig auf die Interessen der Nutzerbasis ausgerichtet. Die Popularität sozialer Medien wächst stetig und führt dazu, dass immer mehr inhärentes Wissen verfügbar wird. Dieses Wissen kann unter anderem für drei verschiedene Aufgabenstellungen genutzt werden. Zunächst zeigen wir, dass Informationen aus Wikipedia hilfreich sind, um Ergebnisse von Personensuchen im Web nach den in ihnen diskutierten Personen aufzuteilen. Dazu führen wir zwei Modelle zur Gruppierung der Ergebnisse und verschiedene Methoden zum Umgang mit fehlenden Wikipedia Einträgen ein, und zeigen, dass die entwickelten Ansätze traditionelle Methoden zur Gruppierung von Suchergebnissen übertreffen. Des Weiteren diskutieren wir, wie die Klassifizierung von Texten auf Basis von "Folksonomien" Nutzern dabei helfen kann, neue Informationen zu identifizieren, die ihren Interessen entsprechen. Wir konzentrieren uns insbesondere auf temporäre Änderungen in den nutzergenerierten Inhalten, um zu zeigen, wie stark ihr Einfluss auf die Qualität verschiedener "Tag"-Empfehlungsmethoden ist. Zu guter Letzt führen wir einen Algorithmus ein, der es ermöglicht, Nennungen von Echtweltinstanzen in Texten zu disambiguieren und mit ihren Repräsentationen in einer Wissensdatenbank zu verknüpfen. Das Hauptaugenmerk liegt dabei auf der effizienten Erkennung von kohärenten Verknüpfungen. Wir stellen für jeden Teil der Arbeit eine große Vielfalt an Experimenten auf diversen Textkorpora und unterschiedlichen Quellen von nutzergenerierten Inhalten an. Damit heben wir das Potential hervor, das die Nutzung jener Quellen bietet, um die unterschiedlichen Informationsbedürfnisse abzudecken. T2 - Mehrwert für Texte mittels nutzergenerierter Inhalte KW - nutzergenerierte Inhalte KW - text mining KW - Klassifikation KW - Clusteranalyse KW - Entitätsverknüpfung KW - user-generated content KW - text mining KW - classification KW - clustering KW - entity linking Y1 - 2018 ER - TY - CHAP A1 - Rojahn, Marcel A1 - Ambros, Maximilian A1 - Biru, Tibebu A1 - Krallmann, Hermann A1 - Gronau, Norbert A1 - Grum, Marcus ED - Rutkowski, Leszek ED - Scherer, Rafał ED - Korytkowski, Marcin ED - Pedrycz, Witold ED - Tadeusiewicz, Ryszard ED - Zurada, Jacek M. T1 - Adequate basis for the data-driven and machine-learning-based identification T2 - Artificial intelligence and soft computing N2 - Process mining (PM) has established itself in recent years as a main method for visualizing and analyzing processes. However, the identification of knowledge has not been addressed adequately because PM aims solely at data-driven discovering, monitoring, and improving real-world processes from event logs available in various information systems. The following paper, therefore, outlines a novel systematic analysis view on tools for data-driven and machine learning (ML)-based identification of knowledge-intensive target processes. To support the effectiveness of the identification process, the main contributions of this study are (1) to design a procedure for a systematic review and analysis for the selection of relevant dimensions, (2) to identify different categories of dimensions as evaluation metrics to select source systems, algorithms, and tools for PM and ML as well as include them in a multi-dimensional grid box model, (3) to select and assess the most relevant dimensions of the model, (4) to identify and assess source systems, algorithms, and tools in order to find evidence for the selected dimensions, and (5) to assess the relevance and applicability of the conceptualization and design procedure for tool selection in data-driven and ML-based process mining research. KW - data mining KW - knowledge engineering KW - various applications Y1 - 2023 SN - 978-3-031-42504-2 SN - 978-3-031-42505-9 U6 - https://doi.org/10.1007/978-3-031-42505-9_48 SP - 570 EP - 588 PB - Springer CY - Cham ER -