TY  - THES
A1  - Zieger, Tobias
T1  - Self-adaptive data quality
BT  - automating duplicate detection
N2  - Carrying out business processes successfully is closely linked to the quality of the data inventory in an organization. Lacks in data quality lead to problems: Incorrect address data prevents (timely) shipments to customers. Erroneous orders lead to returns and thus to unnecessary effort. Wrong pricing forces companies to miss out on revenues or to impair customer satisfaction. If orders or customer records cannot be retrieved, complaint management takes longer. Due to erroneous inventories, too few or too much supplies might be reordered.

A special problem with data quality and the reason for many of the issues mentioned above are duplicates in databases. Duplicates are different representations of same real-world objects in a dataset. However, these representations differ from each other and are for that reason hard to match by a computer. Moreover, the number of required comparisons to find those duplicates grows with the square of the dataset size. To cleanse the data, these duplicates must be detected and removed. Duplicate detection is a very laborious process. To achieve satisfactory results, appropriate software must be created and configured (similarity measures, partitioning keys, thresholds, etc.). Both requires much manual effort and experience.

This thesis addresses automation of parameter selection for duplicate detection and presents several novel approaches that eliminate the need for human experience in parts of the duplicate detection process.

A pre-processing step is introduced that analyzes the datasets in question and classifies their attributes semantically. Not only do these annotations help understanding the respective datasets, but they also facilitate subsequent steps, for example, by selecting appropriate similarity measures or normalizing the data upfront. This approach works without schema information.

Following that, we show a partitioning technique that strongly reduces the number of pair comparisons for the duplicate detection process. The approach automatically finds particularly suitable partitioning keys that simultaneously allow for effective and efficient duplicate retrieval. By means of a user study, we demonstrate that this technique finds partitioning keys that outperform expert suggestions and additionally does not need manual configuration. Furthermore, this approach can be applied independently of the attribute types.

To measure the success of a duplicate detection process and to execute the described partitioning approach, a gold standard is required that provides information about the actual duplicates in a training dataset. This thesis presents a technique that uses existing duplicate detection results and crowdsourcing to create a near gold standard that can be used for the purposes above. Another part of the thesis describes and evaluates strategies how to reduce these crowdsourcing costs and to achieve a consensus with less effort.
N2  - Die erfolgreiche Ausführung von Geschäftsprozessen ist eng an die Datenqualität der Datenbestände in einer Organisation geknüpft. Bestehen Mängel in der Datenqualität, kann es zu Problemen kommen: Unkorrekte Adressdaten verhindern, dass Kunden (rechtzeitig) beliefert werden. Fehlerhafte Bestellungen führen zu Reklamationen und somit zu unnötigem Aufwand. Falsche Preisauszeichnungen zwingen Unternehmen, auf Einnahmen zu verzichten oder gefährden die Kundenzufriedenheit. Können Bestellungen oder Kundendaten nicht gefunden werden, verlängert sich die Abarbeitung von Beschwerden. Durch fehlerhafte Inventarisierung wird zu wenig oder zu viel Nachschub bestellt.

Ein spezielles Datenqualitätsproblem und der Grund für viele der genannten Datenqualitätsprobleme sind Duplikate in Datenbanken. Duplikate sind verschiedene Repräsentationen derselben Realweltobjekte im Datenbestand. Allerdings unterscheiden sich diese Repräsentationen voneinander und sind so für den Computer nur schwer als zusammengehörig zu erkennen. Außerdem wächst die Anzahl der zur Aufdeckung der Duplikate benötigten Vergleiche quadratisch mit der Datensatzgröße. Zum Zwecke der Datenreinigung müssen diese Duplikate erkannt und beseitigt werden. Diese Duplikaterkennung ist ein sehr aufwändiger Prozess. Um gute Ergebnisse zu erzielen, ist die Erstellung von entsprechender Software und das Konfigurieren vieler Parameter (Ähnlichkeitsmaße, Partitionierungsschlüssel, Schwellwerte usw.) nötig. Beides erfordert viel manuellen Aufwand und Erfahrung.

Diese Dissertation befasst sich mit dem Automatisieren der Parameterwahl für die Duplikaterkennung und stellt verschiedene neuartige Verfahren vor, durch die Teile des Duplikaterkennungsprozesses ohne menschliche Erfahrung gestaltet werden können.

Es wird ein Vorverarbeitungsschritt vorgestellt, der die betreffenden Datensätze analysiert und deren Attribute automatisch semantisch klassifiziert. Durch diese Annotationen wird nicht nur das Verständnis des Datensatzes verbessert, sondern es werden darüber hinaus die folgenden Schritte erleichtert, zum Beispiel können so geeignete Ähnlichkeitsmaße ausgewählt oder die Daten normalisiert werden. Dabei kommt der Ansatz ohne Schemainformationen aus.

Anschließend wird ein Partitionierungsverfahren gezeigt, das die Anzahl der für die Duplikaterkennung benötigten Vergleiche stark reduziert. Das Verfahren findet automatisch besonders geeignete Partitionierungsschlüssel, die eine gleichzeitig effektive und effiziente Duplikatsuche ermöglichen. Anhand einer Nutzerstudie wird gezeigt, dass die so gefundenen Partitionierungsschlüssel Expertenvorschlägen überlegen sind und zudem keine menschliche Konfiguration benötigen. Außerdem lässt sich das Verfahren unabhängig von den Attributtypen anwenden.

Zum Messen des Erfolges eines Duplikaterkennungsverfahrens und für das zuvor beschriebene Partitionierungsverfahren ist ein Goldstandard nötig, der Auskunft über die zu findenden Duplikate gibt. Die Dissertation stellt ein Verfahren vor, das anhand mehrerer vorhandener Duplikaterkennungsergebnisse und dem Einsatz von Crowdsourcing einen Nahezu-Goldstandard erzeugt, der für die beschriebenen Zwecke eingesetzt werden kann. Ein weiterer Teil der Arbeit beschreibt und evaluiert Strategien, wie die Kosten dieses Crowdsourcingeinsatzes reduziert werden können und mit geringerem Aufwand ein Konsens erreicht wird.
KW  - data quality
KW  - Datenqualität
KW  - Duplikaterkennung
KW  - duplicate detection
KW  - Machine Learning
KW  - Information Retrieval
KW  - Automatisierung
KW  - automation
Y1  - 2017
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus4-410573
ER  - 
TY  - THES
A1  - Bamberg, Marlene
T1  - Planetary mapping tools applied to floor-fractured craters on Mars
T1  - Planetare Analysewerkzeuge am Anwendungsgebiet von Kratern mit zerbrochenen Boeden auf dem Mars
N2  - Planetary research is often user-based and requires considerable skill, time, and effort. Unfortunately, self-defined boundary conditions, definitions, and rules are often not documented or not easy to comprehend due to the complexity of research. This makes a comparison to other studies, or an extension of the already existing research, complicated. Comparisons are often distorted, because results rely on different, not well defined, or even unknown boundary conditions. The purpose of this research is to develop a standardized analysis method for planetary surfaces, which is adaptable to several research topics. The method provides a consistent quality of results. This also includes achieving reliable and comparable results and reducing the time and effort of conducting such studies. A standardized analysis method is provided by automated analysis tools that focus on statistical parameters. Specific key parameters and boundary conditions are defined for the tool application. The analysis relies on a database in which all key parameters are stored. These databases can be easily updated and adapted to various research questions. This increases the flexibility, reproducibility, and comparability of the research. However, the quality of the database and reliability of definitions directly influence the results. To ensure a high quality of results, the rules and definitions need to be well defined and based on previously conducted case studies. The tools then produce parameters, which are obtained by defined geostatistical techniques (measurements, calculations, classifications). The idea of an automated statistical analysis is tested to proof benefits but also potential problems of this method. In this study, I adapt automated tools for floor-fractured craters (FFCs) on Mars. These impact craters show a variety of surface features, occurring in different Martian environments, and having different fracturing origins. They provide a complex morphological and geological field of application. 433 FFCs are classified by the analysis tools due to their fracturing process. Spatial data, environmental context, and crater interior data are analyzed to distinguish between the processes involved in floor fracturing. Related geologic processes, such as glacial and fluvial activity, are too similar to be separately classified by the automated tools. Glacial and fluvial fracturing processes are merged together for the classification. The automated tools provide probability values for each origin model. To guarantee the quality and reliability of the results, classification tools need to achieve an origin probability above 50 %. This analysis method shows that 15 % of the FFCs are fractured by intrusive volcanism, 20 % by tectonic activity, and 43 % by water & ice related processes. In total, 75 % of the FFCs are classified to an origin type. This can be explained by a combination of origin models, superposition or erosion of key parameters, or an unknown fracturing model. Those features have to be manually analyzed in detail. Another possibility would be the improvement of key parameters and rules for the classification. This research shows that it is possible to conduct an automated statistical analysis of morphologic and geologic features based on analysis tools. Analysis tools provide additional information to the user and are therefore considered assistance systems.
N2  - Planetenforschung umfasst oft zeitintensive Projekte, bei denen Expertise und Erfahrung eine wesentliche Rolle spielen. Auf Grund äusserst komplexer und sich selten wiederholender Forschungsfragen sind Annahmen, Definitionen und Regeln zur Lösung dieser Fragen nicht leicht nachvollziehbar oder aber nicht eindeutig dokumentiert. Ein Vergleich der Ergebnisse unterschiedlicher Forscher zum selben Thema oder eine Erweiterung der Forschungsfrage macht dies somit nur schwer möglich. Vergleiche liefern oftmals verzerrte Ergebnisse, da die Ausgangslage und Randbedingungen unterschiedlich definiert worden sind. Das Ziel dieser Arbeit ist es eine Standardmethode zur Oberflächenanalyse zu entwickeln, die auf zahlreiche Untersuchungsfragen angewandt werden kann. Eine gleichbleibende Qualität der Ergebnisse muss durch diese Methode gewährleistet sein. Ein weiteres Ziel ist es, dass diese Methode ohne Vorwissen und Expertise angewandt werden kann und die Ergebnisse in kurzer Zeit vorliegen. Ausserdem müssen die Ergebnisse vergleichbar und nachvollziehbar sein. Automatisch operierende Analysewerkzeuge können die zahlreichen Anforderungen erfüllen und als Standardmethode dienen. Statistische Ergebnisse werden durch diese Methode erzielt. Die Werkzeuge basieren auf vordefinierten, geowissenschaftlichen Techniken und umfassen Messungen, Berechnungen und Klassifikationen der zu untersuchenden Oberflächenstrukturen. Für die Anwendung dieser Werkzeuge müssen Schlüsselstrukturen und Randbedingungen definiert werden. Des Weiteren benötigen die Werkzeuge eine Datenbank, in der alle Oberflächenstrukturen, aber auch Informationen zu den Randbedingungen gespeichert sind. Es ist mit geringem Aufwand möglich, Datenbanken zu aktualisieren und sie auf verschiedenste Fragestellungen zu adaptieren. Diese Tatsache steigert die Flexibilität, Reproduzierbarkeit und auch Vergleichbarkeit der Untersuchung. Die vordefinierten Randbedingungen und die Qualität der Datenbank haben jedoch auch direkten Einfluss auf die Qualität der Ergebnisse. Um eine gleichbleibend hohe Qualität der Untersuchung zu gewährleisten muss sichergestellt werden, dass alle vordefinierten Bedingungen eindeutig sind und auf vorheriger Forschung basieren. Die automatisch operierenden Analysewerkzeuge müssen als mögliche Standardmethode getestet werden. Hierbei geht es darum Vorteile, aber auch Nachteile zu identifizieren und zu bewerten. In dieser Arbeit werden die Analysewerkzeuge auf einen bestimmten Einschlagskratertyp auf dem Mars angewandt. Krater mit zerbrochenen Kraterböden (Floor-Fractured Craters) sind in verschiedensten Regionen auf dem Mars zu finden, sie zeigen zahlreiche Oberflächenstrukturen und wurden durch unterschiedliche Prozesse geformt. All diese Fakten machen diesen Kratertyp zu einem interessanten und im geologischen und morphologischen Sinne sehr komplexen Anwendungsgebiet. 433 Krater sind durch die Werkzeuge analysiert und je nach Entstehungsprozess klassifiziert worden. Für diese Analyse sind Position der Krater, Art des Umfeldes und Strukturen im Kraterinneren ausschlaggebend. Die kombinierten Informationen geben somit Auskunft über die Prozesse, welche zum Zerbrechen des Kraterbodens geführt haben. Die entwickelten Analysewerkzeuge können geologische Prozesse, die sehr ähnlich zueinander sind, von einander abhängig sind und zusätzlich auch dieselben Oberflächenstrukturen formen, nicht eindeutig unterscheiden. Aus diesem Grund sind fluviale und glaziale Entstehungsprozesse für den untersuchten Kratertyp zusammengefasst. Die Analysewerkzeuge liefern Wahrscheinlichkeitswerte für drei mögliche Entstehungsarten. Um die Qualität der Ergebnisse zu verbessern muss eine Wahrscheinlichkeit über 50 % erreicht werden. Die Werkzeuge zeigen, dass 15 % der Krater durch Vulkanismus, 20 % durch Tektonik und 43 % durch Wasser- und Eis-bedingte Prozesse gebildet wurden. Insgesamt kann für 75 % des untersuchten Kratertyps ein potentieller Entstehungsprozess zugeordnet werden. Für 25 % der Krater ist eine Klassifizierung nicht möglich. Dies kann durch eine Kombination von geologischen Prozessen, einer Überprägung von wichtigen Schlüsselstrukturen, oder eines bisher nicht berücksichtigten Prozesses erklärt werden. Zusammenfassend ist zu sagen, dass es möglich ist planetare Oberflächenstrukturen quantitativ durch automatisch operierende Analysewerkzeuge zu erfassen und hinsichtlich einer definierten Fragestellung zu klassifizieren. Zusätzliche Informationen können durch die entwickelten Werkzeuge erhalten werden, daher sind sie als Assistenzsystem zu betrachten.
KW  - Datenbank
KW  - Automatisierung
KW  - Klassifizierung
KW  - geologische Prozesse
KW  - Geomorphologie
KW  - database
KW  - automation
KW  - classification
KW  - geological processes
KW  - geomorphology
Y1  - 2014
U6  - http://nbn-resolving.de/urn/resolver.pl?urn:nbn:de:kobv:517-opus-72104
ER  -