020 Bibliotheks- und Informationswissenschaften
Refine
Year of publication
- 2020 (4) (remove)
Is part of the Bibliography
- yes (4)
Keywords
- DFG (2)
- Etatverteilungsmodell (2)
- Open Access (2)
- Outputanalyse (2)
- Publikationsfonds (2)
- Transformation (2)
- Zweitveröffentlichung (2)
- Agrarwissenschaft (1)
- Datenschutz (1)
- Forschungsdaten (1)
Institute
Data errors represent a major issue in most application workflows. Before any important task can take place, a certain data quality has to be guaranteed by eliminating a number of different errors that may appear in data. Typically, most of these errors are fixed with data preparation methods, such as whitespace removal. However, the particular error of duplicate records, where multiple records refer to the same entity, is usually eliminated independently with specialized techniques. Our work is the first to bring these two areas together by applying data preparation operations under a systematic approach prior to performing duplicate detection. <br /> Our process workflow can be summarized as follows: It begins with the user providing as input a sample of the gold standard, the actual dataset, and optionally some constraints to domain-specific data preparations, such as address normalization. The preparation selection operates in two consecutive phases. First, to vastly reduce the search space of ineffective data preparations, decisions are made based on the improvement or worsening of pair similarities. Second, using the remaining data preparations an iterative leave-one-out classification process removes preparations one by one and determines the redundant preparations based on the achieved area under the precision-recall curve (AUC-PR). Using this workflow, we manage to improve the results of duplicate detection up to 19% in AUC-PR.
Die Universität Potsdam verwaltet seit 2015 einen DFG-geförderten Publikationsfonds. In den Publikationsjahren 2015 und 2017 wurden Outputanalysen durchgeführt. Open Access ist seit 2018 ein zentraler Bestandteil des Mittelverteilungsmodells. Der Artikel thematisiert die zentralen Erkenntnisse der letzten fünf Jahre und illustriert die entstandene Infrastruktur. Außerdem werden aktuelle Herausforderungen und mögliche Lösungsansätze der Transformation auf dem Weg hin zu 100 Prozent Open Access thematisiert.
Die Universität Potsdam verwaltet seit 2015 einen DFG-geförderten Publikationsfonds. In den Publikationsjahren 2015 und 2017 wurden Outputanalysen durchgeführt. Open Access ist seit 2018 ein zentraler Bestandteil des Mittelverteilungsmodells. Der Artikel thematisiert die zentralen Erkenntnisse der letzten fünf Jahre und illustriert die entstandene Infrastruktur. Außerdem werden aktuelle Herausforderungen und mögliche Lösungsansätze der Transformation auf dem Weg hin zu 100 Prozent Open Access thematisiert.
Am Beispiel der Erd- und Umweltwissenschaften (einschließlich der landschafts- und standortbezogenen Teilgebiete der Agrarwissenschaften) zeigt dieser Beitrag, dass auch in scheinbar „unverdächtigen“ Disziplinen personenbezogene Forschungsdaten vorkommen. Eine Auswertung der Literatur zeigt, dass allgemeine Handreichungen zum Datenschutz in der Forschung kaum Unterstützung bei der Arbeit mit den für diese Disziplinen besonders relevanten Fällen bieten. Für die in den Erd- und Umweltwissenschaften besonders relevanten raumbezogenen Daten kommt hinzu, dass selbst unter Fachjuristinnen Uneinigkeit über die datenschutzrechtliche Bewertung herrscht. Die Ergebnisse einer empirischen Vorstudie zeigen eine ganze Reihe verschiedener Arten personenbezogener Forschungsdaten auf, die in der Forschungspraxis der Erd- und Umweltwissenschaften eine Rolle spielen. Sie legen außerdem nahe, dass der Umgang mit personenbezogenen Daten in der Forschungspraxis der Erd- und Umweltwissenschaften auf Grund der mangelnden Vertrautheit mit dem Datenschutz nicht immer den rechtlichen Anforderungen entspricht. Auch Unterstützung durch Fachgesellschaften und Infrastruktureinrichtungen – etwa in Form disziplinspezifischer Handreichungen, qualifizierter Beratung oder institutionalisierten Möglichkeiten, Daten sicher zu archivieren und gegebenenfalls zugangsbeschränkt zu publizieren – bestehen kaum. Aus dieser Situation ergeben sich Herausforderungen an die Weiterentwicklung der disziplinären Datenkultur und Dateninfrastruktur, beispielsweise im Rahmen des Prozesses zum Aufbau einer Nationalen Forschungsdateninfrastruktur (NFDI). Zu den Möglichkeiten für Infrastruktureinrichtungen, diese Weiterentwicklung zu unterstützen, zeigt dieser Beitrag Handlungsoptionen auf.