Refine
Has Fulltext
- yes (2)
Document Type
Is part of the Bibliography
- yes (2)
Keywords
- Data Quality (2) (remove)
Institute
Duplicate detection is the task of identifying all groups of records within a data set that represent the same real-world entity, respectively. This task is difficult, because (i) representations might differ slightly, so some similarity measure must be defined to compare pairs of records and (ii) data sets might have a high volume making a pair-wise comparison of all records infeasible. To tackle the second problem, many algorithms have been suggested that partition the data set and compare all record pairs only within each partition. One well-known such approach is the Sorted Neighborhood Method (SNM), which sorts the data according to some key and then advances a window over the data comparing only records that appear within the same window. We propose several variations of SNM that have in common a varying window size and advancement. The general intuition of such adaptive windows is that there might be regions of high similarity suggesting a larger window size and regions of lower similarity suggesting a smaller window size. We propose and thoroughly evaluate several adaption strategies, some of which are provably better than the original SNM in terms of efficiency (same results with fewer comparisons).
Hochschulen stehen zunehmend vor einem Legitimationsproblem bezüglich ihres Umgangs mit (öffentlich bereit gestellten) Ressourcen. Die Kritik bezieht sich hauptsächlich auf den Leistungsbereich der Lehre. Diese sei ineffektiv organisiert und trage durch schlechte Studienbedingungen – die ihrerseits von den Hochschulen selbst zu verantworten seien – zu langen Studienzeiten und hohen Abbruchquoten bei. Es wird konstatiert, dass mit der Lebenszeit der Studierenden verantwortungslos umgegangen und der gesellschaftliche Ausbildungsauftrag sowohl von der Hochschule im Ganzen, als auch von einzelnen Lehrenden nicht angemessen wahrgenommen werde. Um die gleichzeitig steigende Nachfrage nach akademischen Bildungsangeboten befriedigen zu können, vollziehen Hochschulen einen Wandel zu Dienstleistungsunternehmen, deren Leistungsfähigkeit sich an der Effizienz ihrer Angebote bemisst. Ein solches Leitbild ist von den Steuerungsgrundsätzen des New Public Management inspiriert. In diesem zieht sich der Staat aus der traditionell engen Verbindung zu den Hochschulen zurück und gewährt diesen lokale Autonomie, bspw. durch die Einführung globaler Haushalte zu ihrer finanziellen Selbststeuerung. Die Hochschulen werden zu Marktakteuren, die sich in der Konkurrenz um Kunden gegen ihre Wettbewerber durchsetzen, indem sie Qualität und Exzellenz unter Beweis stellen. Für die Durchführung von diesbezüglichen Leistungsvergleichen werden unterschiedliche Verfahren der Evaluation eingesetzt. In diese sind landläufig sowohl Daten der Hochschulstatistik, bspw. in Form von Absolventenquoten, als auch zunehmend Befragungsdaten, meist von Studierenden, zur Erhebung ihrer Qualitätseinschätzungen zu Lehre und Studium involviert. Insbesondere letzteren wird vielfach entgegen gehalten, dass sie nicht geeignet seien, die Qualität der Lehre adäquat abzubilden. Vielmehr seien sie durch subjektive Verzerrungen in ihrer Aussagefähigkeit eingeschränkt. Eine Beurteilung, die auf studentischen Befragungsdaten aufsetzt, müsse entsprechend zu Fehleinschätzungen und daraus folgend ungerechten Leistungssanktionen kommen. Im Sinne der Akzeptanz von Verfahren der Evaluation als Instrument hochschulinterner Qualitätssicherungs- und –entwicklungsprozesse ist daher zu untersuchen, inwieweit Beeinträchtigungen der Validität von für die Hochschulsteuerung eingesetzten Datenbasen deren Aussagekraft vermindern. Ausgehend von den entsprechenden Ergebnissen sind Entwicklungen der Verfahren möglich. Diese Frage steht im Zentrum der vorliegenden Arbeit.