@book{Naumann2008, author = {Naumann, Felix}, title = {Informationsqualit{\"a}t : Antrittsvorlesung 2007-04-26}, publisher = {Univ.-Bibl.}, address = {Potsdam}, year = {2008}, abstract = {Sowohl in kommerziellen als auch in wissenschaftlichen Datenbanken sind Daten von niedriger Qualit{\"a}t allgegenw{\"a}rtig. Das kann zu erheblichen wirtschaftlichen Problemen f{\"u}hren", erl{\"a}utert der 35-j{\"a}hrige Informatik-Professor und verweist zum Beispiel auf Duplikate. Diese k{\"o}nnen entstehen, wenn in Unternehmen verschiedene Kundendatenbest{\"a}nde zusammengef{\"u}gt werden, aber die Integration mehrere Datens{\"a}tze des gleichen Kunden hinterl{\"a}sst. "Solche doppelten Eintr{\"a}ge zu finden, ist aus zwei Gr{\"u}nden schwierig: Zum einen ist die Menge der Daten oft sehr groß, zum anderen k{\"o}nnen sich Eintr{\"a}ge {\"u}ber die gleiche Person leicht unterscheiden", beschreibt Prof. Naumann h{\"a}ufig auftretende Probleme. In seiner Antrittsvorlesung will er zwei L{\"o}sungswege vorstellen: Erstens die Definition geeigneter {\"A}hnlichkeitsmaße und zweitens die Nutzung von Algorithmen, die es vermeiden, jeden Datensatz mit jedem anderen zu vergleichen. Außerdem soll es um grundlegende Aspekte der Verst{\"a}ndlichkeit, Objektivit{\"a}t, Vollst{\"a}ndigkeit und Fehlerhaftigkeit von Daten gehen.}, language = {de} } @book{HerschelNaumann2008, author = {Herschel, Melanie and Naumann, Felix}, title = {Space and time scalability of duplicate detection in graph data}, isbn = {978-3-940793-46-1}, url = {http://nbn-resolving.de/urn:nbn:de:kobv:517-opus-32851}, publisher = {Universit{\"a}t Potsdam}, year = {2008}, abstract = {Duplicate detection consists in determining different representations of real-world objects in a database. Recent research has considered the use of relationships among object representations to improve duplicate detection. In the general case where relationships form a graph, research has mainly focused on duplicate detection quality/effectiveness. Scalability has been neglected so far, even though it is crucial for large real-world duplicate detection tasks. In this paper we scale up duplicate detection in graph data (DDG) to large amounts of data and pairwise comparisons, using the support of a relational database system. To this end, we first generalize the process of DDG. We then present how to scale algorithms for DDG in space (amount of data processed with limited main memory) and in time. Finally, we explore how complex similarity computation can be performed efficiently. Experiments on data an order of magnitude larger than data considered so far in DDG clearly show that our methods scale to large amounts of data not residing in main memory.}, language = {en} }