@book{Naumann2008, author = {Naumann, Felix}, title = {Informationsqualit{\"a}t : Antrittsvorlesung 2007-04-26}, publisher = {Univ.-Bibl.}, address = {Potsdam}, year = {2008}, abstract = {Sowohl in kommerziellen als auch in wissenschaftlichen Datenbanken sind Daten von niedriger Qualit{\"a}t allgegenw{\"a}rtig. Das kann zu erheblichen wirtschaftlichen Problemen f{\"u}hren", erl{\"a}utert der 35-j{\"a}hrige Informatik-Professor und verweist zum Beispiel auf Duplikate. Diese k{\"o}nnen entstehen, wenn in Unternehmen verschiedene Kundendatenbest{\"a}nde zusammengef{\"u}gt werden, aber die Integration mehrere Datens{\"a}tze des gleichen Kunden hinterl{\"a}sst. "Solche doppelten Eintr{\"a}ge zu finden, ist aus zwei Gr{\"u}nden schwierig: Zum einen ist die Menge der Daten oft sehr groß, zum anderen k{\"o}nnen sich Eintr{\"a}ge {\"u}ber die gleiche Person leicht unterscheiden", beschreibt Prof. Naumann h{\"a}ufig auftretende Probleme. In seiner Antrittsvorlesung will er zwei L{\"o}sungswege vorstellen: Erstens die Definition geeigneter {\"A}hnlichkeitsmaße und zweitens die Nutzung von Algorithmen, die es vermeiden, jeden Datensatz mit jedem anderen zu vergleichen. Außerdem soll es um grundlegende Aspekte der Verst{\"a}ndlichkeit, Objektivit{\"a}t, Vollst{\"a}ndigkeit und Fehlerhaftigkeit von Daten gehen.}, language = {de} }