Partitionierung zur effizienten Duplikaterkennung in relationalen Daten

  • Uwe Draisbach

Table of contents

  1. Front Matter
    Pages I-XIII
  2. Uwe Draisbach
    Pages 1-4
  3. Uwe Draisbach
    Pages 5-30
  4. Uwe Draisbach
    Pages 31-33
  5. Uwe Draisbach
    Pages 35-40
  6. Uwe Draisbach
    Pages 61-77
  7. Uwe Draisbach
    Pages 79-82
  8. Back Matter
    Pages 83-91

About this book

Introduction

Duplikate bzw. Dubletten sind mehrere Datensätze, die das gleiche Realweltobjekt beschreiben, etwa mehrfach erfasste Kunden in einem CRM-System oder unterschiedliche Repräsentationen eines Produkts. Das Auffinden dieser Duplikate ist auch für moderne Computer eine komplexe und zeitintensive Aufgabe. Uwe Draisbach vergleicht zwei der einschlägigen Partitionierungsstrategien, die eine intelligente Auswahl von zu vergleichenden Datensatzpaaren treffen. Daraus entwickelt er ein verallgemeinertes Verfahren und zeigt, dass eine intelligente Auswahl der Datensatzpaare den Aufwand signifikant reduzieren kann, ohne die Qualität der Duplikaterkennung wesentlich zu verringern.

 

Die Arbeit wurde mit dem „Information Quality Best Master Degree Award“ der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.

Keywords

nn

Authors and affiliations

  • Uwe Draisbach
    • 1
  1. 1.PotsdamDeutschland

Bibliographic information

  • DOI https://doi.org/10.1007/978-3-8348-8289-9
  • Copyright Information Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden 2012
  • Publisher Name Vieweg+Teubner Verlag
  • eBook Packages Computer Science and Engineering (German Language)
  • Print ISBN 978-3-8348-1772-3
  • Online ISBN 978-3-8348-8289-9