Skip to main content

Blocking-Verfahren

  • Chapter
  • 964 Accesses

Zusammenfassung

In Kapitel 2.3 wurde die Notwendigkeit der Reduzierung des Suchraums bei der Duplikaterkennung bereits angesprochen. Die Datensätze sind daher in Partitionen zu zerlegen und der Vergleich ist auf diese Partitionen beschränkt. Durch die Partitionierung sinkt der Recall, da Duplikate in unterschiedliche Partitionen fallen können und somit nicht mehr als Duplikate erkannt werden. Gleichzeitig steigt jedoch die Effizienz, da viele unnötige Vergleiche von Nicht-Duplikaten entfallen. Wie die Zerlegung in Partitionen erfolgt, ist abhängig von der Partitionierungsstrategie, die einen großen Einfluss auf das Ergebnis der Duplikaterkennung hat. In diesem Kapitel wird das Blocking vorgestellt. Kapitel 4 beschreibt anschließend die Sorted-Neighborhood-Methode.

This is a preview of subscription content, log in via an institution.

Buying options

Chapter
USD   29.95
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
eBook
USD   69.99
Price excludes VAT (USA)
  • Available as PDF
  • Read on any device
  • Instant download
  • Own it forever
Softcover Book
USD   69.99
Price excludes VAT (USA)
  • Compact, lightweight edition
  • Dispatched in 3 to 5 business days
  • Free shipping worldwide - see info

Tax calculation will be finalised at checkout

Purchases are for personal use only

Learn about institutional subscriptions

Author information

Authors and Affiliations

Authors

Rights and permissions

Reprints and permissions

Copyright information

© 2012 Vieweg+Teubner Verlag | Springer Fachmedien Wiesbaden

About this chapter

Cite this chapter

Draisbach, U. (2012). Blocking-Verfahren. In: Partitionierung zur effizienten Duplikaterkennung in relationalen Daten. Vieweg+Teubner Verlag. https://doi.org/10.1007/978-3-8348-8289-9_3

Download citation

Publish with us

Policies and ethics